회귀 분석을 사용하여 복잡한 관계 이해

회귀 분석은 하나 이상의 독립 변수와 종속 변수 간의 연관성을 파악하고 분석하기 위한 접근 방식입니다. 이 방법은 의료, 사회과학, 공학, 경제학, 비즈니스 등 다양한 분야에서 광범위하게 사용됩니다. 회귀 분석을 사용하여 데이터의 근본적인 관계를 조사하고 정보에 입각한 의사 결정을 내리는 데 도움이 되는 예측 모델을 개발할 수 있습니다.

이 문서에서는 회귀 분석의 작동 방식과 이해하기 쉬운 예제를 포함하여 회귀 분석에 대한 포괄적인 개요를 제공하며, 상관 관계 분석과 어떻게 다른지 설명합니다.

회귀 분석이란 무엇인가요?

회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 연관성을 파악하고 정량화하기 위한 통계적 방법입니다. 간단히 말해, 하나 이상의 독립 변수의 변화가 종속 변수의 변화와 어떤 관련이 있는지 이해하는 데 도움이 됩니다.

회귀 분석을 완전히 이해하려면 먼저 다음 용어를 이해해야 합니다:

종속 변수: 분석 또는 예측하고자 하는 변수를 말합니다. 이해하고 설명하려는 결과 변수입니다.
독립 변수: 종속 변수에 영향을 미친다고 생각되는 변수입니다. 종속 변수의 변화를 예측하거나 설명하는 데 사용되므로 종종 예측 변수라고도 합니다.

회귀 분석은 종속 변수의 미래 값 예측, 독립 변수가 종속 변수에 미치는 영향 이해, 데이터 수집에서 이상값 또는 비정상적인 발생 찾기 등 다양한 상황에서 사용할 수 있습니다.

회귀 분석은 단일 선형 회귀, 로지스틱 회귀, 다항식 회귀, 다중 회귀 등 여러 유형으로 분류할 수 있습니다. 적합한 회귀 모델은 데이터의 특성과 고려 중인 조사 대상에 따라 결정됩니다.

회귀 분석은 어떻게 작동하나요?

회귀 분석의 목적은 독립 변수와 종속 변수 사이의 연관성을 반영하는 가장 적합한 선 또는 곡선을 식별하는 것입니다. 이 최적 선 또는 곡선은 데이터 수집에서 예상 값과 실제 값 사이의 불일치를 줄이는 통계적 방법을 사용하여 생성됩니다.

다음은 가장 일반적인 두 가지 회귀 분석 유형에 대한 공식입니다:

단일 선형 회귀

단순 선형 회귀에서는 최적 적합선을 사용하여 독립 변수(x)와 종속 변수(y)라는 두 변수 간의 관계를 표시합니다.

최적 맞춤 선은 다음과 같은 방정식으로 나타낼 수 있습니다: y = a + bx.

여기서 a는 절편이고 b는 선의 기울기입니다. 기울기를 계산하려면 다음과 같은 공식을 사용합니다. b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²), 여기서 n은 관측 횟수, Σxy는 x와 y의 곱의 합, Σx와 Σy는 각각 x와 y의 합, Σ(x).²)는 x의 제곱의 합입니다.

절편을 계산하려면 a = (Σy - bΣx) / n 공식을 사용합니다.

다중 회귀

다중 선형 회귀:

다중 선형 회귀 모델의 방정식 공식은 다음과 같습니다:

y = b₀ + b₁x₁ + b₂x₂ + ... + b_nx_n

여기서 y는 종속 변수, x₁, x₂, ..., x_n 는 독립 변수이고, b₀, b₁, b₂, ..., bn은 독립 변수의 계수입니다.

일반 최소 제곱을 사용하여 계수를 추정하는 공식은 다음과 같습니다:

β = (X'X)^(-1)X'y

여기서 β는 계수의 열 벡터, X는 독립 변수의 설계 행렬, X' 는 X의 전치, y는 종속 변수의 관측값 벡터입니다.

회귀 분석 예제

개인의 평점 평균(GPA)과 주당 학습 시간 간의 연관성을 조사하고 싶다고 가정해 보겠습니다. 학생 집합으로부터 학습 시간 및 평균 학점을 포함한 정보를 수집합니다.

그런 다음 회귀 분석을 사용하여 두 변수 간에 선형적인 연관성이 있는지 확인하고, 연관성이 있다면 주당 학습 시간을 기준으로 학생의 GPA를 예측하는 모델을 구축할 수 있습니다.

데이터를 분산형 맵에 그려 보면 학습 시간과 GPA 간에 양호한 선형 관계가 있는 것으로 보입니다. 그런 다음 간단한 선형 회귀 모델을 사용하여 가장 잘 맞는 선의 기울기와 절편을 추정합니다. 최종 솔루션은 다음과 같습니다:

GPA = 2.0 + 0.3(주당 학습 시간)

이 공식에 따르면 주당 학습 시간이 1시간 더 늘어날 때마다 학생의 GPA는 0.3점씩 상승하며 다른 모든 요소는 동일합니다. 이 알고리즘은 주당 학습 시간을 기준으로 학생의 GPA를 예측하는 데 사용할 수 있을 뿐만 아니라 학습 루틴에 따라 성적이 저조할 위험이 있는 학생을 식별하는 데도 사용할 수 있습니다.

예제의 데이터를 사용하여 다음 값은 다음과 같습니다. b 그리고 a 는 다음과 같습니다:

n = 10(관측 횟수)

Σx = 30(학습 시간의 합계)

Σy = 25(GPA의 합계)

Σxy = 149(학습 시간과 GPA의 곱)

Σ(x)² = 102(학습 시간의 제곱의 합계)

이 값을 사용하여 다음을 계산합니다. b 로 설정합니다:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x)²) - (Σx)²)

= (10 * 149 – 30 * 25) / (10 * 102 – 30²)

= 0.3

그리고 계산 a 로 설정합니다:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

따라서 최적 맞춤 라인의 방정식은 다음과 같습니다:

GPA = 2.0 + 0.3(주당 학습 시간)

상관관계와 회귀의 차이점은 무엇인가요?

상관관계와 회귀분석은 모두 두 변수 간의 연관성을 조사하는 통계적 방법입니다. 서로 다른 목적으로 사용되며 서로 다른 유형의 정보를 제공합니다.

상관관계는 두 변수 사이의 연결 강도와 경과를 나타내는 척도입니다. 상관계수는 -1에서 +1까지이며, -1은 완벽한 음의 상관관계, 0은 상관관계가 없음을 나타내고 +1은 완벽한 양의 상관관계를 나타냅니다. 상관관계는 두 변수가 연결되어 있는 정도를 나타내지만 원인이나 예측 가능성을 나타내지는 않습니다.

반면에 회귀분석은 일반적으로 한 변수를 기반으로 다른 변수를 예측하거나 설명하기 위해 두 변수 간의 관계를 모델링하는 방법입니다. 회귀 분석은 관계의 크기와 방향에 대한 추정치는 물론 통계적 유의성 테스트, 신뢰 범위 및 미래 결과 예측을 제공할 수 있습니다.

몇 분 안에 준비되는 창작물

Mind the Graph 는 과학 일러스트레이션과 인포그래픽 디자인으로 구성된 방대한 라이브러리를 제공하는 온라인 플랫폼으로, 필요에 따라 간편하게 수정할 수 있습니다. 드래그 앤 드롭 인터페이스와 다양한 도구 및 기능을 사용하여 몇 분 만에 전문가 수준의 차트, 포스터, 그래픽 초록을 만들 수 있습니다.