피어슨 상관관계는 두 연속 변수 사이의 선형 관계를 이해하는 데 사용되는 기본적인 통계 방법입니다. 이러한 관계의 강도와 방향을 정량화하는 피어슨 상관계수는 연구, 데이터 과학, 일상적인 의사 결정 등 다양한 분야에 걸쳐 널리 적용되는 중요한 인사이트를 제공합니다. 이 글에서는 피어슨 상관관계의 정의, 계산 방법, 실제 적용 등 피어슨 상관관계의 기본에 대해 설명합니다. 이 통계 도구가 데이터 내의 패턴을 밝히는 방법과 그 한계를 이해하는 것의 중요성, 정확한 해석을 위한 모범 사례에 대해 살펴봅니다.
피어슨 상관관계란 무엇인가요?
피어슨 상관 계수 또는 피어슨의 r은 두 연속 변수 간의 선형 관계의 강도와 방향을 정량화합니다. 범위는 다음과 같습니다. -1 ~ 1이 계수는 분산형 차트의 데이터 포인트가 직선에 얼마나 가깝게 정렬되는지를 나타냅니다.
- 값이 1이면 완벽한 양의 선형 관계를 의미하며, 이는 한 변수가 증가하면 다른 변수도 지속적으로 증가한다는 의미입니다.
- 값은 -1 는 완벽한 음의 선형 관계에서 한 변수가 감소하면 다른 변수가 증가합니다.
- 값은 0 제안 선형 상관관계 없음를 사용하여 변수가 선형 관계가 없음을 의미합니다.
피어슨 상관관계는 과학, 경제학, 사회과학에서 두 변수가 함께 움직이는지 여부와 그 정도를 파악하는 데 널리 사용됩니다. 변수가 얼마나 강하게 연관되어 있는지 평가하는 데 도움이 되므로 데이터 분석 및 해석에 중요한 도구로 사용됩니다.
피어슨 상관 계수 계산 방법
피어슨 상관 계수(r)는 다음 공식을 사용하여 계산합니다:
Where:
- x 그리고 y 는 비교 대상인 두 변수입니다.
- n 는 데이터 포인트의 수입니다.
- ∑xy 는 짝을 이룬 점수의 곱의 합입니다(x 그리고 y).
- ∑x2 및 ∑y2 는 각 변수에 대한 제곱의 합입니다.
단계별 계산:
- 데이터 수집: 변수에 대해 쌍을 이루는 값 수집 x 그리고 y.
예시:
x=[1,2,3]
y=[4,5,6]
- x와 y의 합을 계산합니다:
∑x 의 값의 합계는 x.
∑y 의 값의 합계는 y.
예를 들어
∑x=1+2+3=6
∑y=4+5+6=15
- 곱하기 x 그리고 y 각 쌍에 대해:
각 x 및 y 값 쌍을 곱하고 ∑를 구합니다.xy.
xy=[1×4,2×5,3×6]=[4,10,18]
∑xy=4+10+18=32
- 각 x 및 y 값을 제곱합니다:
각 x와 y 값의 제곱을 구한 다음 합산하여 ∑를 구합니다.x2 및 ∑y2.
x2=[12,22,32]=[1,4,9]
∑x2=1+4+9=14
y2=[42,52,62]=[16,25,36]
∑y2=16+25+36=77
- 피어슨 공식에 값을 연결합니다: 이제 값을 피어슨 상관 관계 공식에 대입합니다:
r = (n∑xy - ∑x∑y) / √[(n∑x² - (∑x)²) * (n∑y² - (∑y)²)]
r = (3 × 32 - 6 × 15) / √[(3 × 14 - (6)²) × (3 × 77 - (15)²)]
r = (96 - 90) / √[(42 - 36) × (231 - 225)]
r = 6 / √[6 × 6]
r = 6 / 6 = 1
이 예에서 피어슨 상관 계수는 다음과 같습니다. 1변수 간의 완벽한 양의 선형 관계를 나타냅니다. x 그리고 y.
이 단계별 접근 방식은 모든 데이터 집합에 적용하여 피어슨 상관관계를 수동으로 계산할 수 있습니다. 그러나 Excel과 같은 소프트웨어 도구, Python를 사용하거나 통계 패키지가 대규모 데이터 집합에 대해 이 프로세스를 자동화하는 경우가 많습니다.
통계 분석에서 피어슨 상관관계가 중요한 이유
In 연구
The 피어슨 상관관계 은 두 연속 변수 사이의 선형 관계의 강도와 방향을 파악하고 정량화하기 위한 연구의 핵심 통계 도구입니다. 연구자가 두 변수의 연관성 여부와 강도를 이해하는 데 도움이 되며, 이를 통해 데이터 세트 내의 패턴과 추세에 대한 인사이트를 얻을 수 있습니다.
피어슨 상관관계는 연구자가 변수가 긍정적인 방향으로 또는 부정적인 방향으로 일관된 방식으로 함께 움직이는지 여부를 판단하는 데 도움이 됩니다. 예를 들어, 학습 시간과 시험 점수를 측정하는 데이터 세트에서 강한 양의 피어슨 상관관계는 학습 시간 증가가 시험 점수 상승과 관련이 있음을 시사합니다. 반대로 음의 상관관계는 한 변수가 증가하면 다른 변수가 감소한다는 것을 나타낼 수 있습니다.
다양한 연구 분야에서의 활용 사례:
심리학: 피어슨 상관관계는 스트레스 수준과 인지 능력과 같은 변수 간의 관계를 탐구하는 데 자주 사용됩니다. 연구자들은 스트레스의 증가가 기억력이나 문제 해결 능력에 어떤 영향을 미치는지 평가할 수 있습니다.
경제학: 경제학자들은 피어슨 상관관계를 사용하여 소득과 소비 또는 인플레이션과 실업률과 같은 변수 간의 관계를 연구하여 경제 요인들이 서로에게 어떤 영향을 미치는지 이해합니다.
의학: 의학 연구에서 피어슨 상관관계는 다양한 건강 지표 간의 관계를 파악할 수 있습니다. 예를 들어, 연구자들은 혈압 수치와 심장병 위험 사이의 상관관계를 조사하여 조기 발견 및 예방 치료 전략을 세우는 데 도움을 줄 수 있습니다.
환경 과학: 피어슨 상관관계는 온도와 작물 수확량과 같은 환경 변수 간의 관계를 탐색하는 데 유용하며, 과학자들은 이를 통해 기후 변화가 농업에 미치는 영향을 모델링할 수 있습니다.
전반적으로 피어슨 상관관계는 다양한 연구 분야에서 의미 있는 관계를 발견하고 향후 연구, 개입 또는 정책 결정을 안내하는 데 필수적인 도구입니다.
일상 생활에서
이해 피어슨 상관관계 는 일상과 선택에 영향을 미치는 다양한 변수 간의 패턴과 관계를 파악하는 데 도움이 되므로 일상적인 의사 결정에 매우 유용할 수 있습니다.
실제 적용 사례 및 예시:
피트니스 및 건강: 피어슨 상관관계를 적용하여 운동 횟수와 체중 감소와 같은 다양한 요인이 서로 어떻게 연관되어 있는지 평가할 수 있습니다. 예를 들어, 시간 경과에 따른 운동 습관과 체중을 추적하면 규칙적인 신체 활동과 체중 감소 사이에 긍정적인 상관관계가 있음을 알 수 있습니다.
개인 금융: 예산 책정에서 피어슨 상관관계는 지출 습관과 저축 사이의 관계를 분석하는 데 도움이 될 수 있습니다. 월별 지출과 저축률을 추적하면 음의 상관관계를 발견할 수 있는데, 이는 지출이 증가할수록 저축이 감소한다는 것을 나타냅니다.
날씨와 기분: 상관관계를 일상적으로 사용하는 또 다른 예는 날씨가 기분에 미치는 영향을 이해하는 것입니다. 예를 들어, 맑은 날과 기분 개선 사이에는 긍정적인 상관관계가 있는 반면, 비오는 날은 에너지 수준 저하 또는 슬픔과 상관관계가 있을 수 있습니다.
시간 관리: 피어슨 상관관계는 특정 작업(예: 학습 시간)에 소요된 시간과 생산성 또는 성과 결과(예: 성적 또는 업무 효율성)를 비교함으로써 개인이 시간 할당이 결과에 미치는 영향을 이해하는 데 도움을 줄 수 있습니다.
일반적인 시나리오에서 상관관계를 이해하면 얻을 수 있는 이점:
의사 결정 개선: 변수가 어떻게 연결되어 있는지 알면 개인이 정보에 입각한 결정을 내릴 수 있습니다. 예를 들어 식단과 건강 사이의 상관관계를 이해하면 웰빙을 증진하는 더 나은 식습관으로 이어질 수 있습니다.
결과 최적화: 사람들은 수면 시간이 생산성과 어떤 상관관계가 있는지 알아내고 그에 따라 수면 일정을 조정하여 효율성을 극대화하는 등, 상관관계를 사용하여 일상을 최적화할 수 있습니다.
패턴 식별: 일상 활동의 패턴(예: 화면 사용 시간과 눈의 피로 사이의 상관관계)을 인식하면 개인이 행동을 수정하여 부정적인 영향을 줄이고 전반적인 삶의 질을 개선하는 데 도움이 될 수 있습니다.
피어슨 상관관계 개념을 일상 생활에 적용하면 일상의 다양한 측면이 어떻게 상호 작용하는지에 대한 귀중한 인사이트를 얻을 수 있어 건강, 재정, 웰빙을 향상시키는 사전 예방적 선택을 할 수 있습니다.
피어슨 상관관계 해석하기
가치와 중요성
The 피어슨 상관 계수 (r)의 범위는 다음과 같습니다. -1 ~ 1로 표시되며, 각 값은 두 변수 간의 관계의 특성과 강도에 대한 통찰력을 제공합니다. 이러한 값을 이해하면 상관 관계의 방향과 정도를 해석하는 데 도움이 됩니다.
계수 값:
1: 값 +1 는 완벽한 양의 선형 관계 즉, 한 변수가 증가하면 다른 변수도 완벽한 비례로 증가합니다.
-1: 값 -1 는 완벽한 음의 선형 관계에서 한 변수가 증가하면 다른 변수는 완벽한 비율로 감소합니다.
0: 값 0 제안 선형 관계 없음 변수 간에는 상관관계가 없으므로 한 변수의 변화가 다른 변수의 변화를 예측할 수 없습니다.
포지티브, 네거티브 및 제로 상관관계:
양의 상관관계: 언제 r은 양수입니다. (예: 0.5)이면 두 변수가 같은 방향으로 움직이는 경향이 있음을 의미합니다. 예를 들어 기온이 상승하면 아이스크림 판매량이 증가하여 양의 상관관계를 보일 수 있습니다.
음의 상관관계: 언제 r은 음수입니다. (예: -0.7)이면 변수가 서로 반대 방향으로 움직인다는 것을 의미합니다. 운동 횟수와 체지방률의 관계를 예로 들 수 있는데, 운동 횟수가 증가할수록 체지방은 감소하는 경향이 있습니다.
상관관계 제로: An r의 0 이 있음을 의미합니다. 뚜렷한 선형 관계 없음 변수 간의 상관관계를 파악해야 합니다. 예를 들어 신발 크기와 지능 사이에는 선형적인 상관관계가 없을 수 있습니다.
일반적으로:
0.7 ~ 1 또는 -0.7 ~ -1 는 강한 상관관계.
0.3~0.7 또는 -0.3~-0.7 를 반영합니다. 보통 상관관계.
0 ~ 0.3 또는 -0.3 ~ 0 는 약한 상관관계.
이러한 값을 이해하면 연구자와 개인은 두 변수가 얼마나 밀접하게 연관되어 있는지, 그리고 그 관계가 추가적인 주의나 조치가 필요할 만큼 중요한지 판단할 수 있습니다.
제한 사항
동안 피어슨 상관관계 는 변수 간의 선형 관계를 평가하는 강력한 도구이지만, 한계가 있으며 모든 시나리오에 적합하지 않을 수 있습니다.
피어슨 상관관계가 적절하지 않을 수 있는 상황:
비선형 관계: 피어슨 상관 관계만 측정 선형 관계을 사용하므로 변수 간의 관계가 곡선 또는 비선형인 경우 연관성의 강도를 정확하게 반영하지 못할 수 있습니다. 예를 들어, 변수가 이차 또는 지수 관계를 갖는 경우 피어슨 상관관계는 실제 관계를 과소평가하거나 포착하지 못할 수 있습니다.
이상값: 의 존재 이상값 (극단값)은 피어슨 상관관계 결과를 크게 왜곡하여 변수 간의 전반적인 관계를 잘못 나타낼 수 있습니다. 하나의 이상값이 상관관계 값을 인위적으로 부풀리거나 축소할 수 있습니다.
비연속 변수: 피어슨 상관관계는 두 변수가 연속적이고 정규 분포라고 가정합니다. 다음과 같은 경우에는 적합하지 않을 수 있습니다. 범주형 또는 서수 데이터관계는 반드시 선형적이거나 수치적일 필요는 없습니다.
이질적 탄력성: 한 변수의 변동성이 다른 변수의 범위에 걸쳐 다를 때(즉, 데이터 포인트의 확산이 일정하지 않을 때) 피어슨 상관관계는 관계를 부정확하게 측정할 수 있습니다. 이 조건을 이질적 탄력성를 사용하면 계수가 왜곡될 수 있습니다.
선형 관계로만 제한됩니다: 피어슨 상관관계는 구체적으로 다음과 같은 강도와 방향을 측정합니다. 선형 관계. 변수가 비선형적인 방식으로 관련되어 있는 경우 피어슨 상관관계는 이를 감지하지 못합니다. 예를 들어 한 변수가 다른 변수에 비해 증가하는 비율로 증가하는 경우(지수 또는 로그 관계에서처럼) 피어슨 상관관계는 강한 관계가 존재함에도 불구하고 약한 상관관계 또는 0의 상관관계를 나타낼 수 있습니다.
이러한 제한 사항을 해결하기 위해 연구자는 다음과 같은 다른 방법을 사용할 수 있습니다. 스피어맨의 계급 상관관계 서수 데이터의 경우 비선형 회귀 모델 을 사용하여 복잡한 관계를 더 잘 포착할 수 있습니다. 본질적으로 피어슨 상관관계는 선형 관계에 유용하지만, 데이터가 정확한 해석에 필요한 가정을 충족하는지 확인하면서 신중하게 적용해야 합니다.
피어슨 상관관계 사용 방법
도구 및 소프트웨어
계산하기 피어슨 상관관계 을 수동으로 수행할 수도 있지만, 통계 도구와 소프트웨어를 사용하는 것이 훨씬 더 효율적이고 실용적입니다. 이러한 도구는 피어슨 상관 계수를 빠르게 계산하고, 대규모 데이터 세트를 처리하며, 종합적인 분석을 위한 추가 통계 기능을 제공합니다. 피어슨 상관관계를 계산하는 데 사용할 수 있는 몇 가지 인기 있는 소프트웨어와 도구가 있습니다:
Microsoft Excel: 피어슨 상관관계를 계산하는 기능이 내장되어 있어 기본적인 통계 작업에 액세스할 수 있는 널리 사용되는 도구입니다.
SPSS(사회과학용 통계 패키지): 이 강력한 소프트웨어는 통계 분석을 위해 설계되었으며 사회 과학 및 의학 연구에서 일반적으로 사용됩니다.
R 프로그래밍 언어: 데이터 분석 및 통계를 위해 특별히 설계된 무료 오픈 소스 프로그래밍 언어입니다. R은 광범위한 유연성과 사용자 지정 기능을 제공합니다.
Python(Pandas 및 NumPy와 같은 라이브러리 포함): Python은 데이터 분석을 위한 또 다른 강력한 오픈 소스 언어로, 피어슨 상관관계 계산을 간소화하는 사용자 친화적인 라이브러리를 갖추고 있습니다.
GraphPad 프리즘: 생물 과학 분야에서 널리 사용되는 이 소프트웨어는 피어슨 상관 관계를 포함한 통계 분석을 위한 직관적인 인터페이스를 제공합니다.
이러한 분석 도구를 사용하기 위한 기본 가이드입니다:
Microsoft Excel:
- 각 변수에 대해 하나씩 두 개의 열에 데이터를 입력합니다.
- 기본 제공 함수 =CORREL(array1, array2)을 사용하여 두 데이터 집합 간의 피어슨 상관관계를 계산합니다.
SPSS:
- 데이터를 SPSS로 가져옵니다.
- 이동 분석 > 상관 관계 > 이변량를 클릭하고 분석할 변수를 선택합니다.
- 상관관계 계수 옵션에서 "피어슨"을 선택하고 "확인"을 클릭합니다.
R 프로그래밍:
- 데이터를 벡터 또는 데이터 프레임으로 R에 입력합니다.
- cor(x, y, method = "pearson") 함수를 사용하여 피어슨 상관관계를 계산합니다.
Python(Pandas/NumPy):
- 판다를 사용하여 데이터를 로드합니다.
- 두 열 간의 피어슨 상관관계를 계산하려면 df['variable1'].corr(df['variable2'])을 사용합니다.
GraphPad 프리즘:
- 소프트웨어에 데이터를 입력합니다.
- '상관관계' 분석 옵션을 선택하고 피어슨 상관관계를 선택하면 소프트웨어가 시각적 분산형 차트와 함께 상관계수를 생성합니다.
이러한 도구는 피어슨 상관계수를 계산할 뿐만 아니라 데이터를 해석하는 데 도움이 되는 그래픽 출력, p값 및 기타 통계적 측정값도 제공합니다. 이러한 도구의 사용법을 이해하면 연구 및 데이터 기반 의사 결정에 필수적인 효율적이고 정확한 상관관계 분석을 수행할 수 있습니다.
여기에서 인포그래픽 및 시각 디자인 통계를 확인할 수 있습니다.
피어슨 상관관계 활용을 위한 실용적인 팁
상관관계 계산 전 데이터 준비 및 확인 사항:
데이터 품질 보장: 데이터가 정확하고 완전한지 확인합니다. 누락된 값이 있으면 결과가 왜곡될 수 있으므로 이를 확인하고 해결하세요. 불완전한 데이터는 잘못된 상관 계수 또는 잘못된 해석으로 이어질 수 있습니다.
선형성을 확인합니다: 피어슨 상관관계는 선형 관계를 측정합니다. 계산하기 전에 산점도를 사용하여 데이터를 플롯하여 변수 간의 관계가 선형적인지 시각적으로 평가하세요. 데이터가 비선형 패턴을 보이는 경우 스피어만 순위 상관관계 또는 비선형 회귀와 같은 다른 방법을 고려하세요.
정상 여부를 확인합니다: 피어슨 상관관계는 각 변수에 대한 데이터가 거의 정규 분포되어 있다고 가정합니다. 정규성 편차에는 어느 정도 견고하지만 편차가 크면 결과의 신뢰도에 영향을 미칠 수 있습니다. 히스토그램 또는 정규성 테스트를 사용하여 데이터의 분포를 확인하세요.
데이터 표준화: 변수가 서로 다른 단위 또는 척도로 측정되는 경우 변수를 표준화하는 것을 고려하세요. 이 단계를 통해 피어슨 상관관계 자체는 척도 불변이지만 측정 척도에 의해 비교가 편향되지 않도록 할 수 있습니다.
결과를 해석할 때 피해야 할 일반적인 실수:
힘을 과대평가하는 경우: 피어슨 상관계수가 높다고 해서 인과 관계가 있는 것은 아닙니다. 상관관계는 선형 관계의 강도를 측정할 뿐, 한 변수가 다른 변수의 변화를 일으키는지 여부는 측정하지 않습니다. 상관관계만을 근거로 인과관계에 대해 섣불리 결론을 내리지 마세요.
이상값 무시하기: 이상값은 피어슨 상관 계수에 불균형적인 영향을 미쳐 잘못된 결과를 초래할 수 있습니다. 이상값이 분석에 미치는 영향을 파악하고 평가하세요. 때로는 이상값을 제거하거나 조정하면 관계를 더 명확하게 파악할 수 있습니다.
제로 상관관계에 대한 잘못된 해석: 피어슨 상관계수가 0이면 선형 관계가 없음을 나타내지만 관계가 전혀 없다는 의미는 아닙니다. 변수는 여전히 비선형적인 방식으로 관련되어 있을 수 있으므로 비선형적인 연관성이 의심되는 경우 다른 통계 방법을 고려해 보세요.
상관관계와 인과관계를 혼동하는 경우: 상관관계가 인과관계를 의미하지는 않는다는 점을 기억하세요. 두 변수는 관찰되지 않은 제3의 변수의 영향으로 인해 상관관계가 있을 수 있습니다. 항상 더 넓은 맥락을 고려하고 추가적인 방법을 사용하여 잠재적인 인과 관계를 탐색하세요.
샘플 크기 무시하기: 표본 크기가 작으면 상관관계 추정치가 불안정하고 신뢰할 수 없게 될 수 있습니다. 신뢰할 수 있는 상관관계 측정값을 제공하기에 충분한 샘플 크기를 확보하세요. 일반적으로 표본이 클수록 더 정확하고 안정적인 상관 계수를 제공합니다.
주요 사항 및 고려 사항
피어슨 상관관계는 두 연속 변수 사이의 선형 관계의 강도와 방향을 측정하는 데 사용되는 기본적인 통계 도구입니다. 연구부터 일상 생활에 이르기까지 다양한 분야에 걸쳐 귀중한 인사이트를 제공하며 데이터의 관계를 파악하고 정량화하는 데 도움이 됩니다. 피어슨 상관관계를 올바르게 계산하고 해석하는 방법을 이해하면 연구자와 개인은 변수 간의 연관성을 바탕으로 정보에 입각한 의사 결정을 내릴 수 있습니다.
그러나 선형 관계에 초점을 맞추고 이상값에 민감하게 반응한다는 한계를 인식하는 것이 중요합니다. 정확한 분석을 위해서는 적절한 데이터 준비와 상관관계와 인과관계를 혼동하는 것과 같은 일반적인 함정을 피하는 것이 필수적입니다. 피어슨 상관관계를 적절히 사용하고 제약 조건을 고려하면 이 도구를 효과적으로 활용하여 의미 있는 인사이트를 얻고 더 나은 의사 결정을 내릴 수 있습니다.
80개 이상의 인기 분야에서 75.000개 이상의 과학적으로 정확한 일러스트를 찾아보세요.
Mind the Graph 는 과학자들이 복잡한 연구 결과를 시각적으로 전달할 수 있도록 설계된 강력한 도구입니다. 80개 이상의 인기 있는 분야에 걸쳐 75,000개 이상의 과학적으로 정확한 일러스트레이션에 액세스할 수 있어 연구자들은 프레젠테이션, 논문, 보고서를 향상시키는 시각적 요소를 쉽게 찾을 수 있습니다. 이 플랫폼의 다양한 일러스트레이션을 통해 과학자들은 생물학, 화학, 의학, 기타 분야 등 특정 연구 분야에 맞는 명확하고 매력적인 시각 자료를 만들 수 있습니다. 이 방대한 라이브러리는 시간을 절약할 뿐만 아니라 데이터를 보다 효과적으로 전달할 수 있어 전문가와 일반인 모두가 과학 정보에 접근하고 이해할 수 있게 해줍니다.
뉴스레터 구독하기
효과적인 비주얼에 대한 독점 고품질 콘텐츠
과학 분야의 커뮤니케이션.