Korelacja Pearsona to podstawowa metoda statystyczna wykorzystywana do zrozumienia zależności liniowych między dwiema zmiennymi ciągłymi. Określając siłę i kierunek tych zależności, współczynnik korelacji Pearsona oferuje krytyczny wgląd mający szerokie zastosowanie w różnych dziedzinach, w tym w badaniach, nauce o danych i codziennym podejmowaniu decyzji. Niniejszy artykuł wyjaśnia podstawy korelacji Pearsona, w tym jej definicję, metody obliczania i praktyczne zastosowania. Zbadamy, w jaki sposób to narzędzie statystyczne może oświetlić wzorce w danych, jak ważne jest zrozumienie jego ograniczeń i jakie są najlepsze praktyki w zakresie dokładnej interpretacji.

Co to jest korelacja Pearsona?

Współczynnik korelacji Pearsona lub r Pearsona określa siłę i kierunek zależności liniowej między dwiema zmiennymi ciągłymi. Waha się od -1 do 1Współczynnik ten wskazuje, jak blisko punkty danych na wykresie rozrzutu pokrywają się z linią prostą.

  • Wartość 1 oznacza idealną dodatnią zależność liniową, co oznacza, że wraz ze wzrostem jednej zmiennej konsekwentnie wzrasta również druga zmienna.
  • Wartość -1 wskazuje idealna ujemna zależność liniowagdzie jedna zmienna rośnie, gdy druga maleje.
  • Wartość 0 sugestie brak korelacji liniowejco oznacza, że zmienne nie mają zależności liniowej.

Korelacja Pearsona jest szeroko stosowana w nauce, ekonomii i naukach społecznych w celu określenia, czy dwie zmienne poruszają się razem i w jakim stopniu. Pomaga ocenić, jak silnie zmienne są ze sobą powiązane, co czyni ją kluczowym narzędziem do analizy i interpretacji danych.

Jak obliczyć współczynnik korelacji Pearsona?

Współczynnik korelacji Pearsona (r) jest obliczany przy użyciu następującego wzoru:

Obraz wzoru współczynnika korelacji Pearsona, pokazujący równanie używane do pomiaru liniowej zależności między dwiema zmiennymi.
Wzór współczynnika korelacji Pearsona z objaśnieniem kluczowych zmiennych.

Gdzie:

  • x oraz y to dwie porównywane zmienne.
  • n to liczba punktów danych.
  • xy jest sumą iloczynów sparowanych wyników (x oraz y).
  • x2 i ∑y2 są sumami kwadratów dla każdej zmiennej.

Obliczenia krok po kroku:

  1. Zbieranie danych: Zbierz sparowane wartości dla zmiennych x oraz y.
    Przykład:

x=[1,2,3]

y=[4,5,6]

  1. Oblicz sumę dla x i y:

x jest sumą wartości w x.

y jest sumą wartości w y.

Dla przykładu:
x=1+2+3=6
y=4+5+6=15

  1. Mnożenie x oraz y dla każdej pary:

Pomnóż każdą parę wartości x i y i znajdź ∑xy.

xy=[1×4,2×5,3×6]=[4,10,18]
xy=4+10+18=32

  1. Kwadrat każdej wartości x i y:

Znajdź kwadrat każdej wartości x i y, a następnie zsumuj je, aby otrzymać ∑x2 i ∑y2.

x2=[12,22,32]=[1,4,9]
x2=1+4+9=14
y2=[42,52,62]=[16,25,36]
y2=16+25+36=77

  1. Podłącz wartości do wzoru Pearsona: Teraz podstaw wartości do wzoru korelacji Pearsona:


r = (n∑xy - ∑xy) / √[(n∑x² - (∑x)²) * (n∑y² - (∑y)²)]

r = (3 × 32 - 6 × 15) / √[(3 × 14 - (6)²) × (3 × 77 - (15)²)]

r = (96 - 90) / √[(42 - 36) × (231 - 225)]

r = 6 / √[6 × 6]

r = 6 / 6 = 1

W tym przykładzie współczynnik korelacji Pearsona wynosi 1wskazując na idealną dodatnią liniową zależność między zmiennymi x oraz y.

To podejście krok po kroku można zastosować do dowolnego zbioru danych w celu ręcznego obliczenia korelacji Pearsona. Jednak narzędzia programowe, takie jak Excel, Pythonlub pakiety statystyczne często automatyzują ten proces dla większych zbiorów danych.

Dlaczego korelacja Pearsona jest ważna w analizie statystycznej?

W badaniach

The Korelacja Pearsona jest kluczowym narzędziem statystycznym w badaniach służącym do identyfikacji i kwantyfikacji siły i kierunku zależności liniowych między dwiema zmiennymi ciągłymi. Pomaga badaczom zrozumieć, czy i jak silnie dwie zmienne są ze sobą powiązane, co może zapewnić wgląd we wzorce i trendy w zbiorach danych.

Korelacja Pearsona pomaga badaczom określić, czy zmienne poruszają się razem w spójny sposób, pozytywnie lub negatywnie. Na przykład, w zbiorze danych mierzących czas nauki i wyniki egzaminów, silna dodatnia korelacja Pearsona sugerowałaby, że zwiększony czas nauki wiąże się z wyższymi wynikami egzaminów. I odwrotnie, ujemna korelacja może wskazywać, że wraz ze wzrostem jednej zmiennej, druga maleje.

Przykłady zastosowania w różnych dziedzinach badań:

Psychologia: Korelacja Pearsona jest często wykorzystywana do badania związków między zmiennymi, takimi jak poziom stresu i wydajność poznawcza. Badacze mogą ocenić, w jaki sposób wzrost stresu może wpływać na pamięć lub zdolność rozwiązywania problemów.

Ekonomia: Ekonomiści wykorzystują korelację Pearsona do badania zależności między zmiennymi, takimi jak dochód i konsumpcja lub inflacja i bezrobocie, pomagając im zrozumieć, w jaki sposób czynniki ekonomiczne wpływają na siebie nawzajem.

Medycyna: W badaniach medycznych korelacja Pearsona może identyfikować związki między różnymi wskaźnikami zdrowotnymi. Na przykład naukowcy mogą badać korelację między poziomem ciśnienia krwi a ryzykiem chorób serca, pomagając we wczesnym wykrywaniu i strategiach opieki profilaktycznej.

Nauka o środowisku: Korelacja Pearsona jest przydatna w badaniu zależności między zmiennymi środowiskowymi, takimi jak temperatura i wydajność upraw, umożliwiając naukowcom modelowanie wpływu zmian klimatu na rolnictwo.

Ogólnie rzecz biorąc, korelacja Pearsona jest niezbędnym narzędziem w różnych dziedzinach badań do odkrywania znaczących relacji i kierowania przyszłymi badaniami, interwencjami lub decyzjami politycznymi.

W życiu codziennym

Zrozumienie Korelacja Pearsona może być niezwykle przydatna w codziennym podejmowaniu decyzji, ponieważ pomaga zidentyfikować wzorce i relacje między różnymi zmiennymi, które wpływają na nasze rutyny i wybory.

Praktyczne zastosowania i przykłady:

Fitness i zdrowie: Korelacja Pearsona może być stosowana do oceny, w jaki sposób różne czynniki, takie jak częstotliwość treningu i utrata masy ciała, są ze sobą powiązane. Na przykład śledzenie nawyków treningowych i masy ciała w czasie może ujawnić pozytywną korelację między regularną aktywnością fizyczną a redukcją masy ciała.

Finanse osobiste: W budżetowaniu korelacja Pearsona może pomóc w analizie związku między nawykami związanymi z wydatkami a oszczędnościami. Jeśli ktoś śledzi swoje miesięczne wydatki i stopy oszczędności, może znaleźć ujemną korelację, wskazującą, że wraz ze wzrostem wydatków oszczędności maleją.

Pogoda i nastrój: Innym codziennym zastosowaniem korelacji może być zrozumienie wpływu pogody na nastrój. Na przykład, pozytywna korelacja może istnieć między słonecznymi dniami a lepszym nastrojem, podczas gdy deszczowe dni mogą korelować z niższym poziomem energii lub smutkiem.

Zarządzanie czasem: Porównując godziny spędzone na konkretnych zadaniach (np. czas nauki) i produktywność lub wyniki (np. oceny lub wydajność pracy), korelacja Pearsona może pomóc jednostkom zrozumieć, w jaki sposób alokacja czasu wpływa na wyniki.

Korzyści ze zrozumienia korelacji w typowych scenariuszach:

Lepsze podejmowanie decyzji: Wiedza o tym, w jaki sposób zmienne są ze sobą powiązane, pozwala jednostkom podejmować świadome decyzje. Na przykład zrozumienie korelacji między dietą a zdrowiem może prowadzić do lepszych nawyków żywieniowych, które promują dobre samopoczucie.

Optymalizacja wyników: Ludzie mogą wykorzystywać korelacje do optymalizacji swoich rutynowych czynności, takich jak odkrywanie, w jaki sposób czas trwania snu koreluje z produktywnością i odpowiednio dostosowywać harmonogramy snu, aby zmaksymalizować wydajność.

Identyfikacja wzorców: Rozpoznanie wzorców w codziennych czynnościach (takich jak korelacja między czasem spędzanym przed ekranem a zmęczeniem oczu) może pomóc jednostkom zmodyfikować zachowania w celu zmniejszenia negatywnych skutków i poprawy ogólnej jakości życia.

Zastosowanie koncepcji korelacji Pearsona w codziennym życiu pozwala ludziom uzyskać cenny wgląd w to, jak różne aspekty ich rutynowych działań oddziałują na siebie, umożliwiając im dokonywanie proaktywnych wyborów, które poprawiają zdrowie, finanse i samopoczucie.

Interpretacja korelacji Pearsona

Wartości i znaczenie

The Współczynnik korelacji Pearsona (r) waha się od -1 do 1a każda wartość zapewnia wgląd w charakter i siłę związku między dwiema zmiennymi. Zrozumienie tych wartości pomaga w interpretacji kierunku i stopnia korelacji.

Wartości współczynnika:

1: Wartość +1 wskazuje idealna dodatnia zależność liniowa między dwiema zmiennymi, co oznacza, że gdy jedna zmienna wzrasta, druga wzrasta w idealnej proporcji.

-1: Wartość -1 wskazuje idealna ujemna zależność liniowagdzie gdy jedna zmienna rośnie, druga maleje w idealnej proporcji.

0: Wartość 0 sugestie brak zależności liniowej między zmiennymi, co oznacza, że zmiany w jednej zmiennej nie przewidują zmian w drugiej.

Korelacje dodatnie, ujemne i zerowe:

Dodatnia korelacja: Kiedy r jest dodatnie (np. 0,5), oznacza to, że obie zmienne mają tendencję do poruszania się w tym samym kierunku. Na przykład, wraz ze wzrostem temperatury, sprzedaż lodów może wzrosnąć, wykazując dodatnią korelację.

Korelacja ujemna: Kiedy r jest ujemne (np. -0,7), sugeruje to, że zmienne poruszają się w przeciwnych kierunkach. Przykładem może być związek między częstotliwością ćwiczeń a procentową zawartością tkanki tłuszczowej w organizmie: wraz ze wzrostem aktywności fizycznej tkanka tłuszczowa ma tendencję do zmniejszania się.

Korelacja zerowa: An r of 0 oznacza, że jest brak zauważalnej zależności liniowej między zmiennymi. Na przykład może nie istnieć liniowa korelacja między rozmiarem buta a inteligencją.

Ogólnie:

0,7 do 1 lub -0,7 do -1 wskazuje silny korelacja.

0,3 do 0,7 lub -0,3 do -0,7 odzwierciedla umiarkowany korelacja.

0 do 0,3 lub -0,3 do 0 oznacza słaby korelacja.

Zrozumienie tych wartości pozwala badaczom i osobom prywatnym określić, jak blisko powiązane są dwie zmienne i czy związek jest wystarczająco znaczący, aby uzasadnić dalszą uwagę lub działanie.

Ograniczenia

Podczas gdy Korelacja Pearsona jest potężnym narzędziem do oceny liniowych zależności między zmiennymi, ale ma ograniczenia i może nie być odpowiedni we wszystkich scenariuszach.

Sytuacje, w których korelacja Pearsona może nie być odpowiednia:

Zależności nieliniowe: Korelacja Pearsona mierzy tylko zależności linioweW związku z tym korelacja Pearsona może niedokładnie odzwierciedlać siłę powiązania w przypadkach, gdy związek między zmiennymi jest zakrzywiony lub nieliniowy. Na przykład, jeśli zmienne mają związek kwadratowy lub wykładniczy, korelacja Pearsona może niedoszacować lub nie uchwycić prawdziwego związku.

Wartości odstające: Obecność wartości odstające (wartości skrajne) mogą znacząco zniekształcić wyniki korelacji Pearsona, dając mylące odzwierciedlenie ogólnego związku między zmiennymi. Pojedyncza wartość odstająca może sztucznie zawyżyć lub obniżyć wartość korelacji.

Zmienne nieciągłe: Korelacja Pearsona zakłada, że obie zmienne są ciągłe i mają rozkład normalny. Może to nie być odpowiednie dla kategoryczny lub dane porządkowegdzie relacje niekoniecznie mają charakter liniowy lub liczbowy.

Heteroscedastyczność: Gdy zmienność jednej zmiennej różni się w całym zakresie innej zmiennej (tj. gdy rozrzut punktów danych nie jest stały), korelacja Pearsona może dawać niedokładną miarę związku. Ten warunek jest znany jako heteroscedastycznośći może zniekształcić współczynnik.

Ograniczenie tylko do relacji liniowych: Korelacja Pearsona mierzy w szczególności siłę i kierunek zależności liniowe. Jeśli zmienne są powiązane w sposób nieliniowy, korelacja Pearsona tego nie wykryje. Na przykład, jeśli jedna zmienna rośnie w rosnącym tempie w stosunku do drugiej (jak w przypadku zależności wykładniczej lub logarytmicznej), korelacja Pearsona może wykazywać słabą lub zerową korelację, pomimo istnienia silnego związku.

Aby zaradzić tym ograniczeniom, badacze mogą stosować inne metody, takie jak Korelacja rang Spearmana dla danych porządkowych lub Modele regresji nieliniowej aby lepiej uchwycić złożone relacje. Zasadniczo, podczas gdy korelacja Pearsona jest cenna dla relacji liniowych, należy ją stosować ostrożnie, upewniając się, że dane spełniają założenia wymagane do dokładnej interpretacji.

Jak korzystać z korelacji Pearsona

Narzędzia i oprogramowanie

Obliczanie Korelacja Pearsona można wykonać ręcznie, ale znacznie bardziej wydajne i praktyczne jest korzystanie z narzędzi statystycznych i oprogramowania. Narzędzia te mogą szybko obliczyć współczynnik korelacji Pearsona, obsługiwać duże zbiory danych i oferować dodatkowe funkcje statystyczne do kompleksowej analizy. Dostępnych jest kilka popularnych programów i narzędzi do obliczania korelacji Pearsona:

Microsoft Excel: Powszechnie używane narzędzie z wbudowanymi funkcjami do obliczania korelacji Pearsona, dzięki czemu jest dostępne do podstawowych zadań statystycznych.

SPSS (pakiet statystyczny dla nauk społecznych): To potężne oprogramowanie jest przeznaczone do analizy statystycznej i jest powszechnie stosowane w naukach społecznych i badaniach medycznych.

Język programowania R: Darmowy język programowania o otwartym kodzie źródłowym, zaprojektowany specjalnie do analizy danych i statystyk. R oferuje dużą elastyczność i możliwość dostosowania.

Python (z bibliotekami takimi jak Pandas i NumPy)): Python to kolejny potężny język open-source do analizy danych, z przyjaznymi dla użytkownika bibliotekami, które upraszczają obliczanie korelacji Pearsona.

GraphPad Prism: To popularne w naukach biologicznych oprogramowanie oferuje intuicyjny interfejs do analizy statystycznej, w tym korelacji Pearsona.

Podstawowy przewodnik po korzystaniu z tych narzędzi do analizy:

Microsoft Excel:

  • Wprowadź dane do dwóch kolumn, po jednej dla każdej zmiennej.
  • Użyj wbudowanej funkcji =CORREL(array1, array2), aby obliczyć korelację Pearsona między dwoma zestawami danych.

SPSS:

  • Zaimportuj dane do SPSS.
  • Przejdź do Analyze > Correlate > Bivariatei wybierz zmienne do analizy.
  • Wybierz "Pearson" w opcjach współczynnika korelacji i kliknij "OK".

Programowanie R:

  • Wprowadź dane do R jako wektory lub ramki danych.
  • Użyj funkcji cor(x, y, method = "pearson"), aby obliczyć korelację Pearsona.

Python (Pandas/NumPy):

  • Załaduj dane za pomocą Pandas.
  • Użyj df['variable1'].corr(df['variable2']), aby obliczyć korelację Pearsona między dwiema kolumnami.

GraphPad Prism:

  • Wprowadź dane do oprogramowania.
  • Wybierz opcję analizy "Korelacja", wybierz korelację Pearsona, a oprogramowanie wygeneruje współczynnik korelacji wraz z wizualnym wykresem rozrzutu.

Narzędzia te nie tylko obliczają współczynnik korelacji Pearsona, ale także zapewniają graficzne wyniki, wartości p i inne miary statystyczne, które pomagają interpretować dane. Zrozumienie sposobu korzystania z tych narzędzi umożliwia wydajną i dokładną analizę korelacji, niezbędną do badań i podejmowania decyzji opartych na danych.

Tutaj można znaleźć statystyki dotyczące infografik i projektów wizualnych 

Praktyczne wskazówki dotyczące korzystania z korelacji Pearsona

Przygotowanie danych i kontrole przed obliczeniem korelacji:

Zapewnienie jakości danych: Sprawdź, czy dane są dokładne i kompletne. Sprawdź i usuń wszelkie brakujące wartości, ponieważ mogą one zniekształcić wyniki. Niekompletne dane mogą prowadzić do nieprawidłowych współczynników korelacji lub mylących interpretacji.

Sprawdź liniowość: Korelacja Pearsona mierzy zależności liniowe. Przed wykonaniem obliczeń należy wykreślić dane za pomocą wykresu rozrzutu, aby wizualnie ocenić, czy związek między zmiennymi jest liniowy. Jeśli dane wykazują nieliniowy wzór, należy rozważyć alternatywne metody, takie jak korelacja rang Spearmana lub regresja nieliniowa.

Weryfikacja normalności: Korelacja Pearsona zakłada, że dane dla każdej zmiennej mają w przybliżeniu rozkład normalny. Chociaż jest ona w pewnym stopniu odporna na odchylenia od normalności, znaczące odchylenia mogą wpływać na wiarygodność wyników. Użyj histogramów lub testów normalności, aby sprawdzić rozkład danych.

Standaryzacja danych: Jeśli zmienne są mierzone w różnych jednostkach lub skalach, należy rozważyć ich standaryzację. Ten krok zapewnia, że porównanie nie jest zniekształcone przez skalę pomiaru, chociaż sama korelacja Pearsona jest niezależna od skali.

Najczęstsze błędy, których należy unikać podczas interpretacji wyników:

Przecenianie siły: Wysoki współczynnik korelacji Pearsona nie oznacza związku przyczynowego. Korelacja mierzy jedynie siłę związku liniowego, a nie to, czy jedna zmienna powoduje zmiany w innej. Należy unikać wyciągania pochopnych wniosków na temat związku przyczynowego wyłącznie na podstawie korelacji.

Ignorowanie wartości odstających: Wartości odstające mogą nieproporcjonalnie wpływać na współczynnik korelacji Pearsona, prowadząc do mylących wyników. Zidentyfikuj i oceń wpływ wartości odstających na analizę. Czasami usunięcie lub dostosowanie wartości odstających może zapewnić jaśniejszy obraz relacji.

Błędna interpretacja zerowej korelacji: Korelacja Pearsona równa zero wskazuje na brak związku liniowego, ale nie oznacza, że nie ma żadnego związku. Zmienne mogą być nadal powiązane w sposób nieliniowy, więc rozważ inne metody statystyczne, jeśli podejrzewasz nieliniowe powiązanie.

Mylenie korelacji z przyczynowością: Należy pamiętać, że korelacja nie oznacza związku przyczynowego. Dwie zmienne mogą być skorelowane ze względu na wpływ trzeciej, nieobserwowanej zmiennej. Zawsze należy brać pod uwagę szerszy kontekst i korzystać z dodatkowych metod w celu zbadania potencjalnych związków przyczynowych.

Zaniedbanie wielkości próby: Mała liczebność próby może prowadzić do niestabilnych i niewiarygodnych szacunków korelacji. Upewnij się, że wielkość próby jest wystarczająca, aby zapewnić wiarygodną miarę korelacji. Większe próby generalnie zapewniają dokładniejsze i stabilniejsze współczynniki korelacji.

Kluczowe wnioski i rozważania

Korelacja Pearsona to podstawowe narzędzie statystyczne wykorzystywane do pomiaru siły i kierunku zależności liniowych między dwiema zmiennymi ciągłymi. Dostarcza cennych informacji w różnych dziedzinach, od badań naukowych po życie codzienne, pomagając identyfikować i określać ilościowo związki w danych. Zrozumienie, jak poprawnie obliczać i interpretować korelację Pearsona, pozwala badaczom i osobom prywatnym podejmować świadome decyzje w oparciu o siłę powiązań między zmiennymi.

Kluczowe jest jednak rozpoznanie jego ograniczeń, w szczególności skupienie się na zależnościach liniowych i wrażliwości na wartości odstające. Właściwe przygotowanie danych i unikanie typowych pułapek - takich jak mylenie korelacji z przyczynowością - są niezbędne do dokładnej analizy. Odpowiednie wykorzystanie korelacji Pearsona i uwzględnienie jej ograniczeń pozwala skutecznie wykorzystać to narzędzie do uzyskania istotnych informacji i podejmowania lepszych decyzji.

Przeglądaj ponad 75 000 dokładnych naukowo ilustracji z ponad 80 popularnych dziedzin

Mind the Graph to potężne narzędzie zaprojektowane, aby pomóc naukowcom w wizualnym komunikowaniu złożonych wyników badań. Dzięki dostępowi do ponad 75 000 naukowo dokładnych ilustracji z ponad 80 popularnych dziedzin, naukowcy mogą łatwo znaleźć elementy wizualne, które wzbogacą ich prezentacje, dokumenty i raporty. Szeroka gama ilustracji na platformie zapewnia naukowcom możliwość tworzenia przejrzystych, angażujących wizualizacji dostosowanych do ich konkretnego obszaru badań, czy to w biologii, chemii, medycynie czy innych dyscyplinach. Ta ogromna biblioteka nie tylko oszczędza czas, ale także pozwala na bardziej efektywne przekazywanie danych, dzięki czemu informacje naukowe są dostępne i zrozumiałe zarówno dla ekspertów, jak i ogółu społeczeństwa.

"Animowany GIF pokazujący ponad 80 dziedzin naukowych dostępnych na Mind the Graph, w tym biologię, chemię, fizykę i medycynę, ilustrujący wszechstronność platformy dla naukowców".
Animowany GIF prezentujący szeroki zakres dziedzin naukowych objętych Mind the Graph.
logo-subskrybuj

Zapisz się do naszego newslettera

Ekskluzywne, wysokiej jakości treści na temat skutecznych efektów wizualnych
komunikacja w nauce.

- Ekskluzywny przewodnik
- Wskazówki dotyczące projektowania
- Wiadomości naukowe i trendy
- Samouczki i szablony