Pearson-korrelation: Förstå matematiken bakom relationer

Pearson-korrelation är en grundläggande statistisk metod som används för att förstå de linjära sambanden mellan två kontinuerliga variabler. Pearsons korrelationskoefficient kvantifierar styrkan och riktningen i dessa relationer och erbjuder kritiska insikter som är allmänt tillämpliga inom olika områden, inklusive forskning, datavetenskap och dagligt beslutsfattande. I den här artikeln förklaras grunderna i Pearson-korrelationen, inklusive dess definition, beräkningsmetoder och praktiska tillämpningar. Vi kommer att undersöka hur detta statistiska verktyg kan belysa mönster i data, vikten av att förstå dess begränsningar och bästa praxis för korrekt tolkning.

Vad är Pearson-korrelation?

Pearsons korrelationskoefficient, eller Pearsons r, kvantifierar styrkan och riktningen på ett linjärt samband mellan två kontinuerliga variabler. Den varierar från -1 till 1anger denna koefficient hur nära datapunkterna i ett spridningsdiagram ligger en rak linje.

Ett värde på 1 innebär ett perfekt positivt linjärt samband, vilket innebär att när en variabel ökar, ökar också den andra konsekvent.
Ett värde av -1 anger en perfekt negativt linjärt sambanddär den ena variabeln ökar när den andra minskar.
Ett värde av 0 föreslår ingen linjär korrelationvilket innebär att variablerna inte har ett linjärt samband.

Pearson-korrelation används ofta inom vetenskap, ekonomi och samhällsvetenskap för att avgöra om två variabler rör sig tillsammans och i vilken utsträckning. Den hjälper till att bedöma hur starkt variablerna är relaterade, vilket gör den till ett viktigt verktyg för dataanalys och tolkning.

Hur man beräknar Pearson-korrelationskoefficienten

Pearsons korrelationskoefficient (r) beräknas med hjälp av följande formel:

Bild av formeln för Pearsons korrelationskoefficient, som visar den ekvation som används för att mäta det linjära förhållandet mellan två variabler. — Pearson Correlation Coefficient Formel med förklarade nyckelvariabler.

Var?

x och y är de två variabler som jämförs.
n är antalet datapunkter.
∑xy är summan av produkten av parade poäng (x och y).
∑x² och ∑y² är kvadratsummorna för varje variabel.

Steg-för-steg-beräkning:

Samla in data: Samla in parade värden för variabler x och y.
Exempel:

x=[1,2,3]

y=[4,5,6]

Beräkna summan för x och y:

∑x är summan av värdena i x.

∑y är summan av värdena i y.

För exempel:
∑x=1+2+3=6
∑y=4+5+6=15

Multiplicera x och y för varje par:

Multiplicera varje par av x- och y-värden och hitta ∑xy.

xy=[1×4,2×5,3×6]=[4,10,18]
∑xy=4+10+18=32

Kvadrat Varje x och y Värde:

Hitta kvadraten på varje x- och y-värde och summera dem sedan för att få ∑x² och ∑y².

x²=[1²,2²,3²]=[1,4,9]
∑x²=1+4+9=14
y²=[4²,5²,6²]=[16,25,36]
∑y²=16+25+36=77

Sätt in värdena i Pearson-formeln: Sätt nu in värdena i Pearsons korrelationsformel:

r = (n∑xy - ∑x∑y) / √[(n∑x² - (∑x)²) * (n∑y² - (∑y)²)]

r = (3 × 32 - 6 × 15) / √[(3 × 14 - (6)²) × (3 × 77 - (15)²)]

r = (96 - 90) / √[(42 - 36) × (231 - 225)]

r = 6 / √[6 × 6]

r = 6 / 6 = 1

I detta exempel är Pearsons korrelationskoefficient 1, vilket indikerar ett perfekt positivt linjärt samband mellan variablerna x och y.

Denna steg-för-steg-metod kan tillämpas på alla dataset för att manuellt beräkna Pearson-korrelationen. Men programvaruverktyg som Excel, Pythoneller statistikpaket automatiserar ofta denna process för större datamängder.

Varför Pearson-korrelationen är viktig i statistisk analys

Inom forskning

Den Pearson-korrelation är ett viktigt statistiskt verktyg inom forskningen för att identifiera och kvantifiera styrkan och riktningen hos linjära samband mellan två kontinuerliga variabler. Det hjälper forskare att förstå om och hur starkt två variabler är relaterade, vilket kan ge insikter om mönster och trender inom dataset.

Pearson-korrelation hjälper forskare att avgöra om variabler rör sig tillsammans på ett konsekvent sätt, antingen positivt eller negativt. I ett dataset som mäter studietid och provresultat skulle till exempel en stark positiv Pearson-korrelation tyda på att ökad studietid är förknippad med högre provresultat. Omvänt kan en negativ korrelation tyda på att när en variabel ökar, minskar den andra.

Exempel på användning inom olika forskningsområden:

Psykologi: Pearson-korrelation används ofta för att undersöka samband mellan variabler som stressnivåer och kognitiva prestationer. Forskare kan bedöma hur en ökning av stress kan påverka minnet eller problemlösningsförmågan.

Ekonomi: Ekonomer använder Pearson-korrelationen för att studera förhållandet mellan variabler som inkomst och konsumtion eller inflation och arbetslöshet, vilket hjälper dem att förstå hur ekonomiska faktorer påverkar varandra.

Medicin: Inom medicinsk forskning kan Pearson-korrelation användas för att identifiera samband mellan olika hälsomått. Forskare kan t.ex. undersöka sambandet mellan blodtrycksnivåer och risken för hjärtsjukdomar, vilket kan bidra till tidig upptäckt och förebyggande vårdstrategier.

Miljövetenskap: Pearson-korrelationen är användbar för att undersöka sambanden mellan miljövariabler, t.ex. temperatur och skördeutbyte, vilket gör det möjligt för forskare att modellera klimatförändringarnas inverkan på jordbruket.

Sammantaget är Pearson-korrelationen ett viktigt verktyg inom olika forskningsområden för att upptäcka meningsfulla samband och vägleda framtida studier, insatser eller policybeslut.

I vardagen

Förståelse Pearson-korrelation kan vara oerhört användbart i det dagliga beslutsfattandet, eftersom det hjälper till att identifiera mönster och samband mellan olika variabler som påverkar våra rutiner och val.

Praktiska tillämpningar och exempel:

Fitness och hälsa: Pearson-korrelation kan användas för att bedöma hur olika faktorer, t.ex. träningsfrekvens och viktminskning, hänger ihop. Om man till exempel följer träningsvanor och kroppsvikt över tid kan det visa sig att det finns ett positivt samband mellan regelbunden fysisk aktivitet och viktnedgång.

Personlig ekonomi: Vid budgetering kan Pearson-korrelationen hjälpa till att analysera förhållandet mellan utgiftsvanor och sparande. Om någon följer sina månatliga utgifter och sparräntor kan de hitta en negativ korrelation, vilket tyder på att sparandet minskar när utgifterna ökar.

Väder och humör: En annan vardaglig användning av korrelation kan vara att förstå vädrets inverkan på humöret. Det kan t.ex. finnas ett positivt samband mellan soliga dagar och bättre humör, medan regniga dagar kan korrelera med lägre energinivåer eller nedstämdhet.

Tidsplanering: Genom att jämföra timmar som läggs på specifika uppgifter (t.ex. studietid) och produktivitet eller prestationsresultat (t.ex. betyg eller arbetseffektivitet) kan Pearson-korrelationen hjälpa individer att förstå hur tidsfördelningen påverkar resultaten.

Fördelarna med att förstå korrelationer i vanliga scenarier:

Förbättrat beslutsfattande: Att veta hur variabler hänger ihop gör det möjligt för människor att fatta välgrundade beslut. Om man till exempel förstår sambandet mellan kost och hälsa kan det leda till bättre matvanor som främjar välbefinnandet.

Optimering av resultat: Människor kan använda korrelationer för att optimera sina rutiner, till exempel genom att upptäcka hur sömnlängd korrelerar med produktivitet och justera sömnscheman därefter för att maximera effektiviteten.

Identifiera mönster: Att känna igen mönster i dagliga aktiviteter (som sambandet mellan skärmtid och ansträngda ögon) kan hjälpa individer att ändra beteenden för att minska negativa effekter och förbättra den övergripande livskvaliteten.

Genom att tillämpa begreppet Pearson-korrelation i vardagen kan människor få värdefulla insikter i hur olika aspekter av deras rutiner samverkar, vilket gör det möjligt för dem att göra proaktiva val som förbättrar hälsa, ekonomi och välbefinnande.

Tolkning av Pearson-korrelation

Värden och betydelse

Den Pearsons korrelationskoefficient (r) varierar från -1 till 1och varje värde ger en inblick i hur och hur starkt sambandet mellan två variabler är. Att förstå dessa värden hjälper till att tolka korrelationens riktning och grad.

Koefficientvärden:

1: Ett värde av +1 anger en perfekt positivt linjärt samband mellan två variabler, vilket innebär att när den ena variabeln ökar, ökar den andra i perfekt proportion.

-1: Ett värde av -1 anger en perfekt negativt linjärt sambanddär den ena variabeln ökar, medan den andra minskar i perfekt proportion.

0: Ett värde av 0 föreslår inget linjärt samband mellan variablerna, vilket innebär att förändringar i den ena variabeln inte förutsäger förändringar i den andra.

Positiva, negativa och nollkorrelationer:

Positiv korrelation: När r är positivt (t.ex. 0,5) innebär det att båda variablerna tenderar att röra sig i samma riktning. När temperaturen stiger kan t.ex. glassförsäljningen öka, vilket visar på en positiv korrelation.

Negativ korrelation: När r är negativt (t.ex. -0,7) tyder det på att variablerna rör sig i motsatt riktning. Ett exempel kan vara förhållandet mellan träningsfrekvens och kroppsfettprocent: när träningen ökar tenderar kroppsfettet att minska.

Noll korrelation: En r av 0 innebär att det finns inget urskiljbart linjärt samband mellan variablerna. Det kan t.ex. saknas ett linjärt samband mellan skostorlek och intelligens.

I allmänhet:

0,7 till 1 eller -0,7 till -1 anger en stark korrelation.

0,3 till 0,7 eller -0,3 till -0,7 återspeglar en måttlig korrelation.

0 till 0,3 eller -0,3 till 0 innebär en svag korrelation.

Genom att förstå dessa värden kan forskare och privatpersoner avgöra hur nära två variabler är relaterade till varandra och om förhållandet är tillräckligt signifikant för att motivera ytterligare uppmärksamhet eller åtgärder.

Begränsningar

Även om Pearson-korrelation är ett kraftfullt verktyg för att bedöma linjära samband mellan variabler, men det har sina begränsningar och är kanske inte lämpligt i alla situationer.

Situationer där Pearson-korrelation kanske inte är lämplig:

Icke-linjära relationer: Pearson-korrelationen mäter endast linjära relationerDet kan därför hända att den inte korrekt återspeglar styrkan i sambandet i fall där förhållandet mellan variablerna är krökt eller icke-linjärt. Om variablerna t.ex. har ett kvadratiskt eller exponentiellt förhållande kan Pearson-korrelationen undervärdera eller inte fånga det verkliga förhållandet.

Utbrytare: Närvaron av avvikande värden (extremvärden) kan avsevärt snedvrida resultaten av Pearson-korrelationen och ge en missvisande bild av det övergripande förhållandet mellan variablerna. Ett enda extremvärde kan på ett konstlat sätt höja eller sänka korrelationsvärdet.

Icke-kontinuerliga variabler: Pearson-korrelation förutsätter att båda variablerna är kontinuerliga och normalfördelade. Det kanske inte är lämpligt för kategorisk eller ordinaldata, där relationerna inte nödvändigtvis är linjära eller numeriska till sin natur.

Heteroscedasticitet: När variabiliteten för en variabel skiljer sig åt över hela intervallet för en annan (dvs. när spridningen av datapunkter inte är konstant) kan Pearson-korrelationen ge ett felaktigt mått på förhållandet. Detta tillstånd är känt som heteroskedasticitetoch det kan förvränga koefficienten.

Begränsning till endast linjära relationer: Pearson-korrelationen mäter specifikt styrkan och riktningen hos linjära relationer. Om variablerna är relaterade på ett icke-linjärt sätt kommer Pearson-korrelationen inte att upptäcka detta. Om t.ex. en variabel ökar i en ökande takt i förhållande till en annan (som i ett exponentiellt eller logaritmiskt förhållande) kan Pearson-korrelationen visa en svag korrelation eller nollkorrelation, trots att det finns ett starkt samband.

För att hantera dessa begränsningar kan forskare använda andra metoder, t.ex. Spearman's rangkorrelation för ordinaldata eller icke-linjära regressionsmodeller för att bättre fånga komplexa samband. Även om Pearson-korrelationen är värdefull för linjära samband måste den tillämpas med försiktighet och säkerställa att uppgifterna uppfyller de antaganden som krävs för en korrekt tolkning.

Hur man använder Pearson-korrelation

Verktyg och programvara

Beräkning av Pearson-korrelation kan göras manuellt, men det är mycket effektivare och mer praktiskt att använda statistiska verktyg och program. Dessa verktyg kan snabbt beräkna Pearsons korrelationskoefficient, hantera stora datamängder och erbjuda ytterligare statistiska funktioner för omfattande analyser. Det finns flera populära programvaror och verktyg för att beräkna Pearson-korrelation:

Microsoft Excel: Ett allmänt använt verktyg med inbyggda funktioner för att beräkna Pearson-korrelation, vilket gör det tillgängligt för grundläggande statistiska uppgifter.

SPSS (Statistiskt paket för samhällsvetenskap): Denna kraftfulla programvara är utformad för statistisk analys och används ofta inom samhällsvetenskap och medicinsk forskning.

Programmeringsspråket R: Ett programmeringsspråk med fri och öppen källkod som är särskilt utformat för dataanalys och statistik. R erbjuder omfattande flexibilitet och anpassningsmöjligheter.

Python (med bibliotek som Pandas och NumPy)): Python är ett annat kraftfullt språk med öppen källkod för dataanalys, med användarvänliga bibliotek som förenklar beräkningen av Pearson-korrelation.

GraphPad Prism: Denna programvara är populär inom biovetenskapen och erbjuder ett intuitivt gränssnitt för statistisk analys, inklusive Pearson-korrelation.

Grundläggande guide för att använda dessa verktyg för analys:

Microsoft Excel:

Mata in dina data i två kolumner, en för varje variabel.
Använd den inbyggda funktionen =CORREL(array1, array2) för att beräkna Pearson-korrelationen mellan de två dataseten.

SPSS:

Importera dina data till SPSS.
Gå till Analysera > Korrelera > Bivariatoch välja ut variabler för analys.
Välj "Pearson" under alternativen för korrelationskoefficient och klicka på "OK".

R-programmering:

Mata in dina data i R som vektorer eller dataramar.
Använd funktionen cor(x, y, method = "pearson") för att beräkna Pearson-korrelationen.

Python (Pandas/NumPy):

Ladda dina data med hjälp av Pandas.
Använd df['variable1'].corr(df['variable2']) för att beräkna Pearson-korrelationen mellan två kolumner.

GraphPad Prism:

Mata in dina uppgifter i programvaran.
Välj analysalternativet "Correlation", välj Pearson-korrelation, så genererar programmet korrelationskoefficienten tillsammans med ett visuellt spridningsdiagram.

Dessa verktyg beräknar inte bara Pearsons korrelationskoefficient utan ger också grafiska utdata, p-värden och andra statistiska mått som hjälper till att tolka data. Att förstå hur man använder dessa verktyg möjliggör effektiv och korrekt korrelationsanalys, vilket är viktigt för forskning och datadrivet beslutsfattande.

Här hittar du statistik om infografik och visuell design

Praktiska tips för att använda Pearson-korrelation

Förberedelse av data och kontroller före beräkning av korrelation:

Säkerställ datakvalitet: Kontrollera att dina data är korrekta och fullständiga. Kontrollera och åtgärda eventuella saknade värden, eftersom de kan snedvrida resultaten. Ofullständiga data kan leda till felaktiga korrelationskoefficienter eller missvisande tolkningar.

Kontrollera linjäriteten: Pearson-korrelationen mäter linjära samband. Innan du gör beräkningen ska du plotta dina data med hjälp av ett spridningsdiagram för att visuellt bedöma om förhållandet mellan variablerna är linjärt. Om data visar ett icke-linjärt mönster bör du överväga alternativa metoder, t.ex. Spearmans rangkorrelation eller icke-linjär regression.

Verifiera normalitet: Pearson-korrelationen förutsätter att data för varje variabel är ungefär normalfördelade. Även om den är något robust mot avvikelser från normalitet kan betydande avvikelser påverka resultatens tillförlitlighet. Använd histogram eller normalitetstest för att kontrollera fördelningen av dina data.

Standardisera data: Om variablerna mäts i olika enheter eller skalor bör du överväga att standardisera dem. Detta steg säkerställer att jämförelsen inte snedvrids av mätskalan, även om Pearson-korrelationen i sig är skalinvariant.

Vanliga misstag att undvika när man tolkar resultat:

Överskattning av styrka: En hög Pearson-korrelationskoefficient innebär inte att det finns ett orsakssamband. Korrelationen mäter bara styrkan i ett linjärt samband, inte om en variabel orsakar förändringar i en annan. Undvik att dra förhastade slutsatser om orsakssamband enbart baserat på korrelation.

Ignorera avvikande värden: Outliers kan påverka Pearsons korrelationskoefficient på ett oproportionerligt sätt och leda till missvisande resultat. Identifiera och bedöm extremvärdenas inverkan på din analys. Ibland kan borttagning eller justering av outliers ge en tydligare bild av förhållandet.

Feltolkning av nollkorrelation: En Pearson-korrelation på noll visar att det inte finns något linjärt samband, men det betyder inte att det inte finns något samband alls. Variablerna kan fortfarande vara relaterade på ett icke-linjärt sätt, så överväg andra statistiska metoder om du misstänker ett icke-linjärt samband.

Att förväxla korrelation med orsakssamband: Kom ihåg att korrelation inte innebär orsakssamband. Två variabler kan vara korrelerade på grund av påverkan från en tredje, icke observerad variabel. Tänk alltid på det bredare sammanhanget och använd ytterligare metoder för att utforska potentiella orsakssamband.

Att bortse från storleken på urvalet: Små urvalsstorlekar kan leda till instabila och otillförlitliga korrelationsuppskattningar. Se till att urvalsstorleken är tillräcklig för att ge ett tillförlitligt mått på korrelationen. Större urval ger i allmänhet mer exakta och stabila korrelationskoefficienter.

Viktiga lärdomar och överväganden

Pearson-korrelation är ett grundläggande statistiskt verktyg som används för att mäta styrkan och riktningen hos linjära samband mellan två kontinuerliga variabler. Det ger värdefulla insikter inom olika områden, från forskning till vardagsliv, och hjälper till att identifiera och kvantifiera relationer i data. Genom att förstå hur man korrekt beräknar och tolkar Pearson-korrelationen kan forskare och privatpersoner fatta välgrundade beslut baserade på styrkan i sambanden mellan variabler.

Det är dock viktigt att känna till dess begränsningar, i synnerhet dess fokus på linjära samband och känslighet för avvikande värden. Korrekt dataförberedelse och undvikande av vanliga fallgropar - t.ex. att förväxla korrelation med orsakssamband - är avgörande för en korrekt analys. Om du använder Pearson-korrelationen på rätt sätt och beaktar dess begränsningar kan du effektivt utnyttja detta verktyg för att få meningsfulla insikter och fatta bättre beslut.

Bläddra bland 75.000+ vetenskapligt korrekta illustrationer inom 80+ populära områden

Mind the Graph är ett kraftfullt verktyg som är utformat för att hjälpa forskare att visuellt kommunicera komplexa forskningsresultat. Med tillgång till över 75 000 vetenskapligt korrekta illustrationer inom över 80 populära områden kan forskare enkelt hitta visuella element som förbättrar deras presentationer, artiklar och rapporter. Plattformens breda utbud av illustrationer säkerställer att forskare kan skapa tydliga, engagerande visuella element som är skräddarsydda för deras specifika studieområde, oavsett om det gäller biologi, kemi, medicin eller andra discipliner. Detta stora bibliotek sparar inte bara tid utan möjliggör också en effektivare kommunikation av data, vilket gör vetenskaplig information tillgänglig och begriplig för både experter och allmänheten.

Registrera dig kostnadsfritt

"Animerad GIF som visar över 80 vetenskapliga områden som finns tillgängliga på Mind the Graph, inklusive biologi, kemi, fysik och medicin, vilket illustrerar plattformens mångsidighet för forskare." — Animerad GIF som visar det breda utbudet av vetenskapliga områden som täcks av Mind the Graph.