Корелацията на Пиърсън е основен статистически метод, използван за разбиране на линейните връзки между две непрекъснати променливи. Коефициентът на корелация на Пиърсън, който определя количествено силата и посоката на тези връзки, предлага критични прозрения, които са широко приложими в различни области, включително научни изследвания, наука за данните и вземане на решения в ежедневието. В тази статия ще бъдат обяснени основите на корелацията на Пиърсън, включително нейното определение, методи за изчисляване и практически приложения. Ще разгледаме как този статистически инструмент може да осветли моделите в данните, колко е важно да се разбират неговите ограничения и най-добрите практики за точно тълкуване.

Какво представлява корелацията на Пиърсън?

Коефициентът на корелация на Пиърсън или r на Пиърсън определя количествено силата и посоката на линейната връзка между две непрекъснати променливи. Варира от -1 до 1, този коефициент показва доколко точките от данни в диаграмата на разсейване съвпадат с права линия.

  • Стойност 1 означава перфектна положителна линейна връзка, което означава, че с нарастването на едната променлива, другата също се увеличава.
  • Стойност от -1 показва перфектна отрицателна линейна връзка, където едната променлива се увеличава, докато другата намалява.
  • Стойност от 0 предлага няма линейна корелация, което означава, че променливите нямат линейна връзка.

Корелацията на Пирсън се използва широко в науката, икономиката и социалните науки, за да се определи дали две променливи се движат заедно и в каква степен. Тя помага да се оцени колко силно са свързани променливите, което я прави важен инструмент за анализ и интерпретация на данни.

Как да изчислим коефициента на корелация на Пиърсън

Коефициентът на корелация на Пиърсън (r) се изчислява по следната формула:

Изображение на формулата за корелационен коефициент на Пиърсън, показваща уравнението, използвано за измерване на линейната връзка между две променливи.
Формула за корелационен коефициент на Пиърсън с обяснени ключови променливи.

Къде:

  • x и y са двете сравнявани променливи.
  • n е броят на точките с данни.
  • xy е сумата от произведението на сдвоените резултати (x и y).
  • x2 и ∑y2 са сумите на квадратите за всяка променлива.

Изчисляване стъпка по стъпка:

  1. Събиране на данни: Събиране на сдвоени стойности за променливи x и y.
    Пример:

x=[1,2,3]

y=[4,5,6]

  1. Изчислете сумата за x и y:

x е сумата от стойностите в x.

y е сумата от стойностите в y.

За примера:
x=1+2+3=6
y=4+5+6=15

  1. Умножете x и y за всяка двойка:

Умножете всяка двойка стойности x и y и намерете ∑xy.

xy=[1×4,2×5,3×6]=[4,10,18]
xy=4+10+18=32

  1. Квадрат Всеки x и y Стойност:

Намерете квадрата на всяка стойност на x и y, след което ги съберете, за да получите ∑x2 и ∑y2.

x2=[12,22,32]=[1,4,9]
x2=1+4+9=14
y2=[42,52,62]=[16,25,36]
y2=16+25+36=77

  1. Включете стойностите във формулата на Пирсън: Сега заместете стойностите във формулата за корелация на Пиърсън:


r = (n∑xy - ∑xy) / √[(n∑x² - (∑x)²) * (n∑y² - (∑y)²)]

r = (3 × 32 - 6 × 15) / √[(3 × 14 - (6)²) × (3 × 77 - (15)²)]

r = (96 - 90) / √[(42 - 36) × (231 - 225)]

r = 6 / √[6 × 6]

r = 6 / 6 = 1

В този пример коефициентът на корелация на Пиърсън е 1, което показва перфектна положителна линейна връзка между променливите x и y.

Този подход "стъпка по стъпка" може да се приложи към всяка съвкупност от данни за ръчно изчисляване на корелацията на Пиърсън. Въпреки това софтуерни инструменти като Excel, Python, или статистически пакети, които често автоматизират този процес за по-големи набори от данни.

Защо корелацията на Пиърсън е важна за статистическия анализ

В областта на научните изследвания

Сайтът Корелация на Пирсън е ключов статистически инструмент в научните изследвания за идентифициране и количествено определяне на силата и посоката на линейните връзки между две непрекъснати променливи. Той помага на изследователите да разберат дали и колко силно са свързани две променливи, което може да даде представа за моделите и тенденциите в наборите от данни.

Корелацията на Пиърсън помага на изследователите да определят дали променливите се движат заедно по последователен начин - положително или отрицателно. Например в набор от данни, измерващ времето за учене и резултатите от изпитите, силна положителна корелация на Пиърсън би означавала, че увеличеното време за учене е свързано с по-високи резултати от изпитите. Обратно, отрицателната корелация може да означава, че с увеличаването на едната променлива, другата намалява.

Примери за използване в различни области на научните изследвания:

Психология: Корелацията на Пиърсън често се използва за изследване на връзките между променливи като нивата на стрес и когнитивните резултати. Изследователите могат да преценят как увеличаването на стреса може да повлияе на паметта или на способностите за решаване на проблеми.

Икономика: Икономистите използват корелацията на Пиърсън, за да изследват връзката между променливи, като например доход и потребление или инфлация и безработица, и да разберат как икономическите фактори си влияят взаимно.

Медицина: В медицинските изследвания корелацията на Пиърсън може да определи връзките между различни здравни показатели. Например, изследователите могат да проучат връзката между нивата на кръвното налягане и риска от сърдечни заболявания, което ще помогне за ранното откриване и стратегиите за превантивни грижи.

Наука за околната среда: Корелацията на Пирсън е полезна за изследване на връзките между променливите на околната среда, като например температурата и реколтата, което позволява на учените да моделират въздействието на изменението на климата върху селското стопанство.

Като цяло корелацията на Пирсън е важен инструмент в различни изследователски области за разкриване на значими връзки и насочване на бъдещи проучвания, интервенции или политически решения.

В ежедневието

Разбиране на Корелация на Пирсън може да бъде изключително полезен при вземането на решения в ежедневието, тъй като помага да се идентифицират моделите и връзките между различните променливи, които оказват влияние върху нашата рутина и избор.

Практически приложения и примери:

Фитнес и здраве: Корелацията на Пиърсън може да се приложи, за да се оцени връзката между различни фактори, като например честотата на тренировките и загубата на тегло. Например проследяването на тренировъчните навици и телесното тегло с течение на времето може да разкрие положителна корелация между редовната физическа активност и намаляването на теглото.

Лични финанси: При бюджетирането корелацията на Пирсън може да помогне за анализиране на връзката между навиците за харчене и спестяванията. Ако някой проследява месечните си разходи и размера на спестяванията си, може да открие отрицателна корелация, което означава, че с увеличаването на разходите спестяванията намаляват.

Времето и настроението: Друга ежедневна употреба на корелацията може да бъде разбирането на влиянието на времето върху настроението. Например може да съществува положителна корелация между слънчевите дни и по-доброто настроение, докато дъждовните дни могат да се свързват с по-ниски нива на енергия или тъга.

Управление на времето: Чрез сравняване на часовете, прекарани в изпълнение на конкретни задачи (напр. време за учене), и резултатите от производителността или изпълнението (напр. оценки или ефективност на работата), корелацията на Пиърсън може да помогне на хората да разберат как разпределението на времето влияе върху резултатите.

Ползи от разбирането на корелациите в общи сценарии:

Подобрено вземане на решения: Познаването на връзката между променливите позволява на хората да вземат информирани решения. Например разбирането на взаимовръзката между храненето и здравето може да доведе до по-добри хранителни навици, които насърчават благосъстоянието.

Оптимизиране на резултатите: Хората могат да използват корелациите, за да оптимизират рутинните си дейности, като например да открият как продължителността на съня корелира с производителността и да коригират графиците за сън по подходящ начин, за да увеличат ефективността си.

Идентифициране на модели: Разпознаването на моделите в ежедневните дейности (като например връзката между времето, прекарано пред екрана, и напрежението в очите) може да помогне на хората да променят поведението си, за да намалят отрицателните ефекти и да подобрят цялостното качество на живот.

Прилагането на концепцията за корелацията на Пирсън в ежедневието позволява на хората да получат ценна информация за това как си взаимодействат различните аспекти на техните ежедневни дейности, което им позволява да правят проактивни избори, които подобряват здравето, финансите и благосъстоянието.

Тълкуване на корелацията на Пиърсън

Стойности и значение

Сайтът Коефициент на корелация на Пиърсън (r) варира от -1 до 1, а всяка стойност дава представа за естеството и силата на връзката между две променливи. Разбирането на тези стойности помага при тълкуването на посоката и степента на корелация.

Стойности на коефициентите:

1: Стойност от +1 показва перфектна положителна линейна връзка между две променливи, което означава, че с увеличаването на едната променлива, другата се увеличава напълно пропорционално.

-1: Стойност от -1 показва перфектна отрицателна линейна връзка, където при увеличаване на едната променлива другата намалява напълно пропорционално.

0: Стойност от 0 предлага няма линейна връзка между променливите, което означава, че промените в едната променлива не предвиждат промени в другата.

Положителни, отрицателни и нулеви корелации:

Положителна корелация: Когато r е положително (напр. 0,5), това означава, че двете променливи са склонни да се движат в една и съща посока. Например с повишаването на температурата продажбите на сладолед могат да се увеличат, което показва положителна корелация.

Отрицателна корелация: Когато r е отрицателно (напр. -0,7), това предполага, че променливите се движат в противоположни посоки. Пример за това може да бъде връзката между честотата на упражненията и процента на телесните мазнини: с увеличаване на упражненията телесните мазнини имат тенденция да намаляват.

Нулева корелация: An r на 0 означава, че има няма ясно изразена линейна зависимост между променливите. Например може да няма линейна зависимост между размера на обувките и интелигентността.

Като цяло:

от 0,7 до 1 или от -0,7 до -1 показва силен корелация.

0,3 до 0,7 или -0,3 до -0,7 отразява умерен корелация.

0 до 0,3 или -0,3 до 0 означава слаб корелация.

Разбирането на тези стойности позволява на изследователите и хората да определят колко тясно свързани са две променливи и дали връзката е достатъчно значима, за да изисква допълнително внимание или действие.

Ограничения

Докато Корелация на Пирсън е мощен инструмент за оценка на линейните връзки между променливите, той има ограничения и може да не е подходящ при всички сценарии.

Ситуации, при които корелацията на Пиърсън може да не е подходяща:

Нелинейни взаимоотношения: Корелацията на Пирсън измерва само линейни връзки, така че тя може да не отразява точно силата на връзката в случаите, когато връзката между променливите е крива или нелинейна. Например, ако променливите имат квадратична или експоненциална връзка, корелацията на Пиърсън може да подцени или да не успее да улови истинската връзка.

Отклонения: Наличието на отклонения (екстремни стойности) могат значително да изкривят резултатите от корелацията на Пирсън, като дават подвеждаща представа за цялостната връзка между променливите. Един-единствен краен резултат може изкуствено да завиши или да намали стойността на корелацията.

Непродължителни променливи: Корелацията на Пирсън предполага, че и двете променливи са непрекъснати и нормално разпределени. Тя може да не е подходяща за категоричен или ординални данни, където връзките не са непременно линейни или с цифров характер.

Хетероскедастичност: Когато променливостта на една променлива се различава в диапазона на друга (т.е. когато размахът на точките с данни не е постоянен), корелацията на Пирсън може да даде неточна оценка на връзката. Това условие е известно като хетероскедастичности това може да доведе до изкривяване на коефициента.

Ограничение само до линейни връзки: Корелацията на Пиърсън измерва силата и посоката на линейни връзки. Ако променливите са свързани по нелинеен начин, корелацията на Пирсън няма да открие това. Например, ако едната променлива се увеличава с нарастваща скорост спрямо другата (както при експоненциална или логаритмична връзка), корелацията на Пиърсън може да покаже слаба или нулева корелация, въпреки наличието на силна връзка.

За да се справят с тези ограничения, изследователите могат да използват други методи, като например Рангова корелация на Спирман за ординални данни или нелинейни регресионни модели за по-добро отразяване на сложните взаимоотношения. По същество, въпреки че корелацията на Пирсън е ценна за линейни връзки, тя трябва да се прилага с повишено внимание, като се гарантира, че данните отговарят на предположенията, необходими за точно тълкуване.

Как да използваме корелацията на Пиърсън

Инструменти и софтуер

Изчисляване на Корелация на Пирсън може да се извърши ръчно, но е много по-ефективно и практично да се използват статистически инструменти и софтуер. Тези инструменти могат бързо да изчислят коефициента на корелация на Пиърсън, да обработват големи набори от данни и да предлагат допълнителни статистически функции за цялостен анализ. Съществуват няколко популярни софтуера и инструменти за изчисляване на корелацията на Пиърсън:

Microsoft Excel: Широко използван инструмент с вградени функции за изчисляване на корелацията на Пиърсън, което го прави достъпен за основни статистически задачи.

SPSS (Статистически пакет за социални науки): Този мощен софтуер е предназначен за статистически анализ и се използва често в социалните науки и медицинските изследвания.

Език за програмиране R: Безплатен език за програмиране с отворен код, специално разработен за анализ на данни и статистика. R предлага широка гъвкавост и възможност за персонализиране.

Python (с библиотеки като Pandas и NumPy)): Питон е друг мощен език с отворен код за анализ на данни, с удобни за ползване библиотеки, които опростяват изчисляването на корелацията на Пиърсън.

GraphPad Prism: Този софтуер е популярен в биологичните науки и предлага интуитивен интерфейс за статистически анализ, включително корелация на Пирсън.

Основно ръководство за използване на тези инструменти за анализ:

Microsoft Excel:

  • Въведете данните си в две колони, по една за всяка променлива.
  • Използвайте вградената функция =CORREL(array1, array2), за да изчислите корелацията на Пиърсън между двете набори от данни.

SPSS:

  • Импортирайте данните си в SPSS.
  • Отидете на Анализиране > Корелация > Двумерна зависимост, и изберете променливите за анализ.
  • Изберете "Пиърсън" в опциите за коефициент на корелация и щракнете върху "OK".

Програмиране на R:

  • Въведете данните си в R като вектори или рамки от данни.
  • Използвайте функцията cor(x, y, method = "pearson"), за да изчислите корелацията на Пиърсън.

Python (Pandas/NumPy):

  • Заредете данните си с помощта на Pandas.
  • Използвайте df['variable1'].corr(df['variable2']), за да изчислите корелацията на Пиърсън между две колони.

GraphPad Prism:

  • Въведете данните си в софтуера.
  • Изберете опцията за анализ "Корелация", изберете корелацията на Пиърсън и софтуерът ще генерира коефициента на корелация заедно с визуална диаграма на разсейване.

Тези инструменти не само изчисляват коефициента на корелация на Пиърсън, но и предоставят графични резултати, р-стойности и други статистически мерки, които помагат за интерпретирането на данните. Разбирането на начина на използване на тези инструменти дава възможност за ефективен и точен корелационен анализ, който е от съществено значение за научните изследвания и вземането на решения, основани на данни.

Тук можете да намерите статистика за инфографиките и визуалния дизайн 

Практически съвети за използване на Pearson Correlation

Подготовка на данните и проверки преди изчисляване на корелацията:

Гарантиране на качеството на данните: Проверете дали данните ви са точни и пълни. Проверете и обърнете внимание на липсващите стойности, тъй като те могат да изкривят резултатите. Непълните данни могат да доведат до неправилни корелационни коефициенти или до подвеждащи интерпретации.

Проверка за линейност: Корелацията на Пиърсън измерва линейни връзки. Преди да започнете изчисленията, нанесете данните си на графиката на разпръскване, за да прецените визуално дали връзката между променливите е линейна. Ако данните показват нелинеен модел, помислете за алтернативни методи, като например рангова корелация на Спирман или нелинейна регресия.

Проверка на нормалността: Корелацията на Пирсън предполага, че данните за всяка променлива са приблизително нормално разпределени. Въпреки че е донякъде устойчива на отклонения от нормалността, значителните отклонения могат да повлияят на надеждността на резултатите. Използвайте хистограми или тестове за нормалност, за да проверите разпределението на вашите данни.

Стандартизиране на данните: Ако променливите се измерват с различни единици или скали, помислете за тяхното стандартизиране. Тази стъпка гарантира, че сравнението не е изкривено от скалата на измерване, въпреки че самата корелация на Пирсън е инвариантна по отношение на скалата.

Често срещани грешки, които трябва да се избягват при интерпретиране на резултатите:

Надценяване на силата: Високият коефициент на корелация на Пиърсън не означава причинно-следствена връзка. Корелацията измерва само силата на линейната връзка, а не дали една променлива предизвиква промени в друга. Избягвайте да правите прибързани заключения за причинно-следствената връзка само въз основа на корелацията.

Пренебрегване на отклоненията: Извънредните стойности могат да окажат непропорционално влияние върху коефициента на корелация на Пиърсън, което води до подвеждащи резултати. Идентифицирайте и оценете влиянието на отклоненията върху вашия анализ. Понякога премахването или коригирането на отклоненията може да осигури по-ясна картина на връзката.

Погрешно тълкуване на нулевата корелация: Нулевата корелация на Пиърсън показва, че няма линейна връзка, но не означава, че изобщо няма връзка. Променливите все пак може да са свързани по нелинеен начин, така че помислете за други статистически методи, ако подозирате нелинейна връзка.

Объркване на корелацията с причинно-следствената връзка: Не забравяйте, че корелацията не означава причинно-следствена връзка. Две променливи може да са свързани поради влиянието на трета, ненаблюдавана променлива. Винаги вземайте предвид по-широкия контекст и използвайте допълнителни методи, за да проучите потенциалните причинно-следствени връзки.

Пренебрегване на размера на извадката: Малките размери на извадките могат да доведат до нестабилни и ненадеждни оценки на корелацията. Уверете се, че размерът на извадката ви е достатъчен, за да осигури надеждна оценка на корелацията. По-големите извадки обикновено осигуряват по-точни и стабилни коефициенти на корелация.

Основни изводи и съображения

Корелацията на Пиърсън е основен статистически инструмент, използван за измерване на силата и посоката на линейните връзки между две непрекъснати променливи. Тя дава ценни сведения в различни области - от научните изследвания до ежедневието, като помага да се идентифицират и определят количествено връзките в данните. Разбирането на това как правилно да се изчислява и тълкува корелацията на Пиърсън позволява на изследователите и хората да вземат информирани решения въз основа на силата на връзките между променливите.

От решаващо значение обаче е да се признаят нейните ограничения, по-специално фокусът върху линейните връзки и чувствителността към отклонения. Правилната подготовка на данните и избягването на често срещани капани, като например бъркането на корелация с причинно-следствена връзка, са от съществено значение за точния анализ. Правилното използване на корелацията на Pearson и отчитането на нейните ограничения ви позволява ефективно да използвате този инструмент, за да получите значими прозрения и да вземете по-добри решения.

Прегледайте над 75 000 научно точни илюстрации в над 80 популярни области

Mind the Graph е мощен инструмент, предназначен да подпомага учените при визуалното представяне на сложни резултати от изследвания. С достъп до над 75 000 научно точни илюстрации в над 80 популярни области изследователите могат лесно да намерят визуални елементи, които да подобрят техните презентации, документи и доклади. Широкият набор от илюстрации на платформата гарантира, че учените могат да създават ясни, завладяващи визуални материали, съобразени с конкретната им област на изследване, независимо дали става въпрос за биология, химия, медицина или други дисциплини. Тази огромна библиотека не само спестява време, но и позволява по-ефективно предаване на данни, като прави научната информация достъпна и разбираема както за експертите, така и за широката общественост.

"Анимиран GIF, показващ над 80 научни области, достъпни в Mind the Graph, включително биология, химия, физика и медицина, което илюстрира гъвкавостта на платформата за изследователи."
Анимиран GIF, представящ широкия спектър от научни области, обхванати от Mind the Graph.
абонамент за лого

Абонирайте се за нашия бюлетин

Ексклузивно висококачествено съдържание за ефективни визуални
комуникация в областта на науката.

- Ексклузивно ръководство
- Съвети за дизайн
- Научни новини и тенденции
- Уроци и шаблони