Използване на регресионен анализ за разбиране на сложни взаимоотношения

Регресионният анализ е подход за определяне и анализиране на връзката между една или повече независими променливи и зависима променлива. Този метод се използва широко в различни дисциплини, включително в здравеопазването, социалните науки, инженерството, икономиката и бизнеса. Можете да използвате регресионния анализ, за да изследвате основните връзки в данните и да разработвате прогнозни модели, които ще ви помогнат да вземате информирани решения.

В тази статия ще намерите подробен преглед на регресионния анализ, включително как работи, лесен за разбиране пример и ще ви обясним по какво се различава от корелационния анализ.

Какво представлява регресионният анализ?

Регресионният анализ е статистически метод за установяване и количествено определяне на връзката между зависима променлива и една или повече независими променливи. Накратко, той ви помага да разберете как промените в една или повече независими променливи са свързани с промените в зависимата променлива.

За да разберете добре регресионния анализ, първо трябва да разберете следните термини:

Зависима променлива: Това е променливата, която искате да анализирате или прогнозирате. Това е променливата на резултата, която се опитвате да разберете и обясните.
Независими променливи: Това са променливите, които според вас оказват влияние върху зависимата променлива. Те често се наричат прогнозни променливи, тъй като се използват за прогнозиране или обяснение на промените в зависимата променлива.

Регресионният анализ може да се използва при редица обстоятелства, включително за прогнозиране на бъдещи стойности на зависимата променлива, за разбиране на ефекта на независимите променливи върху зависимата променлива и за откриване на отклонения или необичайни случаи при събирането на данни.

Регресионният анализ може да бъде класифициран в няколко вида, включително единична линейна регресия, логистична регресия, полиномна регресия и множествена регресия. Подходящият регресионен модел се определя от естеството на данните и разглеждания предмет на изследването.

Как работи регресионният анализ?

Целта на регресионния анализ е да се определи най-добре прилягащата линия или крива, която отразява връзката между независимите променливи и зависимата променлива. Тази най-добре прилягаща линия или крива се генерира с помощта на статистически методи, които намаляват несъответствията между очакваните и реалните стойности при събирането на данни.

Ето формулите за двата най-разпространени вида регресионен анализ:

Единична линейна регресия

При простата линейна регресия се използва линия на най-добро съответствие, за да се покаже връзката между две променливи: независимата променлива (x) и зависимата променлива (y).

Линията на най-добро прилягане може да бъде представена чрез уравнението: y = a + bx.

Тук a е пресечната точка, а b е наклонът на линията. За да се изчисли наклонът, се използва формулата: b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²), където n е броят на наблюденията, Σxy е сумата на произведението на x и y, Σx и Σy са сумите съответно на x и y, а Σ(x²) е сумата от квадратите на x.

За да изчислите пресечната точка, използвайте формулата: a = (Σy - bΣx) / n.

Множествена регресия

Множествена линейна регресия:

Формулата за уравнението на модела на множествена линейна регресия е:

y = b₀ + b₁x₁ + b₂x₂ + ... + b_nx_n

където y е зависимата променлива, x₁, x₂, ..., x_n са независимите променливи, а b₀, b₁, b₂, ..., bn са коефициентите на независимите променливи.

Формулата за оценяване на коефициентите чрез обикновени най-малки квадрати е:

β = (X'X)^(-1)X'y

където β е вектор на коефициентите в колона, X е матрицата на независимите променливи, X' е транспозицията на X, а y е вектор на наблюденията на зависимата променлива.

Пример за регресионен анализ

Да предположим, че искате да проучите връзката между средния успех (GPA) на даден човек и броя на часовете, които той учи седмично. Събирате информация от набор от ученици, включително броя на учебните им часове и средния им успех.

След това използвайте регресионен анализ, за да проверите дали има линейна връзка между двете променливи, и ако е така, можете да създадете модел, който да прогнозира средния успех на ученика въз основа на броя на часовете, които той учи седмично.

*Изображението е достъпно в alchemer.com*

Когато данните се нанесат на карта на разсейване, се оказва, че съществува благоприятна линейна връзка между учебните часове и средния успех. След това наклонът и пресечната точка на линията на най-добро съответствие се оценяват с помощта на прост линеен регресионен модел. Окончателното решение може да изглежда по следния начин:

GPA = 2,0 + 0,3 (часове, изучавани седмично)

Това уравнение гласи, че за всеки допълнителен час учене седмично средният успех на ученика ще се повиши с 0,3 точки, като всичко останало е равностойно. Този алгоритъм може да се използва за прогнозиране на средния успех на учениците въз основа на броя на часовете, в които учат седмично, както и за определяне на учениците, които са изложени на риск от влошаване на резултатите въз основа на техните учебни навици.

Използвайки данните от примера, стойностите за b и a са следните:

n = 10 (броят на наблюденията)

Σx = 30 (сборът от учебните часове)

Σy = 25 (сумата от средните стойности на ГПД)

Σxy = 149 (сумата от произведението на учебните часове и средния успех)

Σ(x)² = 102 (сумата от квадратите на учебните часове)

Като използвате тези стойности, изчислете b като:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)

= (10 * 149 – 30 * 25) / (10 * 102 – 30²)

= 0.3

И изчислете a като:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Следователно уравнението на линията на най-добро прилягане е:

GPA = 2,0 + 0,3 (часове, изучавани седмично)

Каква е разликата между корелация и регресия?

Както корелацията, така и регресията са статистически методи за изследване на връзката между две променливи. Те служат за различни цели и предоставят различни видове информация.

Корелацията е мярка за силата и хода на връзката между две променливи. Тя варира от -1 до +1, като -1 представлява перфектна отрицателна корелация, 0 - липса на корелация, а +1 - перфектна положителна корелация. Корелацията показва степента, в която две променливи са свързани, но не показва причина или предвидимост.

От друга страна, регресията е метод за моделиране на връзката между две променливи, обикновено с цел прогнозиране или обяснение на едната променлива въз основа на другата. Регресионният анализ може да осигури оценки на размера и посоката на връзката, както и тестове за статистическа значимост, доверителни интервали и прогнози за бъдещи резултати.

Вашите творения, готови за няколко минути

Mind the Graph е онлайн платформа, която ви предлага богата библиотека от научни илюстрации и инфографични дизайни, които могат просто да бъдат модифицирани, за да отговорят на вашите уникални нужди. Изготвяйте професионално изглеждащи диаграми, постери и графични резюмета за минути, като използвате интерфейса "плъзгане и пускане" и широк набор от инструменти и функции.