Регресионният анализ е подход за идентифициране и анализиране на връзката между една или повече независими променливи и зависима променлива. Този метод се използва широко в различни дисциплини, включително в здравеопазването, социалните науки, инженеринг, икономика и бизнес. Можете да използвате регресионния анализ, за да изследвате основните връзки в данните и да разработвате прогнозни модели, които ще ви помогнат да вземате информирани решения.

В тази статия ще намерите подробен преглед на регресионния анализ, включително как работи, лесен за разбиране пример и ще ви обясним по какво се различава от корелационния анализ.

Какво представлява регресионният анализ?

Регресионният анализ е статистически метод за установяване и количествено определяне на връзката между зависима променлива и една или повече независими променливи. Накратко, той ви помага да разберете как промените в една или повече независими променливи са свързани с промените в зависимата променлива.

За да разберете добре регресионния анализ, първо трябва да разберете следните термини:

  • Зависима променлива: Това е променливата, която искате да анализирате или прогнозирате. Това е променливата на резултата, която се опитвате да разберете и обясните.
  • Независими променливи: Това са променливите, които според вас оказват влияние върху зависимата променлива. Те често се наричат прогнозни променливи, тъй като се използват за прогнозиране или обяснение на промените в зависимата променлива.

Регресионният анализ може да се използва при редица обстоятелства, включително за прогнозиране на бъдещи стойности на зависимата променлива, за разбиране на ефекта на независимите променливи върху зависимата променлива и за откриване на отклонения или необичайни случаи при събирането на данни.

Регресионният анализ може да се раздели на няколко вида видове, включително единична линейна регресия, логистична регресия, полиномна регресия и множествена регресия. Подходящият регресионен модел се определя от природа на данните и разглеждания предмет на разследването.

Как работи регресионният анализ?

Целта на регресионния анализ е да се определи най-добре прилягащата линия или крива, която отразява връзката между независимите променливи и зависимата променлива. Тази най-добре прилягаща линия или крива се генерира с помощта на статистически методи, които намаляват несъответствията между очакваните и реалните стойности при събирането на данни.

Ето формулите за двата най-разпространени вида регресионен анализ:

Единична линейна регресия

При простата линейна регресия се използва линия на най-добро съответствие, за да се покаже връзката между две променливи: независимата променлива (x) и зависимата променлива (y).

Линията на най-добро прилягане може да бъде представена чрез уравнението: y = a + bx.

Тук a е пресечната точка, а b е наклонът на линията. За да се изчисли наклонът, се използва формулата: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), където n е броят на наблюденията, Σxy е сумата на произведението на x и y, Σx и Σy са сумите съответно на x и y, а Σ(x2) е сумата от квадратите на x.

За да изчислите пресечната точка, използвайте формулата: a = (Σy - bΣx) / n.

Множествена регресия 

Множествена линейна регресия:

Формулата за уравнението на модела на множествена линейна регресия е:

y = b0 + b1x1 + b2x2 + ... + bnxn

където y е зависимата променлива, x1, x2, ..., xn са независимите променливи, а b0, b1, b2, ..., bn са коефициентите на независимите променливи.

Формулата за оценяване на коефициентите чрез обикновени най-малки квадрати е:

β = (X'X)(-1)X'y

където β е вектор на коефициентите в колона, X е матрицата на независимите променливи, X' е транспозицията на X, а y е вектор на наблюденията на зависимата променлива.

Пример за регресионен анализ

Да предположим, че искате да проучите връзката между средния успех (GPA) на даден човек и броя на часовете, които той учи седмично. Събирате информация от набор от ученици, включително броя на учебните им часове и средния им успех.

След това използвайте регресионен анализ, за да проверите дали има линейна връзка между двете променливи, и ако е така, можете да създадете модел, който да прогнозира средния успех на ученика въз основа на броя на часовете, които той учи седмично.

Използване на регресионен анализ за разбиране на сложни взаимоотношения
Изображението е достъпно в alchemer.com

Когато данните се нанесат на карта на разсейване, се оказва, че съществува благоприятна линейна връзка между учебните часове и средния успех. След това наклонът и пресечната точка на линията на най-добро съответствие се оценяват с помощта на прост линеен регресионен модел. Окончателното решение може да изглежда по следния начин:

GPA = 2,0 + 0,3 (часове, изучавани седмично)

Използване на регресионен анализ за разбиране на сложни взаимоотношения
Изображението е достъпно в alchemer.com

Това уравнение гласи, че за всеки допълнителен час учене седмично средният успех на ученика ще се повиши с 0,3 точки, като всичко останало е равностойно. Този алгоритъм може да се използва за прогнозиране на средния успех на учениците въз основа на броя на часовете, в които учат седмично, както и за определяне на учениците, които са изложени на риск от влошаване на резултатите въз основа на техните учебни навици. 

Използвайки данните от примера, стойностите за b и a са следните:

n = 10 (броят на наблюденията)

Σx = 30 (сборът от учебните часове)

Σy = 25 (сумата от средните стойности на ГПД)

Σxy = 149 (сумата от произведението на учебните часове и средния успех)

Σ(x)2 = 102 (сумата от квадратите на учебните часове)

Като използвате тези стойности, изчислете b като:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 - 30 * 25) / (10 * 102 - 302)

= 0.3

И изчислете a като:

a = (Σy - bΣx) / n

= (25 - 0.3 * 30) / 10

= 2.0

Следователно уравнението на линията на най-добро прилягане е: 

GPA = 2,0 + 0,3 (часове, изучавани седмично)

Каква е разликата между корелация и регресия?

Както корелацията, така и регресията са статистически методи за изследване на връзката между две променливи. Те служат за различни цели и предоставят различни видове информация.

Корелацията е мярка за силата и хода на връзката между две променливи. Тя варира от -1 до +1, като -1 представлява перфектна отрицателна корелация, 0 - липса на корелация, а +1 - перфектна положителна корелация. Корелацията показва степента, в която две променливи са свързани, но не показва причина или предвидимост.

От друга страна, регресията е метод за моделиране на връзката между две променливи, обикновено с цел прогнозиране или обяснение на едната променлива въз основа на другата. Регресионният анализ може да осигури оценки на размера и посоката на връзката, както и статистически значимост тестове, доверителни интервали и прогнози за бъдещи резултати.

Вашите творения, готови за няколко минути

Mind the Graph е онлайн платформа, която ви предлага богата библиотека от научен илюстрации и инфографика дизайни, които могат просто да бъдат модифицирани, за да отговарят на вашите уникални нужди. Създавайте професионално изглеждащи диаграми, плакати и графичен абстракти за минути с помощта на интерфейс "плъзгане и пускане" и широк набор от инструменти и функции. 

Използване на регресионен анализ за разбиране на сложни взаимоотношения
абонамент за лого

Абонирайте се за нашия бюлетин

Ексклузивно висококачествено съдържание за ефективни визуални
комуникация в областта на науката.

- Ексклузивно ръководство
- Съвети за дизайн
- Научни новини и тенденции
- Уроци и шаблони