Регресионният анализ е подход за определяне и анализиране на връзката между една или повече независими променливи и зависима променлива. Този метод се използва широко в различни дисциплини, включително в здравеопазването, социалните науки, инженерството, икономиката и бизнеса. Можете да използвате регресионния анализ, за да изследвате основните връзки в данните и да разработвате прогнозни модели, които ще ви помогнат да вземате информирани решения.
В тази статия ще намерите подробен преглед на регресионния анализ, включително как работи, лесен за разбиране пример и ще ви обясним по какво се различава от корелационния анализ.
Какво представлява регресионният анализ?
Регресионният анализ е статистически метод за установяване и количествено определяне на връзката между зависима променлива и една или повече независими променливи. Накратко, той ви помага да разберете как промените в една или повече независими променливи са свързани с промените в зависимата променлива.
За да разберете добре регресионния анализ, първо трябва да разберете следните термини:
- Зависима променлива: Това е променливата, която искате да анализирате или прогнозирате. Това е променливата на резултата, която се опитвате да разберете и обясните.
- Независими променливи: Това са променливите, които според вас оказват влияние върху зависимата променлива. Те често се наричат прогнозни променливи, тъй като се използват за прогнозиране или обяснение на промените в зависимата променлива.
Регресионният анализ може да се използва при редица обстоятелства, включително за прогнозиране на бъдещи стойности на зависимата променлива, за разбиране на ефекта на независимите променливи върху зависимата променлива и за откриване на отклонения или необичайни случаи при събирането на данни.
Регресионният анализ може да бъде класифициран в няколко вида, включително единична линейна регресия, логистична регресия, полиномна регресия и множествена регресия. Подходящият регресионен модел се определя от естеството на данните и разглеждания предмет на изследването.
Как работи регресионният анализ?
Целта на регресионния анализ е да се определи най-добре прилягащата линия или крива, която отразява връзката между независимите променливи и зависимата променлива. Тази най-добре прилягаща линия или крива се генерира с помощта на статистически методи, които намаляват несъответствията между очакваните и реалните стойности при събирането на данни.
Ето формулите за двата най-разпространени вида регресионен анализ:
Единична линейна регресия
При простата линейна регресия се използва линия на най-добро съответствие, за да се покаже връзката между две променливи: независимата променлива (x) и зависимата променлива (y).
Линията на най-добро прилягане може да бъде представена чрез уравнението: y = a + bx.
Тук a е пресечната точка, а b е наклонът на линията. За да се изчисли наклонът, се използва формулата: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), където n е броят на наблюденията, Σxy е сумата на произведението на x и y, Σx и Σy са сумите съответно на x и y, а Σ(x2) е сумата от квадратите на x.
За да изчислите пресечната точка, използвайте формулата: a = (Σy - bΣx) / n.
Множествена регресия
Множествена линейна регресия:
Формулата за уравнението на модела на множествена линейна регресия е:
y = b0 + b1x1 + b2x2 + ... + bnxn
където y е зависимата променлива, x1, x2, ..., xn са независимите променливи, а b0, b1, b2, ..., bn са коефициентите на независимите променливи.
Формулата за оценяване на коефициентите чрез обикновени най-малки квадрати е:
β = (X'X)(-1)X'y
където β е вектор на коефициентите в колона, X е матрицата на независимите променливи, X' е транспозицията на X, а y е вектор на наблюденията на зависимата променлива.
Пример за регресионен анализ
Да предположим, че искате да проучите връзката между средния успех (GPA) на даден човек и броя на часовете, които той учи седмично. Събирате информация от набор от ученици, включително броя на учебните им часове и средния им успех.
След това използвайте регресионен анализ, за да проверите дали има линейна връзка между двете променливи, и ако е така, можете да създадете модел, който да прогнозира средния успех на ученика въз основа на броя на часовете, които той учи седмично.
Когато данните се нанесат на карта на разсейване, се оказва, че съществува благоприятна линейна връзка между учебните часове и средния успех. След това наклонът и пресечната точка на линията на най-добро съответствие се оценяват с помощта на прост линеен регресионен модел. Окончателното решение може да изглежда по следния начин:
GPA = 2,0 + 0,3 (часове, изучавани седмично)
Това уравнение гласи, че за всеки допълнителен час учене седмично средният успех на ученика ще се повиши с 0,3 точки, като всичко останало е равностойно. Този алгоритъм може да се използва за прогнозиране на средния успех на учениците въз основа на броя на часовете, в които учат седмично, както и за определяне на учениците, които са изложени на риск от влошаване на резултатите въз основа на техните учебни навици.
Използвайки данните от примера, стойностите за b и a са следните:
n = 10 (броят на наблюденията)
Σx = 30 (сборът от учебните часове)
Σy = 25 (сумата от средните стойности на ГПД)
Σxy = 149 (сумата от произведението на учебните часове и средния успех)
Σ(x)2 = 102 (сумата от квадратите на учебните часове)
Като използвате тези стойности, изчислете b като:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
И изчислете a като:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Следователно уравнението на линията на най-добро прилягане е:
GPA = 2,0 + 0,3 (часове, изучавани седмично)
Каква е разликата между корелация и регресия?
Както корелацията, така и регресията са статистически методи за изследване на връзката между две променливи. Те служат за различни цели и предоставят различни видове информация.
Корелацията е мярка за силата и хода на връзката между две променливи. Тя варира от -1 до +1, като -1 представлява перфектна отрицателна корелация, 0 - липса на корелация, а +1 - перфектна положителна корелация. Корелацията показва степента, в която две променливи са свързани, но не показва причина или предвидимост.
От друга страна, регресията е метод за моделиране на връзката между две променливи, обикновено с цел прогнозиране или обяснение на едната променлива въз основа на другата. Регресионният анализ може да осигури оценки на размера и посоката на връзката, както и тестове за статистическа значимост, доверителни интервали и прогнози за бъдещи резултати.
Вашите творения, готови за няколко минути
Mind the Graph е онлайн платформа, която ви предлага богата библиотека от научни илюстрации и инфографични дизайни, които могат просто да бъдат модифицирани, за да отговорят на вашите уникални нужди. Изготвяйте професионално изглеждащи диаграми, постери и графични резюмета за минути, като използвате интерфейса "плъзгане и пускане" и широк набор от инструменти и функции.
Абонирайте се за нашия бюлетин
Ексклузивно висококачествено съдържание за ефективни визуални
комуникация в областта на науката.