Регресійний аналіз - це підхід для виявлення та аналізу зв'язку між однією або кількома незалежними змінними та залежною змінною. Цей метод широко використовується в різних дисциплінах, включаючи охорону здоров'я, соціальні науки, інженерію, економіку та бізнес. За допомогою регресійного аналізу можна досліджувати фундаментальні взаємозв'язки в даних і розробляти прогнозні моделі, які допоможуть вам приймати обґрунтовані рішення.

У цій статті ви отримаєте вичерпний огляд регресійного аналізу, в тому числі, як він працює, на простому для розуміння прикладі, а також дізнаєтесь, чим він відрізняється від кореляційного аналізу.

Що таке регресійний аналіз?

Регресійний аналіз - це статистичний метод для виявлення та кількісної оцінки зв'язку між залежною змінною та однією або кількома незалежними змінними. Коротко кажучи, він допомагає зрозуміти, як зміни в одній або декількох незалежних змінних пов'язані зі змінами в залежній змінній.

Щоб отримати повне уявлення про регресійний аналіз, ви повинні спочатку розібратися з наступними термінами:

  • Залежна змінна: Це змінна, яку ви зацікавлені проаналізувати або передбачити. Це змінна результату, яку ви намагаєтеся зрозуміти і пояснити.
  • Незалежні змінні: Це змінні, які, на вашу думку, впливають на залежну змінну. Їх часто називають змінними-предикторами, оскільки вони використовуються для прогнозування або пояснення змін у залежній змінній.

Регресійний аналіз може бути використаний для цілого ряду обставин, включаючи прогнозування майбутніх значень залежної змінної, розуміння впливу незалежних змінних на залежну змінну, а також для виявлення відхилень або незвичайних випадків у зборі даних.

Регресійний аналіз можна класифікувати на кілька типів, включаючи одиночну лінійну регресію, логістичну регресію, поліноміальну регресію та множинну регресію. Відповідна регресійна модель визначається характером даних і предметом дослідження, що розглядається.

Як працює регресійний аналіз?

Метою регресійного аналізу є визначення найкращої лінії або кривої, яка відображає зв'язок між незалежними змінними та залежною змінною. Ця найкраща лінія або крива генерується за допомогою статистичних методів, які зменшують розбіжності між очікуваними та реальними значеннями в процесі збору даних.

Ось формули для двох найпоширеніших типів регресійного аналізу:

Однолінійна регресія

У простій лінійній регресії ви використовуєте лінію найкращої відповідності, щоб показати зв'язок між двома змінними: незалежною змінною (x) і залежною змінною (y).

Лінія найкращої відповідності може бути представлена рівнянням: y = a + bx.

Тут a - перехват, b - нахил лінії. Для обчислення нахилу використовується формула: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), де n - кількість спостережень, Σxy - сума добутку x та y, Σx та Σy - суми x та y відповідно, а Σ(x2) - це сума квадратів x.

Для розрахунку перехоплення використовується формула: a = (Σy - bΣx) / n.

Множинна регресія 

Множинна лінійна регресія:

Формула для рівняння моделі множинної лінійної регресії має вигляд:

y = b0 + b1x1 + b2x2 + ... + bnxn

де y - залежна змінна, x1, x2, ..., xn незалежні змінні, а b0, b1, b2, ..., bn - коефіцієнти при незалежних змінних.

Формула для оцінки коефіцієнтів за методом найменших квадратів має вигляд:

β = (X'X)(-1)X'y

де β - вектор-стовпець коефіцієнтів, X - матриця дизайну незалежних змінних, X' - транспонування X, а y - вектор спостережень залежної змінної.

Приклад регресійного аналізу

Припустимо, ви хочете дослідити зв'язок між середнім балом (GPA) студента та кількістю годин, які він навчається на тиждень. Ви збираєте інформацію про студентів, включаючи кількість навчальних годин і середній бал.

Потім за допомогою регресійного аналізу перевірте, чи існує лінійний зв'язок між обома змінними, і якщо так, ви можете побудувати модель, яка прогнозує середній бал студента на основі кількості годин, які він навчається на тиждень.

Зображення доступне на alchemer.com

Коли дані наносяться на карту розсіювання, виявляється, що існує сприятливий лінійний зв'язок між навчальними годинами та середнім балом. Нахил і перехват лінії найкращої відповідності оцінюються за допомогою простої лінійної регресійної моделі. Остаточне рішення може виглядати так:

Середній бал = 2.0 + 0.3 (години навчання на тиждень)

Зображення доступне на alchemer.com

Це рівняння стверджує, що за кожну додаткову годину навчання на тиждень середній бал студента зростає на 0,3 бала, за інших рівних умов. Цей алгоритм можна використовувати для прогнозування середнього балу студента залежно від того, скільки годин він навчається на тиждень, а також для того, щоб визначити, які студенти схильні до ризику незадовільної успішності, виходячи з їхніх навчальних планів. 

Використовуючи дані з прикладу, значення для b і a наступні:

n = 10 (кількість спостережень)

Σx = 30 (сума навчальних годин)

Σy = 25 (сума середніх балів)

Σxy = 149 (сума добутку кількості навчальних годин та середнього балу)

Σ(x)2 = 102 (сума квадратів навчальних годин)

Використовуючи ці значення, обчисліть b як:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

І вирахувати a як:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Отже, рівняння лінії найкращого прилягання має вигляд: 

Середній бал = 2.0 + 0.3 (години навчання на тиждень)

У чому різниця між кореляцією та регресією?

І кореляція, і регресія - це статистичні методи дослідження зв'язку між двома змінними. Вони служать різним цілям і надають різні типи інформації.

Кореляція - це міра сили і характеру зв'язку між двома змінними. Вона коливається від -1 до +1, де -1 означає ідеальну негативну кореляцію, 0 - відсутність кореляції, а +1 - ідеальну позитивну кореляцію. Кореляція вказує на ступінь зв'язку між двома змінними, але не вказує на причину або передбачуваність.

З іншого боку, регресія - це метод моделювання зв'язку між двома змінними, як правило, з метою прогнозування або пояснення однієї змінної на основі іншої. Регресійний аналіз дозволяє оцінити розмір і напрямок зв'язку, а також перевірити статистичну значущість, довірчі діапазони і спрогнозувати майбутні результати.

Ваші творіння будуть готові за лічені хвилини

Mind the Graph це онлайн-платформа, яка пропонує вам велику бібліотеку наукових ілюстрацій та інфографіки, які можна легко модифікувати відповідно до ваших унікальних потреб. Створюйте професійні діаграми, плакати та графічні анотації за лічені хвилини за допомогою інтерфейсу перетягування та широкого спектру інструментів і функцій. 

logo-subscribe

Підпишіться на нашу розсилку

Ексклюзивний високоякісний контент про ефективну візуальну
комунікація в науці.

- Ексклюзивний путівник
- Поради щодо дизайну
- Наукові новини та тенденції
- Підручники та шаблони