Регрессионный анализ - это подход к выявлению и анализу связи между одной или несколькими независимыми переменными и зависимой переменной. Этот метод широко используется в различных дисциплинах, включая здравоохранение, социальные науки, инженерное дело, экономику и бизнес. Вы можете использовать регрессионный анализ для исследования фундаментальных взаимосвязей в данных и разработки прогнозных моделей, которые помогут вам принимать обоснованные решения.

В этой статье вы получите исчерпывающий обзор регрессионного анализа, включая принцип его работы, простой для понимания пример, а также объяснение того, чем он отличается от корреляционного анализа.

Что такое регрессионный анализ?

Регрессионный анализ - это статистический метод выявления и количественной оценки связи между зависимой переменной и одной или несколькими независимыми переменными. В двух словах, он помогает понять, как изменения в одной или нескольких независимых переменных связаны с изменениями в зависимой переменной.

Чтобы получить глубокое понимание регрессионного анализа, необходимо сначала разобраться в следующих терминах:

  • Зависимая переменная: Это переменная, которую вы хотите проанализировать или спрогнозировать. Это переменная результата, которую вы пытаетесь понять и объяснить.
  • Независимые переменные: Это переменные, которые, по вашему мнению, влияют на зависимую переменную. Их часто называют переменными-предсказателями, поскольку они используются для прогнозирования или объяснения изменений в зависимой переменной.

Регрессионный анализ может использоваться в различных обстоятельствах, включая прогнозирование будущих значений зависимой переменной, понимание влияния независимых переменных на зависимую переменную, а также поиск выбросов или необычных случаев при сборе данных.

Регрессионный анализ можно разделить на несколько типов, включая одиночную линейную регрессию, логистическую регрессию, полиномиальную регрессию и множественную регрессию. Подходящая регрессионная модель определяется характером данных и рассматриваемым объектом исследования.

Как работает регрессионный анализ?

Целью регрессионного анализа является определение наиболее подходящей линии или кривой, которая отражает связь между независимыми переменными и зависимой переменной. Эта линия или кривая наилучшего соответствия строится с помощью статистических методов, которые уменьшают расхождения между ожидаемыми и реальными значениями при сборе данных.

Ниже приведены формулы для двух наиболее распространенных типов регрессионного анализа:

Одиночная линейная регрессия

В простой линейной регрессии вы используете линию наилучшего соответствия, чтобы показать связь между двумя переменными: независимой переменной (x) и зависимой переменной (y).

Линия наилучшего соответствия может быть представлена уравнением: y = a + bx.

Здесь a - перехват, b - наклон линии. Для расчета наклона используется формула: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), где n - число наблюдений, Σxy - сумма произведения x и y, Σx и Σy - суммы x и y соответственно, и Σ(x2) является суммой квадратов x.

Для расчета перехвата используется формула: a = (Σy - bΣx) / n.

Множественная регрессия 

Множественная линейная регрессия:

Формула для уравнения модели множественной линейной регрессии имеет вид:

y = b0 + b1x1 + b2x2 + ... + bnxn

где y - зависимая переменная, x1, x2, ..., xn являются независимыми переменными, а b0, b1, b2, ..., bn - коэффициенты независимых переменных.

Формула для оценки коэффициентов с помощью обыкновенных наименьших квадратов имеет вид:

β = (X'X)(-1)X'y

где β - вектор коэффициентов, X - расчетная матрица независимых переменных, X' - транспонирование X, а y - вектор наблюдений зависимой переменной.

Пример регрессионного анализа

Предположим, вы хотите изучить связь между средним баллом успеваемости (GPA) человека и количеством часов, которые он занимается в неделю. Вы собираете информацию от нескольких студентов, включая их количество учебных часов и средний балл.

Затем используйте регрессионный анализ, чтобы проверить, существует ли линейная связь между обеими переменными, и если да, то вы можете построить модель, которая предсказывает средний балл студента на основе количества часов, которые он занимается в неделю.

Изображение доступно на alchemer.com

При нанесении данных на карту разброса выясняется, что существует благоприятная линейная связь между учебными часами и средним баллом успеваемости. Затем наклон и перехват линии наилучшего соответствия оцениваются с помощью простой линейной регрессионной модели. Окончательное решение может выглядеть следующим образом:

GPA = 2,0 + 0,3 (часы, изучаемые в неделю)

Изображение доступно на alchemer.com

Это уравнение утверждает, что за каждый дополнительный час учебы в неделю средний балл студента повышается на 0,3 балла, при прочих равных условиях. Этот алгоритм можно использовать для прогнозирования среднего балла студента на основе того, сколько часов он занимается в неделю, а также для определения того, какие студенты подвержены риску неуспеваемости на основе их учебного распорядка. 

Используя данные из примера, значения для b и a следующие:

n = 10 (количество наблюдений)

Σx = 30 (сумма учебных часов)

Σy = 25 (сумма средних баллов)

Σxy = 149 (сумма произведения учебных часов и среднего балла)

Σ(x)2 = 102 (сумма квадратов учебных часов)

Используя эти значения, рассчитайте b как:

b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

И рассчитать a как:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

Таким образом, уравнение линии наилучшего соответствия имеет вид: 

GPA = 2,0 + 0,3 (часы, изучаемые в неделю)

В чем разница между корреляцией и регрессией?

И корреляция, и регрессия - это статистические методы изучения связи между двумя переменными. Они служат разным целям и предоставляют разные типы информации.

Корреляция - это мера силы и характера связи между двумя переменными. Она варьируется от -1 до +1, при этом -1 означает идеальную отрицательную корреляцию, 0 - отсутствие корреляции, а +1 - идеальную положительную корреляцию. Корреляция указывает на степень связи между двумя переменными, но не указывает на причину или предсказуемость.

С другой стороны, регрессия - это метод моделирования связи между двумя переменными, обычно для того, чтобы спрогнозировать или объяснить одну переменную на основе другой. Регрессионный анализ может дать оценку размера и направления связи, а также тесты статистической значимости, доверительные интервалы и прогнозы будущих результатов.

Ваши творения, готовые в течение нескольких минут

Mind the Graph это онлайн-платформа, которая предлагает вам обширную библиотеку научных иллюстраций и инфографики, которые могут быть просто изменены в соответствии с вашими уникальными потребностями. Создавайте профессионально выглядящие диаграммы, плакаты и графические рефераты за считанные минуты, используя интерфейс drag-and-drop и широкий набор инструментов и функций. 

логотип-подписка

Подпишитесь на нашу рассылку

Эксклюзивный высококачественный контент об эффективных визуальных
коммуникация в науке.

- Эксклюзивный гид
- Советы по дизайну
- Научные новости и тенденции
- Учебники и шаблоны