Регрессионный анализ - это подход к выявлению и анализу связи между одной или несколькими независимыми переменными и зависимой переменной. Этот метод широко используется в различных дисциплинах, включая здравоохранение, социальные науки, инженерное дело, экономику и бизнес. Вы можете использовать регрессионный анализ для исследования фундаментальных взаимосвязей в данных и разработки прогнозных моделей, которые помогут вам принимать обоснованные решения.
В этой статье вы получите исчерпывающий обзор регрессионного анализа, включая принцип его работы, простой для понимания пример, а также объяснение того, чем он отличается от корреляционного анализа.
Что такое регрессионный анализ?
Регрессионный анализ - это статистический метод выявления и количественной оценки связи между зависимой переменной и одной или несколькими независимыми переменными. В двух словах, он помогает понять, как изменения в одной или нескольких независимых переменных связаны с изменениями в зависимой переменной.
Чтобы получить глубокое понимание регрессионного анализа, необходимо сначала разобраться в следующих терминах:
- Зависимая переменная: Это переменная, которую вы хотите проанализировать или спрогнозировать. Это переменная результата, которую вы пытаетесь понять и объяснить.
- Независимые переменные: Это переменные, которые, по вашему мнению, влияют на зависимую переменную. Их часто называют переменными-предсказателями, поскольку они используются для прогнозирования или объяснения изменений в зависимой переменной.
Регрессионный анализ может использоваться в различных обстоятельствах, включая прогнозирование будущих значений зависимой переменной, понимание влияния независимых переменных на зависимую переменную, а также поиск выбросов или необычных случаев при сборе данных.
Регрессионный анализ можно разделить на несколько типов, включая одиночную линейную регрессию, логистическую регрессию, полиномиальную регрессию и множественную регрессию. Подходящая регрессионная модель определяется характером данных и рассматриваемым объектом исследования.
Как работает регрессионный анализ?
Целью регрессионного анализа является определение наиболее подходящей линии или кривой, которая отражает связь между независимыми переменными и зависимой переменной. Эта линия или кривая наилучшего соответствия строится с помощью статистических методов, которые уменьшают расхождения между ожидаемыми и реальными значениями при сборе данных.
Ниже приведены формулы для двух наиболее распространенных типов регрессионного анализа:
Одиночная линейная регрессия
В простой линейной регрессии вы используете линию наилучшего соответствия, чтобы показать связь между двумя переменными: независимой переменной (x) и зависимой переменной (y).
Линия наилучшего соответствия может быть представлена уравнением: y = a + bx.
Здесь a - перехват, b - наклон линии. Для расчета наклона используется формула: b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2), где n - число наблюдений, Σxy - сумма произведения x и y, Σx и Σy - суммы x и y соответственно, и Σ(x2) является суммой квадратов x.
Для расчета перехвата используется формула: a = (Σy - bΣx) / n.
Множественная регрессия
Множественная линейная регрессия:
Формула для уравнения модели множественной линейной регрессии имеет вид:
y = b0 + b1x1 + b2x2 + ... + bnxn
где y - зависимая переменная, x1, x2, ..., xn являются независимыми переменными, а b0, b1, b2, ..., bn - коэффициенты независимых переменных.
Формула для оценки коэффициентов с помощью обыкновенных наименьших квадратов имеет вид:
β = (X'X)(-1)X'y
где β - вектор коэффициентов, X - расчетная матрица независимых переменных, X' - транспонирование X, а y - вектор наблюдений зависимой переменной.
Пример регрессионного анализа
Предположим, вы хотите изучить связь между средним баллом успеваемости (GPA) человека и количеством часов, которые он занимается в неделю. Вы собираете информацию от нескольких студентов, включая их количество учебных часов и средний балл.
Затем используйте регрессионный анализ, чтобы проверить, существует ли линейная связь между обеими переменными, и если да, то вы можете построить модель, которая предсказывает средний балл студента на основе количества часов, которые он занимается в неделю.
При нанесении данных на карту разброса выясняется, что существует благоприятная линейная связь между учебными часами и средним баллом успеваемости. Затем наклон и перехват линии наилучшего соответствия оцениваются с помощью простой линейной регрессионной модели. Окончательное решение может выглядеть следующим образом:
GPA = 2,0 + 0,3 (часы, изучаемые в неделю)
Это уравнение утверждает, что за каждый дополнительный час учебы в неделю средний балл студента повышается на 0,3 балла, при прочих равных условиях. Этот алгоритм можно использовать для прогнозирования среднего балла студента на основе того, сколько часов он занимается в неделю, а также для определения того, какие студенты подвержены риску неуспеваемости на основе их учебного распорядка.
Используя данные из примера, значения для b и a следующие:
n = 10 (количество наблюдений)
Σx = 30 (сумма учебных часов)
Σy = 25 (сумма средних баллов)
Σxy = 149 (сумма произведения учебных часов и среднего балла)
Σ(x)2 = 102 (сумма квадратов учебных часов)
Используя эти значения, рассчитайте b как:
b = (nΣ(xy) - ΣxΣy) / (nΣ(x2) - (Σx)2)
= (10 * 149 – 30 * 25) / (10 * 102 – 302)
= 0.3
И рассчитать a как:
a = (Σy - bΣx) / n
= (25 – 0.3 * 30) / 10
= 2.0
Таким образом, уравнение линии наилучшего соответствия имеет вид:
GPA = 2,0 + 0,3 (часы, изучаемые в неделю)
В чем разница между корреляцией и регрессией?
И корреляция, и регрессия - это статистические методы изучения связи между двумя переменными. Они служат разным целям и предоставляют разные типы информации.
Корреляция - это мера силы и характера связи между двумя переменными. Она варьируется от -1 до +1, при этом -1 означает идеальную отрицательную корреляцию, 0 - отсутствие корреляции, а +1 - идеальную положительную корреляцию. Корреляция указывает на степень связи между двумя переменными, но не указывает на причину или предсказуемость.
С другой стороны, регрессия - это метод моделирования связи между двумя переменными, обычно для того, чтобы спрогнозировать или объяснить одну переменную на основе другой. Регрессионный анализ может дать оценку размера и направления связи, а также тесты статистической значимости, доверительные интервалы и прогнозы будущих результатов.
Ваши творения, готовые в течение нескольких минут
Mind the Graph это онлайн-платформа, которая предлагает вам обширную библиотеку научных иллюстраций и инфографики, которые могут быть просто изменены в соответствии с вашими уникальными потребностями. Создавайте профессионально выглядящие диаграммы, плакаты и графические рефераты за считанные минуты, используя интерфейс drag-and-drop и широкий набор инструментов и функций.
Подпишитесь на нашу рассылку
Эксклюзивный высококачественный контент об эффективных визуальных
коммуникация в науке.