回归分析是一种识别和分析一个或多个自变量与因变量之间联系的方法。这种方法被广泛用于各种学科,包括医疗保健、社会科学、工程、经济和商业。你可以使用回归分析来调查数据中的基本关系,并开发预测模型,协助你做出明智的决策。

本文将为你提供回归分析的全面概述,包括它是如何工作的,一个容易掌握的例子,它将解释它与相关分析的区别。

什么是回归分析?

回归分析是一种统计方法,用于识别和量化因变量与一个或多个自变量之间的联系。简而言之,它可以帮助你理解一个或多个自变量的变化与因变量的变化有什么关系。

要彻底了解回归分析,你必须首先理解以下术语:

  • 自变量: 这是你感兴趣的分析或预测的变量。它是你试图理解和解释的结果变量。
  • 独立变量: 这些是你认为对因变量有影响的变量。它们通常被称为预测变量,因为它们被用来预测或解释因变量的变化。

回归分析可用于一系列情况,包括预测因变量的未来值,了解自变量对因变量的影响,以及发现数据收集中的异常值或异常情况。

回归分析可以分为几种类型,包括单一线性回归、逻辑回归、多项式回归和多元回归。合适的回归模型是由数据的性质和所考虑的调查对象决定的。

回归分析是如何工作的?

回归分析的目的是确定反映自变量和因变量之间联系的最佳拟合线或曲线。这条最佳拟合线或曲线是用统计方法产生的,它可以减少数据收集中预期值和实际值之间的差异。

以下是两种最常见的回归分析的公式:

单一线性回归

在简单线性回归中,你用一条最佳拟合线来显示两个变量之间的关系:自变量(x)和因变量(y)。

最佳拟合线可以用方程表示:y=a+bx。

这里,a是截距,b是直线的斜率。为了计算斜率,你可以使用公式:b = (nΣ(xy) - ΣxΣy) / (nΣ(x)2) - (Σx)2),其中n是观察值的数量,Σxy是x和y的乘积之和,Σx和Σy分别是x和y的总和,Σ(x2)是x的平方之和。

为了计算截距,你可以使用公式:a = (Σy - bΣx) / n。

多重回归 

多重线性回归:

多重线性回归模型的方程式为::

y = b0 + b1x1 + b2x2 + ... + bnxn

其中y是因变量,x1, x2, ..., xn 是自变量,而b0, b1, b2,...,bn是自变量的系数。

用普通最小二乘法估计系数的公式是::

β = (X'X)(-1)X'y

其中β是系数的列向量,X是自变量的设计矩阵,X'是X的转置,y是因变量的观察向量。

回归分析实例

假设你想研究一个人的平均分(GPA)和他们每周的学习时间之间的联系。你从一组学生中收集信息,包括他们的学习时间和平均成绩。

然后,使用回归分析,看看这两个变量之间是否有线性联系,如果有,你可以建立一个模型,根据学生每周学习的小时数来预测他们的GPA。

图片可在 alchemer.com

当数据被绘制在散点图上时,学习时间和GPA之间似乎存在着有利的线性联系。然后用一个简单的线性回归模型来估计最佳拟合线的斜率和截距。最后的解决方案可能是这样的:

GPA = 2.0 + 0.3 (每周学习时间)

图片可在 alchemer.com

这个方程式指出,每周每多学习一小时,学生的GPA就会提高0.3分,其他方面都是一样的。这个算法可以用来根据学生每周学习的时间来预测他们的GPA,也可以根据学生的学习习惯来确定哪些学生有可能表现不佳。 

使用例子中的数据,下列数值为 ba 详见下文:

n = 10(观察值的数量)。

Σx = 30 (学习时间的总和)

Σy = 25(GPA之和)。

Σxy = 149 (学习时间和GPA的乘积之和)

Σ(x)2 = 102 (学习时间的平方之和)

使用这些值,计算出 b 作为:

b=(nΣ(xy)-ΣxΣy)/(nΣ(x2) - (Σx)2)

= (10 * 149 – 30 * 25) / (10 * 102 – 302)

= 0.3

并计算出 a 作为:

a = (Σy - bΣx) / n

= (25 – 0.3 * 30) / 10

= 2.0

因此,最佳拟合线的方程是: 

GPA = 2.0 + 0.3 (每周学习时间)

相关性和回归的区别是什么?

相关和回归都是研究两个变量之间联系的统计方法。它们有不同的目的,提供不同类型的信息。

相关性是对两个变量之间联系的强度和过程的一种衡量。它从-1到+1,-1代表完全负相关,0代表无相关,+1代表完全正相关。相关性表明两个变量的联系程度,但它并不表明原因或可预测性。

另一方面,回归是一种对两个变量之间的联系进行建模的方法,通常是为了根据一个变量来预测或解释另一个变量。回归分析可以提供对关系的大小和方向的估计,以及统计学意义测试、置信范围和未来结果预测。

您的创作,在几分钟内准备就绪

Mind the Graph 是一个在线平台,它为你提供了一个广泛的科学插图和信息图设计库,可以简单地修改以满足你的独特需要。通过使用拖放界面和广泛的工具和功能,在几分钟内做出专业的图表、海报和图形摘要。 

标志-订阅

订阅我们的通讯

关于有效视觉的独家高质量内容
科学中的交流。

- 独家指南
- 设计提示
- 科学新闻和趋势
- 教程和模板