线性回归
线性回归是什么?
线性回归(Linear Regression)是统计学和机器学习中常用的一种回归分析方法,用于建立连续数值输出与一个或多个自变量之间的关系。线性回归假设因变量(输出)与自变量(输入)之间存在线性关系,通过拟合一条直线(在一维情况下)或超平面(在多维情况下)来描述这种关系。
线性回归的目标是找到最佳拟合线(或平面),使得该线性模型最能够解释观测数据点之间的关系。最常见的线性回归模型可以表示为:
在这个方程中:
- 是因变量(输出)。
- 是自变量(输入)。
- 是模型的参数,分别对应截距(intercept)和 自变量的系数。
- 表示随机误差项,用于捕捉因变量中未被模型解释的随机变化。
线性回归的目标是通过估计参数 来找到最佳拟合线,使得观测数据与模型的预测值之间的残差平方和最小化。这一过 程通常使用最小二乘法(Least Squares Method)来实现。
线性回归有两种主要类型:
- 简单线性回归:当只有一个自变量时,称为简单线性回归。方程变为 ,其中 是单个自变量。
- 多元线性回归:当有多个自变量时,称为多元线性回归。方程包含多个自变量,形式如上述公式中的多维情况。
线性回归在许多领域中有广泛应用,包括经济学、社会科学、自然科学、工程学以及机器学习。它用于建立预测模型、分析变量之间的关系、识别影响因素、探索数据集等任务。虽然线性回归具有简单性和解释性的优点,但它也有一些假设,如线性关系的假设和误差项的正态分布假设,因此在某些情况下可能需要考虑更复杂的模型。
什么是回归分析
回归分析是统计 学中研究两个或多个变量间关系的方法,特别是当我们考虑一个变量(因变量)随着另一个或多个变量(自变量或解释变量)的变化而变化时。回归分析可以帮助我们理解这种关系,预测未知的情况,或评估某种干预或策略可能的效果。
例子1: 假设你想知道学生的学习时间与其考试成绩之间的关系。在这里,学习时间是自变量,而考试成绩是因变量。通过回归分析,你可能会发现学习时间越长,考试成绩越好(当然,也有可能存在其他影响成绩的因素)。
例子2: 你想了解一个城市的空气质量(如PM2.5指数)与人们的呼吸道健康问题发病率之间的关系。在这里,PM2.5是自变量,而呼吸道健康问题的发病率是因变量。回归分析可以帮助确认这两者之间是否存在统计上的相关性。
例子3: 一个公司想知道广告支出和产品销售额之间的关系。广告支出是自变量,产品销售额是因变量。回归分析可以帮助公司预测,如果增加一定数量的广告支出,他们可以预期多少的销售增长。
为什么叫“回归”分析: “回归”的名字起源于一个历史上的研究。19世纪,Francis Galton(查尔斯·达尔文的表亲)在研究父子身高的关系时,发现高大的父亲往往会有相对较矮的儿子,而矮小的父亲则往往会有相对较高的儿子。换句话说,儿子的身高似乎“回归”(或者说趋向)于一个普遍的平均身高。Galton称这种现象为“回归”(regression)。后来,这个词被用来描述预测因变量的值基于自变量的值的整体过程。尽管现代回归分析远远超出了Galton的原始研究,但这个名字仍然被保留了下来。