简单来说,线性回归就是寻找两个变量之间存在的关系,预测一个变量(因变量或者目标变量)如何随着另一个变量(自变量或者特征变量)变化的。
想象你有一堆数据点,每个点都有两个值,比如说房子的大小($x$)和价格( $y$)。你想要找出一个简单的规律,来预测房子的价格会随着房子的大小如何变化。也就是找到因变量 $x$是如何随着自变量 $y$进行变化的。
而线性回归就是找到一条直线,这条直线尽可能贴近这些数据点。这个过程叫做“拟合”数据。简单来说,就是找出一个公式,类似于 $y = mx+b$,这个公式告诉你房子的价格 $y$和房子的大小 $x$之间的关系。其中:
也就是说线性回归预测的是线性关系,主要适合数据点之间具有线性关系的情况。它假设因变量与自变量之间可以通过一条直线(或超平面)来建模。而对于一些具有非线性关系的数据来说,使用线性回归预测就没那么准确,对于非线性关系的处理方法:
举例:特征变换
| 时间 t (年) | 物种数量 y |
|---|---|
| 1 | 100 |
| 2 | 271 |
| 3 | 738 |
| 4 | 2000 |
$$ \ln(y) = \ln(a) + bt $$