简单来说,线性回归就是寻找两个变量之间存在的关系,预测一个变量(因变量或者目标变量)如何随着另一个变量(自变量或者特征变量)变化的。

什么是线性回归?

想象你有一堆数据点,每个点都有两个值,比如说房子的大小($x$)和价格( $y$)。你想要找出一个简单的规律,来预测房子的价格会随着房子的大小如何变化。也就是找到因变量 $x$是如何随着自变量 $y$进行变化的。

而线性回归就是找到一条直线,这条直线尽可能贴近这些数据点。这个过程叫做“拟合”数据。简单来说,就是找出一个公式,类似于 $y = mx+b$,这个公式告诉你房子的价格 $y$和房子的大小 $x$之间的关系。其中:

也就是说线性回归预测的是线性关系,主要适合数据点之间具有线性关系的情况。它假设因变量与自变量之间可以通过一条直线(或超平面)来建模。而对于一些具有非线性关系的数据来说,使用线性回归预测就没那么准确,对于非线性关系的处理方法:

举例:特征变换

  1. 倘若某物种数量随时间增长,呈现指数关系,数据如下:
时间 t (年) 物种数量 y
1 100
2 271
3 738
4 2000
  1. 可以看到自变量 $t$和因变量 $y$ 不是线性关系,直接使用线性回归 $y = a + bt$,拟合效果不好。所以可以通过特征转换的方式,将指数关系 $y = ae^{bt}$ 取对数,就可以转化为线性关系:

$$ \ln(y) = \ln(a) + bt $$

  1. 然后对数据进行取对数处理,得到新的数据: