总结线性回归的基本要点及正则化的方法和改进。
Assumptions
线性回归的基本假设:
- Linearity: 输出值是可以通过输入值的线性组合进行表示的,即线性回归的标准表达式$$\hat y = X \vec w+ \vec b$$
- 为 矩阵,即观测数据量为,特征个数为
- 为向量,对应m个样本中的输出标签
- 为 向量,分别对应n个特征的权重取值
- Independence: 样本数据之间是独立的。如果样本之间存在共线性/相关性,可能会在模型构建时影响各个特征真实的权重,出现类似辛普森悖论的现象。
- Homoscedasticity & Normality: 假设误差是均值为0的正态分布。
在进行线性回归之后可以对产生的residual进行可视化。由于使用MSE作为损失函数时residual的差值会被平方项放大,因此模型可能会为了减小整体的error rate以偏向于异常值。当出现这种情况时,可以选择对异常值进行删除,也可以对特征进行对数处理来削弱异常值的影响(如右图,residual的分布近似于均值为0的正态分布)
Close-form Solution
当线性回归的损失函数为MSE时,即等同于最小二乘(OLS)问题,此时存在close-form solution:
线性回归同样可以使用梯度下降进行loss求解。在closeform和梯度下降之间进行选择时可以考虑以下几点:
- 当X是较高维矩阵时,对的计算可能会非常复杂且耗费较高的计算成本,此时可以选择梯度下降进行求解
- 梯度下降要求被求解问题一定是凸问题。在非凸函数中进行梯度下降可能会求得局部最优解,此时可以选择close-form function进行求解
在计算矩阵的逆的过程中可能会出现的问题如下:
- 矩阵中n的值远大于m,即拥有的样本较少但特征较多,此时线性回归方程可能不只有一个最优解,且在该情况下很容易出现对于较少数据点产生的过拟合现象。
- 矩阵存在多重共线性时,可能不是可逆矩阵,因此无法进行最优解的求解。
Bias Variance Tradeoff
复杂模型:high variance, low bias
简单模型:low variance, high bias
一般通过正则化方法解决模型的过拟合问题。正则化的本质是对权重w的约束。某个特征的权重越小,该特征就越不能起决定作用,无关紧要的特征只能对模型进行微调,扰动较小,可以让模型专注于有决定性的那些特征。
Ridge Regression – L2 normalization
L2正则化即是在最小二乘法的基础上加入的平方。Ridge regression同样存在close-form解,其中为超参数,可以进行调整。
Lasso Regression – L1 normalization
思想:L2相比OLS,计算出来的系数更稳定,但是多重共线性仍然存在,有没有一种类似这种添加惩罚项的办法来解决掉多重共线性的问题?将L2正则化中的惩罚项替换成L0-norm(系数中非0的个数),即无关的维度系数为0去除掉该维度。但为了避免L0-norm存在的很多问题(函数非连续,很难求解),用L1-norm(系数的绝对值)来近似地取代L0-norm。
损失函数增加L1损失项,即参数的1-范数,用此损失函数没有close-form solution。Lasso 回归中的同样为超参数,可以进行参数选择。
L1范数可以进行特征选择,因此在出现多重共线性时,Lasso Regression将随机选择共线特征中的任一作为模型的非0参数,并将其他特征的权重设为0以解决多重共线性问题。
Lasso & Ridge – Comparison
图中 为OLS回归下达到最小MSE的取值。等高线代表不同MSE取值的位置,蓝色区域代表L1和L2正则化的约束区间。等高线与约束区间相切/相交的位置为最优取值。因此Lasso回归中必有某些参数的取值为0,起到了特征选择的效果。
Elastic-Net Regression – L1+L2
将L1和L2范数进行加权组合。由于加入了L1范数,因此同样不存在close-form solution. 其中均为超参数,可以进行调整。