关于岭回归的一些简单概念

当解释变量存在严重的多重共线性特征时，会导致普通最小二乘法的效果不理想，因此出现了岭回归。1962年就有学者研究出了岭估计，这是一种改进最小二乘估计。

岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换，也不是因变量的线性函数。

当岭参数k在0到无穷大内变化时，岭回归参数时k的函数，画出的曲线称为岭迹。开展岭迹分析，可以判断采用最小二乘估计是否适用。如果岭迹线的不稳定性很强，整个系统比较乱，最小二乘法不能很好的反映真实情况。

使用岭回归时，需要适当的选择岭参数k值。选择k值的一般原则，各回归系数的岭估计基本稳定，用最小二乘法估计得到的符号不合理，而岭估计的符号变得合理，回归系数没有不合常理的绝对值，残差平方和增加不太多。岭迹法确定k值缺少严格的理论依据，存在一定主观性，介于定性余定量之间。

用岭回归选择变量的原则：

如果数据已经中心化和标准化，可以直接比较标准化岭回归系数的大小，可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

岭回归系数不稳定，振动趋于零的自变量也可以剔除。

如果有多个岭回归系数不稳定，究竟剔除谁，剔除几个，并无一般原则可循，需要根据剔除某个变量后重新进行岭回归分析的效果来确定。

R软件中MASS包提供lm.ridge()函数实现岭回归分析。也可以用ridge包中的linearRidge()函数。

linearRidge(formula,data,lambda="automatic",scaling=c("corrForm","scale","none"),...)

lambda选用默认的automatic，可以自动选择合适的岭参数，此时scaling必须用corrForm（默认）。用linearRidge（）建立的岭回归模型可以使用summary（model）输出主要的回归结果。

由于岭回归估计不再是无偏估计，所以只有当对最小二乘法估计的结果不满意时才考虑使用岭回归。

Oil Tang