当解释变量存在严重的多重共线性特征时,会导致普通最小二乘法的效果不理想,因此出现了岭回归。1962年就有学者研究出了岭估计,这是一种改进最小二乘估计。
岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换,也不是因变量的线性函数。
当岭参数k在0到无穷大内变化时,岭回归参数时k的函数,画出的曲线称为岭迹。开展岭迹分析,可以判断采用最小二乘估计是否适用。如果岭迹线的不稳定性很强,整个系统比较乱,最小二乘法不能很好的反映真实情况。
使用岭回归时,需要适当的选择岭参数k值。选择k值的一般原则,各回归系数的岭估计基本稳定,用最小二乘法估计得到的符号不合理,而岭估计的符号变得合理,回归系数没有不合常理的绝对值,残差平方和增加不太多。岭迹法确定k值缺少严格的理论依据,存在一定主观性,介于定性余定量之间。
用岭回归选择变量的原则:
如果数据已经中心化和标准化,可以直接比较标准化岭回归系数的大小,可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
岭回归系数不稳定,振动趋于零的自变量也可以剔除。
如果有多个岭回归系数不稳定,究竟剔除谁,剔除几个,并无一般原则可循,需要根据剔除某个变量后重新进行岭回归分析的效果来确定。
R软件中MASS包提供lm.ridge()函数实现岭回归分析。也可以用ridge包中的linearRidge()函数。
linearRidge(formula,data,lambda="automatic",scaling=c("corrForm","scale","none"),...)
lambda选用默认的automatic,可以自动选择合适的岭参数,此时scaling必须用corrForm(默认)。用linearRidge()建立的岭回归模型可以使用summary(model)输出主要的回归结果。
由于岭回归估计不再是无偏估计,所以只有当对最小二乘法估计的结果不满意时才考虑使用岭回归。