分类目录归档:Math

相关性与余弦相似性及应用

以前一直没搞明白,虽然每次都告诉自己,相关性不等于因果关系,但相关性到底怎么来的,从来没有琢磨过。今天翻到了[马同学图解线性代数](https://book.douban.com/subject/36057421/),已经买了好久了,就是没有时间看。这个图解真不是吹的,让我的榆木疙瘩似乎打开了一条缝,看到了那么一丝丝光,哈。

余弦相似性,从向量的角度来考虑,其实就是求两个向量的夹角的余弦值,公式[......]

Read more

从线性代数的投影角度看线性回归

最近在读一本很有意思的书:[矩阵力量](https://github.com/Visualize-ML)

从多个角度来分析线性代数的基本概念。回归这一块,第一次领悟到线性代数的威力。

所谓的线性回归,实际是从原始的数据维度,投影到另外一个维度,回归系数就是投影到新维度上的系数,残差就是两个维度带来的误差。

多项式回归更有意思,设计矩阵X实际可以写成多个列向量,第一列全为1,第二列为因变量x,[......]

Read more

关于岭回归的一些简单概念

当解释变量存在严重的多重共线性特征时,会导致普通最小二乘法的效果不理想,因此出现了岭回归。1962年就有学者研究出了岭估计,这是一种改进最小二乘估计。

岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换,也不是因变量的线性函数。

当岭参数k在0到无穷大内变化时,岭回归参数时k的函数,画出的曲线称为岭迹。开展岭迹分析,可以判断采用最小二乘估计是否适用。[......]

Read more

多重共线性的情形及处理

何晓群教授《应用回归分析 R语言版》第6章

1、背景

多元线性回归模型的基本假设是自变量之间线性无关。但实际上自变量之间可能存在多重共线性,也称为复共线性,也就是变量之间存在较强的相关性。

当自变量存在多重共线性时,利用普通最小二乘法得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长,会造成回归方程高度显著的情况下,有些回归系数通不过显著性检验,甚至导致回归系数的[......]

Read more

自变量选择与逐步回归

何晓群教授《应用回归分析 R语言版》 第5章

自变量的选择,是建模的重要工作。全模型是有偏估计,选模型预测的均方误差比全模型预测的方差更小,因此建立回归模型时,应当尽可能的剔除可有可无的自变量。

当自变量子集扩大时,残差平方和随之减小,复决定系数随之增加。如果按残差平方和越小越好的原则来选择自变量子集时,变量越多越好。由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差[......]

Read more

多元自适应回归样条

多元自适应回归样条(Multivariate Adaptive Regression Splines,简称MARS)是机器学习算法中的一种,属于能自适应处理高维数据的样条回归方法。

优点:

样条在实质上是一种具有一定光滑度的分段多项式,各相邻段上的多项式之间又具有某种连接性质,因而它既保持了多项式的简单性和逼近的可行性,又在各段之间保持了相对独立的局部性质。

由于mars方法应用过程中,不需[......]

Read more