何晓群教授《应用回归分析 R语言版》 第5章
自变量的选择,是建模的重要工作。全模型是有偏估计,选模型预测的均方误差比全模型预测的方差更小,因此建立回归模型时,应当尽可能的剔除可有可无的自变量。
当自变量子集扩大时,残差平方和随之减小,复决定系数随之增加。如果按残差平方和越小越好的原则来选择自变量子集时,变量越多越好。由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差[......]
何晓群教授《应用回归分析 R语言版》 第5章
自变量的选择,是建模的重要工作。全模型是有偏估计,选模型预测的均方误差比全模型预测的方差更小,因此建立回归模型时,应当尽可能的剔除可有可无的自变量。
当自变量子集扩大时,残差平方和随之减小,复决定系数随之增加。如果按残差平方和越小越好的原则来选择自变量子集时,变量越多越好。由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差[......]
多元自适应回归样条(Multivariate Adaptive Regression Splines,简称MARS)是机器学习算法中的一种,属于能自适应处理高维数据的样条回归方法。
优点:
样条在实质上是一种具有一定光滑度的分段多项式,各相邻段上的多项式之间又具有某种连接性质,因而它既保持了多项式的简单性和逼近的可行性,又在各段之间保持了相对独立的局部性质。
由于mars方法应用过程中,不需[......]
2020.2.6日
每一个普通人,都曾经有一颗想成为英雄的愿望,但我们多数都成为了一个普通人。
感谢您,并没有想成为英雄,但做到了一个普通人的本分。
愿天堂没有冠状病毒...
致敬!
转:
他有多高尚,这时代就有多卑鄙。[......]
最近在做分段数据统计的时候,发现某些情况下,离群数据严重干扰了数据统计,所以一直在想办法对离群数据进行处理。
最典型的离群数据,莫过于单根峰了,在气显示相对活跃,特别是钻遇过裂缝的井里,频繁出现因为停泵引起的后效气测异常,这些异常不是地层含气性的真实反映,理应不参与数据统计。平常其实没有太多注意这类现象,但是有的井实在太频繁,并且单根峰与正常的气测值差异太大,有的已经达到10倍左右了,不处理对数[......]
干活的时候遇到的一个小问题,用cbind合并出来数据集df,里边有重复的列名“depth”,想用filter筛选其中一些行,
filter(df,result=="Ⅰ")
报错,提示depth不能复制。 Error: Column names depth, depth must not be duplicated. Use .name_repair to specify repair. Run[......]