自变量选择与逐步回归

2020-04-01Math、RAIC、Cp、stepwise regression、逐步回归ttang

何晓群教授《应用回归分析 R语言版》第5章

自变量的选择，是建模的重要工作。全模型是有偏估计，选模型预测的均方误差比全模型预测的方差更小，因此建立回归模型时，应当尽可能的剔除可有可无的自变量。

当自变量子集扩大时，残差平方和随之减小，复决定系数随之增加。如果按残差平方和越小越好的原则来选择自变量子集时，变量越多越好。由于变量的多重共线性，给变量的回归系数估计值带来不稳定性，加上变量的测量误差[......]

密码保护：RoqSCAN小记

2020-03-22PetroleumRoqSCAN、XRF、元素、矿物、背散射ttang

多元自适应回归样条

2020-03-20Mathmars、多元自适应回归样条、机器学习ttang

多元自适应回归样条(Multivariate Adaptive Regression Splines,简称MARS)是机器学习算法中的一种，属于能自适应处理高维数据的样条回归方法。

优点：

样条在实质上是一种具有一定光滑度的分段多项式，各相邻段上的多项式之间又具有某种连接性质，因而它既保持了多项式的简单性和逼近的可行性，又在各段之间保持了相对独立的局部性质。

由于mars方法应用过程中，不需[......]

20200206

2020-02-07Lifettang

2020.2.6日

每一个普通人，都曾经有一颗想成为英雄的愿望，但我们多数都成为了一个普通人。

感谢您，并没有想成为英雄，但做到了一个普通人的本分。

愿天堂没有冠状病毒...

致敬！

转：

他有多高尚，这时代就有多卑鄙。[......]

处理离群数据的一些想法

2020-01-12Math、Petroleum、Rorigin、outlier、Savitzky-Golay、signal、smooth、平滑滤波、离群数据、移动平均ttang

最近在做分段数据统计的时候，发现某些情况下，离群数据严重干扰了数据统计，所以一直在想办法对离群数据进行处理。

最典型的离群数据，莫过于单根峰了，在气显示相对活跃，特别是钻遇过裂缝的井里，频繁出现因为停泵引起的后效气测异常，这些异常不是地层含气性的真实反映，理应不参与数据统计。平常其实没有太多注意这类现象，但是有的井实在太频繁，并且单根峰与正常的气测值差异太大，有的已经达到10倍左右了，不处理对数[......]

筛选存在重复列名的数据

2019-12-22Rcbind、filter、R、R语言、筛选、重名ttang

干活的时候遇到的一个小问题，用cbind合并出来数据集df，里边有重复的列名“depth”，想用filter筛选其中一些行，

filter(df,result=="Ⅰ")

报错，提示depth不能复制。 Error: Column names depth, depth must not be duplicated. Use .name_repair to specify repair. Run[......]