不同数据源该插值还是抽稀

最近一直在和一堆数据较劲。

同一个目标层段，不同的取样分析间距，采用不同的方法进行分析，那么如何让这一堆数据关联起来，进而开展一些数据分析，寻找它们之间是否存在巧合或者必然的联系。

这件事做了很多年了，一直没有太多头绪，又没有别的路可走，所以一直死磕。

既然是不同的取样间距，那么必然会存在小间距和大间距，折腾了很多年的python和R一般在这个时候闪亮登场，只完成一件事，让这些不同间距的数据对齐。

虽然插值算法很多，不过我只会最简单的线性插值法，反正是一个for循环，R里反而比较高效，因为可以向量化，减少显式循环，印象中还曾请教过在欧洲不亦乐乎的大鹏。

插值解决了，似乎问题都解决了，我这样乐呵了很长时间，估计超过2年了。最近才发觉有点不对。

主要问题在于是大间距向小间距靠拢，还是反之？

以前我一直认为应该是把大间距的进行插值，插成小间距的数据，并且认为这样是理所当然的。

这几天突然脑袋开窍了一下，大间距的数据插成小间距，固然数据量大了，但是，大间距之间的样品是未知的，人为的按照线性插值算法算出很多新值，但这些新的值实际上是不可靠的，甚至有可能是错误的。也就是说，把大间距的数据插值成小间距，从整体上看，数据量大大增加了，但数据本身不能客观反应样品特征了，并且由于数据量的大量增加，很容易在做数据拟合的时候偏离实际情况。我原来一直在用一堆不可靠的数据拟合过来拟合过去...

知道了症结在那里，自然会颠倒回来，从此不再把大间距的数据进行插值，而是从小间距的数据中抽稀数据，变成大间距的数据。这样会丢失很多数据，但是，能确保每一类的数据都是真实可靠的。

终于想明白了这个简单的道理，希望折腾数据的心会好受一点了...

“不同数据源该插值还是抽稀” 中有 2 条评论

这得看统计学的理论上怎么解释吧。书到用时方恨少。老是觉得数学不够用。

Tian&Tang说道：

2016-12-17 13:09

数学不够用，不够用，不够用...

回复

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Oil Tang

TTang=Tian&Tang

不同数据源该插值还是抽稀

“不同数据源该插值还是抽稀” 中有 2 条评论

发表回复取消回复

“不同数据源该插值还是抽稀” 中有 2 条评论

发表回复 取消回复

发表回复取消回复