不同数据源该插值还是抽稀

最近一直在和一堆数据较劲。

同一个目标层段,不同的取样分析间距,采用不同的方法进行分析,那么如何让这一堆数据关联起来,进而开展一些数据分析,寻找它们之间是否存在巧合或者必然的联系。

这件事做了很多年了,一直没有太多头绪,又没有别的路可走,所以一直死磕。

既然是不同的取样间距,那么必然会存在小间距和大间距,折腾了很多年的python和R一般在这个时候闪亮登场,只完成一件事,让这些不同间距的数据对齐。

虽然插值算法很多,不过我只会最简单的线性插值法,反正是一个for循环,R里反而比较高效,因为可以向量化,减少显式循环,印象中还曾请教过在欧洲不亦乐乎的大鹏

插值解决了,似乎问题都解决了,我这样乐呵了很长时间,估计超过2年了。最近才发觉有点不对。

主要问题在于是大间距向小间距靠拢,还是反之?

以前我一直认为应该是把大间距的进行插值,插成小间距的数据,并且认为这样是理所当然的。

这几天突然脑袋开窍了一下,大间距的数据插成小间距,固然数据量大了,但是,大间距之间的样品是未知的,人为的按照线性插值算法算出很多新值,但这些新的值实际上是不可靠的,甚至有可能是错误的。也就是说,把大间距的数据插值成小间距,从整体上看,数据量大大增加了,但数据本身不能客观反应样品特征了,并且由于数据量的大量增加,很容易在做数据拟合的时候偏离实际情况。我原来一直在用一堆不可靠的数据拟合过来拟合过去...

知道了症结在那里,自然会颠倒回来,从此不再把大间距的数据进行插值,而是从小间距的数据中抽稀数据,变成大间距的数据。这样会丢失很多数据,但是,能确保每一类的数据都是真实可靠的。

终于想明白了这个简单的道理,希望折腾数据的心会好受一点了...

不同数据源该插值还是抽稀》有2个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注