The big data
重新审视大数据
大数据这个概念提出来不是一天两天了,第一次开始注意这个词的时候,是在几年前的某次集团公司的视频会议上,不知道为什么会安排我在分会场的分会场里参加那个视频会,总之是听到新上任的总裁提到了大数据、云计算和物联网。会议结束后专门搜索了这三个词,没有太多的理解,但是记住了这三个词。
第二次遇到这些高大上名词的时候,是在另外一场视频会议上,似乎是集团公司的年度信息工作会议上,几乎什么都不记得了,但很清楚的记得分管信息工作的副总裁再次提到了大数据,并谈到他最近读过的一本翻译过来的大数据的专著和看法。
经历了这两次以后,我开始以认真的态度去了解什么是大数据,在某个专家那里得知,“大数据”这个词有可能是从石油行业里首先提出来的,石油工业里的物探作业会产生大量的数据,在很早以前,地震处理与解释的数据量就达到一个比较恐怖的数量级。我不清楚到底是什么样的数量级,不过我认为这个说法有一定的可靠性,这个行业处理数据的情况确实存在,而且在能源行业较为红火的年代,投入过大量的经费开展软硬件及基础环境的建设,在大量的资金投入下,产生一两个新词是比较正常的,况且地震数据体真的很大,但是数据种类并不多,数据体基本上只包含激发时间、接受时间、接收到的波等少量的维度,因此到现在,石油行业里关于大数据的研究成果并不多,这一点从出版的书籍就能看出来,石油行业里关于大数据的专著并不多见。我也顺手把数本题目中包含大数据这些时髦词语的电子书扔到硬盘里,至今读完了目录和前言。。。但是至少,我知道专家们定义的大数据是具备几个“V”特征的,数量多,种类多,频率快。简单的理解,就是比多还多,比大还大,bigger than bigger。。。
这段时间里,主要通过搜索引擎来认识大数据,基本认定大数据是个概念,现在提这个词的人多数是在玩概念。很快,在某些学术场合越来越多的见到、听到大数据和云计算。但是不管怎么提,怎么说,大家都只不过是在需求分析、环境分析、远景规划的时候提及大数据这些词,针对大数据的具体应对措施,谁也说不上来,反正为了提高“逼格”,在ppt里总得点缀点什么,大数据、云计算、物联网这些新鲜的词语就是为ppt而生的。。。这些现状,让我更加坚定的把大数据归纳为一种概念炒作。
随着网络云盘的兴起,尤其是以百度盘为代表的国内巨头之间的云争夺,突然让大数据云存储走进我们的普通生活。过去几年里用过很多网盘,包括被qiang的google Driver,Dropbox,曾经很好用但经常抽风更名的微软OneDrive,已经关闭的Ubuntu One等,来自国外的网盘因为各种原因,在国内都表现为发烧呕吐腹泻,虽然具体炎症有所不同,但作为普通人来看,表象是一致的。而国内的网盘,从最早接触到的56邮箱,到纳米盘、数据银行、115什么的,都经历过非常爽,然后慢慢死掉或半死不活的状态,直到国内巨头全面加入云盘混战,百度盘的使用体验至少暂时是非常爽的,当然,我说的是web登陆与使用。我一向不习惯客户端,除非它不可替代,如QQ,没办法,工作交流沟通必需品,周围的人都用QQ,你爱用不用,不用就等于切断了和周围同事的主要联系方式,没人愿意和你在email中一来一回的发送邮件。顺便说一下,百度盘的重度使用者迟早要为现在的免费使用付费的,一方面享受了服务的大众,本来也应该为自己享受的服务买单,同时2个T的免费空间让很多人把照片视频源源不断的同步到百度云盘上,如果将来的资源积累够多,要挪个地方保存所需要的成本将会很高,而且养成一种习惯以后,改变是会比较困难的,除非有更好的出现,到那个时候收取一定的费用是顺理成章的事。
扯远了,每次都这样跑题。。。
第三次让我重新审视大数据,是跑去北京混进中国第七届R语言会议会场的时候,在仰望大侠们时,听了中国人民大学的一位教授的一番讲话,让我这种菜鸟长了不少见识。抱歉我不记得他的姓名,当时主持会议的林祯舜博士介绍过,但我实在没听清楚。这位教授的主要思想是:大数据是个伪命题,如果一定要定义大数据,那么,当前环境下不能处理的数据量就是大数据。这是我当时见识过最有意思的定义,没有高富帅,没有白富美,没有这个V那个V,用一种很容易理解的语句来阐述认识,虽然谈不上严谨,但很容易明白。作为佐证,教授还特意提起上世纪八十年代他留学美国的经历,提及当初就在计算机上处理大量的气象数据,我不知道有没有听错,也懒得去核实计算机技术在那个年代是否已经进入学术界开展大规模的运算了。但是教授的这些说法,很清楚的传达了一种认识,或者说是批评当前动不动拉大旗作虎皮的现状,不论什么玩艺儿,不扯上互联网思维、智能、云、物联网什么的,简直不好意思陪人家喝茶。。。教授用他的经历直接把大数据灭了,没什么新奇的,几十年前就在玩。。。从那以后,我也经常出去给人洗脑,忽悠什么是大数据,呼吁玩大数据。。。反正不玩白不玩,没玩也可以说玩了,如果处理工具只有office,那用excel表处理不了的数据不也可以称为大数据吗?如果一个人能做的工作量为1,想办法提高到5,显然就是玩大数据的成果啊,不过迄今为止我还没做出过什么成果。
让我有兴趣码这么多字的原因是昨天RSS源里道哥吴翰清先生的博客,他是白帽子讲Web安全的作者,博客原文在这里1和这里2。毫无疑问这是我目前见过的对大数据有深刻理解,并能转换为生产力的唯一的文字。道哥用两篇博客来叙述了对大数据的理解和认识,第一篇是对当前大数据的普遍认识的一种质疑,第二篇则通俗易懂的阐述了他的观点和做法,文章不长但值得反复研读。道哥貌似也经历过对大数据的困惑,到底多大才能叫大,有好多数据才能算多,这又该去问Iphone6吗?bigger than bigger翻译成“岂止于大”就信达雅了吗?“大无止尽”可以吗?“越来越大”可以吗?再跑一次题,说实话,“岂止于大”这个词,有多少人真的明白他的含义?不过无所谓,反正我用老年机,买不起IPhone的。。。
回到道哥博客回到大数据,道哥的观点很直接:“大数据是一种思想的改变,是一种不一样的观察这个世界的角度。”大数据不仅仅是大而已,过去由于条件所致,针对很多客观发生的事情/事物,都喜欢/只能采集部分属性的特征,转换为信息与数据,我们不管是研究还是应用,均是基于这些数据来开展工作的。因此,我们只是在利用客观事物/事情的某些部分信息,而不是全部信息,但我们潜意识里是把这些信息作为全部信息来应用,并建立了各种规则、方式、方法。随着技术的进步,现在我们有能力采集更多的数据,这种数据,不仅仅是采集频率加快,采集精度在提高,最重要的是采集的范围也在扩大,那么以前认为可以代表整个事物的信息,变成了一个局部信息,大数据在更大的数据维度上提供了更多的信息,我们就有机会站在一个更高的层次,更全面的看待事物,也就是道哥所说的从局部到整体,这个整体,随着数据维度的不断增加,会不断的有新的认识和定义。
在第二篇博客里,几个形象的案例有很震撼的效果。总体思想是大数据以高一个或多个维度的角度去看待事物,反而让事件的处理变得更简单、容易,甚至可以用粗暴来形容。比如道哥提到的“撞库”攻击,黑客手中掌握了大量的用户名和密码,那么要破解某个账户,简单到直接到库里去搜索用户名即可,就能够在很大概率下找到能匹配的账户和密码。再比如说“声纹”,建立声音指纹库,切断某些人的通讯就太容易了。
读完道哥的博客,我想起了最近旁听的一个科研报告汇报,其他团队做的关于低阻气层潜力评价的课题。团队开展了很多基础工作,利用统计得出了研究区域的低阻的定义,分析了低阻的几种成因,然后提出用RD、AC两个指标去挖潜评价,中途得出一个认识是低阻的分布没有规律。当时我就感觉这里有点问题,至少如果没有开展过分析,只是利用一张平面井位图来分析规律是不完善的。如果是我来做,我想我的思路应该会有所调整。首先定义出什么是低阻,低阻的成因很多,但总体上两大类若干小类,一类是含水导致低阻,这是我们不希望看到的,需要标注出来去避开的,第二大类是有潜力因其他种种因素导致的,这是我们要找出来挖潜的。那么分别针对第一大类和第二大类要去寻找其特征,建立相应的识别依据,如果数据维度够多,研究够深入,在第二大类里还可以细分小类,分别建立标准。关于平面分布规律的问题,就是一个明显的局部与整体的问题,就应该用大数据的思维去考虑这个问题。因为,研究区域的研究层位里不只是一层砂体,如果只是在工区的井位平面图上简单的标注出有没有低阻、有没有获产,就想发现其中的规律,那这种规律应该早就被前人发现了,前辈又不傻,这么明显的规律能发现不了吗?哪需要我们现在来分析。过去由于技术条件的限制,由于处理数据的能力有限,把多维度的数据挑选出一部分展示到平面上是不得已而为之的事,如今,要有所突破,逐步还原客观事物的真相,也就是逐步努力去重建或接近真实维度。那么,可以在纵向上建立地层格架,这个对于老区来说,应该是早建立好的,只是需要完善数据。在这个格架上,优选出研究目标,肯定是没有能力对每一层砂体进行研究,要优选出主要的几层,借助地震解释刻画出河道,老区里似乎这个也是现成的,然后以河道为主线,把建好的低阻标准套上去。这种条件下,是不是还是没有规律?现在课题研究得出没有规律这个结论的时候,既没有对低阻本身的判别依据和标志做出归纳(这个归纳应该也是一个恢复多维尺度尽量接近客观实际的过程),研究对象也过于笼统,相当于把多维的数据降低到一维平面上,本来可能有规律的事物也就变得乱七八糟没有规律了。
大数据,确实应该很大;
大数据,不仅仅是大而已,应该要重视体现在维度上与尺度上的区别;
大数据的处理,不仅仅是算法和计算能力,更重要的是一种思想!