相关性与余弦相似性及应用

以前一直没搞明白,虽然每次都告诉自己,相关性不等于因果关系,但相关性到底怎么来的,从来没有琢磨过。今天翻到了马同学图解线性代数,已经买了好久了,就是没有时间看。这个图解真不是吹的,让我的榆木疙瘩似乎打开了一条缝,看到了那么一丝丝光,哈。

余弦相似性,从向量的角度来考虑,其实就是求两个向量的夹角的余弦值,公式很简单,两个向量点积,除以两个向量的长度的数量积。余弦么,都知道取值是-1到1,以前也从来没有和相关性联想起来过。

书中以不同人对不同图书的评价为例,推算哪些人的兴趣爱好相似,这样就可以精准的推荐。那放到我们的科研工作中,不同的井的不同参数的取值,也就是和不同图书的评价类似了,那么也就可以把已知井的关键参数提取取出,和新井的这些参数放一起,计算井与井之间的余弦相似性,是不是就可以对新井做出一个定量化的评价了呢?想想就激动,哈。

书中还提到一个特别重要的问题,不同的属性是需要归一化或者标准化的,否则,很有可能把本来完全不同的两类,反而认定为同一类了。同时,如果完全不同的两类,那么其中一类不喜欢的,应该就是另一类喜欢的,这个简单的道理,以前似乎从来没有应用到实际工作中去。

有得忙了。。。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注