分类目录归档:未分类

UMAP数据降维方法

开展数据降维的主要目的是更易于数据可视化,并识别高维数据集中的关键结构,将它们保存在低维嵌入中,减轻维数灾难,减少共线性带来的影响。常见的数据降维算法分为线性与非线性两大类。主成分分析(PCA)算法是 应用最为广泛的线性降维算法之一,能够快速寻找到原始变量的线性组合,通过保留少量的主成分,表征原始数据的主要特征。但是,PCA等线性算法不能处理高维到低维数据的非线性映射。

t-SNE(t-dist[......]

Read more

感受马太效应

R语言界的大神[谢益辉](https://yihui.name/cn/)今天一口气推了60篇博客,和他历年来的风格一致,无聊之下翻了一遍,膜拜一下大神的日常生活和工作状态。感概一下,牛人就是不一样,写得了代码,种得了菜,还能做一手好菜,并且在博客、书、报告、代码等等专业和爱好里,都有那么多产出,一年一书一包,累计产出维护的包超过20个,在家接待客人准备10个菜。。。真不是知道这种集合体是怎么诞生出[......]

Read more

从春节看车的变化

又是一年春节到!

自从有了车以后,回家就不再是曲里拐弯的波折路了,今年理所当然的回老家过年了。

春节的时候,就是老家堵车的时候,这是这些年的共识。乡间小道上会车难,家里停车难,成了新的难题,但是今年似乎好了不少。关于车,春节期间有了不少的新感受。

首先,数量肯定是多了。几乎是家家户户都有了车,村村通上了水泥路。就像十年前人人都有了手机一样,车这个东西非常快速的普及了。镇上的街边上停满了车,乡[......]

Read more

词典更换记

从使用电脑开始,一直和词典打交道,不管用不用的上,电脑里总会装上一个。最早的是那个大名鼎鼎的金山词霸,后来疯狂迷上linux后,换成了startdict。用过谷歌翻译,然后遇上了你懂的,换回win后,用过灵格斯,再后来就是有道。有道词典不是我最喜欢的,但是我用得最久的,因为没有别的可以用了,直到微软在国内发行了必应词典,现在必应也是我手机里的标配。 前几天笔记本耍赖,使用了win10自带的重[......]

Read more

《R语言实战》第二版碎碎念之五:主成分分析与因子分析

主成分分析(PCA)是一种数据降维技巧,能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分,并能尽可能的保留原始数据集的信息。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。经验表明,因子分析需要5-10倍于变量数的样本数。 R中的基础包princomp()函数提供PCA分[......]

Read more

春光无限好,希望不加班

异常忙碌的春天。 自从春节后,似乎就没有歇息一下,甚至都来不及喘口气。 为了争取到某个高级别的科研课题,领导们高度重视,大佬一个接一个的出马,让我这个干活的小兵压力异常的大。高层们这么重视,期望如此高,弄砸了没法交代,同时也为了今年和明年能有事做,从春节收假以来,我几乎全部精力都投入进去了。是的,全部,每天下班以后,每个周末,都在高强度的加班,然后最后也免不了熬了两个通宵,最后带着熬夜[......]

Read more