标签归档:R语言

R语言里的get和cbind

处理数据需要,所以写了个小函数,运行也不报错,就是结果死活不对,只好一步一步的找,然后终于发现了问题所在。

需求是这样的,把一堆数据用filter按条件过滤分别保存为不同的数据集,然后写了个for循环去summary,当然,一定是有办法不写这个for的,但是菜嘛,能用for解决的,就不去考虑其他的优美方式了。

问题出在for循环内,用了一个paste函数去连接字符串,构造出数据集的名字,好作为[......]

Read more

《R语言实战》第二版碎碎念之八:随机森林

随机森林(random forest)是一种组成式的有监督学习方法。随机森林的算法涉及对样本单元和变量进行抽样,从而生成大量决策树。对每个样本单元来说,所有决策树依次对其进行分类。所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元, M个变量。

1) 从训练集中随机有放回地抽取N个样本单元,生成大量决策树。

2) 在每一个节点随机抽取m<M[......]

Read more

《R语言实战》第二版碎碎念之六:聚类分析

这本书关于聚类分析部分讲得相对比较简单,要做好聚类分析,还得参考其他的资料。最有收获的应该是介绍了NbClust包,用以确定聚类数目。

聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间相似度高。这不是一个精确的定义,从而导致了各种聚类方法的出现。最常用的两种聚类方法是层次聚类(hi[......]

Read more

《R语言实战》第二版碎碎念之五:主成分分析与因子分析

主成分分析(PCA)是一种数据降维技巧,能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分,并能尽可能的保留原始数据集的信息。

探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。经验表明,因子分析需要5-10倍于变量数的样本数。

R中的基础包princomp()函数提供PCA分析,fa[......]

Read more

《R语言实战》第二版碎碎念之四:广义线性模型

广义线性模型

广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析。logisitic回归的因变量为类别型,比如二值变量(是/否、通过/未通过)和多分类变量(好/中/差)。泊松回归因变量是计数型,比如一周交通事故的数目,每天酒水消耗的数量等,都是非负的有限值,而且均值和方差通常是相关的(正态分布变量间是相互独立的)。

(1)glm()函数拟合广义线性模型

glm(formula,fam[......]

Read more

R语言里不带引号保存csv文件

R里保存csv文件很简单,一个是自带的write.csv函数,还有一个hardly大神写的write _ csv。平时感觉用哪个都差不多,用自带的函数似乎速度更快,别的没有太多的感受。

最近用SMT加载数据,惊讶的发现用R处理后的csv文件里,每个数据都带了一个引号,我用excel打开csv文件又什么都看不到,然后重新用excel保存为csv文件,再用SMT加载的时候就没有问题了。这个问题真是莫[......]

Read more