标签归档：R语言

处理数据需要，所以写了个小函数，运行也不报错，就是结果死活不对，只好一步一步的找，然后终于发现了问题所在。需求是这样的，把一堆数据用filter按条件过滤分别保存为不同的数据集，然后写了个for循环去summary，当然，一定是有办法不写这个for的，但是菜嘛，能用for解决的，就不去考虑其他的优美方式了。问题出在for循环内，用了一个paste函数去连接字符串，构造出数据集的名字[......]

《R语言实战》第二版碎碎念之八：随机森林

2018-05-24RR、R in action、randomForest、R语言、R语言实战、随机森林ttang

随机森林（random forest）是一种组成式的有监督学习方法。随机森林的算法涉及对样本单元和变量进行抽样，从而生成大量决策树。对每个样本单元来说，所有决策树依次对其进行分类。所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元， M个变量。 1) 从训练集中随机有放回地抽取N个样本单元，生成大量决策树。 2) 在每一个节点随机抽取m[......]

《R语言实战》第二版碎碎念之六：聚类分析

2018-04-24Rcluster、R、R in action、R语言、R语言实战、聚类分析ttang

这本书关于聚类分析部分讲得相对比较简单，要做好聚类分析，还得参考其他的资料。最有收获的应该是介绍了NbClust包，用以确定聚类数目。聚类分析是一种数据归约技术，旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。这里的类被定义为若干个观测值组成的群组，群组内观测值的相似度比群间相似度高。这不是一个精确的定义，从而导致了各种聚类方法的出现。最常用的两种聚类方法是层次聚类（[......]

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Oil Tang

TTang=Tian&Tang

标签归档：R语言

新书推荐：R语言编程—基于tidyverse

筛选存在重复列名的数据

用R统计参数的结果

R语言里的get和cbind

《R语言实战》第二版碎碎念之八：随机森林

《R语言实战》第二版碎碎念之六：聚类分析