《R语言编程—基于tidyverse》,作者:张敬信,张教授是哈尔滨工业大学基础数学博士,目前在哈尔滨商业大学任教。
张教授长期在知乎平台上发表大量技术贴,推广R语言,维护着数个规模很大的QQ群,热心为大家提供各种免费咨询。
这本书出版前,张教授实际已经通过各种渠道公布了该书的主要内容的ppt版本,但是我还是忍不住下单买了实体书。 毫不夸张的说,这是出版界的良心。这本书不管是对新手还是需要进步[......]
《R语言编程—基于tidyverse》,作者:张敬信,张教授是哈尔滨工业大学基础数学博士,目前在哈尔滨商业大学任教。
张教授长期在知乎平台上发表大量技术贴,推广R语言,维护着数个规模很大的QQ群,热心为大家提供各种免费咨询。
这本书出版前,张教授实际已经通过各种渠道公布了该书的主要内容的ppt版本,但是我还是忍不住下单买了实体书。 毫不夸张的说,这是出版界的良心。这本书不管是对新手还是需要进步[......]
干活的时候遇到的一个小问题,用cbind合并出来数据集df,里边有重复的列名“depth”,想用filter筛选其中一些行,
filter(df,result=="Ⅰ")
报错,提示depth不能复制。 Error: Column names depth, depth must not be duplicated. Use .name_repair to specify repair. Run[......]
应用场景:一堆数据,也可能是几堆数据,需要按不同的数据段来求取最大值最小值和平均值,这个当然不是难事,但一个一个的去手动求取,excel拉过来拉过去,挺烦的,搜索了小半天数据透视表,也没有找到同时求得这三个数值的办法。深受数据统计的折磨,然后有了这一小段代码。
首先设定工作路径setwd("G:/课题/项目/资料")
tidyverse真是好用,library(tidyverse)
分别读取[......]
处理数据需要,所以写了个小函数,运行也不报错,就是结果死活不对,只好一步一步的找,然后终于发现了问题所在。 需求是这样的,把一堆数据用filter按条件过滤分别保存为不同的数据集,然后写了个for循环去summary,当然,一定是有办法不写这个for的,但是菜嘛,能用for解决的,就不去考虑其他的优美方式了。 问题出在for循环内,用了一个paste函数去连接字符串,构造出数据集的名字[......]
随机森林(random forest)是一种组成式的有监督学习方法。随机森林的算法涉及对样本单元和变量进行抽样,从而生成大量决策树。对每个样本单元来说,所有决策树依次对其进行分类。所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元, M个变量。 1) 从训练集中随机有放回地抽取N个样本单元,生成大量决策树。 2) 在每一个节点随机抽取m[......]
这本书关于聚类分析部分讲得相对比较简单,要做好聚类分析,还得参考其他的资料。最有收获的应该是介绍了NbClust包,用以确定聚类数目。 聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间相似度高。这不是一个精确的定义,从而导致了各种聚类方法的出现。最常用的两种聚类方法是层次聚类([......]