分类目录归档:R

用R统计参数的结果

应用场景:一堆数据,也可能是几堆数据,需要按不同的数据段来求取最大值最小值和平均值,这个当然不是难事,但一个一个的去手动求取,excel拉过来拉过去,挺烦的,搜索了小半天数据透视表,也没有找到同时求得这三个数值的办法。深受数据统计的折磨,然后有了这一小段代码。

首先设定工作路径setwd("G:/课题/项目/资料")

tidyverse真是好用,library(tidyverse)

分别读取[......]

Read more

用R做三维图版

平时做二维图版很方便,什么工具顺手就用什么,excel,origin,spss,R,python什么的,高兴用什么就用什么。最近研究需要做三维图版,然后就发现找不到好用的工具。

R里能做三维散点图的包不少,但是我最喜欢的那个很牛的包叫rgl。具体来说,这个包使用很简单,library("rgl")

然后直接用plot3d(x,y,z,col,size,type,xlim,ylim,zlim)就[......]

Read more

R语言里的get和cbind

处理数据需要,所以写了个小函数,运行也不报错,就是结果死活不对,只好一步一步的找,然后终于发现了问题所在。 需求是这样的,把一堆数据用filter按条件过滤分别保存为不同的数据集,然后写了个for循环去summary,当然,一定是有办法不写这个for的,但是菜嘛,能用for解决的,就不去考虑其他的优美方式了。 问题出在for循环内,用了一个paste函数去连接字符串,构造出数据集的名字[......]

Read more

《R语言实战》第二版碎碎念之九:支持向量机

支持向量机(SVM)是一类可用于分类和回归的有监督机器学习模型。其流行归功于两个方面:一方面,他们可输出较准确的预测结果;另一方面,模型基于较优雅的数学理论。SVM旨在在多维空间中找到一个能将全部样本单元分成两类的最优平面,这一平面应使两类中距离最近的点的间距(margin)尽可能大,在间距边界上的点被称为支持向量(support vector,它们决定间距),分割的超平面位于间距的中间。对于一个[......]

Read more

《R语言实战》第二版碎碎念之八:随机森林

随机森林(random forest)是一种组成式的有监督学习方法。随机森林的算法涉及对样本单元和变量进行抽样,从而生成大量决策树。对每个样本单元来说,所有决策树依次对其进行分类。所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元, M个变量。 1) 从训练集中随机有放回地抽取N个样本单元,生成大量决策树。 2) 在每一个节点随机抽取m[......]

Read more