月度归档:2018年04月

《R语言实战》第二版碎碎念之六:聚类分析

这本书关于聚类分析部分讲得相对比较简单,要做好聚类分析,还得参考其他的资料。最有收获的应该是介绍了NbClust包,用以确定聚类数目。

聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间相似度高。这不是一个精确的定义,从而导致了各种聚类方法的出现。最常用的两种聚类方法是层次聚类(hi[......]

Read more

《R语言实战》第二版碎碎念之五:主成分分析与因子分析

主成分分析(PCA)是一种数据降维技巧,能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分,并能尽可能的保留原始数据集的信息。

探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。经验表明,因子分析需要5-10倍于变量数的样本数。

R中的基础包princomp()函数提供PCA分析,fa[......]

Read more

《R语言实战》第二版碎碎念之四:广义线性模型

广义线性模型

广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析。logisitic回归的因变量为类别型,比如二值变量(是/否、通过/未通过)和多分类变量(好/中/差)。泊松回归因变量是计数型,比如一周交通事故的数目,每天酒水消耗的数量等,都是非负的有限值,而且均值和方差通常是相关的(正态分布变量间是相互独立的)。

(1)glm()函数拟合广义线性模型

glm(formula,fam[......]

Read more

《R语言实战》第二版碎碎念之三:重抽样与自助法

重抽样与自助法。数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,基于随机化和重抽样的统计方法可派上用场。

(1)置换检验,也称为随机化检验或重随机化检验。coin包对于独立性问题提供了一个非常全面的置换检验的框架,而lmPerm包专门用来做方差分析和回归分析的置换检验。lmPerm包需要用RTools安装。

暂时没搞懂。。。

([......]

Read more

《R语言实战》第二版碎碎念之二:回归与诊断

1、最小二乘(OLS)回归法。

数据满足统计假设:

正态性,对于固定的自变量值,因变量值成正太分布

独立性,Yi(因变量)之间相互独立

线性,因变量与自变量之间为线性相关

同方差性,因变量的方差不随自变量的水平不同而变化。也可称作不变方差。

做多元线性回归前,最好先用car包里的spm()函数查看一下变量的相关性。

library(car)

scatterplotMatrix(df[......]

Read more

《R语言实战》第二版碎碎念之一:基础杂烩

查回归诊断的时候,无意发现一个帖子,从《R语言实战》第二版里搬过来的。这本书躺在我硬盘里很久了,包括第一版,汗颜。捡起来翻了一下,才发现这本书是多么的有意思,也许是到我现在这个境况,对R的认知程度,才发现这本书的有趣之处。

随手记录下一些碎碎念,主要是我以前没有注意,又老是犯错误的地方吧,就不讲究格式了,希望能早点把“之一”这个尾巴了结掉。

1、R语言编程中的常见错误:大小写错误、必要的引号、[......]

Read more