分类目录归档:R

新书推荐:R语言编程—基于tidyverse

《R语言编程—基于tidyverse》,作者:张敬信,张教授是哈尔滨工业大学基础数学博士,目前在哈尔滨商业大学任教。

张教授长期在知乎平台上发表大量技术贴,推广R语言,维护着数个规模很大的QQ群,热心为大家提供各种免费咨询。

这本书出版前,张教授实际已经通过各种渠道公布了该书的主要内容的ppt版本,但是我还是忍不住下单买了实体书。 毫不夸张的说,这是出版界的良心。这本书不管是对新手还是需要进步[......]

Read more

UMAP数据降维方法

开展数据降维的主要目的是更易于数据可视化,并识别高维数据集中的关键结构,将它们保存在低维嵌入中,减轻维数灾难,减少共线性带来的影响。常见的数据降维算法分为线性与非线性两大类。主成分分析(PCA)算法是 应用最为广泛的线性降维算法之一,能够快速寻找到原始变量的线性组合,通过保留少量的主成分,表征原始数据的主要特征。但是,PCA等线性算法不能处理高维到低维数据的非线性映射。

t-SNE(t-dist[......]

Read more

《现代统计图形》出版了

一晃四个月没来看博客了。实际上这段时间做了不少事,就是提不起写博客的感觉。前两天,意外得知[现代统计图形](https://www.ituring.com.cn/book/2951)这本书终于出版了。。。 这个N年前,谢益辉大神挖下的坑,终于要填平了。扳着手指数了一下,N=14,真的被震撼到了。

当初刚开始学R语言的时候,我就搜到过谢大神的这本未完工的书,为了好好学习,我把这本pdf下载下来认真[......]

Read more

关于岭回归的一些简单概念

当解释变量存在严重的多重共线性特征时,会导致普通最小二乘法的效果不理想,因此出现了岭回归。1962年就有学者研究出了岭估计,这是一种改进最小二乘估计。

岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换,也不是因变量的线性函数。

当岭参数k在0到无穷大内变化时,岭回归参数时k的函数,画出的曲线称为岭迹。开展岭迹分析,可以判断采用最小二乘估计是否适用。[......]

Read more

多重共线性的情形及处理

何晓群教授《应用回归分析 R语言版》第6章

1、背景

多元线性回归模型的基本假设是自变量之间线性无关。但实际上自变量之间可能存在多重共线性,也称为复共线性,也就是变量之间存在较强的相关性。

当自变量存在多重共线性时,利用普通最小二乘法得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长,会造成回归方程高度显著的情况下,有些回归系数通不过显著性检验,甚至导致回归系数的[......]

Read more

自变量选择与逐步回归

何晓群教授《应用回归分析 R语言版》 第5章

自变量的选择,是建模的重要工作。全模型是有偏估计,选模型预测的均方误差比全模型预测的方差更小,因此建立回归模型时,应当尽可能的剔除可有可无的自变量。

当自变量子集扩大时,残差平方和随之减小,复决定系数随之增加。如果按残差平方和越小越好的原则来选择自变量子集时,变量越多越好。由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差[......]

Read more