分类目录归档:R

R数据科学第二版学习2

数据整理

--宽变长pivot_longer

cols指定哪些列需要转换,也就是哪些列不是变量,可以使用与select相同的语法,starts_with("wk")是以wk开头的列;

names_to给用来存储列名的变量命名;

values_to给用来存储单元格值的变量命名;

范例中week和rank都加双引号,因为他们是要创建的新变量,运行pivot_longer调用时候他们还不在数据[......]

Read more

新书推荐:R语言编程—基于tidyverse

《R语言编程—基于tidyverse》,作者:张敬信,张教授是哈尔滨工业大学基础数学博士,目前在哈尔滨商业大学任教。

张教授长期在知乎平台上发表大量技术贴,推广R语言,维护着数个规模很大的QQ群,热心为大家提供各种免费咨询。

这本书出版前,张教授实际已经通过各种渠道公布了该书的主要内容的ppt版本,但是我还是忍不住下单买了实体书。 毫不夸张的说,这是出版界的良心。这本书不管是对新手还是需要进步[......]

Read more

UMAP数据降维方法

开展数据降维的主要目的是更易于数据可视化,并识别高维数据集中的关键结构,将它们保存在低维嵌入中,减轻维数灾难,减少共线性带来的影响。常见的数据降维算法分为线性与非线性两大类。主成分分析(PCA)算法是 应用最为广泛的线性降维算法之一,能够快速寻找到原始变量的线性组合,通过保留少量的主成分,表征原始数据的主要特征。但是,PCA等线性算法不能处理高维到低维数据的非线性映射。

t-SNE(t-dist[......]

Read more

《现代统计图形》出版了

一晃四个月没来看博客了。实际上这段时间做了不少事,就是提不起写博客的感觉。前两天,意外得知[现代统计图形](https://www.ituring.com.cn/book/2951)这本书终于出版了。。。 这个N年前,谢益辉大神挖下的坑,终于要填平了。扳着手指数了一下,N=14,真的被震撼到了。

当初刚开始学R语言的时候,我就搜到过谢大神的这本未完工的书,为了好好学习,我把这本pdf下载下来认真[......]

Read more

关于岭回归的一些简单概念

当解释变量存在严重的多重共线性特征时,会导致普通最小二乘法的效果不理想,因此出现了岭回归。1962年就有学者研究出了岭估计,这是一种改进最小二乘估计。

岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换,也不是因变量的线性函数。

当岭参数k在0到无穷大内变化时,岭回归参数时k的函数,画出的曲线称为岭迹。开展岭迹分析,可以判断采用最小二乘估计是否适用。[......]

Read more