分类目录归档：R

R数据科学第二版学习2

2026-01-20RR tips、R数据科学ttang

数据整理

--宽变长pivot_longer

cols指定哪些列需要转换，也就是哪些列不是变量，可以使用与select相同的语法，starts_with("wk")是以wk开头的列；

names_to给用来存储列名的变量命名；

values_to给用来存储单元格值的变量命名；

范例中week和rank都加双引号，因为他们是要创建的新变量，运行pivot_longer调用时候他们还不在数据[......]

R数据科学第二版学习1

2026-01-19RR tips、R数据科学ttang

很久很久没有记录了，OneNote也老是闪退，找个地方记录一下。

1. glimpse()和summary()功能相似 2. Ctrl+Shift+M，管道操作，|>，或者%>%,读作then（然后） 3. 操作行 -- filter，不改变行的顺序，保留哪些列


df=flights |> 
  filter(dest=="IAH") |> 
  group_by(year,month,day)[......]Read more

新书推荐：R语言编程—基于tidyverse

2023-03-11Computer、RR语言、tidyverse、张敬信ttang

《R语言编程—基于tidyverse》，作者：张敬信，张教授是哈尔滨工业大学基础数学博士，目前在哈尔滨商业大学任教。

张教授长期在知乎平台上发表大量技术贴，推广R语言，维护着数个规模很大的QQ群，热心为大家提供各种免费咨询。

这本书出版前，张教授实际已经通过各种渠道公布了该书的主要内容的ppt版本，但是我还是忍不住下单买了实体书。毫不夸张的说，这是出版界的良心。这本书不管是对新手还是需要进步[......]

UMAP数据降维方法

2022-11-05Petroleum、R、未分类UMAP、XRF、元素、降维ttang

开展数据降维的主要目的是更易于数据可视化，并识别高维数据集中的关键结构，将它们保存在低维嵌入中，减轻维数灾难，减少共线性带来的影响。常见的数据降维算法分为线性与非线性两大类。主成分分析（PCA）算法是应用最为广泛的线性降维算法之一，能够快速寻找到原始变量的线性组合，通过保留少量的主成分，表征原始数据的主要特征。但是，PCA等线性算法不能处理高维到低维数据的非线性映射。

t-SNE（t-dist[......]

《现代统计图形》出版了

2021-08-14RR、现代统计图形ttang

一晃四个月没来看博客了。实际上这段时间做了不少事，就是提不起写博客的感觉。前两天，意外得知[现代统计图形](https://www.ituring.com.cn/book/2951)这本书终于出版了。。。这个N年前，谢益辉大神挖下的坑，终于要填平了。扳着手指数了一下，N=14，真的被震撼到了。

当初刚开始学R语言的时候，我就搜到过谢大神的这本未完工的书，为了好好学习，我把这本pdf下载下来认真[......]

关于岭回归的一些简单概念

2020-04-10Math、RlinearRidge、lm.ridge、岭估计、岭回归、岭迹ttang

当解释变量存在严重的多重共线性特征时，会导致普通最小二乘法的效果不理想，因此出现了岭回归。1962年就有学者研究出了岭估计，这是一种改进最小二乘估计。

岭回归估计实际是一个估计族。有偏性是岭回归的一个重要特性。岭回归估计参数不是回归参数的线性变换，也不是因变量的线性函数。

当岭参数k在0到无穷大内变化时，岭回归参数时k的函数，画出的曲线称为岭迹。开展岭迹分析，可以判断采用最小二乘估计是否适用。[......]

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Oil Tang

TTang=Tian&Tang