所有由ttang发布的文章

滴水石穿vs积劳成疾

天天忙于各种事务,天天都很忙,然后总感觉没做什么事情。但是怨气却一天天的积累下来了。

来到这家公司快20年了,我从毛头小子步入了油腻的中年。待遇却没有太多变化,到手的薪水似乎一直停留在10多年前的水准上,然后房价和物价却是翻了不知多少倍。

刚来这这个十八线城市的时候,市中心打出一个大红横幅,7层的电梯公寓售价不到1k/平米,五六百每平的房价比比皆是,惊叹房子是如此便宜,虽然我也没钱买。公交车四[......]

Read more

漓江的山和遇龙河的水

按照老婆大人的安排,每年暑假都需要出去走一趟,去的目的地主要依据老婆的心情,以及儿子下一学年的语文课本。今年桂林光荣入围了。

都说桂林山水甲天下,网上的攻略一大堆,随便搜了搜,然后订下了民宿和机票,邀上父母,一大家人兴冲冲的出发了。

感受了两江四湖的夜景以后,比较失望,180的船票,90分钟左右的行程,似乎没看到什么,虽然沿途上有精心安排的舞蹈、鸬鹚表演等,虽然有据说数亿资金打造的灯光,但是能[......]

Read more

R语言里的get和cbind

处理数据需要,所以写了个小函数,运行也不报错,就是结果死活不对,只好一步一步的找,然后终于发现了问题所在。

需求是这样的,把一堆数据用filter按条件过滤分别保存为不同的数据集,然后写了个for循环去summary,当然,一定是有办法不写这个for的,但是菜嘛,能用for解决的,就不去考虑其他的优美方式了。

问题出在for循环内,用了一个paste函数去连接字符串,构造出数据集的名字,好作为[......]

Read more

《R语言实战》第二版碎碎念之九:支持向量机

支持向量机(SVM)是一类可用于分类和回归的有监督机器学习模型。其流行归功于两个方面:一方面,他们可输出较准确的预测结果;另一方面,模型基于较优雅的数学理论。SVM旨在在多维空间中找到一个能将全部样本单元分成两类的最优平面,这一平面应使两类中距离最近的点的间距(margin)尽可能大,在间距边界上的点被称为支持向量(support vector,它们决定间距),分割的超平面位于间距的中间。对于一个[......]

Read more

《R语言实战》第二版碎碎念之八:随机森林

随机森林(random forest)是一种组成式的有监督学习方法。随机森林的算法涉及对样本单元和变量进行抽样,从而生成大量决策树。对每个样本单元来说,所有决策树依次对其进行分类。所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元, M个变量。

1) 从训练集中随机有放回地抽取N个样本单元,生成大量决策树。

2) 在每一个节点随机抽取m<M[......]

Read more