Data Analysis and Statistical Inference(3)

Data Analysis and Statistical Inference(3)

Coursera上的这门课程结束了。

总共10周时间,两场考试,平时成绩大概在70分左右,期末考试由于开会,只考了上半场,成绩意外的差7/15,下半场估计能拿到10-12/15,不过超时了,不能提交。最后发来的email显示,我的成绩只有55,想了一下,还有一个大作业没写。。。

总体评价一下,老实说,这门课涉及的内容相对浅显(考55分还有脸说浅显??),我回想了一下,很多时候是不明白题目的意思,这英文该是多烂??但是,不管是教材还是ppt,都是很通俗易懂的(打自己的嘴巴),教程很厚实,但把内容讲解得很清晰。

为了跟上进度,我把前年买的吴喜之教授编写的《统计学-从数据到结论》第三版翻出来,又看了两遍(第1-第6章)。顺便吐槽,教授这本书已经出版第四版了,但从我能找到的第二版和第三版来看,似乎变化不多也。。。而且,和教授另外一本书,从概念到xxx长得也比较像。。。当初,冲着这个名字(书名和作者名)、书的厚度以及相对较低的价格,在网上买了这本实体书。买回来的时候就快速的翻了一遍,觉得有收获(主要是第1-4章,什么时候都是个菜鸟,一览无遗),但总是觉得在工作中用不上。这次跟这个课程的时候,重新读第2遍,结合ppt,感觉收获大多了,有的概念是真的搞明白了,但更多的细节还是稀里糊涂的。五一假期的时候,抽空再次读了第1到第6章,感受到吴教授这本书不应该是给业余人士准备的,涉及了统计的很多方面,和其他书相比,公式少是特色,也许也是阅读的障`碍。。。凭着死磕Coursera的念头,强迫自己写点东西,免得白学。顺便练习一下如何在Markdown里写数学公式,LaTeX语法是比较恐怖。大致是吴教授的书的顺序,其实我觉得duke大学的那个女老师的书逻辑更清晰,至少她没有一股脑的推出这个分布那个分布,而是一个一个的讲清楚。。。

1、贝叶斯公式

这个公式关注很久了,这次算是学会怎么用了

其本质是,当A事件发生以后,B事件发生的概率,计算公式的核心是A和B事件同时发生的概率除以A事件发生的概率。

2、二项分布

用来解决二选一的问题,比如老妈和老婆同时。。。。 B(n,p)均值为np,方差为np(1-p),标准差就是方差开平方了。。。 有个相对复杂的概率计算公式

R语言:

  • k:成功次数
  • n:实验次数
  • p:概率

3、Bootstrap

吴教授的书里貌似没提及这个概念,搜了一些资料,感觉是针对小样本,不停的(放回)随机抽样,组成一个大样本,基于这个大样本的分析,貌似比小样本更稳健,不知道有没有理解错。

4、sig与p-value

这次搞明白了SPSS输出结果中的sig的意义。 用来估计两个正太总体均值的差。如果sig>0.05,表明没有证据证明方差不等,看第一行的结果,如果sig比较小,说明方差不等,看第2行的结果,R语言中,默认是方差不等的。

5、总体比例(Bernoulli)p估计(alpha=0.05)

R语言代码:

代码高亮功能来自Y叔的博客

CI =function(n,x,alpha){
  p <- x/n
  za <- qnorm(0.025,low=F)
  a <- sqrt(p*(1-p)/n)
  b <- za*a
  L1 <- p-b
  L2 <- p+b
  list(1-alpha,L1,L2)
}

需要注意的是,该公式仅限于大样本时使用,近似判断方法是 完全包含在(0,1)内。

6、常用分布

正太分布与t分布

7、检验数据是否具有正态性

R语言:

shapiro.test(x)
#如果p较大,不能拒绝数据的正态性
qqnorm(x)
qqline(x)
#近似一条直线,表明数据具有正态性

8、t检验

R语言:

x=scan("file.txt")
t.test(x,m=k,alternative="greater")
#k是假设值,greater是右尾,less是左尾
t.test(x,m=k,alternative="less")

9、F检验

待补充

10、总体回归比例的检验

假设期望值为25%,调查值为23%,检验是否达到了期望值。 分为大样本和小样本两种情况,假设样本数量n(100,1500)。 当n=1500,大样本

当n=100,小样本

pbinom(0.23*100,100,0.25)

当然也可以用大样本的pnorm公式来计算,那区分大样本和小样本干嘛呢?没搞明白。。。

11、线性回归(Regression)

从一堆闪点数据中得到一个线性公式,这个从excel中就能很容易的实现,当然,不能提精度和准确度。

随机误差

截距

斜率

回归中的F检验,是检验回归拟合的好坏,以前一直以为是检验斜率和截距的准确性,这次重新看书,才知道这个检验的本质,零假设指的是因变量y和自变量x没有关系,如果F检验显著,只能说明

  • 如果自变量x中有定性变量怎么办?

假设自变量为x和u,其中u有A、B两个水平:lm(y~x*u),有y~x+u+x:u,其中x:u代表交互作用,这个有点难记,在从数据到结论这本书的P144.备忘。

12、方差分析(ANOVA)

这个是duke大学的教学重点之一,但是一直稀里糊涂,而吴教授的书这部分讲得很少,直接抄过来:

  • 方差分析表的原理:因变量y的值随着自变量x的不同取值而变化,把这些变化按照自变量进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知因素解释的部分,则看成随机误差的贡献。然后用每一个自变量的贡献和随机误差的贡献进行比较(这是一个F检验),以判断该自变量的不同水平(或值)是否对因变量的变化有显著贡献。方差分析表的最终结果就是F检验的一些p值。

其他。。。

latex的语法实在恐怖,特别希望能简单一点,给xieyihui大人发了个email骚扰,希望能在Rstudio+knitr+markdown环境中,增加对公式的支持,比如同样的R语言代码,增加识别标示,既可以作为代码执行,也可以设定为公式显示,不知道有没有希望实现。。。 xie大很快回了email,表示R的黑魔法能解决部分问题,但他本人还有拯救世界的其他重任,暂时放数学公式一码,不过Rstudio应该会有一些动作。。。我越来越期待R忍者快点出版了。。。

a <- sqrt(p*(1-p)/n)

又:其他的其他

今天在豆瓣上无意看到一个斗士,在github上公布了一个python学习笔记(第2版),200来页,学习笔记都这么厚,而且是第2版。。。

我忍不住对自己说:你还是老老实实多写点代码吧,光看不练是不行的。。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注