Data Analysis and Statistical Inference(3)

Coursera上的这门课程结束了。

总共10周时间，两场考试，平时成绩大概在70分左右，期末考试由于开会，只考了上半场，成绩意外的差7/15，下半场估计能拿到10-12/15，不过超时了，不能提交。最后发来的email显示，我的成绩只有55，想了一下，还有一个大作业没写。。。

总体评价一下，老实说，这门课涉及的内容相对浅显（考55分还有脸说浅显？？），我回想了一下，很多时候是不明白题目的意思，这英文该是多烂？？但是，不管是教材还是ppt，都是很通俗易懂的（打自己的嘴巴），教程很厚实，但把内容讲解得很清晰。

为了跟上进度，我把前年买的吴喜之教授编写的《统计学-从数据到结论》第三版翻出来，又看了两遍（第1-第6章）。顺便吐槽，教授这本书已经出版第四版了，但从我能找到的第二版和第三版来看，似乎变化不多也。。。而且，和教授另外一本书，从概念到xxx长得也比较像。。。当初，冲着这个名字（书名和作者名）、书的厚度以及相对较低的价格，在网上买了这本实体书。买回来的时候就快速的翻了一遍，觉得有收获（主要是第1-4章，什么时候都是个菜鸟，一览无遗），但总是觉得在工作中用不上。这次跟这个课程的时候，重新读第2遍，结合ppt，感觉收获大多了，有的概念是真的搞明白了，但更多的细节还是稀里糊涂的。五一假期的时候，抽空再次读了第1到第6章，感受到吴教授这本书不应该是给业余人士准备的，涉及了统计的很多方面，和其他书相比，公式少是特色，也许也是阅读的障`碍。。。凭着死磕Coursera的念头，强迫自己写点东西，免得白学。顺便练习一下如何在Markdown里写数学公式，LaTeX语法是比较恐怖。大致是吴教授的书的顺序，其实我觉得duke大学的那个女老师的书逻辑更清晰，至少她没有一股脑的推出这个分布那个分布，而是一个一个的讲清楚。。。

1、贝叶斯公式

这个公式关注很久了，这次算是学会怎么用了

其本质是，当A事件发生以后，B事件发生的概率，计算公式的核心是A和B事件同时发生的概率除以A事件发生的概率。

2、二项分布

用来解决二选一的问题，比如老妈和老婆同时。。。。 B(n,p)均值为np，方差为np（1-p)，标准差就是方差开平方了。。。有个相对复杂的概率计算公式

R语言：

k:成功次数
n:实验次数
p:概率

3、Bootstrap

吴教授的书里貌似没提及这个概念，搜了一些资料，感觉是针对小样本，不停的（放回）随机抽样，组成一个大样本，基于这个大样本的分析，貌似比小样本更稳健，不知道有没有理解错。

4、sig与p-value

这次搞明白了SPSS输出结果中的sig的意义。用来估计两个正太总体均值的差。如果sig>0.05,表明没有证据证明方差不等，看第一行的结果，如果sig比较小，说明方差不等，看第2行的结果，R语言中，默认是方差不等的。

5、总体比例（Bernoulli）p估计（alpha=0.05）

R语言代码：

代码高亮功能来自Y叔的博客

CI =function(n,x,alpha){
  p <- x/n
  za <- qnorm(0.025,low=F)
  a <- sqrt(p*(1-p)/n)
  b <- za*a
  L1 <- p-b
  L2 <- p+b
  list(1-alpha,L1,L2)
}

需要注意的是，该公式仅限于大样本时使用，近似判断方法是完全包含在（0，1）内。

6、常用分布

正太分布与t分布

7、检验数据是否具有正态性

R语言：

shapiro.test(x)
#如果p较大，不能拒绝数据的正态性
qqnorm(x)
qqline(x)
#近似一条直线，表明数据具有正态性

8、t检验

R语言：

x=scan("file.txt")
t.test(x,m=k,alternative="greater")
#k是假设值，greater是右尾，less是左尾
t.test(x,m=k,alternative="less")

9、F检验

待补充

10、总体回归比例的检验

假设期望值为25%，调查值为23%，检验是否达到了期望值。分为大样本和小样本两种情况，假设样本数量n（100，1500）。当n=1500，大样本

当n=100，小样本

pbinom(0.23*100,100,0.25)

当然也可以用大样本的pnorm公式来计算，那区分大样本和小样本干嘛呢？没搞明白。。。

11、线性回归（Regression）

从一堆闪点数据中得到一个线性公式，这个从excel中就能很容易的实现，当然，不能提精度和准确度。

随机误差

截距

斜率

回归中的F检验，是检验回归拟合的好坏，以前一直以为是检验斜率和截距的准确性，这次重新看书，才知道这个检验的本质，零假设指的是因变量y和自变量x没有关系，如果F检验显著，只能说明。

如果自变量x中有定性变量怎么办？

假设自变量为x和u，其中u有A、B两个水平：lm(y~x*u),有y~x+u+x:u,其中x:u代表交互作用,这个有点难记，在从数据到结论这本书的P144.备忘。

12、方差分析（ANOVA）

这个是duke大学的教学重点之一，但是一直稀里糊涂，而吴教授的书这部分讲得很少，直接抄过来：

方差分析表的原理：因变量y的值随着自变量x的不同取值而变化，把这些变化按照自变量进行分解，使得每一个自变量都有一份贡献，最后剩下无法用已知因素解释的部分，则看成随机误差的贡献。然后用每一个自变量的贡献和随机误差的贡献进行比较（这是一个F检验），以判断该自变量的不同水平（或值）是否对因变量的变化有显著贡献。方差分析表的最终结果就是F检验的一些p值。

其他。。。

latex的语法实在恐怖，特别希望能简单一点，给xieyihui大人发了个email骚扰，希望能在Rstudio+knitr+markdown环境中，增加对公式的支持，比如同样的R语言代码，增加识别标示，既可以作为代码执行，也可以设定为公式显示，不知道有没有希望实现。。。 xie大很快回了email，表示R的黑魔法能解决部分问题，但他本人还有拯救世界的其他重任，暂时放数学公式一码，不过Rstudio应该会有一些动作。。。我越来越期待R忍者快点出版了。。。

a <- sqrt(p*(1-p)/n)

又：其他的其他

今天在豆瓣上无意看到一个斗士，在github上公布了一个python学习笔记（第2版），200来页，学习笔记都这么厚，而且是第2版。。。

我忍不住对自己说：你还是老老实实多写点代码吧，光看不练是不行的。。。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Oil Tang

TTang=Tian&Tang

Data Analysis and Statistical Inference(3)

Data Analysis and Statistical Inference(3)

1、贝叶斯公式

2、二项分布

3、Bootstrap

4、sig与p-value

5、总体比例（Bernoulli）p估计（alpha=0.05）

6、常用分布

7、检验数据是否具有正态性

8、t检验

9、F检验

10、总体回归比例的检验

11、线性回归（Regression）

12、方差分析（ANOVA）

其他。。。

又：其他的其他

发表回复取消回复

Data Analysis and Statistical Inference(3)

1、贝叶斯公式

2、二项分布

3、Bootstrap

4、sig与p-value

5、总体比例（Bernoulli）p估计（alpha=0.05）

6、常用分布

7、检验数据是否具有正态性

8、t检验

9、F检验

10、总体回归比例的检验

11、线性回归（Regression）

12、方差分析（ANOVA）

其他。。。

又：其他的其他

发表回复 取消回复

发表回复取消回复