刷书

介绍

用来记录看过的教科书,以阅读时间倒序排列。

  • 《The Seven Pillars of Statistical Wisdom》Stephen M. Stigler -Harvard University Press (2016)
  • 【602英国教材 · 实验设计】Statistical Principles for the Design of Experiments Applications to Real Experiments
  • 【本科教材】Statistics
  • CART by Leo Beriman

【统计学七支柱】

Introduction

当他谈到aggregation的时候:

“By stipulating that, given a number of observations, you can actually gain information by throwing information away!”

“but as the name “Likelihood” hints, there is a wealth of associated methods, many related to parametric families or to Fisherian or Bayesian inference.”

  • 霍,原来可以叫Fisherian

Chap1: Aggregation

“Jorge Luis Borges understood this. In a fantasy short story published in 1942, “Funes the Memorious,” he described a man, Ireneo Funes, who found after an accident that he could remember absolutely everything. He could reconstruct every day in the smallest detail, and he could even later reconstruct the reconstruction, but he was incapable of understanding. Borges wrote, “To think is to forget details, generalize, make abstractions. In the teeming world of Funes there were only details.” Aggregation can yield great gains above the individual components. Funes was big data without Statistics.

  • WOW

“It was already well known a century earlier that magnetic north and true north differed, and by 1500 it was also well known that the difference between true and magnetic north varied from place to place, often by considerable amounts—10° or more to the east or to the west.”

  • 早期指南针都有一个10°左右的误差。

“Instead he gives the mean of the largest and smallest, what later statisticians would call a midrange.

  • 最大值最小值的平均数:midrange

“If we collect a man’s urine during 24 hours and mix all his urine to analyze the average, we get an analysis of a urine that simply does not exist;”

  • 人们在担心,我们通过平均值所得到的个体不一定「真实存在」。就比如说linear regression中的样本中心点(Xˉ,yˉ)(\bar{X},\bar{y}) 不一定存在于样本之中。

Chap2: Information

Root-n Rule: 如果你想获得双倍的精确度,你需要四倍的数据

“The paradox of the accumulation of information, namely, that the last 10 measurements are worth less than the first 10, even though all measurements are equivalently accurate, is heightened by the different (and to a degree misleading) uses of the term information in Statistics and in science.”

  • 后十个数据提供的信息,没有前十个那么多了
  • 两个反例:
    • FIsher Information.In(θ)=nI(θ)I_n(\theta) = nI(\theta) 这是因为它的衡量与方差是一个量度的。我们在使用时要开方
    • 香农的信息论【这个不太懂了…】

拉普拉斯将棣莫弗的定律推广,得到了中心极限定理(1810年)

  • 1824年泊松发现Cauchy不满足

“This was in direct contrast to long mathematical practice: in a sequence of mathematical operations, mathematicians would keep track of the maximum error that could have arisen at each step, a quantity that grew as the series grew, while statisticians would allow for a likely compensation of errors, which would in relative terms shrink as the series grew.”

  • 比如说数分里面的ϵN\epsilon-N,对比依概率收敛

有时候扔掉一个数据,比把他加进来然后求平均更好:

  • 这取决于我们的目标
  • outlier

有时候Correlation也会影响我们获得信息的速率:时间序列因为有了correlation,从而会出现false-pattern的情况。

Chap3: Likelihood

遇到了一个问题,在伯努利分布中,当数据够大的时候,任何一个小格子的概率都太小了。本来对这种小概率事件我们是该拒绝的,但也可能是因为我们的方法错了?

Fisher提出了MLE的说法。

The associated idea of likelihood as a way to calibrate our inferences

  • Likelihood变成了我们统计推断的一个尺度。该不该拒绝原假设?都是根据likelihood来判断的。
  • Likelihood被Bayes和MLE两大方法所引导?

Chap4: Intercomparison

这一章表示的是,如何不借助外界的信息,而从数据本身发现规律。

“In 1904–1905, he wrote a pair of internal memoranda (really in-house instruction texts) summarizing the uses of error theory and the correlation coefficient, based upon his reading of recent work from Karl Pearson’s laboratory at University College London. ”

  • Gosset作为一个数学/化学家,阅读同时代统计学家的成果,给自己带来了insights。

人们开始使用的是正态的median error,后来使用了正态的error,之后Gosset发现了t-分布,发表在了Pearson的杂志Biometrika上。文章的结果一直没人用,直到被Fisher读到了。Fisher发现没人证明这个结论,于是把自己的证明寄给了Gosset,Gosset没看懂,于是转发给了Pearson,不过Pearson也没看懂。

Fisher后来一己之力,创造出了t-test,发展出了回归分析理论,以及ANOVA的全部。

Chap5: Regression

即使在近似均衡中,达尔文要求并论证过的变异性的存在也与种群中观测到的短期稳定性互相冲突。除非能够发现某些力量可以抵消增加的变异性,并符合遗传的代际变异,否则达尔文的模型行不通。

  • Regression的出现,恰恰拯救了达尔文的模型。
  • 这个图片很有意思。个子矮的父母更容易生出个子矮的子女。但是个字矮的子女,却更有可能是没那么矮的父母生出来的,而不是一个直接的相互关系。
  • 所以富不过三代是不是也有可能是一种「回归」

1933年,西北大学经济学家贺拉斯·塞奎斯特出版了The Triumph of Mediocrity in Business一书,这本书完全建立在统计错误之上。例如,他观察到,如果你在1920年列出利润率最高的前25%的百货公司,并且跟踪这些公司的平均表现到1930年为止,那么会发现它们的业绩表现不断趋于行业平均值,走向平庸。即使塞奎斯特知道回归,他也没有理解它。塞奎斯特这样写道:“在商业中,走向平庸的趋势不仅是统计的结果,更表现了普遍的行为关系。”他浑然不觉的是,如果根据1930年的利润选择前25%的公司,效果将会发生逆转。1920~1930年,业绩表现会稳定地远离平庸

Chap6:设计

好的设计可以同时问出多个问题,并维持最低限度的假设。

Chap7:残差

【602英国教材 · 实验设计】

书名:Statistical Principles for the Design of Experiments Applications to Real Experiments

Chap 1 Introduction

需要统计是因为要从不同中分清是误差还是信号

当年 R.A. Fisher 创立很多统计方法的时候还没有电脑,现在有了很多设备,许多assumption我们是不是需要重新检验?我们是不是可以发明很多新方法?(GUIDE就是借了这个福利)

这本书重在实验设计,而不是实验分析

我们在设计实验的时候,unit的性质不能决定实验的组数,要分开考虑:

  • 比如我们有四组老鼠,所以我们就想研究四种老鼠药的表现,这有点愚蠢。不要迁就,除非你真的想研究四种老鼠药。

The resource equation【自由度等式】:

T+B+E=N1T + B + E = N - 1

  • 以前一直不知道叫啥,原来叫这个。
  • 左右的自由度相同。treatment + block + error = data - mean estimate

Chap 2 Elementary RCBD

定义了CRD和RCBD

  • CRD:除了treatment的分配方式,别的都一样
  • RCBD:每个block都包含每种treatment一个且只有一个

实验的区域叫plot,我猜是因为当年实验设计主要都在农业领域

简单过了一下ANOVA

  • 老罗曾问CRD ANOVA的三部分哪两个好算,当时一头雾水,现在明白了。between和total好算,因为都是用一项减去correction factor ny..2ny_{..}^2

注意书中的Y..Y_{..}表示的是和而不是均值。

ANOVA只依赖于方差分解,而不依赖于误差的正态假设。

在你有很多treatment的时候,可以考虑画图的方式来寻找Pattern。(比如画个图,再做线性回归)

RCBD中缩小误差 ϵ\epsilon 的一个原则:要使得在不同的Block上,treatment差异保持恒定

提到了一种随机方法:产生一堆数字,划分, 模teatment的数量进行取余,然后从左往右来安排tA,tB,...t_A,t_B,... 遇到了一样的数字就跳过。看起来是能解决相当数量的随机化问题。

Chapter 4会讲到一种Blocking方法,以一个为主,然后另一个Blocking通过covariance的方式进行修正。

Chapter 8 会讲到一种Multiple Blocking System。每一个数据含有不同的block信息,听起来很Fancy。

设计Blocking的一个Principle:使得Block内尽可能相似,Block间尽可能不同

Chap 3 Treatment Stucture

Factorial本质上是多个Factor一起研究。

回顾一下定义:

  • Main Effect:

    jljtjw.r.tjlj=0\sum_j l_jt_j \\ w.r.t \sum_jl_j = 0

  • Interaction:

    jkljmktjkw.r.t.jlj=0,kmk=0\sum_j\sum_k l_jm_kt_{jk} \\ w.r.t. \sum_jl_j = 0, \sum_k m_k = 0

关于parameter assumption:interaction行和列都要和为0

j(pq)jk=0,k(pq)jk=0\sum_j (pq)_{jk} = 0, \sum_k (pq)_{jk} = 0

关于ANOVA table的计算,那种把平方和写成对correction term做差的方法也不错。当然哪种方法更简单,取决于你用了哪一张表。

关于Interpretation:

  • 一定是先解释main,再解释interaction。因为interaction本质上是对main无法解释的进行补充。如果没有main,显得有点可笑。
  • 其次是看order of magnitude。如果main的大小和interaction差不多,那么就把main的level组合列一下就可以了,不需要单独说main。但是如果有至少一个main的大小比interaction大很多,那么值得单独说一下。【main的level组合例子:50°的水和白皮鸡蛋组合,会产生96分的口感满意度】

【本科教材】Statistics

Chap 1 Controlled Experiment

最令人印象深刻的就是原来以前有那么多的实验,做的都很不严谨。为了推行一种药/手术,特意选择健康的人来开刀,而把病殃殃的人放到对照组。

CART


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!