一、什么是假设检验

1.1 案例

【抛硬币】

1.2 假设检验是什么、不是什么

假设检验(Hypothesis testing)是根据样本提供的信息(计算出 P 值,即灰度认知),用统计学理论做出科学推断的方法(接受或拒绝假设,即黑白决策)。它是“灰度认知黑白决策”思想的数学表述。

假设检验使用“小概率事件在一次试验中一般不会发生”的原理作为依据:假设抛硬币出现正面的概率是 50%,如果在一次实验中得到了极小概率的结果(投掷10次硬币,出现10次正面,在假设条件下这一概率为1/1024<0.1%,是小概率事件),那么依据小概率事件原因,应该拒绝硬币正面概率是 50% 的假设。

1.3 假设检验中的常用概念

1.3.1 总体、样本、统计量

  1. 总体(随机变量的分布):是对随机变量分布的理论描述,在数学上用概率密度函数或分布律来刻画。总体是一个抽象的概念(在编程语言中类似于“类”)。例如,投掷硬币出现正面和反而的概率都是50%。可以用均值和方差来粗略地描述分布:

    1. 均值(位置:即数学期望,代表平均水平。总体均值记为 $\mu$,样本均值记为 $\overline{X}:=\frac{1}{n}\sum x_i$)
    2. 方差(离散:值越小越集中,值越大越分散。总体方差记为 $\sigma^2$,样本方差记为 $S^2:=\frac{1}{n-1}\sum(x_i-\overline{X})^2$。注:并不是所有的分布都存在方差)
  2. 样本(随机变量,或随机变量的观测值):是从总体中的一个或一组抽样,是一个现实的对象(在编程语言中类似于“对象”,是“类”的一个或一组实例)。例如,设计一个抛两次硬币的实验,每次实验都会从总体中抽取两个样本 $X_1,\,X_2$,在进行实验之前这是两个随机变量,而每次实验之后都会得到两个真实不变的观测值 $x_1,\,x_2$。
  3. 统计量:是一组样本的一个函数,其不包含未知参数。在实验前统计量是一个随机变量,它具有对应的概率密度函数或分布律,在实验后,就得到了统计量的一个观测值,可以根据观测值(或其所在区间)的概率密度函数值,来判断它出现的概率。

1.3.2 两个假设(原假设与备择假设)

  1. 原假设(Null hypothesis)记为 $H_0$,又称零假设或虚无假设。零假设通常由研究者决定,反映研究者对未知参数的看法。
  2. 备择假设(Alternative hypothesis)记为 $H_1$ 或 $H_a$,是原假设的对立面。备择假设通常反应了执行检验的研究者对参数可能数值的另一种(对立的)看法(换句话说,通常备择假设才是研究者最想知道的)。

【例1】均值的双边假设检验

  1. 均值的双边假设检验:$H_0$:$\mu=\mu_0$,$H_1$:$\mu\neq\mu_0$
  2. 均值的右边假设检验:$H_0$:$\mu\leqslant\mu_0$,$H_1$:$\mu>\mu_0$
  3. 均值的左边假设检验:$H_0$:$\mu\geqslant\mu_0$,$H_1$:$\mu<\mu_0$

【例2】刑事司法原则

  1. 无罪推定:$H_0$:被告清白,$H_1$:被告有罪。被告在未经依法判决有罪之前,应视其无罪,然后检察官需要提出足够的证据去证明被告有罪。此外,被告人不负有证明自己无罪的义务,被告人提供证明有利于自己的证据的行为是行使辩护权的行为,不能因为被告人没有或不能证明自己无罪而认定被告人有罪。
  2. 有罪推定:$H_0$:被告有罪,$H_1$:被告清白。无罪推定的反面。
  3. 在显著性假设检验中,两种假设的地位通常是有区别的,往往将犯错带来后果更严重的判断作为备择假设。在无罪推定中,认为冤枉一个好人比放过一个坏人所犯错误带来的后果更加严重,因此如果没有足够充分的证据证明其有罪,就不能拒绝“被告清白”的原假设。

1.3.3 两类错误

第Ⅰ类错误,犯错概率记为 $\alpha$:当原假设 $H_0$ 成立时,拒绝了 $H_0$(即“弃真”)。其含意是,当原假设在真实情况下成立时,进行很多次假设检验,拒绝原假设的频率为 $\alpha$。其中 α 被称为显著性水平,$1-\alpha$ 被称为置信水平。

第Ⅱ类错误,犯错概率记为 $\beta$:当原假设 $H_0$ 不成立时,接受了 $H_0$(即“取伪”)。其含意是,当备择假设在真实情况下成立时,进行很多次假设检验,未拒绝原假设的概率为 $\beta$。称 $1-\beta$ 为统计功效。

当样本量 $n$ 固定时(样本信息量一定),两类错误此消彼长,即如果减小犯第Ⅰ类错误概率 α,则犯第Ⅱ类错误的概率 β 必然增加。

image-20220410195321520

1.4 显著性假设检验:

显著性假设检验是指:只控制犯第Ⅰ类错误概率 α,而不考虑犯第Ⅱ类错误概率 β 的假设检验。这意味着在显著性假设检验中,两个假设的地位是不平等的——原假设 $H_0$ 将受到保护——如果没有足够的信息则不能拒绝原假设 $H_0$。因此,我们通常会将那个一旦被错误拒绝,就会造成更严重后果的假设作为原假设,例如:

  • 在医药中,一般将假药作为原假设,将真药作为备择假设(如果没有足够的证据,不能推翻药品是假药的假设);
  • 在刑事司法中,将无罪作为原假设,将有罪作为备择假设(如果没有足够的证据,不能否定一个人是清白的)。

image-20220405165809482

1.5 假设检验的分类

按不同的规则,可将假设检验分为不同的类型。

image-20220405171906912

二、理论知识

2.1 大数定律

大数定律是一系列定律的统称,通俗来讲(不严紧地说)是在描述这样一个事实:某事件的发生频率会随规实验次数增加而逼近于该事件发生的理论概率。稍严紧地说,当实验次数趋于无穷大时,独立同分布样本的平均数(某事件的频率)会依概率收敛到总体的理论数学期望(某事件的概率)。

2.2 中心极限定理

中心极限定理也是一系列定理的统称,大致是在描述:在很大规模的独立实验中,标准化(减去均值后除以标准差)后的随机变量,近似于标准正态分布

2.3 统计量的分布

三、假设检验有什么用

当通过统计推断做出决策

四、如何做假设检验

4.1 假设检验的核心步骤

假设检验大致有如下步骤:

  1. 提出假设:原假设和备择假设
  2. 选择一个显著性水平 α(一般取 0.05,0.01),用于计算“拒绝域”或“临界值”,代表可接受的犯第Ⅰ类错误的概率
  3. 选择适合的检验统计量 T,并在原假设为真的条件下推导检验统计量的分布(下文介绍选择方法,通常无需计算)
  4. 根据在原假设成立时的检验统计量 T 的分布,找到概率为显著性水平 α 的区域,此区域称为“拒绝域”
  5. 根据样本计算统计量的观察值 t,如果 t 未落在拒绝域,则“不拒绝”原假设;若估计值 t 落在拒绝域,则拒绝零假设,接受备择假设

要注意的是一般不会将检验结果称作“接受”零假设,而是因没有显著证据证明零假设为非,所以“不拒绝”零假设(解读详见:假设检验中样本容量的选取(理论解读))。

4.2 假设检验中统计量的选择

五、假设检验与A/B测试的关系

六、FAQ

附录

最后修改:2022 年 04 月 17 日
如果觉得我的文章对你有用,请随意赞赏