假设检验四部曲详解

Tue Jun 24 2025

注:本文是一篇英文博客的中文翻译,原文请见:https://statsig.com/blog/hypothesis-testing-explained

作为数据科学家,假设检验理应被充分理解,但实际情况往往并非如此。这主要是因为我们的教科书不一致地混合了两个学派的思想——p值和显著性检验与假设检验。

例如,除非你之前深入思考过,否则有些问题并不明显:

  • 功效或β是否依赖于零假设?

  • 我们能接受零假设吗?为什么?

  • 在β保持不变的情况下,MDE如何随α变化?

  • 为什么我们在假设检验中使用标准误差而不是标准差?

  • 为什么我们不能具体说明备择假设,以便我们可以正确地对其建模?

  • 为什么假设检验的基本权衡是关于错误与发现,而不是关于α与β?

解决这个问题并不容易。假设检验的主题很复杂。在本文中,我们将逐步介绍10个概念,通过可视化帮助你理解,并包含直观的解释。阅读本文后,你将对上述问题有清晰的答案,真正从第一性原理层面理解,并能很好地向利益相关者解释这些概念。

我们将本文分为四个部分。

  1. 使用核心统计概念正确设置问题,并将它们与假设检验联系起来,同时在技术正确性和简单性之间取得平衡。具体来说,

    1. 我们强调标准差和标准误差之间的明确区别,以及为什么在假设检验中使用后者

    2. 我们充分解释何时可以"接受"假设,何时应该说"未能拒绝"而不是"接受",以及为什么

  2. 介绍α、第一类错误和零假设的临界值

  3. 介绍β、第二类错误和备择假设的功效

  4. 介绍最小可检测效应以及功效计算中各因素之间的关系,并提供高层次总结和实用建议

第1部分 - 假设检验、中心极限定理、总体、样本、标准差和标准误差

在假设检验中,我们从零假设开始,它通常断言我们的处理组和对照组之间没有效应。通常,这表示为处理组和对照组之间的均值差为零。

中心极限定理表明了这个均值差的一个重要性质——给定足够大的样本量,这个均值差的基础分布将近似正态分布,无论总体的原始分布如何。有两个注意事项:

  1. 处理组和对照组的总体分布可能不同,但观察到的均值(当你观察许多样本并计算许多均值时)在样本足够大时总是正态分布的。下面是一个图表,其中n=10和n=30对应于样本均值的基础分布。

  2. 注意"基础分布"。标准差与标准误差是一个可能令人困惑的概念。让我们澄清一下。

标准差与标准误差

让我们将零假设声明为没有处理效应。然后,为了简化,让我们提出以下均值为0、标准差为1的正态分布,作为与此零假设相关的可能结果范围及其概率。

关于总体、样本、组和估计量的语言可能会令人困惑。再次,为了简化,让我们忘记零假设是关于均值估计量的,并声明我们可以观察均值假设一次或多次。当我们多次观察它时,它形成一个样本*,我们的目标是基于这个样本做出决策。

  • 对于技术人员,观察实际上是关于单个样本的,许多样本是一个组,组之间的差异是我们作为均值假设讨论的分布。红色曲线代表这个差异的估计量的分布,然后我们可以有另一个由该估计量的许多观察组成的样本。在我的简化语言中,红色曲线是估计量的分布,带有样本大小的蓝色曲线是对它的重复观察。如果你有更好的方式来表达这些概念而不引起混淆,请提出建议。

这个概率密度函数意味着如果从这个分布中有一个实现,实现可以在x轴上的任何地方,y轴上是相对可能性。

如果我们抽取多个观察值,它们形成一个样本。这个样本中的每个观察值都遵循这个基础分布的性质——更可能接近0,并且在两侧同样可能,这使得正负的几率相互抵消,所以这个样本的均值更加集中在0附近。

我们使用标准误差来表示我们"样本均值"的误差。

标准误差 = 观察样本的标准差 / sqrt(样本大小)。

对于30的样本大小,标准误差大约是0.18。与基础分布相比,样本均值的分布要窄得多。

在假设检验中,我们试图得出一些结论——是否存在处理效应?——基于一个样本。所以当我们谈论α和β时,它们是第一类和第二类错误的概率,我们谈论的是基于样本均值和标准误差图的概率。

第2部分,零假设:α和临界值

从第1部分,我们说零假设通常表示为处理组和对照组之间的均值差为零。

不失一般性*,让我们假设我们零假设的基础分布是均值0和标准差1

  • 那么零假设的样本均值是0,标准误差是1/√n,其中n是样本大小。

  • 当样本大小为30时,这个分布的标准误差≈0.18,如下所示。

*:给技术读者的注释:零假设是关于均值差的,但在这里,为了不使事情复杂化,我们做了微妙的改变,只是绘制了这个"均值差的估计量"的分布。下面的所有内容都是关于这个"估计量"的。

我们有零假设的原因是我们想做出判断,特别是是否存在处理效应。但在概率的世界里,任何观察和任何样本均值都可能发生,只是概率不同。所以我们需要一个决策规则来帮助我们量化犯错的风险。

决策规则是,让我们设置一个阈值。当样本均值高于阈值时,我们拒绝零假设;当样本均值低于阈值时,我们接受零假设。

接受假设与未能拒绝假设

值得注意的是,你可能听说过"我们从不接受假设,我们只是未能拒绝假设",并对此下意识地感到困惑。深层原因是现代教科书不一致地混合了Fisher的显著性检验和Neyman-Pearson的假设检验定义,并忽略了重要的注意事项。为了澄清:

  • 首先,给定任何观察,我们永远无法"证明"特定的假设,因为给定一个观察,有无限多个真实假设(具有不同的概率)。我们将在第3部分中将其可视化。

  • 其次,"接受"假设并不意味着你相信它,而只是意味着你表现得好像它是真的。所以从技术上讲,"接受"假设没有问题。

  • 但是,第三,当我们谈论p值和置信区间时,"接受"零假设充其量是令人困惑的。原因是"p值高于阈值"只是意味着我们未能拒绝零假设。在严格的Fisher的p值框架中,没有备择假设。虽然我们有拒绝零假设的明确标准(p < α),但我们没有基于β的类似明确的"接受"零假设的标准。

所以在p值设置中称"接受假设"的危险是:

  1. 许多人将"接受"零假设误解为"证明"零假设,这是错误的;

  2. "接受零假设"没有严格定义,并且不符合检验的目的,即关于我们是否拒绝零假设。

在本文中,我们将在Neyman-Pearson框架内保持一致,其中"接受"假设是合法和必要的。否则,如果不表现得好像某个假设是真的,我们就无法绘制任何分布。

你不需要知道Neyman-Pearson这个名字就能理解任何东西,但要注意我们的语言,因为我们非常仔细地选择我们的词语以避免错误和混淆。

到目前为止,我们已经构建了一个简单的世界,其中一个假设是唯一的真理,以及一个具有两个潜在结果的决策规则——其中一个结果是"当零假设为真时拒绝零假设",另一个结果是"当零假设为真时接受零假设"。两种结果的可能性都来自零假设为真的分布。

稍后,当我们介绍备择假设和MDE时,我们将逐渐走进无限多个备择假设的世界,并可视化为什么我们不能"证明"假设。

我们将p值/显著性框架与假设检验之间的区别保存在另一篇文章中,届时你将有完整的图景。

第一类错误、α和临界值

我们能够使用标准误差为这个零假设构建样本均值的分布。由于我们只有零假设作为我们宇宙的真理,我们只能犯一种错误——当零假设为真时错误地拒绝它。这是第一类错误,概率称为α。假设我们希望α为5%。我们可以计算使其发生所需的阈值。这个阈值称为临界值。

在这个图表中,α是曲线下的蓝色区域。临界值是0.3。如果我们的样本均值高于0.3,我们拒绝零假设。我们有5%的机会犯第一类错误。

回顾一下:

  • 第一类错误:当零假设为真时错误地拒绝零假设

  • α:犯第一类错误的概率

  • 临界值:确定是否拒绝零假设的阈值

第3部分,备择假设:β和功效

你可能已经注意到在第2部分中我们只谈到了第一类错误——当零假设为真时拒绝它。那么第二类错误呢——当零假设不为真时错误地接受它?

但是,除非我们知道真相,否则称"接受"为错误是奇怪的。所以我们需要一个备择假设作为替代真理。

备择假设是理论构造

有一个重要的概念,大多数教科书都没有强调——那就是,对于给定的零假设,你可以有无限多个备择假设,我们只是选择一个。它们中没有一个比其他的更特殊或"真实"。

让我们用一个例子来可视化它。假设我们观察到样本均值为0.51,真正的备择假设是什么?

通过这个可视化,你可以看到为什么我们有"无限多个备择假设",因为给定观察,有无限数量的备择假设(加上零假设)可能是真的,每个都有不同的概率。有些比其他的更可能,但都是可能的。

记住,备择假设是一个理论构造。我们选择一个特定的备择假设来计算某些概率。到现在,我们应该更多地理解为什么我们不能在给定观察的情况下"接受"零假设。我们无法证明零假设是真的,我们只是在给定观察和我们预先确定的决策规则的情况下未能接受它。

当我们谈论MDE时,我们将完全协调从无限可能性世界中选择一个备择假设的想法。"接受"与"未能拒绝"的想法更深入,我们不会在本文中完全涵盖它。当我们有一篇关于p值和置信区间的文章时,我们会这样做。

第二类错误和β

为了简单和易于比较,让我们选择一个均值为0.5、标准差为1的备择假设。同样,样本大小为30时,标准误差≈0.18。现在我们的简单宇宙中有两个潜在的"真理"。

记住从零假设,我们希望α为5%,所以相应的临界值是0.30。我们修改我们的规则如下:

  • 如果观察值高于0.30,我们拒绝零假设并接受备择假设;

  • 如果观察值低于0.30,我们接受零假设并拒绝备择假设。

随着备择假设的引入,替代"(假设的)真理",我们可以称"接受零假设并拒绝备择假设"为错误——第二类错误。我们也可以计算这个错误的概率。这称为β,由下面的红色区域说明。

从可视化中,我们可以看到β取决于备择假设和临界值。让我们非常明确地逐一阐述这两种关系,因为它们都很重要。

首先,让我们通过设置另一个均值= 1而不是0.5的备择假设来可视化β如何随备择假设的均值变化

β从13.7%变为0.0%。即,β是当我们假设特定备择假设为真时错误拒绝它的概率。当我们假设不同的备择假设为真时,我们得到不同的β。所以严格来说,β只是说明当特定备择假设为真时错误拒绝它的概率。没有别的。只有在其他条件下,"拒绝备择假设"才意味着"接受"零假设或"未能接受零假设"。当我们在另一篇文章中谈论p值和置信区间时,我们将进一步阐述。但到目前为止我们谈论的内容是真实的,足以理解功效。

其次,α和β之间存在关系。即,给定零假设和备择假设,α将确定临界值,临界值确定β。这说明了错误与发现之间的权衡。

  • 如果我们容忍更多的α,我们将有更小的临界值,对于相同的β,我们可以检测到更小的备择假设

  • 如果我们容忍更多的β,我们也可以检测到更小的备择假设。

简而言之,如果我们容忍更多的错误(第一类或第二类),我们可以检测到更小的真实效应。错误与发现是假设检验的基本权衡。

所以容忍更多的错误会带来更多的发现机会。这是我们将在第4部分详细说明的MDE概念。

最后,我们准备定义功效。功效是统计检验中的一个重要和基本的主题,我们将以三种不同的方式解释这个概念。

理解功效的三种方式

首先,功效的技术定义是1−β。它表示给定备择假设和给定我们的零假设、样本大小和决策规则(α = 0.05),我们接受这个特定假设的概率。

其次,功效在其定义中确实很直观。一个现实世界的例子是试图确定世界上最受欢迎的汽车制造商。如果我观察一辆车并看到一个品牌,我的观察不是很有力。但如果我观察一百万辆车,我的观察就很有力。有力的检验意味着我有很高的机会检测到真实的效应。

第三,为了简洁地说明这两个概念,让我们通过将样本大小从30更改为100来运行可视化,看看功效如何从86.3%增加到几乎100%。

如图所示,我们可以很容易地看到功效随样本大小增加。原因是零假设和备择假设的分布都变窄了,因为它们的样本均值变得更准确。我们不太可能犯第一类错误(这降低了临界值)或第二类错误。

回顾一下:

  • 第二类错误:当备择假设为真时未能拒绝零假设

  • β:犯第二类错误的概率

  • 功效:检验在存在真实效应时检测到它的能力

第4部分,功效计算:MDE

MDE、备择假设和功效之间的关系

现在,我们准备处理所有定义中最细微的:最小可检测效应(MDE)。首先,让我们在图表上用红色虚线明确表示备择假设的样本均值。

如果我们保持相同的样本大小,但希望功效为80%呢?这时我们回忆前一章"备择假设是理论构造"。我们可以有一个对应于80%功效的不同备择假设。经过一些计算,我们发现当它是均值= 0.45的备择假设时(如果我们保持标准差为1)。

这是我们协调"无限多个备择假设"概念与最小可检测增量概念的地方。记住,在统计检验中,我们想要更多的功效。"最小可检测效应"中的"最小"是备择假设均值的最小值,它将给我们80%的功效。任何均值在MDE右侧的备择假设都给我们足够的功效。

换句话说,确实有无限多个备择假设在这个均值0.45的右侧。均值为0.45的特定备择假设给我们功效充足的最小值。我们称之为最小可检测效应,或MDE。

从头开始的MDE完整定义

让我们从头开始看看我们是如何推导MDE的:

  • 我们固定了零假设的样本均值分布,并固定了样本大小,所以我们可以绘制蓝色分布

  • 对于我们的决策规则,我们要求α为5%。我们推导出临界值应为0.30以使5%的α发生

  • 我们将备择假设固定为标准差为1的正态分布,所以标准误差为0.18,均值可以在任何地方,因为有无限多个备择假设

  • 对于我们的决策规则,我们要求β为20%或更少,所以我们的功效为80%或更多。

  • 我们推导出我们可以用决策规则检测到的备择假设观察均值的最小值是0.45。任何高于0.45的值都会给我们足够的功效。

MDE如何随样本大小变化

现在,让我们通过增加样本大小,保持α和β不变,看看MDE如何变化,将所有内容联系在一起。

  1. 更窄的样本均值分布 + 保持α不变 -> 更小的临界值从0.3到0.16

    • 保持β不变 -> MDE从0.45减少到0.25

这是另一个关键要点:样本量越大,我们可以检测到的效应越小,MDE越小。

这是统计检验的一个关键要点。它表明,即使对于样本量不大的公司,如果他们的处理效应很大,AB测试也可以可靠地检测到它。

假设检验总结

让我们一起回顾所有概念。

假设零假设是正确的:

  • α:当零假设为真时,拒绝它的概率

  • 临界值:确定拒绝与接受零假设的阈值

假设备择假设是正确的:

  • β:当备择假设为真时,拒绝它的概率

  • 功效:真实效应产生显著结果的机会

功效计算:

  • 最小可检测效应(MDE):给定样本大小和分布,将给我们所需α和足够功效(通常α = 0.05和功效>= 0.8)的备择分布的最小均值

  • 因素之间的关系,其他条件相同:更大的样本,更多的功效;更大的样本,更小的MDE

我们谈论的一切都在Neyman-Pearson框架下。在这个框架下不需要提及p值和显著性。混合两个框架是我们教科书带来的不一致性。澄清不一致性并正确混合它们是另一天的主题。

实用建议

就是这样。但这只是开始。在实践中,有许多使用功效的技巧,例如:

  • 为什么偷看会引入行为偏差,以及如何使用序贯检验来纠正它

  • 为什么有多重比较会影响α,以及如何使用Bonferroni校正

  • 样本大小、实验持续时间和实验分配之间的关系?

  • 将你的分配视为实验资源,了解何时交互效应是可以的,何时不可以,以及如何使用层来管理

  • 设置MDE的实际考虑

此外,在上述示例中,我们固定了分布,但实际上,分布的方差起着重要作用。有不同的方法来计算方差和不同的方法来减少方差,例如CUPED或分层抽样。



Please select at least one blog to continue.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy