理解95%置信区间的作用

Tue Jun 24 2025

注意:这是一篇最初以英文发表的博客的中文翻译,您可以在这里找到原文:https://statsig.com/blog/95-percent-confidence-interval

95% 置信区间目前在在线和科学实验中占据主导地位;一直如此。然而,它的有效性和实用性经常受到质疑。有些人认为它过于保守,而另一些人则认为它过于宽松。它被认为是任意的(绝对正确),但这是一件好事!我是 95% 置信区间的支持者,并推荐将其作为可靠的默认选择。

从近 100 年前现代统计学诞生之初,它就一直是标准,这是有原因的。在在线实验时代,它变得更加重要。我将分享为什么你应该将 95% 作为默认值,以及何时以及如何调整它。

什么是 95% 置信区间?

这是实验中的常用术语,但像 p 值一样,它并不直观。即使是常春藤盟校的统计学教授也可能会搞错。根据定义,95% 置信区间是一个数值范围,在重复抽样时,将有 95% 的时间包含真实值。在实践中,它的作用是:

  • 一个合理值的范围

  • 精确度的度量

  • 我们实验方法可重复性/稳定性的指标

(从技术上讲,这些是不正确的解释,但我会听从在这个话题上更有学识的人的意见。)

也许 95% 置信区间最有价值和正确的用途是作为拒绝零假设的临界值。这也被称为 5% 的显著性水平(100% - 95% = 5%)。你辛苦奋斗的实验,以及经常寄托的希望和梦想,瞬间变成成功或失败。没有中间地带。

置信区间不区分绝对零效应(p=1.0)或险些达标(p=0.051)。两种情况都得出相同的结论:没有真正的实验效应。随机误差的丰富性被粗暴地切成是/否的评估。

为什么 95% 置信区间是有用的临界值

因此,如果没有牢固确立的 5% 水平,那么有些人会将水平拉伸到 6% 或 7% 来证明他们的观点。很快其他人会拉伸到 10% 和 15%,术语就会变得毫无意义。

Irwin D. J. Bross

正是这种冷酷的本质使得 95% 置信区间如此有用。它是一个严格的守门人,通过统计信号,同时过滤掉大量噪音。它以非常有节制和无偏的方式抑制假阳性。它保护我们免受对自己工作有偏见的实验负责人的影响。即使有硬性临界值,科学作者也会滑稽地诉诸创造性语言来粉饰边缘结果,使其变得更有意义。

但为什么是 95%?它是由现代统计学之父罗纳德·费舍尔爵士本人设定的。1925 年,费舍尔选择 95% 是因为双侧 z 分数 1.96 几乎正好是 2 个标准差。此后,这个阈值持续了近一个世纪。

95% 应该是你的默认置信区间

尽管这是一个任意数字,但使用它有很多理由:

  1. 它是无偏的。使用其他人使用的标准是可以辩护的。你决定按照其他人遵循的相同规则行事。试图改变这个数字(例如,90% 或 99%)可能被视为对实验规则的主观操纵。这就像审判律师定义"排除合理怀疑"的实际含义。

  2. 它是一个相当高的标准。它代表纯粹靠运气(没有实验效应)找到显著结果的机会是 1/20。这消除了 95% 的潜在假阳性,并作为统计噪音的合理过滤器。

  3. 它是一个合理的低标准。在实践中,对于大多数研究领域来说,这是一个可以实现的基准,以保持生产力。

  4. 它是普遍存在的。它确保我们都在说同一种语言。你公司内一个团队认为显著的东西与另一个团队相同。

  5. 它是实用的。有人认为,由于 p=0.05 仍然是惯例,它必须在实践中有用。如果它太低,研究人员会感到沮丧。如果它太高,我们会有很多垃圾污染我们的研究。费舍尔本人在整个职业生涯中都使用相同的标准,没有调整这个标准。

  6. 这是一个简单的选择。以可辩护和无偏的方式微调你的置信区间需要一些工作。在大多数情况下,更好地利用你的时间来制定想法并专注于运行实验。

如何选择自定义置信区间

出于上述所有原因,我建议大多数实验者默认使用 95%。但有几个很好的理由你应该调整它:

  1. 你的风险收益状况是独特的。你可能对假阳性或假阴性的容忍度很低。例如,具有高风险承受能力的初创公司会希望通过选择较低的置信区间(例如,80% 或 90%)来最小化假阴性。从事平台完整性或救生药物等关键系统工作的人可能希望最小化假阳性并选择更高的置信区间(例如,99%)。

  2. 你的统计功效不合适。你运行的功效计算无法产生合理的样本量估计。在某些情况下,你的样本太少,可以反向设计你的置信区间。在其他情况下,你可能有幸拥有太多样本,可以承受降低假阳性率。(这是一个大数据问题!)

选择自定义置信区间需要在假阳性率和假阴性率之间进行权衡。通过缩小置信区间(比如到 90%)来降低标准将增加你的假阳性率,但降低你的假阴性率。这将捕获更多真实效应,但也会捕获更多统计噪音。正确调整这个数字意味着匹配你的风险状况。正确地做到这一点需要权衡假阳性与假阴性的成本。

如果你选择走这条路,我有一些指导原则:

  • 在收集任何数据之前设置你的置信阈值。作弊者在有机会偷看后会改变置信区间。

  • 尝试重用你的自定义置信区间。逐个实验地这样做既繁琐又可能有偏见。识别应该广泛应用新置信区间的一系列广泛情况和实验会更有用。

总结

大多数人,尤其是实验初学者,应该坚持使用 95% 置信区间。这是一个非常好的默认值,适用于很多情况,不会引起额外的质疑。但如果你坚持要改变它,请确保它符合你的情况和风险状况,并在开始实验之前这样做。



Please select at least one blog to continue.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy