注記:これは元々英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/95-percent-confidence-interval
95%信頼区間は、オンラインおよび科学的実験において現在も支配的な存在であり、常にそうでした。しかし、その妥当性と有用性はしばしば疑問視されています。ある人には保守的すぎると言われ、別の人には寛容すぎると言われます。恣意的だと見なされていますが(これは完全に正しい)、それは良いことなのです!私は95%信頼区間の支持者であり、確実なデフォルトとして推奨しています。
現代統計学の始まりから約100年間、これが標準となってきたのには理由があります。そして、オンライン実験の時代においては、さらに重要になっています。95%をデフォルトにすべき理由と、いつ、どのように調整すべきかを共有します。
これは実験でよく使われる用語ですが、p値と同様に直感的ではありません。アイビーリーグの統計学教授でさえ間違えることがあります。教科書的には、95%信頼区間は、繰り返しサンプリングを行った際に、95%の確率で真の値を含む数値範囲です。実際には、以下のような役割を果たします:
もっともらしい値の範囲
精度の尺度
実験方法がどれだけ再現可能/安定しているかの指標
(これらは技術的には正しくない解釈ですが、このトピックについてより教育を受けた人々に委ねます。)
おそらく95%信頼区間の最も価値があり正しい使用法は、帰無仮説を棄却するためのカットオフとしての使用です。これは5%有意水準(100% - 95% = 5%)とも呼ばれます。苦労して戦った実験、そしてしばしば希望と夢は、即座に成功か失敗になります。中間地点はありません。
信頼区間は、完全にゼロ効果(p=1.0)と惜しい結果(p=0.051)を区別しません。両方のシナリオは同じ結論に達します:真の実験効果はありません。ランダムエラーの豊かさは、無情にもイエス/ノーの評価に切り分けられます。
したがって、もし5%レベルがしっかりと確立されていなければ、ある人々は自分の主張を証明するためにレベルを6%や7%に引き伸ばすでしょう。すぐに他の人々が10%や15%に引き伸ばし、専門用語は意味をなさなくなるでしょう。
アーウィン・D・J・ブロス
この冷酷な性質こそが、95%信頼区間を非常に有用にしています。これは統計的シグナルを通過させながら、多くのノイズをフィルタリングする厳格なゲートキーパーです。非常に測定され、偏りのない方法で偽陽性を抑制します。自分の仕事に対して偏った判断者である実験オーナーから私たちを守ります。厳格なカットオフがあっても、科学論文の著者は境界線上の結果を色付けし、それ以上のものにするために創造的な言語に滑稽にも頼ります。
しかし、なぜ95%なのでしょうか?これは現代統計学の父、サー・ロナルド・フィッシャー自身によって設定されました。1925年、フィッシャーは両側z値1.96がほぼ正確に2標準偏差であるため、95%を選びました。この閾値は以来、ほぼ1世紀にわたって持続しています。
これは恣意的な数字ですが、それを使用する多くの理由があります:
偏りがない。他の人が使用するものを使用することは弁護可能です。他の人がプレイするのと同じルールでプレイすることを決定しました。この数字を変更しようとする試み(例:90%または99%)は、実験ルールの主観的な操作と見なされる可能性があります。それは裁判弁護士が「合理的な疑いを超えて」が実際に何を意味するかを定義するようなものです。
合理的に高いハードルである。純粋な運(実験効果なし)で有意な結果を見つける20分の1の確率を表します。これは潜在的な偽陽性の95%を除去し、統計的ノイズの合理的なフィルターとして機能します。
合理的に低いハードルである。実際には、ほとんどの研究分野が生産的であり続けるために達成可能なベンチマークです。
遍在している。私たち全員が同じ言語を話していることを保証します。あなたの会社内のあるチームが有意と考えるものは、別のチームと同じです。
実用的である。p=0.05が慣例として残っているため、実用的に有用であるに違いないと主張されています。低すぎれば、研究者はフラストレーションを感じるでしょう。高すぎれば、多くのジャンクが研究を汚染するでしょう。フィッシャー自身も、このバーを調整することなく、キャリアを通じて同じバーを使用しました。
簡単な選択である。弁護可能で偏りのない方法で信頼区間を微調整するには、いくらかの作業が必要です。ほとんどの場合、アイデアを策定し、実験の実行に集中する方が時間の有効活用です。
上記のすべての理由から、ほとんどの実験者は95%をデフォルトで使用することをお勧めします。しかし、調整すべきいくつかの正当な理由があります:
リスク・ベネフィットプロファイルが独特である。偽陽性または偽陰性に対する許容度が低い場合があります。例えば、高いリスク許容度を持つスタートアップ企業は、より低い信頼区間(例:80%または90%)を選択することで偽陰性を最小限に抑えたいと思うでしょう。プラットフォームの整合性や救命薬などの重要なシステムに取り組んでいる人々は、偽陽性を最小限に抑え、より高い信頼区間(例:99%)を選択したいと思うかもしれません。
統計的検出力が適切でない。合理的なサンプルサイズの推定値を生成できない検出力計算を実行しました。場合によっては、サンプルが少なすぎて、信頼区間を逆算できます。他の場合では、サンプルが多すぎて恵まれており、偽陽性率を削減する余裕があるかもしれません。(これはビッグデータの問題です!)
カスタム信頼区間を選択することは、偽陽性率と偽陰性率の間でトレードオフを行います。信頼区間を縮小してバーを下げる(例えば90%に)と、偽陽性率は増加しますが、偽陰性率は減少します。これにより、より多くの実際の効果を拾いますが、統計的ノイズも増えます。この数値を適切に調整することは、リスクプロファイルに一致させることを意味します。これを適切に行うには、偽陽性のコストと偽陰性のコストを比較検討する必要があります。
この道を進むことを選択した場合、いくつかのガイドラインがあります:
データが収集される前に信頼閾値を設定する。不正行為者は、覗き見る機会があった後に信頼区間を変更します。
カスタム信頼区間を再利用するようにする。実験ごとにこれを行うのは面倒で、潜在的に偏りがあります。新しい信頼区間を広く適用すべき幅広い状況と実験のセットを特定する方がはるかに有用です。
ほとんどの人、特に実験の初心者は、95%信頼区間に固執すべきです。これは多くの状況に適用される本当に良いデフォルトであり、余分な質問を招きません。しかし、それを変更することを主張する場合は、それがあなたの状況とリスクプロファイルに一致していることを確認し、実験を開始する前にこれを行ってください。