Statsigでの逐次検定

Tue Jun 24 2025

注記:これは英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/sequential-testing-on-statsig

逐次検定は、A/Bテストにおける「覗き見問題」の解決策であり、偽陽性率(FPR)を増加させることなく実験結果の継続的な監視を可能にします。

私たちは最近、より迅速な意思決定を可能にするため、Statsigの逐次検定手法を刷新しました。以前の実装と比較して、この新しいアプローチは、FPRに厳格な上限を設けながら、実験の初期段階でより高い統計的検出力を持っています。これは、早期の回帰検出や、主要指標が予想以上に大きな効果を示す場合の実験期間短縮に理想的です。

逐次検定の必要性

オンラインA/Bテストを実行する際の一般的な懸念事項は「覗き見問題」です。これは、早期の出荷決定を意図して実験指標を継続的に監視する際に発生します。これは、オンライン実験の2つの側面間の緊張から生じます:

継続的な指標の更新

心理学や薬物試験などの分野で実施されるA/Bテストとは異なり、最先端のオンライン実験プラットフォームはライブデータストリームを使用し、結果を即座に表示できます。これらの結果は、データ収集が続く中で最新の洞察を反映するように更新できます。当然、この強力な機能を活用して、可能な限り早期に最良の決定を下したいと考えます。

基礎となる統計的検定の制限

固定期間仮説検定では、事前に決定されたFPR(通常5%、α = 0.05)を受け入れます。p値が0.05未満の場合、帰無仮説を棄却し、観察された効果をテストしている処置に帰属させることが一般的です。統計的に有意な結果が実際には単なるランダムノイズである可能性が5%あることを知りながら、これを行います。

しかし、有意性を待ちながら継続的に監視すると、5%のFPRの複合効果につながります。20面のサイコロがあると想像してください。1回振れば、1が出る確率は5%(20分の1)です。しかし、1週間毎日振れば、少なくとも1回1が出る確率は5%よりもはるかに高くなります。実際、確率は30%に増加しています。

解決策

逐次検定では、指標が何回評価されても、偽陽性の望ましい上限を維持するように信頼区間の計算が変更されます。

Statsigの逐次検定手法

Statsigの新しい逐次検定手法は、Zhaoらによって説明されたmSPRT(混合確率逐次比検定)アプローチに基づいています。これは一般的に使用される手法で、検定統計量は帰無仮説と対立仮説の尤度比に基づいています。

シミュレートされた分布と実際の実験データの両方で広範なテストを実施し、これが逐次検定の望ましい基準を満たすことを発見しました:

  • A/Aテストの偽陽性率は、4週間にわたる繰り返し測定でも5%未満に留まります。

  • 実際の効果が存在する場合、統計的に有意な結果は、実験の目標期間よりも早く検出されることがよくあります。

評価の詳細

評価では、新しいmSPRT手法を以前のアプローチ、および固定期間テストで使用される標準的なz検定と比較しました。

検出力と早期停止確率

Statsigの最近の560の実験のコーパスを使用して、私たちの方法の検出力を評価しました。これには約2千のスコアカード指標が含まれていました。分析は、さまざまな業界の幅広い製品指標(滞在時間、収益、サブスクリプション率、レイテンシ、送信メッセージ数、リテンション率など)をカバーしました。各実験について、目標期間とスコアカード指標は実験作成者によって設定されました。

目標期間の終了時に固定期間z検定に基づいて統計的に有意だったスコアカード指標に焦点を当てました。以下のチャートは、期間の関数として逐次検定が統計的に有意な結果を示す確率を示しています。結果が統計的に有意な場合、逐次検定を使用していれば実験を早期に停止できることを意味します。

私たちの新しい方法は、以前の方法と比較して、早期に統計的に有意な結果を特定する確率が高くなっています。これが、このアップデートをリリースする理由の1つです:逐次検定は、結果を早期に明らかにし、実験期間を短縮する場合により多くの価値を提供します。

ただし、実験の終了時に同じレベルの検出力に達しないことは注目に値します。これは、FPRに上限を設ける際に避けられないトレードオフです。標準的な固定期間テストよりも逐次検定を選択する際には、この点を念頭に置く価値があります。

手法

固定期間テストに対する相対的な検出力

目標期間の半分での早期停止確率

固定期間

100%

0%

Statsig新手法(mSPRT)

84%

58%

Statsig v1

100%

33%

シミュレートされたA/Aテストからの偽陽性率

FPRを評価する最良の方法は、中立的な結果が期待されるA/Aテストです。以下のパラメータで1万回のシミュレートされたA/Aテストを実施しました:

  • グループあたり10万人のユーザー、14日間にわたって登録。これは、ユーザーが実験期間中に徐々に実験に露出される一般的なパターンを反映しています。

  • 各ユーザーに対して2つの指標が生成されます。1つ目は標準正規分布から、2つ目は平均1、標準偏差0.1の正規分布から抽出されます。

結果は、新しい手法のFPRが5%を安全に下回っていることを示しています。予想通り、固定期間z検定は約5%ですが、覗き見を伴うz検定は大幅に高く(20%以上)なっています。以前の手法はFPRに厳格な上限を設けていなかったため、固定期間z検定と比較してわずかに高いFPR(5.5%)を示していますが、それでも覗き見を伴うz検定よりもはるかに低くなっています。

手法

FPR(標準正規)

FPR(平均=1、標準偏差=0.1)

固定期間

5.3%

4.9%

Statsig新手法(mSPRT)

0.4%

0.2%

Statsig旧手法

5.5%

5.2%

覗き見を伴うZ検定

20.9%

21.5%

実データからの偽陽性率

また、Statsigの既存データを活用して、実世界の指標で私たちの方法のFPRを評価しました。これは、実験で見られる指標が合成データセットとは異なる分布や参加率を持つ可能性があるため、重要なステップです。

さまざまな規模の100の異なる顧客から5千以上の指標を使用して、5万のA/Aテストを生成しました。テストの期間は28日で、比率型とイベントカウント型の両方の指標を評価しました。ここでも、結果はmSPRT手法のFPRが一貫して5%未満であることを確認しています。

手法

全体のFPR

比率のFPR

イベントカウントのFPR

固定期間

5.0%

4.6%

5.0%

Statsig新手法(mSPRT)

1.1%

1.1%

1.2%

Statsig旧手法

5.7%

5.4%

5.7%

覗き見を伴うZ検定

17.3%

20.1%

17.3%

推奨されるベストプラクティス

逐次検定の最良の使用法は、多くの場合、従来の時間制限のある仮説検定との組み合わせです。逐次検定は、回帰を特定したり、単一の指標に基づいて出荷決定を行ったりするのに最適です。

Statsigでの製品実験では、多くの場合、テストの影響の全体像を提供する複数のスコアカード指標が含まれます。そのような場合は、関心のあるすべての指標にわたって完全な統計的検出力を得るために、固定期間テストを利用することをお勧めします。念頭に置くべきいくつかのアイデア:

なぜ早期の決定が有益なのか

「覗き見」は時に眉をひそめられることがありますが、テストの早期監視は実際には実験プログラムから最大の価値を得るために重要です。実験が測定可能な回帰を導入する場合、最後まで待って行動を起こす理由はありません。逐次検定により、統計的ノイズと早期に有意な強い効果を容易に区別できます。

逐次検定のもう1つの使用例は、実験を完全な期間実行することに機会費用がある場合です。たとえば、ユーザーから改善を差し控えることには重大なエンジニアリングまたはビジネスコストがかかる可能性があり、実験を早期に終了することでさらなるテストへの道が開かれる可能性があります。

ガードレールを忘れずに

目標指標が早期に統計的に有意な効果を示すのを見るのは興奮します。早期の決定を下す前の注意事項:1つの指標が早期に有意性に達する可能性がありますが、中立的に見える他の指標はまだ検出力不足の可能性があります。

週次の季節性を考慮する

関心のあるすべての指標が早期に素晴らしく見える場合でも、決定を下す前に少なくとも7日間待つことが推奨されることがよくあります。これは、製品のエンドユーザーが曜日によって異なる行動をとる場合、多くの指標が週次の季節性の影響を受けるためです。

効果サイズ

効果サイズの良い推定値が重要な場合は、実験を完了まで実行することを検討してください。1つには、逐次検定で調整された信頼区間はより広いため、早期の決定を行う際の可能性のある値の範囲が大きくなります(精度が低い)。さらに、真の効果が実際には小さい場合でも、測定された効果が大きいほど早期に統計的に有意になる可能性が高くなります。

肯定的な統計的に有意な結果に基づいて日常的に早期の決定を下すと、開始された実験の影響を体系的に過大評価する可能性があります(精度が低い)。

最後に

逐次検定により、偽陽性率を増加させることなく実験結果の継続的な監視が可能になります。

これは、回帰を早期に特定し、製品への影響を軽減するための強力なツールです。とはいえ、固定期間テストと比較して全体的な統計的検出力が低下します。したがって、実験に単一の関心指標がある場合にのみ、早期の出荷決定にこの方法を利用することをお勧めします。

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy