注記:これは元々英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/one-tailed-vs-two-tailed-tests
RやSciPyなどの組み込みt検定関数を使ってデータ分析をしたことがある方に質問です:対立仮説のデフォルト設定を調整したことはありますか?答えが「いいえ」、またはこれが何を意味するのかよくわからない場合、このブログはあなたのためのものです!
対立仮説パラメータは、統計学では一般的に「片側検定」対「両側検定」と呼ばれ、対照群と処理群の間の差の期待される方向を定義します。
両側検定では、方向を指定せずに、群間の平均値に何らかの差があるかどうかを評価します。一方、片側検定では、対照群の平均が処理群の平均より小さいか大きいかという特定の方向を仮定します。
片側仮説と両側仮説の選択は些細な詳細に見えるかもしれませんが、A/Bテストのすべての段階に影響を与えます:テスト計画からデータ分析、結果の解釈まで。この記事では、仮説の方向性が重要である理由について理論的基礎を構築し、それぞれのアプローチの長所と短所を探ります。
片側仮説と両側仮説の選択の重要性を理解するために、A/Bテストで一般的に使用される方法であるt検定の基本を簡単に復習しましょう。他の仮説検定方法と同様に、t検定は保守的な仮定から始まります:2つのグループ間に差はない(帰無仮説)。この仮定に対する強い証拠を見つけた場合にのみ、帰無仮説を棄却し、処理が効果を持ったと結論付けることができます。
しかし、何が「強い証拠」として適格なのでしょうか?そのために、帰無仮説の下で棄却域が決定され、この領域内に入るすべての結果は非常にありそうもないと見なされ、帰無仮説の実現可能性に対する証拠として扱われます。この棄却域のサイズは、アルファ(α)として知られる事前に決定された確率に基づいており、これは帰無仮説を誤って棄却する可能性を表します。
これは対立仮説の方向とどう関係があるのでしょうか?実は大いに関係があります。アルファレベルが棄却域のサイズを決定する一方で、対立仮説はその配置を決定します。特定の差の方向を仮定する片側検定では、棄却域は分布の片側のみに位置します。
正の効果を仮定する場合(例:処理群の平均が対照群の平均より高い)、棄却域は右側の裾に位置し、右側検定となります。逆に、負の効果を仮定する場合(例:処理群の平均が対照群の平均より低い)、棄却域は左側の裾に配置され、左側検定となります。
対照的に、両側検定はどちらの方向の差も検出できるため、棄却域は分布の両側の裾に分割されます。これにより、効果が正であれ負であれ、どちらの方向でも極端な値を観察する可能性に対応できます。
直感を養うために、異なる仮説の下で棄却域がどのように見えるかを視覚化してみましょう。帰無仮説によれば、2つのグループ間の差はゼロを中心とするはずです。中心極限定理のおかげで、この分布は正規分布に近似することもわかっています。その結果、異なる対立仮説に対応する棄却域は次のようになります:
対立仮説の方向の選択は、計画段階から始まるA/Bテストプロセス全体に影響を与えます。具体的には、サンプルサイズの決定において重要です。
サンプルサイズは、テストの望ましい検出力に基づいて計算されます。検出力とは、実際に存在する場合に2つのグループ間の真の差を検出する確率です。検出力を計算するために、棄却域に対応する対立仮説の下の面積を調べます(検出力は対立仮説が真である場合に帰無仮説を棄却する能力を反映するため)。
仮説の方向がこの棄却域のサイズに影響するため、両側仮説では一般的に検出力が低くなります。これは、棄却域が両側の裾に分割されるため、いずれか一方向での効果を検出することがより困難になるためです。次のグラフは、2つのタイプの仮説の比較を示しています。
紫色の領域が片側仮説の方が両側仮説よりも大きいことに注意してください。
実際には、望ましい検出力レベルを維持するために、両側仮説の検出力の低下をサンプルサイズの増加で補います(サンプルサイズを増やすと検出力が上がりますが、そのメカニズムは別の記事のトピックになり得ます)。したがって、片側仮説と両側仮説の選択は、テストに必要なサンプルサイズに直接影響します。
計画段階を超えて、対立仮説の選択は結果の分析と解釈に直接影響します。片側アプローチでは有意に達するが両側では達しない場合や、その逆の場合があります。
前のグラフを見直すとこれを理解するのに役立ちます:例えば、左側の裾の結果は両側仮説では有意かもしれませんが、右片側仮説では有意ではありません。逆に、特定の結果は右片側検定の棄却域内に入るかもしれませんが、両側検定の棄却域外にある場合があります。
まず結論から始めましょう:ここには絶対的な正解も不正解もありません。両方のアプローチは有効であり、主な考慮事項は特定のビジネスニーズであるべきです。どのオプションがあなたの会社に最適かを決定するのに役立つよう、それぞれの主な長所と短所を概説します。
一見すると、片側対立仮説が明確な選択肢のように見えるかもしれません。なぜなら、それはしばしばビジネス目標とよりよく一致するからです。産業応用では、通常、両方向での処理の影響を探るよりも、特定の指標を改善することに焦点が当てられます。
これは特にA/Bテストに関連しており、目標はしばしばコンバージョン率を最適化したり、収益を向上させたりすることです。処理が大幅な改善につながらない場合、検討された変更は実装されません。
この概念的な利点を超えて、片側仮説の主要な利点の1つをすでに述べました:より小さなサンプルサイズで済むことです。したがって、片側対立仮説を選択することで、時間とリソースの両方を節約できます。この利点を説明するために、次のグラフは、異なる検出力レベルでの片側仮説と両側仮説に必要なサンプルサイズを示しています(アルファは5%に設定)。
この文脈では、片側仮説と両側仮説の間の決定は、アルファレベルを膨張させることなく継続的なデータ分析を可能にする方法である逐次検定において特に重要になります。ここで、片側検定を選択することで、テストの期間を大幅に短縮でき、より迅速な意思決定が可能になります。これは、迅速な対応が不可欠な動的なビジネス環境では特に価値があります。
しかし、両側仮説を軽視するのは早計です!それには独自の利点があります。一部のビジネスコンテキストでは、「負の有意な結果」を検出する能力は大きな利点です。あるクライアントがかつて共有したように、彼は決定的でない結果よりも負の有意な結果を好みました。なぜなら、それらは貴重な学習機会を提供するからです。結果が期待通りでなかったとしても、処理が負の効果を持ったと結論付け、製品についての洞察を得ることができました。
両側検定のもう1つの利点は、信頼区間(CI)を使用した簡単な解釈です。両側検定では、ゼロを含まないCIは直接有意性を示し、実務者が一目で結果を解釈しやすくなります。この明確さは、CIがA/Bテストプラットフォームで広く使用されているため、特に魅力的です。逆に、片側検定では、有意な結果でもCIにゼロが含まれる可能性があり、調査結果に対する混乱や不信につながる可能性があります。片側信頼区間は片側検定で使用できますが、この慣行はあまり一般的ではありません。
単一のパラメータを調整することで、A/Bテストに大きな影響を与えることができます:具体的には、収集する必要があるサンプルサイズと結果の解釈です。片側仮説と両側仮説のどちらを選ぶかを決定する際は、利用可能なサンプルサイズ、負の効果を検出する利点、信頼区間(CI)を仮説検定と整合させる利便性などの要因を考慮してください。最終的に、この決定は、ビジネスニーズに最も適したものを考慮して、慎重に行うべきです。