注記:これは元々英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/how-to-calculate-statistical-significance
A/Bテストを実行し、結果が出ました。さて、次は何をすべきでしょうか?
データを取得したら、次は結果を分析する必要があります。あなたの目標は、AがBと異なるかどうかを判断することです(古典的な両側仮説検定)。
しかし、実際のデータにはノイズが含まれており、観察された差異が実際の根本的な差異によるものなのか、それとも単なる統計的ノイズによるものなのかを判断する必要があります。統計的有意性の計算は、通常これを行う方法です。
統計的有意性は、見ている結果がランダム性によるものではなく、AとBの間に実際の差異があることを確認するものです。これは仮説検定における重要な概念であり、ランダムノイズに基づいて意思決定を行わないようにするための統計的なガードレールを適用します。
仮説検定では、帰無仮説と対立仮説と呼ばれる一対の仮説があります。帰無仮説は単純に以下のとおりです:
両側検定の場合:AとBの間に差はない、または
片側検定の場合:B(テスト)はA(コントロール)より良くない
対立仮説はその反対です:AとBの間に差がある、またはBがAより良い。言葉を重複させたくないので、今後は両側検定についてのみ言及します。
仮説検定は、どちらの仮説が正しいかを判断する方法です。
データを収集し、帰無仮説を棄却できるかどうかを判断したいと考えています。棄却できる場合、残された唯一の仮説である対立仮説を受け入れます。
このような回りくどいアプローチを取る理由は、科学的にも数学的にも、帰無仮説をモデル化して何かが異常であることを証明する方が簡単だからです。対立仮説のモデル化は特に困難です。主な理由は、BがAとどれだけ異なるかが明確でないためです(どの程度?どの方向?分布はどのような形?)。
帰無仮説を棄却するのに十分な証拠を持つための基準は、統計的有意性と呼ばれます。データは統計的に有意であるか、そうでないかのどちらかです。これにより、同様に二者択一の決定を下すことができます:帰無仮説を棄却するかしないか。
他に理解しておく必要がある2つの概念があります:p値と信頼区間です。
p値は、帰無仮説(AはBと同じ)が正しいと仮定した場合に、観察された差異(AとBの間)が偶然によるものである確率です。よくある誤解は、p値が帰無仮説が正しい確率であるというものです。これは間違いであり、この記事の範囲外で広く扱われているトピックです。
しかし、低いp値は、帰無仮説の下で観察された差異が起こりにくいことを示しています。そして、p値が統計的有意性の事前に決定された閾値(例:α = 0.05)より低い場合、帰無仮説を棄却できます。
これにより、対立仮説を受け入れ、AとBの間に実際に差があると結論付けることができます。
p値を計算するには、Z値やt統計量などの適切な検定統計量を計算する必要があります。これは、データタイプとサンプルサイズによって異なります。「AとBの間に差はない」のような帰無仮説を検定するには、AとBの間の観察された差(一般的にデルタと呼ばれる)を計算する必要があります。
また、この差の精度と統計的変動性を把握するために、標準誤差も知る必要があります。一般的な方法は、AとBのプールされた標準偏差を計算し、そこから標準誤差を導出することです。
デルタと標準誤差があれば、Z値またはt統計量を計算できます。これらの値は対応するp値にマッピングされます。
結果が統計的に有意かどうかを判断するには、p値を有意水準(つまりα)と比較します。p値がαより小さい場合、結果は統計的に有意であると判断します。そうでない場合は、有意ではありません。
サンプルサイズは、テスト結果の信頼性に直接影響します。一般的に、より大きなサンプルはより信頼性の高いデータを提供し、誤差の余地を減らします。
標準偏差も、データの信頼性と精度に影響します。これはデータの変動性の尺度です。変動性が大きいほど、AとBを正確に測定することが困難になります。二項分布に従うメトリクス(例:コンバージョン率)は標準偏差が小さい傾向があり、実験でよく使用されます。
効果量は差の大きさです。実質的な効果量は、発見が意味があるだけでなく、検出しやすいことも保証します。
仮説検定で成功するには、一般的に効果量が大きく、サンプルサイズが大きく、標準偏差が小さいシナリオが望ましいでしょう。