참고: 이 글은 원래 영어로 작성된 블로그의 한국어 번역본입니다. 원문은 다음 링크에서 확인하실 수 있습니다: https://statsig.com/blog/how-to-calculate-statistical-significance
A/B 테스트를 실행했고 결과가 나왔다면, 이제 무엇을 해야 할까요?
데이터를 확보했으니 이제 결과를 분석해야 합니다. 여러분의 목표는 A가 B와 다른지 판단하는 것입니다(고전적인 양측 가설 검정).
하지만 실제 데이터에는 노이즈가 있으며, 관찰된 차이가 실제 근본적인 차이 때문인지 아니면 단순한 통계적 노이즈 때문인지 판단해야 합니다. 통계적 유의성을 계산하는 것이 일반적으로 이를 수행하는 방법입니다.
통계적 유의성은 여러분이 보고 있는 결과가 무작위성 때문이 아니며 A와 B 사이에 실제 차이가 있는지 확인하는 것입니다. 이는 가설 검정에서 중요한 개념으로, 무작위 노이즈에 기반한 의사결정을 하지 않도록 통계적 안전장치를 적용합니다.
가설 검정에서는 귀무가설과 대립가설이라는 한 쌍의 가설이 있습니다. 귀무가설은 간단히 다음과 같습니다:
양측 검정에서: A와 B 사이에 차이가 없다, 또는
단측 검정에서: B(테스트)가 A(대조군)보다 좋지 않다.
대립가설은 그 반대입니다: A와 B 사이에 차이가 있다, 또는 B가 A보다 좋다. 중복을 피하기 위해 앞으로는 양측 검정만 언급하겠습니다.
가설 검정은 어떤 가설이 맞는지 판단하는 방법입니다.
우리는 데이터를 수집한 다음 귀무가설을 기각할 수 있는지 판단하려고 합니다. 기각할 수 있다면, 남은 유일한 가설인 대립가설을 받아들입니다.
이런 복잡한 접근 방식을 취하는 이유는 과학적으로나 수학적으로 귀무가설을 모델링하고 무언가가 이상하다는 것을 증명하는 것이 더 쉽기 때문입니다. 대립가설을 모델링하는 것은 특히 어려운데, 주로 B가 A와 얼마나 다른지 명확하지 않기 때문입니다(얼마나? 어느 방향으로? 분포는 어떻게 생겼나?).
귀무가설을 기각하기 위한 충분한 증거를 갖추는 기준을 통계적 유의성이라고 합니다. 여러분의 데이터는 통계적으로 유의하거나 그렇지 않습니다. 이를 통해 우리는 똑같이 이분법적인 결정을 내릴 수 있습니다: 귀무가설을 기각할 것인가 말 것인가?
우리가 알아야 할 두 가지 다른 개념이 있습니다: p-값과 신뢰구간입니다.
P-값은 귀무가설(A와 B가 같다)이 맞다고 가정할 때 관찰된 차이(A와 B 사이)가 우연히 발생할 확률입니다. 흔한 오해는 p-값이 귀무가설이 맞을 확률이라는 것입니다. 이는 틀렸으며, 이 글 밖에서 광범위하게 다루어지는 주제입니다.
하지만 낮은 p-값은 귀무가설 하에서 관찰된 차이가 일어날 가능성이 낮다는 것을 나타냅니다. 그리고 p-값이 우리가 미리 정한 통계적 유의성 임계값(예: 알파 = 0.05)보다 낮다면, 귀무가설을 기각할 수 있습니다.
이를 통해 대립가설을 받아들이고 A와 B 사이에 실제로 차이가 있다고 결론 내릴 수 있습니다.
p-값을 계산하려면 Z-점수나 T-통계량과 같은 적절한 검정 통계량을 계산해야 합니다. 이는 여러분의 데이터 유형과 표본 크기에 따라 달라집니다. "A와 B 사이에 차이가 없다"와 같은 귀무가설을 검정하려면, A와 B 사이의 관찰된 차이, 일반적으로 델타라고 불리는 것을 계산해야 합니다.
또한 이 차이의 정확성과 통계적 변동성을 파악하기 위해 표준오차를 알아야 합니다. 일반적인 방법은 A와 B의 합동 표준편차를 계산한 다음 표준오차를 도출하는 것입니다.
델타와 표준오차를 가지고 Z-점수나 T-통계량을 계산할 수 있습니다. 이 값들은 해당하는 p-값으로 매핑됩니다.
결과가 통계적으로 유의한지 판단하려면 p-값을 유의수준(즉, 알파)과 비교합니다. p-값이 알파보다 작으면 결과가 통계적으로 유의하다고 판단합니다. 그렇지 않으면 유의하지 않습니다.
표본 크기는 테스트 결과의 신뢰성에 직접적인 영향을 미칩니다. 일반적으로 더 큰 표본은 더 신뢰할 수 있는 데이터를 제공하여 오차 한계를 줄입니다.
표준편차도 데이터의 신뢰성과 정밀도에 영향을 미칩니다. 이는 데이터의 변동성을 측정하는 것입니다. 변동성이 크면 A와 B를 정확하게 측정하기가 더 어려워집니다. 이항적인 지표(예: 전환율)는 표준편차가 낮은 경향이 있어 실험에서 일반적으로 사용됩니다.
효과 크기는 차이의 크기입니다. 상당한 효과 크기는 발견이 의미 있을 뿐만 아니라 감지하기도 쉽다는 것을 보장합니다.
가설 검정에서 성공하려면 일반적으로 큰 효과 크기, 큰 표본 크기, 작은 표준편차를 가진 시나리오를 원할 것입니다.