참고: 이 글은 원래 영어로 작성된 블로그의 한국어 번역본입니다. 원문은 다음 링크에서 확인하실 수 있습니다: https://statsig.com/blog/95-percent-confidence-interval
95% 신뢰구간은 현재 온라인 및 과학 실험에서 지배적인 위치를 차지하고 있으며, 항상 그래왔습니다. 하지만 그 타당성과 유용성은 종종 의문시됩니다. 어떤 사람들은 너무 보수적이라고 하고, 다른 사람들은 너무 관대하다고 합니다. 임의적이라는 비판도 받습니다(이는 절대적으로 사실입니다). 하지만 그것이 오히려 좋은 점입니다! 저는 95% 신뢰구간의 지지자이며, 이를 견고한 기본값으로 권장합니다.
거의 100년 전 현대 통계학이 시작된 이래로 95%가 표준이 된 데에는 이유가 있습니다. 그리고 온라인 실험 시대인 지금은 더욱 중요합니다. 왜 95%를 기본값으로 삼아야 하는지, 그리고 언제 어떻게 조정해야 하는지 공유하겠습니다.
이는 실험에서 흔히 사용되는 용어이지만, p-값처럼 직관적이지 않습니다. 아이비리그 통계학 교수들도 틀릴 수 있습니다. 교과서적으로 95% 신뢰구간은 반복 표본추출 시 95%의 확률로 참값을 포함하는 수치 범위입니다. 실제로는 다음과 같은 역할을 합니다:
타당한 값들의 범위
정밀도의 척도
실험 방법이 얼마나 반복 가능하고 안정적인지를 나타내는 지표
(이는 기술적으로 부정확한 해석이지만, 이 주제에 대해 더 교육받은 분들께 미루겠습니다.)
아마도 95% 신뢰구간의 가장 가치 있고 올바른 사용은 귀무가설을 기각하는 기준점으로서입니다. 이는 5% 유의수준(100% - 95% = 5%)으로도 알려져 있습니다. 여러분이 힘들게 수행한 실험들, 그리고 종종 희망과 꿈들이 즉시 성공 또는 실패로 판정됩니다. 중간 지대는 없습니다.
신뢰구간은 절대적으로 효과가 없는 경우(p=1.0)와 아슬아슬한 경우(p=0.051)를 구분하지 않습니다. 두 시나리오 모두 같은 결론에 도달합니다: 진정한 실험 효과가 없다는 것입니다. 무작위 오차의 부드러움은 무례하게도 예/아니오 평가로 잘려나갑니다.
만약 5% 수준이 확고하게 확립되어 있지 않다면, 어떤 사람들은 자신의 주장을 증명하기 위해 수준을 6%나 7%로 늘릴 것입니다. 곧 다른 사람들이 10%와 15%로 늘리기 시작할 것이고, 전문 용어는 의미를 잃게 될 것입니다.
Irwin D. J. Bross
이러한 냉정한 특성이 95% 신뢰구간을 매우 유용하게 만듭니다. 이는 통계적 신호를 통과시키면서 많은 노이즈를 걸러내는 엄격한 문지기입니다. 매우 측정되고 편향되지 않은 방식으로 거짓 양성을 억제합니다. 자신의 작업에 대해 편향된 판단을 내리는 실험 담당자들로부터 우리를 보호합니다. 엄격한 기준이 있음에도 불구하고, 과학 저자들은 경계선상의 결과를 더 의미 있게 만들기 위해 창의적인 언어를 사용하는 우스꽝스러운 모습을 보입니다.
그런데 왜 95%일까요? 이는 현대 통계학의 아버지인 로널드 피셔 경이 정했습니다. 1925년, 피셔는 양측 z-점수 1.96이 거의 정확히 2 표준편차이기 때문에 95%를 선택했습니다. 이 기준은 이후 거의 한 세기 동안 지속되어 왔습니다.
이것이 임의의 숫자임에도 불구하고, 사용해야 할 많은 이유가 있습니다:
편향되지 않습니다. 다른 사람들이 사용하는 것을 사용하는 것은 방어 가능합니다. 다른 사람들이 따르는 것과 같은 규칙을 따르기로 결정한 것입니다. 이 숫자를 변경하려는 시도(예: 90% 또는 99%)는 실험 규칙의 주관적인 조작으로 볼 수 있습니다. 이는 재판 변호사가 "합리적 의심을 넘어서"가 실제로 무엇을 의미하는지 정의하는 것과 같습니다.
합리적으로 높은 기준입니다. 순전히 운으로(실험 효과 없이) 유의미한 결과를 찾을 확률이 20분의 1임을 나타냅니다. 이는 잠재적인 거짓 양성의 95%를 제거하고 통계적 노이즈의 합리적인 필터 역할을 합니다.
합리적으로 낮은 기준입니다. 실제로 대부분의 연구 분야가 생산적으로 유지되기 위해 달성 가능한 벤치마크입니다.
보편적입니다. 우리 모두가 같은 언어를 사용하도록 보장합니다. 회사 내 한 팀이 유의미하다고 간주하는 것이 다른 팀과 동일합니다.
실용적입니다. p=0.05가 관례로 남아 있다는 것은 실용적으로 유용하다는 주장이 있습니다. 너무 낮으면 연구자들이 좌절할 것입니다. 너무 높으면 많은 쓰레기가 연구를 오염시킬 것입니다. 피셔 자신도 이 기준을 조정하지 않고 경력 전반에 걸쳐 같은 기준을 사용했습니다.
쉬운 선택입니다. 방어 가능하고 편향되지 않은 방식으로 신뢰구간을 미세 조정하려면 약간의 작업이 필요합니다. 대부분의 경우 아이디어를 구상하고 실험 실행에 집중하는 것이 시간을 더 잘 활용하는 방법입니다.
위의 모든 이유로 대부분의 실험자들이 95%를 기본값으로 사용할 것을 권장합니다. 하지만 조정해야 할 몇 가지 좋은 이유가 있습니다:
위험-이익 프로필이 독특합니다. 거짓 양성 또는 거짓 음성에 대한 허용도가 낮을 수 있습니다. 예를 들어, 위험 허용도가 높은 스타트업 기업은 낮은 신뢰구간(예: 80% 또는 90%)을 선택하여 거짓 음성을 최소화하려고 할 것입니다. 플랫폼 무결성이나 생명을 구하는 약물과 같은 중요한 시스템에서 일하는 사람들은 거짓 양성을 최소화하고 더 높은 신뢰구간(예: 99%)을 선택하려고 할 수 있습니다.
잘못된 양의 통계적 검정력을 가지고 있습니다. 합리적인 표본 크기 추정치를 생성하지 못하는 검정력 계산을 실행했습니다. 어떤 경우에는 표본이 너무 적어 신뢰구간을 역설계할 수 있습니다. 다른 경우에는 너무 많은 표본으로 축복받아 거짓 양성률을 줄일 여유가 있을 수 있습니다. (이는 빅데이터 문제입니다!)
사용자 정의 신뢰구간을 선택하는 것은 거짓 양성률과 거짓 음성률 사이의 균형을 맞추는 것입니다. 신뢰구간을 축소하여(예: 90%로) 기준을 낮추면 거짓 양성률은 증가하지만 거짓 음성률은 감소합니다. 이는 더 많은 실제 효과를 포착하지만 통계적 노이즈도 더 많이 포착합니다. 이 숫자를 적절히 조정한다는 것은 위험 프로필과 일치시키는 것을 의미합니다. 이를 제대로 수행하려면 거짓 양성의 비용과 거짓 음성의 비용을 비교 평가해야 합니다.
이 길을 가기로 선택했다면, 몇 가지 지침이 있습니다:
데이터가 수집되기 전에 신뢰 임계값을 설정하세요. 부정행위자들은 엿볼 기회가 있은 후에 신뢰구간을 변경합니다.
사용자 정의 신뢰구간을 재사용하려고 노력하세요. 실험별로 이를 수행하는 것은 지루하고 잠재적으로 편향될 수 있습니다. 새로운 신뢰구간이 광범위하게 적용되어야 하는 광범위한 상황과 실험 세트를 식별하는 것이 훨씬 더 유용합니다.
대부분의 사람들, 특히 실험 초보자들은 95% 신뢰구간을 고수해야 합니다. 이는 추가적인 의문을 불러일으키지 않으면서 많은 상황에 적용되는 정말 좋은 기본값입니다. 하지만 변경을 고집한다면, 상황과 위험 프로필에 맞는지 확인하고 실험을 시작하기 전에 이를 수행하세요.