베이지안 대 빈도주의 통계학: 큰 문제가 아닐까?

Tue Jun 24 2025

참고: 이 글은 원래 영어로 작성된 블로그의 한국어 번역본입니다. 원문은 다음 링크에서 확인하실 수 있습니다: https://statsig.com/blog/bayesian-vs-frequentist-statistics

핵심적인 혼란: "90% 확률"이 실제로 의미하는 것은?

여러분이 사는 도시의 성인 평균 키를 알아내려고 한다고 상상해보세요. 데이터를 수집하고 가능한 값의 범위를 계산합니다.

  • 빈도주의자: 빈도주의자는 "5'6"에서 5'9" 사이의 90% 신뢰구간을 계산했습니다"라고 말할 수 있습니다. 이는 실제 평균 키가 그 범위 내에 있을 확률이 90%라는 뜻처럼 들리죠? 사실은 그렇지 않습니다.

  • 베이지안: 베이지안은 "5'6"에서 5'9" 사이의 90% 신용구간을 계산했습니다"라고 말할 수 있습니다. 이는 그들의 모델에 기반하여 실제 평균 키가 그 범위 내에 있을 확률이 90%라는 의미입니다.

그렇다면 누가 맞을까요? 답은 놀랍게도 간단합니다: 각자의 프레임워크 내에서는 둘 다 맞습니다. 차이점은 "알려지지 않은" 평균 키를 다루는 방식과 "확률"이 무엇을 나타내는지에서 비롯됩니다.

빈도주의자처럼 생각하기: 모든 것은 절차에 관한 것

빈도주의자들은 세상을 반복 실험의 관점에서 봅니다. 이렇게 생각해보세요:

  • 미지수는 고정되어 있음: 여러분 도시의 실제 성인 평균 키는 데이터를 분석하는 동안 변하지 않습니다. 알려지지 않았지만 고정된 숫자입니다.

  • 무작위성은 데이터에 있음: 무작위성은 어떤 사람들을 표본으로 선택하느냐에서 나옵니다. 설문조사를 여러 번 반복하면 매번 약간씩 다른 결과를 얻게 됩니다.

  • 신뢰구간은 반복에 관한 것: 90% 신뢰구간은 이 전체 과정(데이터 수집 및 구간 계산)을 여러 번 반복했을 때, 그 구간의 90%가 실제 평균 키를 포함한다는 의미입니다.

베이지안처럼 생각하기: 모든 것은 믿음에 관한 것

베이지안은 다른 접근법을 취합니다. 그들은 알려지지 않은 평균 키를 확률 분포를 가질 수 있는 것으로 다룹니다.

  • 미지수는 불확실함: 데이터를 보기 전에 평균 키에 대한 초기 믿음("사전 분포")이 있을 수 있습니다. 아마도 5'7" 정도일 것이라고 생각하지만 확실하지 않을 수 있습니다.

  • 데이터가 믿음을 업데이트함: 수집한 데이터가 이 사전 믿음을 업데이트하여 "사후 분포"를 만듭니다. 이 사후 분포는 평균 키에 대한 업데이트된 이해를 나타냅니다.

  • 신용구간은 확률에 관한 것: 90% 신용구간은 (모델과 데이터에 기반하여) 실제 평균 키가 그 범위 내에 있을 확률이 90%라는 의미입니다.

철학이 충돌하는 것처럼 보이는 이유

핵심적인 차이는 다음과 같습니다:

  • 빈도주의자: 사건의 장기적 빈도에 초점을 맞춥니다. 확률은 실험을 여러 번 반복했을 때 어떤 일이 얼마나 자주 일어나는지에 관한 것입니다.

  • 베이지안: 미지수에 대한 믿음이나 확실성의 정도에 초점을 맞춥니다. 확률은 현재 지식을 바탕으로 어떤 것이 얼마나 가능한지를 측정하는 척도입니다.

이러한 차이가 실제로 중요할까요?

놀라운 부분은 다음과 같습니다: 생각보다 그렇지 않은 경우가 많습니다!

  • 대규모 표본: 데이터가 많을 때 베이지안과 빈도주의 접근법은 매우 유사한 결과를 제공하는 경향이 있습니다. 베이지안 접근법에서 데이터가 사전 믿음을 압도합니다.

  • 무정보 사전 분포: 베이지안이 "평평한" 또는 "무정보" 사전 분포를 사용하면(강한 초기 믿음이 없다는 의미) 결과는 종종 빈도주의 방법과 밀접하게 일치합니다.

  • 실제 의사결정: 웹사이트의 두 버전을 테스트한다고 상상해보세요(A/B 테스트).

    • 빈도주의자는 전환율 차이에 대한 95% 신뢰구간이 0을 제외하는지 확인할 수 있습니다.

    • 베이지안은 차이에 대한 95% 신용구간이 완전히 0 위에 있는지 확인할 수 있습니다.

    • 대부분의 경우 어떤 버전이 더 나은지에 대해 같은 결론에 도달합니다.

정보가 있는 사전 분포를 사용하는 베이지안에 대한 참고사항

정보가 있는 사전 분포를 사용하는 베이지안 방법은 서로 다른 접근법이 다른 결정과 비즈니스 결과로 이어질 수 있는 몇 안 되는 영역 중 하나입니다. 이론적으로 다음과 같은 여러 장점을 제공합니다:

  1. 더 빠르고 정확한 의사결정

  2. 과거 정보를 활용할 수 있는 능력

  3. 기본 가정을 논의하는 구조화된 방법

이러한 이점 때문에 Amazon과 Netflix 같은 회사의 데이터 과학자들을 포함하여 일부는 이 방법의 채택을 옹호합니다.

그러나 실제로는 정보가 있는 사전 분포를 사용하는 베이지안 방법은 위험할 수 있습니다. 주인-대리인 문제와 긍정적인 결과에 대한 일반적인 편향으로 인해, 과학적 엄격함의 외관을 유지하면서 실험 결과를 조작하는 데 오용될 수 있습니다. 이 방법을 갖춘 숙련된 데이터 과학자는 거의 모든 결과를 만들어낼 수 있습니다.

결론: "해석"에 관한 것

  • 빈도주의 신뢰구간: 방법의 장기적 성능에 대해 알려줍니다. 특정 구간에 대한 확률 진술을 하지 않습니다.

  • 베이지안 신용구간: 모델과 데이터를 기반으로 알려지지 않은 매개변수에 대한 직접적인 확률 진술을 할 수 있게 합니다.

두 접근법 모두 유효하고 유용합니다. 선택은 종종 다음에 달려 있습니다:

  • 사전 분포에 대한 편안함: 분석에 사전 믿음을 포함시키는 것이 편안한가요?

  • 소통 방식: 장기적 빈도에 대해 이야기하는 것을 선호하나요, 아니면 직접적인 확률을 선호하나요?

  • 분야의 관습: 일부 분야는 한 접근법을 선호하는 강한 전통이 있습니다.

  • 위험 허용도: 배포 비용이 낮거나 나쁜 것을 배포할 위험이 낮은 경우 베이지안이 좋습니다. p<0.05일 때만 배포하는 것보다 더 빠르게 올바른 방향으로 움직일 수 있기 때문입니다.

결국 베이지안 대 빈도주의 논쟁은 주로 철학적입니다. 해석은 다르지만 실제적인 영향은 종종 미미합니다.

베이지안은 새로운 정보를 도입하지 않습니다. 두 방법 모두 다른 테스트 그룹에서 평균과 표준편차를 관찰합니다. 각 접근법의 가정을 이해하고 특정 상황과 커뮤니케이션 목표에 가장 적합한 것을 선택하는 데 집중하세요. 확실하지 않다면 두 가지 구체적인 조언이 있습니다:

  1. 커뮤니케이션 오버헤드를 줄이기 위해 단순성을 위해 빈도주의를 사용하세요.

  2. 어느 접근법이든 결정을 베팅으로 생각하세요 – 리더는 종종 불확실성 하에서 운영해야 합니다. 데이터 과학자의 역할은 위험과 확률을 추정한 다음 권장사항을 제시하는 것입니다. 결정의 질이 중요합니다.

"전쟁"에 얽매이지 마세요. 이론적 논쟁을 이해하되 비즈니스 결과에 집중하세요.



Please select at least one blog to continue.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy