Ep(89) 빈도주의 vs 베이지안, 드루와 드루와!(feat 오하이오의 낚시꾼)
ฝัง
- เผยแพร่เมื่อ 15 ม.ค. 2025
- 저는 2021년에도 조과장이 새 키보드를 살 거라는 강한 믿음을 가지고 있습니다. 확률로 표현하자면 0.9 정도?
그런데 데이터를 분석할 때도 이렇게 사람이 주관적으로 가지고 있는 믿음을 이용할 수 있을까요?
오랫동안 조과장을 봐온 저로서는 이런 가정을 바탕에 두고 예측하는 게 훨씬 정확할 것 같은데 말이죠.
이게 바로 베이지안의 관점입니다.
데이터 분석에 주관을 반영한다는 점 때문에 베이지안 통계학자들은 빈도주의 통계학자들의 비판을 받아왔습니다.
베이지안이 옳을까요? 아니면 빈도주의가 옳을까요?
'오하이오의 낚시꾼' 박준석님을 모시고 베이지안과 빈도주의 통계학을 둘러싼 이야기를 나누었습니다.
Ep(89) 빈도주의 vs 베이지안, 드루와 드루와!(feat 오하이오의 낚시꾼)
■ 팟빵 오디오 듣기
www.podbbang.co...
■ 유튜브 영상 보기
• Ep(89) 빈도주의 vs 베이지안, 드...
────────────────────────
● 공식 이메일 | dataholic4@gmail.com
● 페이스북 페이지 | www. dat...
□ 팟빵 | dataholic4.gith...
□ 애플 팟캐스트 | apple.co/2M3yFyc
□ 네이버 오디오클립 | bit.ly/2YmoEBj
방송 잘 들었습니다 ㅎ 초반부 (18:00) 에 나온 동전 던지기 예시에서 약간 오해될만 한 내용이 있어 댓글을 답니다.
1. 빈도주의 관점에서 보더라도 동전을 한번 던졌을 때 앞면이 나왔다고 동전의 앞면이 나올 확률을 1 이라고 얘기하지 않습니다. 표본비율을 추정값으로 사용하는 것은 표본비율이 최대가능도추정값 (MLE) 이기 때문이고 MLE는 빈도주의 관점에서 샘플 수가 "충분히" 클 때만 좋은 성질을 가지고 있습니다. 이 예시 처럼 샘플 수 가 적을 때 빈도주의자들이 가장 보편적으로 사용하는 것은 최소최대추정값 (minimax estimator)입니다. 일반적으로 사용되는 squared error loss를 상정할 경우 동전을 한번 던저서 앞면이 나왔을 때의 최소최대추정값은 0.75가 되고, 이 값이 빈도주의적으로 합리적인 추정값입니다. 일반적으로 샘플의 수가 n일때 (앞면의 수 + sqrt(n) / 2) / (n + sqrt(n)) 이 동전이 앞면이 나올 확률에 대한 최소최대추정값이고 이는 Beta(sqrt(n)/ 2, sqrt(n)/2) 를 사전확률로 사용하는 베이즈 추정값과 같습니다. n이 충분히 크면 위 값이 표본비율과 비슷해지므로 표본비율이 근사적으로 최소최대추정값이자 베이즈 추정값임을 확인할 수 있습니다.
2.위의 동전 던지기 예시처럼 많은 일반적인 경우, 샘플의 수가 커지면 베이지안 추정값과 빈도주의적인 추정값 (MLE or minimax estimator)들이 서로 같은 값을 향해 수렴합니다. 따라서 데이터가 많다면 베이지안 방법론을 사용하더라고 빈도주의적인 결론을 근사적으로 낼 수 있습니다. 마찬가지 이유로 빈도주의적인 방법을 사용하더라도 베이지안 적으로 해석할 수 있고요. 하지만 고차원 자료 분석이나 순차적 분석과 같은 경우에는 베이지안 방법론이 빈도주의적인 방법론과 전혀 반대의 결론을 내기도 합니다 - 샘플 수 가 아무리 많아지더라고요. 이 경우 베지이안 방법론을 사용하면서 빈도주의적인 해석을 해도 괜찮은지 혹은 반대로 빈도주의 방법론을 사용하면서 베이지안적인 해석을 해도 괜찮은지 잘 확인하고 사용해야합니다.
3. 빈도주의가 학계의 대세가 된 과정에 분명 초기 빈도주의가들의 성격도 중요한 역할을 했겠지만 근본적으로 통계학의 학계에서의, 보다 정확하게는 실험에 기반한 과학에서의 역할 때문이라고 보는게 더 타당할 것 같습니다. 빈도주의는 재현성이 중요한 과학 실험 결과 해석에 있어 중요한 이론적 토대를 제공했고 이게 학계에서 빈도주의 통계를 가르치는 주된 이유라고 볼 수 있습니다. 베이지안적 해석들은 실용적이지만 재현성을 담보해주지 못하기 때문에 실험 결과의 해석에 사용되기가 어렵습니다. (베이지안 방법론을 사용해도 빈도주의적 재현성을 제공할 수 있지만 그건 베이지안 방법론을 사용했기 때문이 아니라 특정 상황에서 베이지안 추정값과 빈도주의적 추정값이 비슷해지기 때문입니다. 사후 확률 자체는 관측값을 조건으로 한 조건부 확률로 빈도주의적으로 해석되기 어렵기 때문입니다.) 또한 전후 당대 과학철학의 주류였던 반증주의 측면에서도 베이지안 방법론은 잘 부합하지 않았기 때문에 과학이 학계의 주류가 되던 시점과 맞물려 빈도주의가 학계의 주류로 자리잡지 않았을까 생각합니다. 머신러닝이나 AI는 주로 실용적인 상황에서 사용되고 재현성 이슈를 사후확률이 아닌 Cross-validation이나 Data split같은 방식으로 확인하기 때문에 실용성이 좋은 베이지안 방법론들이 다시 관심을 받고 있는 것 같습니다. 말씀해 주신 것처럼 컴퓨팅 파워가 좋아진 것도 많은 계산양을 요구하는 베이즈 방법론이 활발하게 사용될 수 있게된 이유이기도 합니다.
저 또한 Krichevsky-Trofimov estimator처럼 다른 estimator를 쓰면 Bayesian이 아니어도 되지 않냐는 생각을 하고있었는데.. 좋은 댓글 감사합니다ㅎㅎ
좋은 커멘트 감사합니다! 재현성 관련해서 빈도주의가 더 낫다는 부분은 부연을 좀 부탁드려도 될까요?
@@justanotherbuckeyes 넵. 제 말에 조금 애매한 점이 있었는데요. 재현성에 있어 빈도주의가 이점을 갖는 다는 말은 빈도주의적인 실험 해석이 그 실험의 재현성 측면에서 더 유용하다는 점이었습니다. 아래의 예시에서 제가 설명 드리고자 했던 바를 자세히 적어보겠습니다. 준석님은 이미 아시는 내용이 많으실 태지만 다른 분들의 위해 조금 자세하게 적어보겠습니다.
예를들어 동전 던지기를 그 동전이 앞과 뒤가 나올 확률이 같은지 다른지를 확인하기 위한 실험이라고 생각해 보겠습니다. 이때 실험의 재현성이란 독립된 환경에서 서로 다른 과학자 집단이 동일한 실험 (동전 던지기)를 수행할 때 얼마나 개별 실험의 결과들이 일치된 결과를 내느냐로 볼 수 있습니다. Type-1, Type-2 errors 는 이 재현성에 대한 기준치라고 볼 수 있습니다. 예를들어 동전 던지기 실험이 0.05-level test with at least 0.8 power for |p - 0.5| > 0.01 으로 설계되었다면, 실제로 동전의 앞과 뒤가 나올 확률이 같다면 (p = 0.5), 서로 독립된 수많은 실험들 중에서 최대 5% 만이 앞과 뒤가 다르다고 해석될 것이고, 만일 동전이 편향되어있고 그 정도가 0.01보다 크다면 또다시 수많은 실험들 중 최소 80% 이상이 동전이 편향되있다는 주장의 근거로 사용될 것입니다. 물론 가정 된 통계 모형이 Bernoulli가 아닐 수도 있고 동전들이 조금씩 서로 다를 수도 있겠지만 근사적으로라도 빈도주의적 실험해석은 이런 식의 재현성 - 서로 다른 과학자들이 동일한 실험을 수행할 경우 일치된 결론을 낼 것이라는 것을 담보해 줄 수 있습니다.
베이지안적인 관점에서는 동전이 공평하다는 가설과 그렇지 않다는 가설에 사전확률을 부여하고 두 가설의 사후확률를 계산하는데요. 두 가설의 사후확률은 관측값이 반영된 인식적 확률로 그 의미를 충분히 가집니다. 순수 베이지안의 관점에서는 사후확률을 구하는 것 자체가 주된 목적이고 이 실험을 수행한 과학자는 자신이 얻은 사후확률들을 토대로 동전이 공평한지 아닌지에 대안 본인의 인식을 합리적인 방식으로 조정할 수 있습니다. 여기서 문제는 이 인식적 확률을 기반으로 어떤 과학적 결론 - 여기 선 동전이 공평한지 아닌지를 여러 과학자들이 하나의 공통된 의견으로서 도출 하고자 할 때 입니다. 단순히 여러 과학자들이 본인의 사후 확률들을 보고한다고 그들이 하나의 공통된 결론에 쉽게 도달 할 수는 없을 것입니다. 순수 베이지안 관점에서는 각 과학자들이 동료 과학자가 발표한 사후확률, 더 이상적으론 실험의 결과들을 토대로 본인들의 사후확률을 재조정해야합니다. 이러한 사후확률 재조정을 끝없이 수행하면 언젠가는 모든 과학자들이 공통된 사후확률을 갖게 될 수도 있고 이것으로 과학적 재현성을 담보할 수도 있지만 현실적으로는 이루기 어려운 접근법입니다.
보다 실질적인 접근법으론 베이지안 검정을 사용할 수 있습니다. 베이지안 검정에서 주로 사용되는 척도는 두 가설의 사후확률의 비, 즉 Bayes factor 입니다. Bayes factor가 크면 클 수록 동전이 공평하지 않다는 가설에 대한 근거로 볼 수 있는데요. Bayes factor 자체는 잘 정의되어 있지만 여기서 애매한 점은 우리가 두 가설 중 하나만을 채택하고자 할 때 벌어집니다. 얼마나 큰 Bayes factor일때 과학자 "집단"은 동전이 공평하다고 혹은 공평하지 않다고 "공통된" 결론을 내려야 할까요? 일반적으로 통용되는 규칙에는 "Bayes factor 가 10이상이면 strong evidence로 본다" 같은 것들이 있습니다. 하지만 Bayes factor가 10이상이라는 말이 정확히 어떤 의미인지 평가하고 판단하는 것은 Type1, Type2 error bound를 평가하고 판단하는 것보다 훨씬 모호한 일이고 과학자 집단이 하나의 공통된 규칙을 정하기 어렵게 만듭니다. 이러한 이유로 과학 실험의 해석은 빈도주의적인 관점에서 주로 이루어 지고 있고 이것이 제가 생각하는 빈도주의에 기반한 통계적 방법론들이 학계에서 주로 가르쳐지고 있는 이유입니다. (여담으로 순수 베이지안이라면 두 가설 중 하나만을 선택해야 한다는 방식 자체가 과학적 명제를 이해하는 방식으로써 잘못되었다고 얘기할 것입니다. 왜냐면 과학적 명제를 인식함에 있어 불확실성이 조금이라도 있다면 이는 확률적으로 표현되어야하기 때문입니다. 이는 분명 타당한 하나의 접근법이나 우리가 과학적인 명제들에 사용하는 주된 접근법은 아닐겁니다.)
나이브베이즈는 그 자체로는 단지 베이즈 룰을 썼을 뿐, 베이지안이거나 빈도주의거나 한 것은 아니지 않나요? 나이브베이즈 식을 만들에서 추론하는 과정에 파라미터에 대한 분포 가정을 하느냐 아니냐에 따라 나뉠 것 같습니다. 그런 면에서 스팸필터 같은데서 흔히 보게 되는 나이브베이즈 분류기는 MLE를 사용해서 푸는 것으로 빈도주의 라고 하는게 맞을 것 같아요. (beyesian naive bayes라는 것이 따로 있더군요)
출연자 박준석입니다. 좋은 지적 감사합니다. 덕분에 관련 문헌을 찾아봤습니다. 저희는 방송에서 Bayesian적 해석을 하는 쪽을 따랐지만, 말씀하신 대로 빈도주의적 해석도 가능한 것 같습니다. 관련 문헌을 봐도 fully Bayesian은 아니라고 나와 있고요. 한 논문에서는 not necessarily Bayesian이라고 표현돼 있는데, 해석에 자유도가 좀 있는 것 같습니다. 반드시 빈도주의다 베이지안이다 라고 말하기는 힘든 것 같고, MLE 자체도 MAP의 특수한 경우라고 볼 수도 있고요. 복잡한 문제 같습니다.
@@justanotherbuckeyes 직접 답변 달아주셔서 감사합니다. 저도 조금 더 찾아봤는데요. 여기 설명이 잘 되어 있는것 같습니다.
jakevdp.github.io/blog/2014/06/06/frequentism-and-bayesianism-2-when-results-differ/
여기 보면 A Naïve Frequentist Approach 와 Bayesian Approach 각각의 예시가 나오는데요.
Bayesian의 경우 p라는 파라미터를 도입하고 거기에 P(p)라는 prior를 넣어서 풀게 되는데요. 이렇게 파라미터를 확률 변수로 취급하면서 prior를 잡는 방식이 Bayesian 인 걸로 저는 이해하고 있습니다.
예를 들면 logistic regression 자체로는 frequentist 인지 bayesian인지를 말 할 수는 없잖아요. 구체적으로 푸는 방식에 따라서 frequentist의 logistic regression(흔히 사용하는)이 있고 bayesian logistic regression (좀 복잡한) 이 있으니까요.
같은 이유로 나이브베이즈 자체로는 frequentist인지 bayesian인지를 말 할 수는 없는 것 같습니다. 단지 이름에 '베이즈'가 들어가 있을 뿐인거죠.
혹시 제가 잘 못 이해하고 있는 부분이 있으면 말씀 주시면 감사하겠습니다.
평소 생각하지 않던 내용인데 좋은 영상도 보고 이런 것들도 찾아보는 기회가 되서 정말 좋네요. 다시 한 번 영상 감사합니다.
@@min-sungjung1149 Naive Bayes의 경우에는 C_k라는 레이블에 대한 P(C_k) 라는 prior가 존재하고, 이것을 독립 가정을 도입한 likelihood를 사용하여 P(C_k | x_1, ..., x_n), 즉 사후분포로 업데이팅하는 게 Naive Bayes의 핵심인 걸로 저는 이해하고 있습니다 (여기서 x_1, ..., x_n은 물론 feature들의 값입니다). 다만 이것을 굳이 Bayesian updating으로 안 보고, 말씀하신 것처럼 빈도주의 해석을 해도 수학적으로는 전혀 문제가 없기 때문에 이것도 가능하다고 보는 것 같고요. 다만 P(C_k) 자체에는 hyperparameter가 주어지지 않고, 경험적 베이즈 비슷한 방식으로 풀기 때문에 fully Bayesian treatment라고 보지는 않는 것 같습니다. 말씀하신 베이지안 나이브 베이즈 (이름이 참 재밌네요) 에서는 이것까지 하는 것 같고요.
@@justanotherbuckeyes 귀찮으실텐데 답변 감사합니다. 여기에서 C_k 라는 레이블은 파라미터가 아니라 관측치라는 차이점이 있다고 생각했습니다. 이 레이블은 latent variable도 아니고 스팸이 될 확률 같은 파라미터도 아닌 그냥 '스팸인지 아닌지'에 해당하는 관찰값이라는 건데요.
p(z|x) = p(x|z)p(p) / p(x) 라는 베이즈룰은 z가 hidden variable인 경우에 bayesian으로 해석되는거라고 이해하고 있습니다. 제가 너무 좁게 해석하고 있는 걸까요?
@@min-sungjung1149 네 거기 대해서는 저는 생각이 조금 다릅니다. Latent variable에 대해서만 베이지안 추론을 할 수 있다면 (원칙적으로) 관측 가능한 것에 대해서는 할 수 없다는 이야기가 되는데, 베이지안에서 말하는 degree of belief 는 그런 것은 아니라고 생각합니다. 만약 그랬다면 동전이 앞면이 나올 확률, 내일 비가 올 확률 등에 대해서는 말할 수 없지 않을까요? (대신 동전이 앞면이 나올 확률 자체에 대한 분포, 내일 비가 올 확률에 대한 분포 같은 것들을 말해야 하겠지요. 물론 불가능한 것은 아닐겁니다) 스팸메일 분류에 대해서도 마찬가지로, 물론 training set에 있는 메일들의 레이블에 대해서는 안다고 가정할 수 있지만, 결국 우리의 관심은 test set이나 validation set에서의 레이블에 대해 예측하는 것이고, 여기에는 언제나 epistemic uncertainty가 따른다는 점을 생각하면 베이지안 추론의 사례로 보지 못할 이유는 없다고 생각합니다.