아 저도 이상하다 생각했는데 역시 다른 분께서 지적해주셨네요. 저도 연장선상에서 질문이 있는데요. FalseNegative와 FalsePositive는 제1종.2종 오류를 말하게 되는 걸까요? 근데 각각이 무얼 말할지 좀 헷갈리네요. 제 생각엔 전자가 병이 없는데 그나마 있다고 하니 2종같고 후자가 있는데 없다고 하니 1종 같은데요. 고수님들, 공돌님 도와주세요!
False Positive가 1종 오류 False Negative 가 2종 오류 입니다. 예를 들어 설명드리자면 1종 오류는 불이 나지 않았는데 소화기 알람이 울리는 (positive) 경우입니다. 반대로 2종 오류는 불이 났는데도 소화기 알람이 울리지 않는 (negative) 경우입니다. 두 경우 모두 잘못(false)된 판단이 되었기 때문에 false가 붙는 것입니다.
덕분에 이해가 잘 되네요 선생님 ㅎㅎ H 를 아무리 업데이트해줘도 P(E/H) 가 업데이트 되지않는게 사실 당연한거였군요! P(H)를 코로나에걸릴 확률 , P(E) 를 그 병이 코로나 양성인지 진단할수있는 확률(성능도)라고 생각했을때, 당연히 실제 대한민국에서 코로나에 걸릴 확률보다, 한 번 PCR검사를 통해 양성판정 받았을때 이 사람이 진짜 코로나에 걸린확률이 당연히 그 전(양성판정을 받기 전)보다 높겠고, 다시 재검사(3번째 검사)를 해서 또 양성이 나왔을때 코로나일 확률은 계산해보니까 99퍼센트의 확률이 나오네요. 어찌보면 검사를 여러번 할 수록 정확도가 높아지는건 당연한거구요! 반대로 이미 코로나 확진된 환자를 계속 PCR 검사(EVIDENCE)해봤자 어차피 P(E/P)는 일정할테구요. 마찬가지로 코로나 양성에 여러번 확진되었다 해서 갑자기 PCR검사의 성능이 향상되면 이건 말이 안되니까요 ㅎㅎ 그래서 무엇이 EVIDENCE 로 둘지, 무엇을 HYPOTHESIS로 둘지 선정하는것이 "매우" 중요하다고 하신 말씀이 이제야 이해가 됩니다!! 진짜 좋은 강의해주셔서 감사합니다..
안녕하세요. 영상 잘 보았습니다. 좋은 설명에 감사드립니다! 그런데 19:16에서 P(E)가 왜 저렇게 유도되나요? 그림을 보면 직관적으로 알겠습니다만, 영상에서는 식을 먼저 보여주시고 그림으로 확인만 시켜주신 것 같아요. 블로그에서도 P(E)의 유도법은 소개가 돼 있질 않아서 궁금합니다. 모든 부분을 다 상세히 설명해 주셨는데 유독 P(E)만 식이 후르륵 나온 뒤 지나가 버린 느낌이라 찜찜하군요. 하하. 설명 부탁 드려도 될까요? :)
안녕하세요. 왜냐면 H는 일어나거나 일어나지 않거나 둘 중 하나의 케이스만 갖기 때문입니다. 그래서 H가 true인 사건이 발생하고 그 뒤에 E를 확인하게 되는 확률은 P(E|H)P(H) 이고, H가 false인 사건이 발생하고 그 뒤에 E를 확인하게 되는 확률은 P(E|~H)P(~H)입니다. 그랬을 때 H에 대한 두 케이스를 확인하는 것은 관계없는 사건이므로 합쳐줌으로써 전체 확률을 구할 수 있게 됩니다. 혹시 더 필요하시다면 조건부 확률이라는 키워드로 검색해보시는 것을 추천드릴게요.
정말 최고의 강의입니다 항상 도움을 많이 받고 있습니다 근데 하나 궁금한건 bf를 수치화 했을때 논문들을 참고하면 양의 정수 값이 나오는데 (예를 들면 3, 7.4, 10 혹은 0.4) 이러한 경우는 확률 같이 보이지 않아 인터넷을 찾아보면 1이상일경우 가설에 대해 긍정적인 방향으로 일어날 확률이라는데 이땐 3이나 4와 같은 값을 어떻게 바라봐야하나요? (30%,40%는 아닐텐데 그게 궁금하네요)
베이즈 정리는 Evidence를 통해 우리가 기존에 갖고 있던 hypothesis를 업데이트 시켜줄 수 있다는 철학을 갖고 확률론에 접근합니다. 다시 말해, 귀납적 추론이라는 의미는 새로운 정보들을 얻어가면서 우리가 알고자하는 것에 다가간다는 의미이지요. 연역적 추론이라는 것의 의미는, 가령 모수 통계학에서 모수를 알 수 있다면 모든 확률 분포에 대해 알 수 있다는 것을 가정하고 출발하는 것과 맥락을 같이 한다고 볼 수 있습니다.
예제 1번에서 "검진결과가 양성일때 실제로 감염되었을 확률"이라는게 잘 이해가 되지 않아서 질문드립니다! "질병에 감염되어있는 사람에게 진단키드를 사용하여 양성이 나올 확률"과 "검진 결과가 양성일때 실제로 감염되었을 확률"이 0.99와 0.047로 서로 다른 것으로보아 서로 다른의미라는 것인데 어떻게 다른 말인지 잘 이해가 되지 않습니다. 제가 느끼기에는 말의 앞 뒤만 바뀐것 같은데 확률이 너무 달라져서 질문드립니다!!
안녕하세요. 조건과 결과가 서로 바뀐 경우에 대한 확률이기 때문입니다. 1. 질병에 감염되어 있는 사람에게 진단 키트를 사용하여 키트에서 양성 결과가 나온다는 확률은 P(E|H)를 말하는 것이고, 키트의 결과가 양성일 때 이 사람이 실제로 감염되었을 확률은 P(H|E)를 말합니다. 2. P(E|H)의 경우에 대해 부연 설명 해보겠습니다. 이 경우에는 사람은 이미 질병에 감염(H)되어 있습니다. 따라서, Evidence(E)에 대한 것은 이미 질병에 감염된 사람을 기계가 얼마나 잘 잡아주느냐에 달려있는 것입니다. 다시 말해, 이 병에 걸리기만 했으면 증상이 워낙 명확하다 보니 쉽게 판독할 수 있다는 뜻으로 보면 좋을 것 같습니다. 3. P(H|E)의 경우에 대해서도 부연설명 해보자면 이 경우는 기계에서는 이미 질병에 걸려있다고 말하는데, 이 사람이 실제 병에 걸려있는지에 대한 확률입니다. 이 영상의 예시에서는 병이 워낙 희귀하여 병에 걸렸다고 기계에서 판독했다고 한들 정말로 병이 걸려있을 가능성은 낮을 수 있다고 사람이 판단할 수 있습니다. 이런 케이스에 대해서 해석하는 확률값이라고 얘기할 수 있구요.
@@AngeloYeo 답변 감사합니다. 기계는 감염되어 있는 사람에게 사용할 경우 양성이 나올 확률이 99%라는 높은 정확도를 보여주는데, 실제로 기계를 사용을 해서 양성이 나왔을때 진짜 감염되었을 확률이 4.7%라는 말은 곧 기계의 정확도가 낮다는 것처럼 생각이되서 헷갈리네요... 같은 기계를 두고 P(E|H)는 기계의 정확도가 높다, P(H|E)는 기계의 정확도가 낮다고 이야기를 하는 것 같습니다.
정확도라는 표현은 적절치 않을 수 있습니다. 분류에 대한 evaluation 용어는 생각보다 복잡합니다... P(E|H)는 Recall 혹은 민감도(Sensitivity)라고 말하고 특히 베이즈정리의 식에서는 likelihood로 표현합니다. P(E|H)가 높으면 기계의 민감도가 높다라고 얘기할 수 있습니다. 결과가 True인 것 중 실제 True인 비중입니다. P(H|E)는 정확률(Precision)이라고 말합니다. 베이즈 정리에서는 사후확률로 표현합니다. P(H|E)가 높으면 정답을 넣었을 때 몇 개가 정답으로 분류 되었는지를 보여줍니다. 분류기의 관점에서 생각하면 분류기의 어떤 측면의 성능을 보여주는 가라고 볼 수도 있습니다. 제가 더 이상 자세하게 설명 드리는 것 보다는 스스로 좀 더 생각해보시는 게 더 도움 될 것 같습니다. 위에서 제가 달아드렸던 댓글을 보시고 더 생각해보시면 좋을 것 같습니다 ㅎㅎ 예시를 더 만들어보려고 했지만 저 이상의 좋은 예시가 금방 떠오르지는 않아서 입니다 ㅎㅎ 더 좋은 설명 방법이 생각나면 또 말씀드리지요.
빈도주의와 베이즈주의의 해석방법의 차이를 아직 잘 이해가 되지 않습니다. 1. 베이즈주의에서는 왜 확률을 주장의 신뢰도로 해석하는거죠? 빈도주의의 한계가 있다든지(무한대로 반복할 수 없는 사건도 있어서 베이즈주의가 나왔다는 뭐 그런것도 찾아봤는데 한번 정리해주시면 좋을 것 같아요ㅠㅠ)
이건 수학적인 것이라기보다 철학적인 것이라서 ... 확률을 이해하는 새로운 frame? 혹은 propaganda 정도로 보시는게 좋을 것 같습니다... 제가 영상에서 말씀드린 것 이상으로는 더 이상 제 수준에서는 설명하기가 어려울 것 같아요... 신뢰도라는 말을 굳이 쓴 것은 evidence가 더 많아질 수록 주장을 더 좋은 방향으로 업데이트 해갈 수 있다는 의미에서 제가 붙인 용어입니다.
@@AngeloYeo 아 뭔가 이해가 된거 같은데 질문 좀만 더 드리겠습니다. 1. 베이지안주의가 여러사실들을 추가하면서 ~하고~하고 ~하다면(여러사실들) 결국~이다 라는 갱신되어 높은 확률을 가진 진리에 도달해서 귀납적 추론이라는 것은 알겠는데 빈도주의가 왜 연역적 추론인지가 이해가 되지 않습니다. 2. 트럼프가 다음 대선에 당선될 확률 등과 같이 무한대로 반복할 수없는 이런 사건에 대해서 빈도주의는 확률을 따질 수 없지만 베이지안 주의는 정보를 점점 추가하면서 정보가 추가된다면 트럼프가 대선에 당선될 확률이라는 사전확률을 갱신할 수 있게되어 빈도주의의 한계를 극복했다고도 볼수있는건가요?
@@iamnotinroomiamtheroom 1. 빈도주의적 확률 통계 이론에서는 랜덤변수에 대해 발생할 수 있는 모든 경우의 수와 그 사건이 발생할 빈도를 구별해 계산한 뒤 확률 분포를 미리 설정합니다. 그리고 이에 대해 검증하는 방식입니다. 연역적이라고 말씀드리는 것의 조금 더 깊은(?) 의도는 이렇듯 미리 계산해둔 확률 분포에 대한 검증을 수행하기 때문에 선험적 지식을 토대로 지금 보는 '사건'이라는 현상을 관찰하기 때문입니다. 좀 더 자세한 논의는 이 글을 보시는 것도 좋을 것 같네요. m.kisdi.re.kr/mobile/colm/pro_view.m?seq=29947&category=W&selectPage=1 2. 제 생각에는 베이지안주의가 빈도주의의 한계를 극복했다고 보기는 어려운 것 같습니다. 그 이유는 복잡한 데이터에서는 사후확률을 계산하는 것이 불가능한 것은 아니지만 데이터가 아무리 많다고 하더라도 거의 불가능에 가깝기 때문입니다. 또, 빈도주의가 한계가 있고 베이지안주의가 더 낫다고 말하는 것도 이상합니다. 현실적으로 복잡한 세상의 모든 것들에 대한 확률 분포를 구하지는 못할지언정 빈도주의는 이론적으로 타당하고 실제로도 유용합니다. (물론 어떤 주장이 더 낫다고 주장하는 사람들도 있고 그 근거들도 나름대로는 탄탄합니다만, 저는 두 관점을 모두 받아들이는게 낫지 않나... 하는 편입니다.)
@@AngeloYeo 질문있습니다!...ㅎ 그러면 1. 내일 해가 뜰 확률에 대해서 빈도주의와 베이즈주의 둘 다 확률을 구할 수 있나요? 아니면 빈도주의는 무한대로 반복을 할수가없어서 구하지 못하나요? 2. 구할수있다면 둘다 어떤방식으로(어떤방식인지는 대충설명해주시면됩니다. 새로운정보를 추가한다든지 등등) 구하는지 간단히 설명해주실수나요? 3.제가 찾아본 바에 의하면 계속 해는 떳으니까 빈도주의자는 내일도 해가뜰거라고 해석하고 베이즈주의는 베이즈정리에 의해 계산을하던데 이것도 맞나요?
상세한 설명 감사드립니다. 덕분에 개념을 조금 더 이해하게 된 것 같습니다. 문제는 제가 지엽적인 사람이어서 질문이...^^ 제가 머리에서 생각한 예제입니다. 1. 질병의 유병율은 1% 2. A검사 sensitivity(병이 있다고 나왔을 때(양성), 병이 있을 확률): 95% specificity(병이 없다고 나왔을 때(음성), 병이 없을 확률): 90% 3. B검사 sensitivity(병이 있다고 나왔을 때 때, 병이 있을 확률): 90% specificity(병이 없다고 나왔을 때, 병이 없을 확률):90% 문제 1. A검사에서 양성이 나왔을 때, 정말 병에 걸렸을 가능성(양성예측도)은? 2. A검사에서 1번 양성이 나온 것을 보고, A 검사를 반복했을 때도 양성이면, 정말 병에 걸렸을 가능성은? 3. A검사에서 1번 양성이 나온 것을 보고 B검사를 했을 때도 양성이면 정말 병에 걸렸을 가능성은? 제가 생각한 답은, 1. 1/11 2. 약 49.7% 3. 약 47.4% 입니다. 그런데, 이를 실제로 적용하려면 문제가 생기는데요. 예를 들어, PCR을 이용한 검사는 repeatability가 100%에 가깝습니다. 그냥 단순히 100%라고 가정한다면요. A검사가 반응하는 항원이 a, B검사가 반응하는 항원이 b라고 할 때, 항원항체 반응은 100%에 가까움. PCR등은 반복하면 같은 결과 가능성 높음. a항원이 반복해서 발견되었을 때 양성예측도 vs. a항원과 b항원 둘다 발견되었을 때의 양성예측도 위의 결론대로라면, A검사를 반복해야하지만, 실제 임상에서는 A검사에서 양성이면 B를 시행하는 것을 선호할 것 같습니다. 문제는 이게 단순히 머리로 낸 결론인지라... 그렇다면 B는 sensitivity 70%, spec 80%여도 유효한가? 60%라면? 등 정량적인 결론을 내기 어렵습니다. 이를 보완하기 위한 통계적 방법이 있을까요? A검사와 B검사의 독립의 정도 등이 필요할 것 같아서요.
P(E|H)는 우리가 갱신하고자 하는 확률이 아닙니다. 갱신하고자하는 확률은 P(H|E)입니다. 두 확률값은 전혀 다른 것을 의미합니다. 그리고 evidence를 출력해주는 분류기는 사전확률에 영향을 받지 않습니다. 왜냐면 P(E|H)를 보는 것이니까요... 다시 말하자면 H는 이미 일어난 상태에서, 즉 이 사람이 병을 갖고 있다는 것은 기정 사실이고 E를 출력(병이 있다고 판별하는 것)해준 확률이 얼마인지 알아보는 확률(이것을 민감도라고도 부릅니다)입니다. 만약 P(E|H)를 갱신하고 싶다면 분류 데이터를 더 얻어서 기계 성능을 갱신해야 합니다. 혹시 그래도 이해가 잘 안되신다면 조건부확률에 대한 기초 부분을 조금 더 확인해보시는 것을 추천드릴게요...
영상 잘 봤습니다. 이해가 잘 되네요! 질문 할 게 있는데요, 몬티 홀 문제도 베이즈 정리로 풀 수 있다고 알고 있는데 제가 몬티홀 문제에서 변형으로 문을 4개 준 다음에 예시로1번을 선택하면 2번을 열어주고 바꿀 기회를 준 다음에 선택을 하면 또 선택 안한 문 중에서 하나를 열어주고 다시 바꿀 기회를 주는, 그러니까 바꿀 기회를 2번 주는 문제에 대해서 궁금한데요, 이러한 상황을 베이즈 정리로 어떻게 풀어야 하는지 알려주실 수 있나요?(풀이도 같이 적어 주시면 정말 감사하겠습니다!)
안녕하세요 좋은 강의 감사합니다! 두번째 테스트에서 사전확률이 갱신되는 부분에서 궁금한 것이 있습니다. 첫번째 테스트에서 나온 P(H|E) 가 바로 P(H) 가 되었는데 P(H|not E) 는 왜 고려되지 않는지 알고 싶습니다. P(H)=P(H|E)P(E) + P(H|not E)P(not E)로 계산되야하지 않나요??
안녕하세요 공돌이님 언제나 강의 잘 보고 있습니다. 1) 예제 1을 빈도주의 관점애서 확률을 구하자면 "어떤 사람이 암이 걸렸다고 진단 받았을 때 실제 암에 걸린 경우/실제 걸리지 않은 경우"를 무수히 많이 샘플링을 취하는 방법으로 구하는 접근법으로 가는건지요? 여기에 샘플링을 할 때 "암에 걸리지 않았다고 진단 받았는데 실제 암인경우 / 아닌 경우"도 포함해야하나요? 2) P(E|H)는 likelihood라고 하던데요..강의하셨던 MLE의 그 likelihood와 같은 개념인가요?
안녕하세요. 1) 예제 1이나 예제 2에서 말하고 있는 확률을 구하는 방법은 순전히 true label과 predicted label 이 있는 데이터를 얻어서 confusion matrix를 만든 다음 (confusion matrix는 구글링해보시면 금방 뭔지 알 수 있으실 겁니다) 각 조건 당의 비율을 계산하는 방법 밖에 없습니다. confusion matrix는 영상에서 보여드렸던 구획을 나눈 사각형을 해당 조건의 샘플 수 만큼을 적어놓은 것입니다. 어찌되었든 confusion matrix 전체를 모두 얻어야 하므로 말씀하신 대로 "암에 걸리지 않았다고 진단 받았는데 실제 암인경우 / 아닌 경우"도 포함되게 됩니다. 2) 네 맞습니다.
블로그와 영상 잘보고있습니다. 혹시 실례가 되지 않으면 다른 내용도 질문드려도 될까요? Correlation Coefficient(Pearson 상관계수)에 대한 질문입니다. 두 랜덤변수에 대해 Correlation Coefficient를 계산할때 각 랜덤변수의 표준편차가 0인경우(예를들면 Ideal한 DC신호)에는 두 랜덤변수간의 상관계수는 어떻게 계산될수 있을까요? 검색해보니 누군가는 상관계수가 1이라고하고 누군가는 0이라고하고... 혹시 답변주실수 있으면 감사드리겠습니다.
안녕하세요! 덕분에 많은 이해를 한 거 같습니다! 근데 한가지 질문이 있는데, 이게 말의 모순이 있는 거 같습니당 ㅠ 발병률이 이미 정해져있는데, 질병이 없을 때 없다는 말이 성립이 되는 말인가요? 발병률 자체가 전체 인구 분에 발병인구 일텐데.. 하지만 나이브즈가 의미 자체가 발병률 사전확률이고, 조건을 통해 갱신한다는데 의의를 둔다해도 모순이 발생합니다. 특이도가 실제로 질병이 없을 때, 실제 질병이 없다고 검진 한다는 말이 = (코로나 검사 했는데 음성이 나왔는데 실제로 음성이다) 이 가정이 맞다면 발병률은 = { 발병 환자 수 / 전체 인구 수 } 전체 인구 = 양성 판정 인구 + 음성 판정 인구 하지만, 발병 환자를 선별하기 위해 검사 진행 민감도 99%, 특이도 98% 양성 판정 인구 중 1%는 오진, 음성 판정 인구 중 2%는 오진 ( 코로나 검사 했는데 1%는 실제 양성인데 음성 판단, 2%는 음성이라 판단했는데 실제 양성) 즉 전체 인구 * 발병률 = (양성 판정 받은 사람 * 99%) + {음성 판정 받은 사람 * (1 - 특이도) } 이기 때문에 P(H^c)는 와 질병이 없을 때 없다는 말이 상호관계가 없지 않나요 ??? 너무 복잡하네요... 머리가 더 어지럽습니다...
안녕하세요. 글을 여러번 읽어봤는데 어떤 부분을 지적하시는 것인지 잘 모르겠습니다. 발병률이 정해져있는데, 질병이 없을 때 없다는 말이 무슨 말씀이신지... ? 발병률이 정해져 있어도 사람이 질병에 걸릴 수도 있고 안걸릴 수도 있는것이지요... 어떤 부분을 지적하시는건지요?
@@AngeloYeo 저도 많이 헷갈리네용 ㅠㅠ 위에 내용은 신경쓰지 마시고 그냥 딱 직관적으로 이런 생각이 듭니다! 어떤 사람이 질병에 걸렸다고 검진받았을 때, 이사람이 정말로 질병에 걸릴 확률이란 말이 말로만 이해했을 때는 99%인데 왜 4.7%밖에 안되는 지... 나이브 베이즈 공식에 의해서 4.7%가 되는 건 이해가 되는데 예를 들어 내가 질병에 걸렸다고 검진을 받았는데 정말 질병에 걸렸을 확률이 4.7% 밖에 안된다는 말이 너무 이상하지 않나요? ㅠㅠ
@@irock729 왜냐면 워낙 희귀한 질병이라 그렇습니다. (발병율 0.1%) 민감도가 99%라고 하는 것은 실제로 질병이 있는데, 이것을 positive로 잘 검출해낼 확률을 말하는 것인데요. 워낙에 걸리기가 쉽지 않은 질병이라 positive라고 떴다고 해도 실제로 질병에 걸렸을 확률은 매우 낮을거라고 생각할 수 있는 것입니다. 다시 말하자면 조건이 거꾸로 걸려있기 때문에 이런 오해가 생기는것인데, 기계가 민감도가 99%다 라는 것은 P(+로 출력 | 실제 질병 걸림) 을 말하는 것이고 내가 질병에 걸렸는지 판단하기 위해선 P(실제 질병 걸림 | +로 출력) 을 생각해야 하는 것입니다. 조건부가 바뀌게 되면서 계산 결과는 크게 달라진다는 점을 확인해주세요. -- 또 다르게 생각해보겠습니다. sensitivity가 높아서 잘못 판단할 수 있는 예시인데요. 예를들어... A라는 질병에 걸리면 감기 증상이 보인다고 해봅시다. 그리고 이 기계는 감기 증상 여부만을 가지고 질병 여부를 판단한다고 해보겠습니다. 그럼 감기 증상이 보이기만 하면 이 기계는 무조건 A 질병이라고 얘기할겁니다. 그러면 sensitivity는 굉장히 높겠지요. 이 질병이 걸린 사람이라면 무조건 감기 증상을 보이니까요. 그런데 그렇다고 해서 이 기계가 positive라고 출력해준 결과만을 가지고 내가 이 질병 A에 걸렸다고 판단할 수 있을까요?
@@AngeloYeo 흠 뭔가 긁혀 지면서 안긁혀 지네요 ㅠㅜㅠㅠ 나이브 베이즈 정리를 다 이해하긴 했습니다! 공식과 유도 방법등은 다 알겠는데 말의 모순이 있는 거 같아서 말씀 드리는 겁니당 ㅠ 그럼 반대로 생각해보겠습니다 말씀해주신데로 P(실제 질병 걸림 | +로 출력) = 4.7% 입니다. 그렇다면 P(실제 질병 걸림 | -로 출력) = 95.3% 인데 이 말은 내가 양성이라고 병원에서 진단 받은 것보다, 음성이라고 진단 받았 을 때 실제 질병에 걸렸을 확률이 훨 씬 높다는 거 아닌가요?
@공돌이의 수학정리노트 더 첨부 하자면 검사를 받았는데 병원에서 양성이라고 했는데 원체 휘귀한 병이니까, 내가 실제로 병이 있을 확률이 4.7%니까 난 병이 없을 거야 라고 생각하는 게 이상하지 않나요? 병원에서 제시한 검사 정확도 99%를 가지고 내가 양성일 때 내가 병이 있을 확률은 99%라고 생각하는 게 맞지 않나요?
안녕하세요! 입시를 준비하고 있는 고3입니다. 생기부 활동할 때 관련 개념 학습에 많은 도움을 받고 있습니다. 한가지 여쭈어보고 싶은건 mcmc알고리즘 중 메타폴리스 헤이스팅스 알고리즘이 베이즈 정리 사후확률 샘플링에 도움이 된다고 한는데.. 둘의 개념을 모두 학습하였지만 어떤 연관점이 있는지 잘 모르겠어서 질문하게 되었습니다..
@@godinhyuk 샘플링이란 개념 자체에 대한 이해가 필요할 것 같습니다. 사후확률 분포는 계산 자체가 어려워서 샘플링으로 대체해서 구하곤 합니다. 제 영상들 중 리젝션 샘플링 영상과 MCMC 영상 두 편을 다 보시는 걸 추천드려요. MCMC 영상 뒷부분에 사후확률 샘플링에 관한 실습이 포함되어 있는걸로 기억합니다. th-cam.com/video/7wtVFfwAps4/w-d-xo.html th-cam.com/video/5QAfQZjCrRM/w-d-xo.html th-cam.com/video/x0qhLFnTfV8/w-d-xo.html
안녕하세요. 새벽까지 열공이시네요 ^^ 대답은 "대체로 그렇다" 라고 할 수 있습니다. 말씀하신 과정 중 데이터가 추가 된다고 하는 것은 likelihood를 계산하는 샘플의 수가 많아지는 과정이라고 보입니다. 그리고 베이즈 정리를 쓴다고 하면 Maximum A Posteriori 를 이용해 사후확률을 계산하는 방식을 이용하는 케이스라고 봐야할 것 같습니다. 다만 추가된 데이터가 꼭 분석에 도움이 되는 데이터는 아닐 수도 있어서 항상 도움이 된다고 말하기는 어렵지만 대체로 데이터는 많을 수록 더 좋은 모델을 만드는데 도움이 될 수 있을 것 같습니다. 정리하면 1. 말씀하신 방식은 Maximum A Posteriori라는 방법으로 사후추정 하는 것에 가까워 보임. 2. 데이터가 늘어나면 likelihood 계산이 수정되는 것이다. 3. 그래서 사후확률을 확인하기 위한 더 좋은 모델을 만들 가능성이 있다고 할 수는 있지만 항상 그런 결과가 도출되는 것은 아니다. 정도로 볼 수 있을 것 같습니다.
안녕하세요! 베이지안의 현실적용에 대한 질문이 있습니다. 예를들어 코로나 사태 초창기 하루 십수명 정도 걸릴 때 같은경우, 워낙 발병률이 낮았으니 P(H) 가 아주 낮았을텐데요. 이때 PCR 검사의 민감도가 99% 라고 해도, 베이지안식으로 계산하면 P(H/E) 가 그리 높지는 않게 됩니다. 예제1과 같은 경우라면 양성으로 진단되어도 신뢰도가 사실 5%밖에 안된다는건데, 현실에선 거의 여지없이 진짜 감염된거였죠. 이걸 어떻게 해석하는게 좋을까요?
16:30 에
없는데(병이?) 잘못검출해서 있다고 말한 경우라고 하신건가요?
False Negative는 실제로 병에 걸려있지만 병이 없다고 잘못 판정 내린 경우 아닌가요?
그렇네요.... 제가 False Negative에 대해 잘못 말했습니다. 박상혁 님이 말씀하신게 맞습니다.
@@AngeloYeo 잘못이해한줄 알았습니다. 유용한 영상 감사합니다!
아 저도 이상하다 생각했는데 역시 다른 분께서 지적해주셨네요. 저도 연장선상에서 질문이 있는데요. FalseNegative와 FalsePositive는 제1종.2종 오류를 말하게 되는 걸까요? 근데 각각이 무얼 말할지 좀 헷갈리네요. 제 생각엔 전자가 병이 없는데 그나마 있다고 하니 2종같고 후자가 있는데 없다고 하니 1종 같은데요. 고수님들, 공돌님 도와주세요!
False Positive가 1종 오류 False Negative 가 2종 오류 입니다. 예를 들어 설명드리자면 1종 오류는 불이 나지 않았는데 소화기 알람이 울리는 (positive) 경우입니다. 반대로 2종 오류는 불이 났는데도 소화기 알람이 울리지 않는 (negative) 경우입니다.
두 경우 모두 잘못(false)된 판단이 되었기 때문에 false가 붙는 것입니다.
통계공부 막 시작했는데 많은 도움이 되었어요! 궁극적으로 그래서 베이즈 정리가 말하고자 하는게 뭔데?가 궁금했는데 딱 제 수준에 적당하고 명쾌하네요! 감사합니다 :)
ㅎㅎ 핵심 포인트를 잘 짚어내셨다면 다행입니다 ㅎㅎ 그것만 갖고 계시더라도 이후의 Bayesian approach는 좀 더 쉽게 와닿으실 거라고 생각합니다
Bayesian 이 아니고 전통확률이론에 의한다면 위 사례의 경우에 얼마 정도의 확률로 진단하게 되나요? 0.047과 0.7이 아니고
와 예제와 설명 미쳤네요. 왠만한 딱딱한 강의보다 10배 좋습니다.
중요한 개념들을 잘 정리해 주셨네요... 감사합니다
형 최고예요 진짜 형 같은 분들이 교수님해야해여! 추천 구독 좋아용
베이즈정리 이해가 안되서 여기 저기 전전하다가 덕분에 이제서야 완벽히 이해했습니다.
감사합니다 :)
와 정말 감사한 댓글이네요 :) 도움 되었다니 다행입니다 ! ㅎ
확률을 바라보는 관점에 대한부분 인상깊네요 잘보고갑니다 감사합니다!
너무 감사합니다 유명해지실거에요
큰 도움 되었습니다. 감사합니다!
오늘도 큰 도움이 되었습니다.
좋은 강의 감사합니다!
감사합니다 ^^~ 도움 되었으면 좋겠습니다 ㅎㅎ
명강의입니다. 감사합니다!
도움이 되셨다니 다행입니다 ㅎㅎ
진짜 감사합니다
어설픈 교수들보다 훨씬 설명 잘하시네요. 명쾌합니다!
좋은 정리 감사합니다.
도움이 많이 되었습니다.
매우 난해해서 어려웠던 베이즈 정리를 정리하고 갑니다.
감사합니다 도움 많이 되었습니다!
감사합니다 ^^
감사합니다 이제 좀 이해가 되네요
도움이 되었다니 다행입니다 ~^^
12:40 베이즈정리 문제
3일 고민했습니다... 책에 딱 한줄만 나와있어서 도서관가야하나 했는데
정말 유익하고 자세한 자료 감사드립니다
혹시 시간되시면 likelihood에 대해서 정리해주시면 감사하겠습니다
likelihood까지 갈 수 있을지 모르겠습니다 ㅎㅎ 기초적인 통계학에 대해서 준비중인데 likelihood도 정리할 마음 생기면 정리한번 해보겠습니다~!
24회 ADP에서 출제가 된 문제네요... 미리 봤었더라면 틀리진 않았을텐데... 정주행 한번 해야겠습니다.
많은 도움이 되었습니다 :) 감사합니다
도움 되었다니 기분 좋네요~ ㅎ 댓글 감사합니다 좋은 주말 보내세요!
선생님 너무 좋은 자료 감사드립니다. 오디오 볼륨이 많이 작은데 소리만 조금 더 커지면 완벽할 것 같습니다.
안녕하세요 ~ 댓글 감사드립니다 ㅎ 조언 감사합니다 앞으로는 오디오에도 신경 더 쓰겠습니다!
정말 감사합니다 ㅜㅜ
적게 일하시고 많이 버세욥!!!
어휴.... 감사합니다 ㅋㅋ 최근 그 인사가 참 마음에 들더라구요!! ㅎㅎ 핑핑이님도 주말 잘 보내세요!
고등학교 때는 집합 그림 보고 넘어갔는데 깊은 뜻이 있었네요 감사합니다
와.. 정말 깔끔하게 이해되었습니다. 좋은 자료와 설명 감사해요!
설명은 진짜 좋은데 ... 글씨체가 진짜 레알 더 좋으시네요 ..
형님의 깊은 내공이 느껴집니다.. 특히 통계쪽 영상이 재밌네요.
Can you get english subtitles please
잘들었습니다. 감사합니다. ^^ 질문하나 드리면.. H에 컴플라이언스는 어떻게 구하는건지요?
컴플라이언스가 뭔가요~?
잘들었습니다. 처음 배우는 사람이 이해하기 쉽게 되어있어 좋았습니다. 혹시 나이브 베이지안 정리도 예정에 있나요?
나이브 베이즈 분류기를 말씀하시는거죠? 머신러닝이나 딥러닝은 요즘 워낙 핫하다보니 웹상에도 고수님들이 너무 많이 계셔서... 제가 다룰 엄두가 나지 않아서 아직 계획에는 없습니다~
무슨 일을 하시는지 궁금하네요 ㅎ
자율주행과 음성신호처리에 관심있는 공대생인데 영상들이 깔끔하고 이해하는 데 도움되는거 같아요 감사합니다!!
EDAM71님 안녕하세요~ 영상 재밌게 봐주셔서 감사합니다!
멋진 연구 하고 계시네요... 미래성도 밝아보이구.. 부럽습니다. ㅎㅎ
저는 일반 기업에서 일하는 회사원입니다 ^^; 제 블로그에 오셔서 소개 누르시면 저에 대한 자세한 이력을 보실 수도 있습니다 ^^
아직 학부3학년입니다 ㅎㅎ
엇 들어가볼게요!! 화이팅입니다
확률과 통계 주제탐구로 베이즈정리에 대해 알아보려는데 너무 어려워서 이해가 안됐는데 형님 덕분에 이해가 바로되네요. 진짜 감사해요!!!
형님 목소리가 성시경 잘자요급으로 좋아서 듣는데 지루함없이 들었습니다 ㅋㅋㅋㅋ 근데 혹쉬 형님 전공이 어떻게 되시죠?
이해에 도움이 되었다니 다행입니다 ^^
칭찬의 코멘트도 감사드리구용 ㅎ
제 전공은 의공학이고 석사때는 뇌신경공학을 공부했습니다 :) (뇌파 신호처리)
오...감사합니다
영상 잘 봤습니다 그런데 혹시 예제는 자작문제이신가요? 아니라면 참고하신 교재를 알려주실수있을까요?
예제는 직접 만든 것으로 기억하고 있습니다 😉
덕분에 이해가 잘 되네요 선생님 ㅎㅎ
H 를 아무리 업데이트해줘도 P(E/H) 가 업데이트 되지않는게 사실 당연한거였군요!
P(H)를 코로나에걸릴 확률 , P(E) 를 그 병이 코로나 양성인지 진단할수있는 확률(성능도)라고 생각했을때,
당연히 실제 대한민국에서 코로나에 걸릴 확률보다, 한 번 PCR검사를 통해 양성판정 받았을때 이 사람이 진짜 코로나에 걸린확률이 당연히 그 전(양성판정을 받기 전)보다 높겠고, 다시 재검사(3번째 검사)를 해서 또 양성이 나왔을때 코로나일 확률은 계산해보니까 99퍼센트의 확률이 나오네요. 어찌보면 검사를 여러번 할 수록 정확도가 높아지는건 당연한거구요!
반대로 이미 코로나 확진된 환자를 계속 PCR 검사(EVIDENCE)해봤자 어차피 P(E/P)는 일정할테구요. 마찬가지로 코로나 양성에 여러번 확진되었다 해서 갑자기 PCR검사의 성능이 향상되면 이건 말이 안되니까요 ㅎㅎ
그래서 무엇이 EVIDENCE 로 둘지, 무엇을 HYPOTHESIS로 둘지 선정하는것이 "매우" 중요하다고 하신 말씀이 이제야 이해가 됩니다!! 진짜 좋은 강의해주셔서 감사합니다..
완전 소화해서 본인의 것으로 만드신 것 같습니다 😁 도움 된 것 같아 좋습니다 ㅎ
안녕하세요. 영상 잘 보았습니다. 좋은 설명에 감사드립니다! 그런데 19:16에서 P(E)가 왜 저렇게 유도되나요? 그림을 보면 직관적으로 알겠습니다만, 영상에서는 식을 먼저 보여주시고 그림으로 확인만 시켜주신 것 같아요. 블로그에서도 P(E)의 유도법은 소개가 돼 있질 않아서 궁금합니다. 모든 부분을 다 상세히 설명해 주셨는데 유독 P(E)만 식이 후르륵 나온 뒤 지나가 버린 느낌이라 찜찜하군요. 하하. 설명 부탁 드려도 될까요? :)
안녕하세요.
왜냐면 H는 일어나거나 일어나지 않거나 둘 중 하나의 케이스만 갖기 때문입니다. 그래서 H가 true인 사건이 발생하고 그 뒤에 E를 확인하게 되는 확률은 P(E|H)P(H) 이고, H가 false인 사건이 발생하고 그 뒤에 E를 확인하게 되는 확률은 P(E|~H)P(~H)입니다.
그랬을 때 H에 대한 두 케이스를 확인하는 것은 관계없는 사건이므로 합쳐줌으로써 전체 확률을 구할 수 있게 됩니다.
혹시 더 필요하시다면 조건부 확률이라는 키워드로 검색해보시는 것을 추천드릴게요.
@@AngeloYeo 오! 그렇네요. 답변 감사합니다-! 😀
내게 세상을 알게 해준 다섯 가지 이론 중 하나...
나머지 네 가지가 뭔지 궁금해지는군요... ㅎㅎ
저도 나머지가 궁금해지네요 ㅋㅋㅋ
정말 최고의 강의입니다
항상 도움을 많이 받고 있습니다
근데 하나 궁금한건 bf를 수치화 했을때
논문들을 참고하면 양의 정수 값이 나오는데
(예를 들면 3, 7.4, 10 혹은 0.4)
이러한 경우는 확률 같이 보이지 않아
인터넷을 찾아보면 1이상일경우 가설에 대해 긍정적인 방향으로 일어날 확률이라는데
이땐 3이나 4와 같은 값을 어떻게 바라봐야하나요? (30%,40%는 아닐텐데 그게 궁금하네요)
안녕하세요. 댓글 감사드립니다 ㅎ 도움 되셨으면 좋겠습니다. 그런데 질문하신 내용 중에 bf가 뭔가요...?
공돌이의 수학정리노트 아 죄송합니다 bayes factor에 약자입니다
찾아보니까 모델별 prior x likelihood의 비율이라고 볼 수 있을 것 같네요... 제 영상 중 최대우도법 영상과 나이브 베이즈 영상을 보시면 좀 도움이 되지 않을까 싶습니다 ㅎ
혹시 마지막에 연역적 추론에서 귀납적 추론으로 바뀌는게 뭔 뜻인지 알 수 있을까요??
베이즈 정리는 Evidence를 통해 우리가 기존에 갖고 있던 hypothesis를 업데이트 시켜줄 수 있다는 철학을 갖고 확률론에 접근합니다. 다시 말해, 귀납적 추론이라는 의미는 새로운 정보들을 얻어가면서 우리가 알고자하는 것에 다가간다는 의미이지요.
연역적 추론이라는 것의 의미는, 가령 모수 통계학에서 모수를 알 수 있다면 모든 확률 분포에 대해 알 수 있다는 것을 가정하고 출발하는 것과 맥락을 같이 한다고 볼 수 있습니다.
와 진짜 감사합니다. 치코리타 기펜재설명 만큼은 아니지만 그만큼 이해잘돼는 영상
ㅋㅋㅋ안녕하세요. 치코리타 기펜재가 뭔가해서 봤더니 진짜 쌈박하네요 설명 ~~ ㅋㅋ
예제 1번에서 "검진결과가 양성일때 실제로 감염되었을 확률"이라는게 잘 이해가 되지 않아서 질문드립니다!
"질병에 감염되어있는 사람에게 진단키드를 사용하여 양성이 나올 확률"과 "검진 결과가 양성일때 실제로 감염되었을 확률"이 0.99와 0.047로 서로 다른 것으로보아 서로 다른의미라는 것인데
어떻게 다른 말인지 잘 이해가 되지 않습니다.
제가 느끼기에는 말의 앞 뒤만 바뀐것 같은데 확률이 너무 달라져서 질문드립니다!!
안녕하세요.
조건과 결과가 서로 바뀐 경우에 대한 확률이기 때문입니다.
1. 질병에 감염되어 있는 사람에게 진단 키트를 사용하여 키트에서 양성 결과가 나온다는 확률은 P(E|H)를 말하는 것이고, 키트의 결과가 양성일 때 이 사람이 실제로 감염되었을 확률은 P(H|E)를 말합니다.
2. P(E|H)의 경우에 대해 부연 설명 해보겠습니다. 이 경우에는 사람은 이미 질병에 감염(H)되어 있습니다. 따라서, Evidence(E)에 대한 것은 이미 질병에 감염된 사람을 기계가 얼마나 잘 잡아주느냐에 달려있는 것입니다. 다시 말해, 이 병에 걸리기만 했으면 증상이 워낙 명확하다 보니 쉽게 판독할 수 있다는 뜻으로 보면 좋을 것 같습니다.
3. P(H|E)의 경우에 대해서도 부연설명 해보자면 이 경우는 기계에서는 이미 질병에 걸려있다고 말하는데, 이 사람이 실제 병에 걸려있는지에 대한 확률입니다. 이 영상의 예시에서는 병이 워낙 희귀하여 병에 걸렸다고 기계에서 판독했다고 한들 정말로 병이 걸려있을 가능성은 낮을 수 있다고 사람이 판단할 수 있습니다. 이런 케이스에 대해서 해석하는 확률값이라고 얘기할 수 있구요.
@@AngeloYeo 답변 감사합니다.
기계는 감염되어 있는 사람에게 사용할 경우 양성이 나올 확률이 99%라는 높은 정확도를 보여주는데, 실제로 기계를 사용을 해서 양성이 나왔을때 진짜 감염되었을 확률이 4.7%라는 말은 곧 기계의 정확도가 낮다는 것처럼 생각이되서 헷갈리네요...
같은 기계를 두고 P(E|H)는 기계의 정확도가 높다, P(H|E)는 기계의 정확도가 낮다고 이야기를 하는 것 같습니다.
정확도라는 표현은 적절치 않을 수 있습니다. 분류에 대한 evaluation 용어는 생각보다 복잡합니다...
P(E|H)는 Recall 혹은 민감도(Sensitivity)라고 말하고 특히 베이즈정리의 식에서는 likelihood로 표현합니다. P(E|H)가 높으면 기계의 민감도가 높다라고 얘기할 수 있습니다. 결과가 True인 것 중 실제 True인 비중입니다.
P(H|E)는 정확률(Precision)이라고 말합니다. 베이즈 정리에서는 사후확률로 표현합니다. P(H|E)가 높으면 정답을 넣었을 때 몇 개가 정답으로 분류 되었는지를 보여줍니다.
분류기의 관점에서 생각하면 분류기의 어떤 측면의 성능을 보여주는 가라고 볼 수도 있습니다.
제가 더 이상 자세하게 설명 드리는 것 보다는 스스로 좀 더 생각해보시는 게 더 도움 될 것 같습니다. 위에서 제가 달아드렸던 댓글을 보시고 더 생각해보시면 좋을 것 같습니다 ㅎㅎ 예시를 더 만들어보려고 했지만 저 이상의 좋은 예시가 금방 떠오르지는 않아서 입니다 ㅎㅎ 더 좋은 설명 방법이 생각나면 또 말씀드리지요.
@@AngeloYeo 넵 친절한 설명 감사합니다. 올려주신 영상들이 많은 도움이 되고있습니다!
예제 1
P(H)가 왜 0.001인지 알 수 있을까요?
질병의 발병율이 0.1%로 알려졌다고 문제에서 가정했기 때문입니다. H는 기존에 알려진 가설이라고 볼 수 있습니다.
빈도주의와 베이즈주의의 해석방법의 차이를 아직 잘 이해가 되지 않습니다. 1. 베이즈주의에서는 왜 확률을 주장의 신뢰도로 해석하는거죠? 빈도주의의 한계가 있다든지(무한대로 반복할 수 없는 사건도 있어서 베이즈주의가 나왔다는 뭐 그런것도 찾아봤는데 한번 정리해주시면 좋을 것 같아요ㅠㅠ)
이건 수학적인 것이라기보다 철학적인 것이라서 ... 확률을 이해하는 새로운 frame? 혹은 propaganda 정도로 보시는게 좋을 것 같습니다...
제가 영상에서 말씀드린 것 이상으로는 더 이상 제 수준에서는 설명하기가 어려울 것 같아요... 신뢰도라는 말을 굳이 쓴 것은 evidence가 더 많아질 수록 주장을 더 좋은 방향으로 업데이트 해갈 수 있다는 의미에서 제가 붙인 용어입니다.
@@AngeloYeo 아 뭔가 이해가 된거 같은데 질문 좀만 더 드리겠습니다. 1. 베이지안주의가 여러사실들을 추가하면서 ~하고~하고 ~하다면(여러사실들) 결국~이다 라는 갱신되어 높은 확률을 가진 진리에 도달해서 귀납적 추론이라는 것은 알겠는데 빈도주의가 왜 연역적 추론인지가 이해가 되지 않습니다. 2. 트럼프가 다음 대선에 당선될 확률 등과 같이 무한대로 반복할 수없는 이런 사건에 대해서 빈도주의는 확률을 따질 수 없지만 베이지안 주의는 정보를 점점 추가하면서 정보가 추가된다면 트럼프가 대선에 당선될 확률이라는 사전확률을 갱신할 수 있게되어 빈도주의의 한계를 극복했다고도 볼수있는건가요?
@@iamnotinroomiamtheroom 1. 빈도주의적 확률 통계 이론에서는 랜덤변수에 대해 발생할 수 있는 모든 경우의 수와 그 사건이 발생할 빈도를 구별해 계산한 뒤 확률 분포를 미리 설정합니다. 그리고 이에 대해 검증하는 방식입니다. 연역적이라고 말씀드리는 것의 조금 더 깊은(?) 의도는 이렇듯 미리 계산해둔 확률 분포에 대한 검증을 수행하기 때문에 선험적 지식을 토대로 지금 보는 '사건'이라는 현상을 관찰하기 때문입니다.
좀 더 자세한 논의는 이 글을 보시는 것도 좋을 것 같네요.
m.kisdi.re.kr/mobile/colm/pro_view.m?seq=29947&category=W&selectPage=1
2. 제 생각에는 베이지안주의가 빈도주의의 한계를 극복했다고 보기는 어려운 것 같습니다.
그 이유는 복잡한 데이터에서는 사후확률을 계산하는 것이 불가능한 것은 아니지만 데이터가 아무리 많다고 하더라도 거의 불가능에 가깝기 때문입니다.
또, 빈도주의가 한계가 있고 베이지안주의가 더 낫다고 말하는 것도 이상합니다. 현실적으로 복잡한 세상의 모든 것들에 대한 확률 분포를 구하지는 못할지언정 빈도주의는 이론적으로 타당하고 실제로도 유용합니다. (물론 어떤 주장이 더 낫다고 주장하는 사람들도 있고 그 근거들도 나름대로는 탄탄합니다만, 저는 두 관점을 모두 받아들이는게 낫지 않나... 하는 편입니다.)
@@AngeloYeo 항상 빠르고 정확한 답변 감사합니다..!
@@AngeloYeo 질문있습니다!...ㅎ 그러면 1. 내일 해가 뜰 확률에 대해서 빈도주의와 베이즈주의 둘 다 확률을 구할 수 있나요? 아니면 빈도주의는 무한대로 반복을 할수가없어서 구하지 못하나요? 2. 구할수있다면 둘다 어떤방식으로(어떤방식인지는 대충설명해주시면됩니다. 새로운정보를 추가한다든지 등등) 구하는지 간단히 설명해주실수나요? 3.제가 찾아본 바에 의하면 계속 해는 떳으니까 빈도주의자는 내일도 해가뜰거라고 해석하고 베이즈주의는 베이즈정리에 의해 계산을하던데 이것도 맞나요?
잘봤습니다!!
예제1에서 0.1%로 나와있는데 0.001은 왜 나온건가요?
100% = 1
1% = 0.01
0.01% = 0.0001
좋은 영상감사합니다, 궁금한 게 있습니다. 예제 2번에서 H가 예제 1번과는 달라졌는데 P(E|H)와 P(E^c|H^c) 값을 동일하게 가져가도 되는 건인가요?
예제1 질의문 두번째 문장이 저한테는 좀 애매한데요, 혹시 "만약 어떤 사람이 임의의 질병에 걸렸다고 검진 받았들 때, 이 사람이 질병 A에 걸렸을 확률은?
이런 질문 아닌지요?
안녕하세요. 지금 보니 써놓은 저 문장이 어색하네요 ^^; 말씀하신대로 해석하는게 더 좋을 것 같습니다!
암 검진할때 실제로 저렇게 하나요?
검진에 대한 통계적인 분석은 저렇게 해볼 수 있겠지요
18:57 선생님 그러면 베이즈 정리는 'TP/TP+FP' 라는 얘기고 이 식은 Precision이 되는건가요...?
즉 {베이즈 정리 = Precision} ?
안녕하세요. 그런것은 아니고 precision에 대한 확률을 베이즈 정리를 이용해 업데이트 해나가는 과정이 이번 예시에서 사용된 것입니다 ㅎ
@@AngeloYeo 아...그렇군요 업데이트한다라는 개념이 중요하네요
안녕하세요 영상보고 어려웠던 베이즈 정리에 대해 잘 습득할수있었습니다!!감사합니다 저는 고3수험생인데 베이즈 정리와 할리갈리를 이용해서 연관시켜 확률을 구할수있을까요. ..? ???
질병에 걸렸다고 진단결과를 받았는데 그 신뢰도가 4.7%라고 해석해야 하나요? 그렇다면 진단한 의사말을 믿을 필요가 별로 없는 건가요? (4.7% 정도라면...)
워낙 희귀한 질환이라면 재테스트를 수행해볼 필요가 충분히 있다 정도로 생각하는게 좋다 정도로 부드럽게 해석하는것도 가능할 것 같습니다 ㅎ
그럼 코로나 진단키트의 경우에도 민감도가 98% 정도 되는 키트도 있는 걸로 알고 있는데 그렇다면 1차검사에서 양성으로 나온 사람 중 진자 양성일 사람은 약 5%라고 해석해도 되는건가요?? 궁금하네요...
영상에서 보신 것 처럼 코로나의 발병율에 따라 다르게 해석가능할 것 같습니다
상세한 설명 감사드립니다. 덕분에 개념을 조금 더 이해하게 된 것 같습니다. 문제는 제가 지엽적인 사람이어서 질문이...^^
제가 머리에서 생각한 예제입니다.
1. 질병의 유병율은 1%
2. A검사
sensitivity(병이 있다고 나왔을 때(양성), 병이 있을 확률): 95%
specificity(병이 없다고 나왔을 때(음성), 병이 없을 확률): 90%
3. B검사
sensitivity(병이 있다고 나왔을 때 때, 병이 있을 확률): 90%
specificity(병이 없다고 나왔을 때, 병이 없을 확률):90%
문제
1. A검사에서 양성이 나왔을 때, 정말 병에 걸렸을 가능성(양성예측도)은?
2. A검사에서 1번 양성이 나온 것을 보고, A 검사를 반복했을 때도 양성이면, 정말 병에 걸렸을 가능성은?
3. A검사에서 1번 양성이 나온 것을 보고 B검사를 했을 때도 양성이면 정말 병에 걸렸을 가능성은?
제가 생각한 답은,
1. 1/11
2. 약 49.7%
3. 약 47.4% 입니다.
그런데, 이를 실제로 적용하려면 문제가 생기는데요. 예를 들어, PCR을 이용한 검사는 repeatability가 100%에 가깝습니다. 그냥 단순히 100%라고 가정한다면요.
A검사가 반응하는 항원이 a, B검사가 반응하는 항원이 b라고 할 때,
항원항체 반응은 100%에 가까움. PCR등은 반복하면 같은 결과 가능성 높음.
a항원이 반복해서 발견되었을 때 양성예측도 vs. a항원과 b항원 둘다 발견되었을 때의 양성예측도
위의 결론대로라면, A검사를 반복해야하지만, 실제 임상에서는 A검사에서 양성이면 B를 시행하는 것을 선호할 것 같습니다. 문제는 이게 단순히 머리로 낸 결론인지라... 그렇다면 B는 sensitivity 70%, spec 80%여도 유효한가? 60%라면? 등 정량적인 결론을 내기 어렵습니다.
이를 보완하기 위한 통계적 방법이 있을까요? A검사와 B검사의 독립의 정도 등이 필요할 것 같아서요.
제 생각에는, A검사는 반복시행 시 '독립적으로' sensivity 95%, specificity 90%이다. 라는 전제가 있어야할 것 같은데요. 음.. 그렇다면 적용이 매우 어려워질 것 같습니다.
영상 잘 보았습니다!! 질문있어서 드립니다. 예제2에서 사전확률이 변경되었는데 P(E|H)와 P(EC(여)|HC(여)는 왜 이전 사전확률에서와 값이 같은건가요??
안녕하세요. 어떤 부분에서 사전확률이 변경되지 않은 채로 있었던 건지 알 수 있을까요? 21:23을 보면 사전확률이 변경되어서 계산된 것으로 보입니다만 ... ㅠ
@@AngeloYeo 예제 1에서의 P(H)의 조건부확률 P(E|H)와 예제2의 변경된 P(H)의 조건부확률 (PE|H)가 같아서 질문 드렸습니다!! 예제 1과 2의 P(H)의 값은 다른데 P(H)의 값이 달라지면 (PE|H)의 값도 달라져야 하는게 아닌가해서 질문드렸습니다!!!
@@이글스팬-v6w 아하... 민감도의 경우는 분류기(여기서는 질병 A를 검사해주는 기계)의 성능이므로 이것은 바뀌지 않습니다~
@@AngeloYeo 분류기가 사전확률에 영향을 받는데 왜 사전확률을 바꾸는데 P(E|H)는 바꾸지않나요...?? 바꾸지 않다면 수식을 P(H)가아닌 P(H1)이든 다른 값임을 보여주어야 할 것같은데 아닌가요? 예제 2의 수식이 P(E|H)*P(H1)으로 바꾸는게 맞는것이 아닌지 질문드립니다.
P(E|H)는 우리가 갱신하고자 하는 확률이 아닙니다. 갱신하고자하는 확률은 P(H|E)입니다. 두 확률값은 전혀 다른 것을 의미합니다.
그리고 evidence를 출력해주는 분류기는 사전확률에 영향을 받지 않습니다. 왜냐면 P(E|H)를 보는 것이니까요... 다시 말하자면 H는 이미 일어난 상태에서, 즉 이 사람이 병을 갖고 있다는 것은 기정 사실이고 E를 출력(병이 있다고 판별하는 것)해준 확률이 얼마인지 알아보는 확률(이것을 민감도라고도 부릅니다)입니다.
만약 P(E|H)를 갱신하고 싶다면 분류 데이터를 더 얻어서 기계 성능을 갱신해야 합니다.
혹시 그래도 이해가 잘 안되신다면 조건부확률에 대한 기초 부분을 조금 더 확인해보시는 것을 추천드릴게요...
영상 잘 봤습니다. 이해가 잘 되네요!
질문 할 게 있는데요, 몬티 홀 문제도 베이즈 정리로 풀 수 있다고 알고 있는데 제가 몬티홀 문제에서 변형으로 문을 4개 준 다음에 예시로1번을 선택하면 2번을 열어주고 바꿀 기회를 준 다음에 선택을 하면 또 선택 안한 문 중에서 하나를 열어주고 다시 바꿀 기회를 주는, 그러니까 바꿀 기회를 2번 주는 문제에 대해서 궁금한데요, 이러한 상황을 베이즈 정리로 어떻게 풀어야 하는지 알려주실 수 있나요?(풀이도 같이 적어 주시면 정말 감사하겠습니다!)
안녕하세요 좋은 강의 감사합니다!
두번째 테스트에서 사전확률이 갱신되는 부분에서 궁금한 것이 있습니다. 첫번째 테스트에서 나온 P(H|E) 가 바로 P(H) 가 되었는데 P(H|not E) 는 왜 고려되지 않는지 알고 싶습니다. P(H)=P(H|E)P(E) + P(H|not E)P(not E)로 계산되야하지 않나요??
ㅇㅇ 공돌이도 실수할수 있지 니말이 맞음
이거 수능특강 국어에 나왔어요 ㅋㅋㅋㅋㅋㅋ
수능특강 국어요? ㅋㅋㅋ 수학도아니고 이럴수가 ㅋㅋ
안녕하세요 공돌이님 언제나 강의 잘 보고 있습니다.
1) 예제 1을 빈도주의 관점애서 확률을 구하자면 "어떤 사람이 암이 걸렸다고 진단 받았을 때 실제 암에 걸린 경우/실제 걸리지 않은 경우"를 무수히 많이 샘플링을 취하는 방법으로 구하는 접근법으로 가는건지요? 여기에 샘플링을 할 때 "암에 걸리지 않았다고 진단 받았는데 실제 암인경우 / 아닌 경우"도 포함해야하나요?
2) P(E|H)는 likelihood라고 하던데요..강의하셨던 MLE의 그 likelihood와 같은 개념인가요?
안녕하세요.
1) 예제 1이나 예제 2에서 말하고 있는 확률을 구하는 방법은 순전히 true label과 predicted label 이 있는 데이터를 얻어서 confusion matrix를 만든 다음 (confusion matrix는 구글링해보시면 금방 뭔지 알 수 있으실 겁니다) 각 조건 당의 비율을 계산하는 방법 밖에 없습니다. confusion matrix는 영상에서 보여드렸던 구획을 나눈 사각형을 해당 조건의 샘플 수 만큼을 적어놓은 것입니다. 어찌되었든 confusion matrix 전체를 모두 얻어야 하므로 말씀하신 대로 "암에 걸리지 않았다고 진단 받았는데 실제 암인경우 / 아닌 경우"도 포함되게 됩니다.
2) 네 맞습니다.
@@AngeloYeo
감사합니다 공돌님.. 제가 1번에서 문의드리고자 했던 부분은 예제1을 빈도주의 관점에서 확률을 구한다면 어떻게 구해야 할 것인가 인데요.. 이것을 구할 수 있을까요?
실제 데이터를 다룰 때는 빈도주의 관점이라던지, 베이지언 주의 관점이라던지 하는 것이 중요하지 않습니다. 이 때에는 전체 피험자들 중에 조건에 맞는 피험자의 비율로 확률을 계산할 수 밖에 없습니다 ^^
@@AngeloYeo
그렇군요 감사합니다~
정리해서 대본만드셔야 할 듯 동어반복이 너무 심함
네 감사합니다^^~ 좀 더 신경써서 찍도록 하겠습니다.
블로그와 영상 잘보고있습니다. 혹시 실례가 되지 않으면 다른 내용도 질문드려도 될까요? Correlation Coefficient(Pearson 상관계수)에 대한 질문입니다. 두 랜덤변수에 대해 Correlation Coefficient를 계산할때 각 랜덤변수의 표준편차가 0인경우(예를들면 Ideal한 DC신호)에는 두 랜덤변수간의 상관계수는 어떻게 계산될수 있을까요? 검색해보니 누군가는 상관계수가 1이라고하고 누군가는 0이라고하고... 혹시 답변주실수 있으면 감사드리겠습니다.
답변 감사드립니다
안녕하세요! 덕분에 많은 이해를 한 거 같습니다!
근데 한가지 질문이 있는데, 이게 말의 모순이 있는 거 같습니당 ㅠ
발병률이 이미 정해져있는데, 질병이 없을 때 없다는 말이 성립이 되는 말인가요?
발병률 자체가 전체 인구 분에 발병인구 일텐데..
하지만 나이브즈가 의미 자체가 발병률 사전확률이고,
조건을 통해 갱신한다는데 의의를 둔다해도 모순이 발생합니다.
특이도가 실제로 질병이 없을 때, 실제 질병이 없다고 검진 한다는 말이 =
(코로나 검사 했는데 음성이 나왔는데 실제로 음성이다) 이 가정이 맞다면
발병률은 = { 발병 환자 수 / 전체 인구 수 }
전체 인구 = 양성 판정 인구 + 음성 판정 인구
하지만, 발병 환자를 선별하기 위해 검사 진행
민감도 99%, 특이도 98%
양성 판정 인구 중 1%는 오진, 음성 판정 인구 중 2%는 오진
( 코로나 검사 했는데 1%는 실제 양성인데 음성 판단, 2%는 음성이라 판단했는데 실제 양성)
즉
전체 인구 * 발병률 = (양성 판정 받은 사람 * 99%) + {음성 판정 받은 사람 * (1 - 특이도) }
이기 때문에 P(H^c)는 와 질병이 없을 때 없다는 말이 상호관계가 없지 않나요
???
너무 복잡하네요... 머리가 더 어지럽습니다...
안녕하세요. 글을 여러번 읽어봤는데 어떤 부분을 지적하시는 것인지 잘 모르겠습니다.
발병률이 정해져있는데, 질병이 없을 때 없다는 말이 무슨 말씀이신지... ?
발병률이 정해져 있어도 사람이 질병에 걸릴 수도 있고 안걸릴 수도 있는것이지요... 어떤 부분을 지적하시는건지요?
@@AngeloYeo 저도 많이 헷갈리네용 ㅠㅠ 위에 내용은 신경쓰지 마시고
그냥 딱 직관적으로 이런 생각이 듭니다!
어떤 사람이 질병에 걸렸다고 검진받았을 때, 이사람이 정말로 질병에 걸릴 확률이란 말이
말로만 이해했을 때는 99%인데
왜 4.7%밖에 안되는 지...
나이브 베이즈 공식에 의해서 4.7%가 되는 건 이해가 되는데
예를 들어 내가 질병에 걸렸다고 검진을 받았는데 정말 질병에 걸렸을 확률이
4.7% 밖에 안된다는 말이 너무 이상하지 않나요? ㅠㅠ
@@irock729 왜냐면 워낙 희귀한 질병이라 그렇습니다. (발병율 0.1%) 민감도가 99%라고 하는 것은 실제로 질병이 있는데, 이것을 positive로 잘 검출해낼 확률을 말하는 것인데요. 워낙에 걸리기가 쉽지 않은 질병이라 positive라고 떴다고 해도 실제로 질병에 걸렸을 확률은 매우 낮을거라고 생각할 수 있는 것입니다.
다시 말하자면 조건이 거꾸로 걸려있기 때문에 이런 오해가 생기는것인데,
기계가 민감도가 99%다 라는 것은
P(+로 출력 | 실제 질병 걸림)
을 말하는 것이고 내가 질병에 걸렸는지 판단하기 위해선
P(실제 질병 걸림 | +로 출력)
을 생각해야 하는 것입니다. 조건부가 바뀌게 되면서 계산 결과는 크게 달라진다는 점을 확인해주세요.
--
또 다르게 생각해보겠습니다. sensitivity가 높아서 잘못 판단할 수 있는 예시인데요.
예를들어... A라는 질병에 걸리면 감기 증상이 보인다고 해봅시다. 그리고 이 기계는 감기 증상 여부만을 가지고 질병 여부를 판단한다고 해보겠습니다.
그럼 감기 증상이 보이기만 하면 이 기계는 무조건 A 질병이라고 얘기할겁니다. 그러면 sensitivity는 굉장히 높겠지요. 이 질병이 걸린 사람이라면 무조건 감기 증상을 보이니까요. 그런데 그렇다고 해서 이 기계가 positive라고 출력해준 결과만을 가지고 내가 이 질병 A에 걸렸다고 판단할 수 있을까요?
@@AngeloYeo
흠 뭔가 긁혀 지면서 안긁혀 지네요 ㅠㅜㅠㅠ
나이브 베이즈 정리를 다 이해하긴 했습니다!
공식과 유도 방법등은 다 알겠는데 말의 모순이
있는 거 같아서 말씀 드리는 겁니당 ㅠ
그럼 반대로 생각해보겠습니다
말씀해주신데로
P(실제 질병 걸림 | +로 출력) = 4.7% 입니다.
그렇다면
P(실제 질병 걸림 | -로 출력) = 95.3% 인데
이 말은 내가 양성이라고 병원에서 진단 받은 것보다, 음성이라고 진단 받았 을 때
실제 질병에 걸렸을 확률이 훨 씬 높다는 거 아닌가요?
@공돌이의 수학정리노트
더 첨부 하자면
검사를 받았는데 병원에서 양성이라고 했는데 원체 휘귀한 병이니까, 내가 실제로 병이 있을 확률이 4.7%니까 난 병이 없을 거야 라고 생각하는 게 이상하지 않나요?
병원에서 제시한 검사 정확도 99%를 가지고 내가 양성일 때 내가 병이 있을 확률은 99%라고 생각하는 게 맞지 않나요?
안녕하세요! 입시를 준비하고 있는 고3입니다. 생기부 활동할 때 관련 개념 학습에 많은 도움을 받고 있습니다. 한가지 여쭈어보고 싶은건 mcmc알고리즘 중 메타폴리스 헤이스팅스 알고리즘이 베이즈 정리 사후확률 샘플링에 도움이 된다고 한는데.. 둘의 개념을 모두 학습하였지만 어떤 연관점이 있는지 잘 모르겠어서 질문하게 되었습니다..
@@godinhyuk 샘플링이란 개념 자체에 대한 이해가 필요할 것 같습니다. 사후확률 분포는 계산 자체가 어려워서 샘플링으로 대체해서 구하곤 합니다.
제 영상들 중 리젝션 샘플링 영상과 MCMC 영상 두 편을 다 보시는 걸 추천드려요. MCMC 영상 뒷부분에 사후확률 샘플링에 관한 실습이 포함되어 있는걸로 기억합니다.
th-cam.com/video/7wtVFfwAps4/w-d-xo.html
th-cam.com/video/5QAfQZjCrRM/w-d-xo.html
th-cam.com/video/x0qhLFnTfV8/w-d-xo.html
질문입니당!) 안녕하세요! 베이즈 정리를 통해 어떤 자료 a의 확률을 얻었고 다음으로 처음의 동일한 자료에서 자료 2개를 더 추가했을 경우 b라는 더 높은 확률을 얻었으면, 이 자료의 정확도는 올라갔다고 하는게 맞는 건가요???
안녕하세요. 새벽까지 열공이시네요 ^^
대답은 "대체로 그렇다" 라고 할 수 있습니다.
말씀하신 과정 중 데이터가 추가 된다고 하는 것은 likelihood를 계산하는 샘플의 수가 많아지는 과정이라고 보입니다. 그리고 베이즈 정리를 쓴다고 하면 Maximum A Posteriori 를 이용해 사후확률을 계산하는 방식을 이용하는 케이스라고 봐야할 것 같습니다.
다만 추가된 데이터가 꼭 분석에 도움이 되는 데이터는 아닐 수도 있어서 항상 도움이 된다고 말하기는 어렵지만 대체로 데이터는 많을 수록 더 좋은 모델을 만드는데 도움이 될 수 있을 것 같습니다.
정리하면
1. 말씀하신 방식은 Maximum A Posteriori라는 방법으로 사후추정 하는 것에 가까워 보임.
2. 데이터가 늘어나면 likelihood 계산이 수정되는 것이다.
3. 그래서 사후확률을 확인하기 위한 더 좋은 모델을 만들 가능성이 있다고 할 수는 있지만 항상 그런 결과가 도출되는 것은 아니다.
정도로 볼 수 있을 것 같습니다.
@@AngeloYeo 감사합니당!!!!!짱짱
안녕하세요! 베이지안의 현실적용에 대한 질문이 있습니다. 예를들어 코로나 사태 초창기 하루 십수명 정도 걸릴 때 같은경우, 워낙 발병률이 낮았으니 P(H) 가 아주 낮았을텐데요. 이때 PCR 검사의 민감도가 99% 라고 해도, 베이지안식으로 계산하면 P(H/E) 가 그리 높지는 않게 됩니다. 예제1과 같은 경우라면 양성으로 진단되어도 신뢰도가 사실 5%밖에 안된다는건데, 현실에선 거의 여지없이 진짜 감염된거였죠. 이걸 어떻게 해석하는게 좋을까요?
유증상자만 검사를 하니 그렇게 된거 아닐까요?
감사합니다 ^^
넵 ^^ 댓글 감사합니다 ~ 도움 되었으면 좋겠습니다 ~