[StatnMath] 신뢰구간 정확하게 이해하기

Data Scientist 이지영

มุมมอง 31 198

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 2 ส.ค. 2019
⭐️ 클래스101 강의 오픈했습니다 ⭐️
포트폴리오에 활용할 수 있는, 프로젝트에 활용할 수 있는 데이터 분석, 예측 모델, 클라우드 서비스까지 강의를 만들었습니다. 강의 오픈 전, 구독자분들 대상으로 쿠폰 코드 데이터사이언티스트이지영을 입력해주시면, 추가로 할인 받을 수 있습니다.
👍 class101.page.link/MhG4

ความคิดเห็น • 31

@Yeonp 2 ปีที่แล้ว
정말 감사합니다 ^^!!
@jianjeong3674 4 ปีที่แล้ว
선생님 설명 정말 이해가 잘 가요 :D 감사합니다!
@yejunkim8749 3 ปีที่แล้ว
잘 보고 있습니다!
@jiwonlee8890 3 ปีที่แล้ว
이해가 너무 잘 되네는데요ㅠㅠ 감사합니다!!
@Dddd-ko2xn 3 ปีที่แล้ว
좋은 영상들 올려줘서 감사해요 통입 공부하는데 도움이 많이 됩니다!
@datascientist8756 3 ปีที่แล้ว
도움 되었다니 다행이예요~ :)
@kaiser5495 4 ปีที่แล้ว
목소리가 아름다우시네요.
@user-ni8ui8mf2v 3 ปีที่แล้ว
부츠스트랩 공부하려다가 하나도 이해안되서 이영상보는데 기본 용어들 잘 이해하고갑니다!!
@user-wv7sj1sy1o 4 ปีที่แล้ว ⁺¹
감사합니다 ㅠㅠ
@datascientist8756 4 ปีที่แล้ว
울지 마세요 :) 채널에 와주셔서 감사해요.
@seullee4879 3 หลายเดือนก่อน
감사합니다
@daomed ปีที่แล้ว
감사합니다. 통계학과학생이 되었는데 휴학버튼 안누르려고 애쓰고 있어요 ㅋㅋㅋ
@myunghee7231 4 ปีที่แล้ว ⁺³
안녕하세요! 영상잘 보고있습니다 제가 혼자 공부하다 궁금한게있는데 여쭤보고 싶어서요~ MSE, SSE, 가 너무 헷갈려서요ㅠㅠ 먼가 예측값에서 평균뺀거 제곱이니깐 그게 분산인것같기도하고 아무리 찾아봐도 안나오고ㅠ 혹시 이거에 관련된 영상이라도 제작해주실수있나요ㅠㅠ 헷갈려하는 사람많을것같은데ㅠㅜ 아님 댓글이라도ㅠㅜ 항상감사해요ㅠ
@datascientist8756 4 ปีที่แล้ว
몸이 안좋아서 잠시 쉬고 있었어요. 영상으로 설명드릴게요~ 조금만 기다려주세요. 짧게 답변드리자면, MSE = Variance + Bias 라서 Bias가 없는 경우 MSE는 variance와 같게 됩니다.
@cheongchun_malion 2 ปีที่แล้ว
조건을 걸어두고 난 뒤에 assumption 한다고 해주셨는데, assumption 의 의미가 뭘까요?
@merrysong4461 4 ปีที่แล้ว ⁺²
1-a가 낮아질 수록 허용오차가 작아지는 것 아닌가요?
@datascientist8756 4 ปีที่แล้ว
알파가 작아질수록 허용하는 오차가 작아집니다.
@plttji2615 2 ปีที่แล้ว
좋은강의 정망정말 감사합니다. 제가 인터뷰문제를 준비하고 있는데요 실례가안된다면 피드백을 얻고싶습니다. 한국전체 인구의 평균키를 위해 삼성전자의 평균키를 측정한 estimate은 bias인가요? bias이면 어떻게 증명할수 있나요? 저는 이문제에 대한 답으로, 샘플이 모집단을 완벽히 대표하지 않기때문에 편향이라고 생각하고요, 증명방법으로는 one sample z-test or t-test를 이용하면 되나요? 그런데 문제에서 모집단의 평균을 모를때는 어떻게 증명하겠냐고도 물어보는데요, 이 경우에는 어떻게 답변해야 하는지 여쭤봐도 될까요? 감사합니다!
@kkk-xf3ud 2 ปีที่แล้ว
신뢰도 95%인 한 신뢰구간에 모평균이 포함될 확률이 95%다 라는 문장은 거짓인 이유는 신뢰구간이 이미 확정되어서 모평균을 포함하든 포함하지 않든 이미 결정은 된거고 결과만 알 수 없을뿐이기 때문이다. 라고 이해했는데요. 그렇다면 상자에 동전을 던져놓고 결과를 보지않고 이 동전이 앞면일 확률은 50%이다 라고 말하는 것도 거짓인건가요?
@datascientist8756 2 ปีที่แล้ว
신뢰구간이 확정되었다는 말을 정정해보자면~ 모평균에 대한 신뢰구간은 샘플의 평균에서 margin of error를 더하고 뺀거죠. 그래서 샘플마다 샘플 평균 역시 달라지기 때문에 신뢰구간 역시 샘플마다 달라집니다.
문장 자체보다 그 문장의 해석이 중요한데, 모평균이 포함될 확률이 95%라고 말하는건 샘플을 100번 구했을 때, 95번은 그 신뢰구간에 모평균이 포함된다는 뜻으로 이해해야한다는 말 입니다.
마지막으로.. 동전을 던졌을 때, 앞면이 확률이 50%라는 상황은, 동전이 fair 한지 (그러니까 앞면과 뒷면이 나올 확률이 1/2로 같은지) 아닌지 추정하는 과정에서 Bernoulli - Binomial - (CLT) - Normal Distribution - Confidence Interval 을 계산하는 과정 개념이 필요한데요.
라고 말하고 싶다면, 동전이 fair하다는 조건이 필요합니다. 제 답변이 도움 되었으면 좋겠어요 :)
@user-zs5cv4kk7h ปีที่แล้ว ⁺¹
저도 석사논문 쓰면서 공부하다 보니까 신뢰구간이랑 예측구간이 은근히 헷갈리더라고요 ㅜㅜ
@datascientist8756 ปีที่แล้ว ⁺¹
신뢰구간은 모수가 어느 범위에 있을지에 대한 얘기인 반면, 예측 구간은 말 그대로 새로운 관측으로 (new observation) 예측값이 어디있을지에 대한 상황이기 때문에 모수의 불확실성과 어떤 값으로 관측이 될지의 불확실성이 담겨있기 때문에 신뢰구간보다 예측구간의 범위가 더 넓다......라고만 기억하고 있습니다. 하핫- 정확한 개념은 저보다 더 잘 아실거라 생각하고 전 후다닥 도망을...
@user-zs5cv4kk7h ปีที่แล้ว ⁺¹
@@datascientist8756 앜ㅋㅋㅋㅋ 맞아요 저도 비슷하게 구간 폭이 나왔어요. 논문 쓴지 고작 한달 됐는데 제가 제껄 까먹은듯한ㅜㅜ. 요즘 면접 보고 다니는데 지영쌤 채널 개념 설명한 영상들로 복습해야겠어요!
@user-pc4ic3wu8q 2 ปีที่แล้ว
선생님 신뢰구간 95% 가 어떻게 1.96이 되는건가요 계산방법니 있나요?
@Juni_rang 2 ปีที่แล้ว ⁺¹
정규분포 95% 값이요 (양측검정 일 때)
@user-sx6ju6kx3j ปีที่แล้ว
선생님, 좋은 강의 감사드려요, 근데 3:32초에서 한번의 표본추출을 통해 95% 신뢰구간 하나를 계산할 수는 있는데, 이렇게 계산한 하나의 구간이 참값을 포함하는 100개중 95개 증의 하나인지, 아니면 참값을 포함하지 않는 5개 중의 하나인지는 알 수가 없다고 하셨잖아요?
그러면 참값을 포함하는지 포함 안하는지 어차피 알 수도 없는데 그런 신뢰구간 1개만을 예시적으로 굳이 계산한다는 게 무슨 의미가 있나요?
차라리 돈이 들고 시간이 걸려도 100개의 표본추출을 반복해서 100개의 신뢰구간을 계산한 후에 이들 범위를 그래프로 나열해놓고, 가상의 참값을 위아래로 올렸다 내렸다 하면서 이 100개의 범위 중에 95개 정도는 통과하지만, 5개 정도의 범위는 관통하지 않는 참값의 수준을 역추정 해보는 게 의미가 있지 않을까요?
95개중의 하나인지, 5개 중의 하나인지조차 알 수 없는 신뢰구간 1개만 달랑 계산해서 가져간다고 해도 무슨 쓸모가 있는 건지 모르겠어서 여쭤봅니다^~^
@datascientist8756 ปีที่แล้ว
좋은 지적입니다. 그리고 제안해 주신 것도 흥미로운데요. 신뢰구간은 모집단의 모수에 대한 신뢰구간을 계산하는건데, 이 모수는 시간과 돈을 떠나서 우리가 영원히 할 수 없는 값이라는거죠. 물론 시뮬레이션이란 방법을 통해 모집단과 모수를 설정한 뒤, 표본을 구해 신뢰구간, 가설검정 등 을 실험 혹은 증명을 할 수 있습니다.
이렇게 증명을 했으면 이제 써먹어야겠죠. 그러니까, 현실적으로 데이터를 구하는게 어려울 수 있고, 데이터 구하는게 시간이 걸린다거나 비용이 많이 들 수 있습니다. 이론이 있다는건 그 이론을 사용했을 때 비용이나 시간을 줄일 수 있다는 장점이 크겠죠 :)
@user-sx6ju6kx3j ปีที่แล้ว
@Data Scientist 이지영 선생님, 답변 감사합니다 ^!^ 유튜브 안에 여러 통계 강좌가 있는데 정확한 개념 설명은 이 채널이 최고입니다, 통계 쪽으로 관심이 많는데 대문에 걸려있는 책도 사서 한번 읽어보려구요~!!
선생님 답변을 제 나름 아래와 같이 이해해 봤는데, 어떨까요?
100번 구간추정을 하고 싶어도 현실적으로 시간과 돈의 싸움이라서 어려우니, 대신 신뢰구간이란 개념 뒤에 자리잡고 있는 통계학의 이론을 믿고, 1번의 구간추정에서 나온 신뢰구간 이라도 다음과 같이 의미를 부여해보자
예를 들어, 지금 계산한 신뢰구간은 (모수의 값을 우리는 영원히 알 수 없기 때문에) 모수를 포함하는 95개에서 나온 건지, 포함하지 않는 5개에서 나온 건지 정확하게 단정할 수는 없지만, 95개가 5개보다 확률 상 우위를 점하고 있으니 우리는 95개 중에서 나온 구간일 것이라고 (즉 아마도 모수를 포함하고 있을 것이라고) 추측해볼 수 있다.
다만 이렇게 추즉할 때, 그 추측이 오류일 가능성은 5% 수준이다 (하필이면 모수를 포함하지 않는 5개 중에서 뽑힌 구간일 가능성이 5%만큼 여전히 존재하기 때문이다)
@datascientist8756 ปีที่แล้ว
@@user-sx6ju6kx3j 네, 맞습니다. 간략하게 요약하자면, 우리가 궁금해하는 모수를 추정하기 위해서 모집단을 통해 표본을 구해 통계치를 구하는 과정을 100번을 한다면, 그 중 95번은 이 신뢰구간에 포함될테지만 5번은 신뢰구간에 포함되지 않습니다....라고 간략하게 요약은 안되네요? ㅎㅎ ^^;; 이건 추정만 하는 것이라서, 오류일 가능성이 100번 중 5번, 5% 라고 잘 적어주셨고요~
이렇게 재확인해서 공부하는 모습은 제가 그래그래님으로부터 배워야겠어요. 통계 영상이 많지도 않은데 이런 힘이나는 댓글 감사합니다.
@user-sx6ju6kx3j ปีที่แล้ว
@@datascientist8756 선생님, 빠른 답변 감사드려요, 친절한 가르치심 덕분에 저도 공부하는 데 동기부여가 많이 됩니다, 앞서도 썼지만 정확하고 쉬운 개념설명 등등, 이 채널의 신뢰수준은 95%가 아니라 100% 입니다, 통계학 입문강좌로 완전 강추입니다~!!!!
@hhykk 2 ปีที่แล้ว
난 빡대가리인가보다... 이해가..

ต่อไป

เล่นอัตโนมัติ