표본 분산은 n 대신 n-1로 나눈다

แชร์
ฝัง
  • เผยแพร่เมื่อ 17 ม.ค. 2025

ความคิดเห็น • 35

  • @TV-oo4qk
    @TV-oo4qk 4 ปีที่แล้ว +5

    표본평균을 표본들의 산술평균으로 정의하는 이유가, 그렇게 정의해야 기댓값이 모평균과 같아지기 때문이라고 한다면, 문득 이런 생각이 들더군요. 표본평균을 정의할 때, 표본들 중 임의로 선택한 값으로 정의하더라도, 그 값의 기대값은 어차피 모평균이 될 테니, 이론적으로는 문제없을 것이다. 상식적으로 봤을 때 터무니없는 이 정의를, 수학적으로 반박하는 것이 가능할까요?

    • @AngeloYeo
      @AngeloYeo  4 ปีที่แล้ว +8

      안녕하세요. 말씀하신 것이 맞습니다. 너무 훌륭한 코멘트입니다.
      표본 추출은 랜덤한 것이기 때문에 모집단의 어떤 표본들이 추출되는지 알 수가 없음에도 표본 평균의 기대값은 모평균과 같습니다.
      그래서 수학적으로 표준오차를 정의합니다. 표준 오차는 표본 평균을 얻을 때 얼마만큼의 오류를 갖고 있는지 알려주는 지표입니다.
      또, 표준 오차는 표본수의 크기의 제곱근에 반비례합니다. 즉, 표본의 수가 클 수록 표본 평균이 모평균과 다를 오류가 적어진다는 뜻이겠지요.

    • @algebrak4428
      @algebrak4428 4 ปีที่แล้ว +2

      우선, 기본적인 가정은 표본평균의 평균으로 부터 시작합니다. 확률변수 X1은 실제 표본들의 평균을 의미하고, 이들 변수들을 모두 모아 새로운 확률변수를 정의 한 것이 X가 됩니다. 이것으로부터 X1, X2, X3... 의 기대값이 모평균이 될 수 있는 이유는, 각각의 확률변수들이 모집단으로 부터 추출되었고, 큰수의 법칙에 의해 각각의 확률변수들은 항등분포를 따르기 때문에 결국 이들 확률변수들이 모인 공간인 표본공간, 즉 모집단은 항등분포에 의해 같은 확률분포를 가지게 되므로, 따라서 E(X1) = μ 가 될 수 있습니다. 수학적으로 반박은 어려울 듯 합니다. 반례를 드시면 새로운 논문을 쓰실 수 있을 듯 합니다. 참고하세요.

    • @louiskim2490
      @louiskim2490 2 ปีที่แล้ว +1

      한별님의 말씀은 n=1일 경우의 특수한 경우라고 생각할 수 있지 않을 까 하는 지나가는 돌머리중 하나인 저의 생각입니다.
      공돌이님이 보여주신것은 하나가 아닌 n 개의 일반적인 경우를 보여주셨다고 생각이 듭니다.
      ( 즉 전혀 터무니 없지 않고, 공돌님이 보여주신 일반적인 경우에서 한번 pick 이라는 툭수한 경우로 여겨집니다. - 이경우에 평균은 그 자신이 되네요)
      공돌이 님의 의견에 조금더 첨부해봤습니다.
      공돌이님 학교 시간에 내내 궁금했던 것들 시험잘볼려고 아무생각없이 암기만 했던것을 나이 50에 이렇게 알게되니 참.. 허허허 감사드립니다.
      대학교때 random variable 수업 때 며칠 동안 왜 n-1 일까 하는 것으로 고민하다 어찌어찌 이해했다가 시간이 지나서 까먹어서 제목만 보고 클릭해서 보았습니다.
      감사드립니다.

  • @모기즉결처형
    @모기즉결처형 3 ปีที่แล้ว +4

    이 채널을 나갈 수가 없네ㅋㅋㅋㅋ 중고등학생 때 궁금했지만 질문할 수 없었던 것들을 썸네일이 '이런것도 있단다...?'라며 계속 보여줌!! 완전 꿀잼이에요 감사합니다

  • @이솔빈-c1t
    @이솔빈-c1t ปีที่แล้ว

    감사합니다 감사합니다 정말감사합니다

  • @jahoonjeong8649
    @jahoonjeong8649 5 ปีที่แล้ว +2

    설명감사히 잘들었습니다~ (수식전개에서 (표본평균의 분산)=(모평균 분산)/n 이라는 중심극한정리(?)가 핵심인것 같네요.)

  • @parkjongwoopark
    @parkjongwoopark 7 ปีที่แล้ว +2

    혼란하다 혼란해 ㄷㄷㄷ 잘봤습니다 갸우뚱

  • @h.3159
    @h.3159 3 ปีที่แล้ว

    고등수학 놓은지 오래된 직장인인데 이번에 사조사 준비하면서 도움 많이 받고 있습니다 정말 감사해요 😍😍😍

    • @AngeloYeo
      @AngeloYeo  3 ปีที่แล้ว

      사회조사분석사라는 직업도 있군요... 도움 된다니까 기쁩니당 :)

  • @smb9735
    @smb9735 6 ปีที่แล้ว +3

    감사합니다. 저도 처음에 책을 볼 때 증명은 이해가 갔지만 그 의미는 잘 와닿지 않았던 것 같습니다. 말씀해주신
    Bessel’s correction의 예시를 보고 저도 직관적으로 이해가 갔던 것 같은데요. 저는 원래 정규분포에서 평균과 분산 모수는 독립적인 모수임에도 평균모수를 알 수 없으므로 자료로부터 추정을 하는데 실제 모평균과 표본평균이 거리가 있으므로 이 차이가 분산을 과소추정하는 것으로 이해했습니다. 결국 모르는 것을 정보를 써서 추정해야 한다는 점에서 자유도의 손실을 의미하며 그 부분이 반영되지 않으면 분산모수의 추정치가 편향된다는 것으로 볼 수 있을 것 같습니다.
    회귀분석에서 잔차분산의 추정에서도 마찬가지인데 통계적 방법의 자유도와 모수 추정 전반에서 쓰이는데 자유도란 개념은 때로는 직관적으로 이해하기에 많이 어려운 것 같습니다(근사하거나 조정할 때도 많고;;)
    감사합니다 잘 보았습니다.

    • @AngeloYeo
      @AngeloYeo  6 ปีที่แล้ว

      안녕하세요. 통계학 공부를 많이 하신 분이시군요.저도 자유도라는 개념이 알것만 같다가도 실제로는 이해하기 쉽지 않은 개념이라는 것 또한 굉장히 동의합니다... 댓글 감사합니다:)

  • @kyunghee130
    @kyunghee130 2 ปีที่แล้ว

    수학 안배운.. 예체능 직장인인데.. 4분 50초부터 일도 이해가 안되는 수준인데.ㅠ 더 쉬운 해설은 없..겠죵? ㅠ 이해하기 너무 쉽게 설명을 잘해주셔서 혹시나 해서 여쭤봅니다..! ㅠ

    • @AngeloYeo
      @AngeloYeo  2 ปีที่แล้ว

      더 어려운 설명들은 제가 몇 개 아는데 더 쉬운 건 잘 모르겠습니다 ㅠㅠ 수식 전체를 이해하려고 하지는 마시고 배경 이유만 이해하셔도 충분합니다

  • @seongchulkwon1762
    @seongchulkwon1762 8 ปีที่แล้ว +3

    표본편차는 산출식의 분모가 n-1 이므로(n보다 작은 수로 나누므로)
    모평균과 표본평균의 차이까지 포함한 개념으로 느껴집니다. 맞나요?

    • @AngeloYeo
      @AngeloYeo  8 ปีที่แล้ว +2

      네. 거의 맞다고 생각합니다. 조금 더 정확한 표현으로는
      표본분산은 { (모분산)과 (표본평균의 분산)의 차이}를 포함한 개념이라고 생각하시면 되지 않을까 싶습니다.
      오히려 제 머릿속에서 개념이 더 정리되는 것 같네요. 댓글 감사합니다.

    • @seongchulkwon1762
      @seongchulkwon1762 8 ปีที่แล้ว +1

      감사합니다

  • @jinhan9650
    @jinhan9650 2 ปีที่แล้ว

    분산부분에서 왜 n-1로 나누는지 결과부터 설명해주신거에 이해는 잘 안가지만 우선 좋아요 박고 갑니다... 계속 고민해보겠습니다

  • @Go-tp3tt
    @Go-tp3tt ปีที่แล้ว

    흑흑 문과생인 난 그냥 t밸류랑 유의도가 뭔지궁금해서왔는데 난 평생 알수없을거같다....ㅜㅜ

    • @AngeloYeo
      @AngeloYeo  ปีที่แล้ว

      그렇다면 t 테스트 영상을 확인해보세용
      th-cam.com/video/mQXj456SWco/w-d-xo.html&ab_channel=%EA%B3%B5%EB%8F%8C%EC%9D%B4%EC%9D%98%EC%88%98%ED%95%99%EC%A0%95%EB%A6%AC%EB%85%B8%ED%8A%B8

  • @karshunian
    @karshunian 4 ปีที่แล้ว +2

    영상을 보고 든 생각인데, 그러면 결국 표본분산이 '불편추정량이 되게 하기 위해서' n-1로 나누어주도록 정의를 했다는 것이잖아요. 본래에 있던 편차 제곱의 평균이라는 분산의 정의를 버리면서? 이게 뭔가 상당히 불편하네요 ㅋㅋㅋ 약간 억지 느낌?
    1. 표본을 뽑는다는 것은 모집단의 모수를 추정하는게 근본적인 목적이야.
    2. 근데 표본을 뽑아보면 표본의 평균은 모평균에 비해 크거나 작거나 균등하게 나오는데,
    3. 표본의 분산은 그렇지 않아. 항상 작게 나와. 즉 편향되게 나오는거지!
    4. 그러니까 이건 모수(모분산)을 추정하기에 좋지 않아.
    5. 따라서 원래의 분산의 정의는 갖다 버리고, 좋게 만들려면 표본분산의 기댓값이 모분산과 같게 나오게 다시 정의해야겠어.
    이런 논리로 이해되는데.... 뭔가 억지스러운 이것을 어떻게 받아들어야할지 모르겠네요 ㅋㅋㅋ
    (혹시 오해하실까봐.. 영상을 비판하는 것이 아니고 매우 좋은 영상이라고 생각합니다.. 그러나 그냥 내용이 잘 안받아들여져서요 ㅠㅠ)

    • @AngeloYeo
      @AngeloYeo  4 ปีที่แล้ว +2

      안녕하세요. 01 10 님께서 달아두신 대댓글로 답변을 대체하고자 합니다... 01 10님께서 워낙 잘 써주셔서 ... 제가 이 내용보다 더 잘 설명할 수 있을지 모르겠기 때문에 이 내용으로 대체하고자 합니다.
      사실 전체적 내용은 jhlee 님이 말씀하신게 매우 정확하구요.
      약간 억지스러워 보이지만 수학적으로 더 좋은 estimator를 얻기 위해 본래의 정의를 버리는 방식으로
      불편추정량을 다시 정의한 것으로 보면 좋을 것 같습니다.
      아래의 내용은 01 10님의 대댓글의 내용을 붙여넣기 한 것입니다.
      --
      통계학에서는 어떤 모수(상수)를 추정하기 위해 추정량(확률변수) 을 사용합니다. 대표적으로는 모평균(상수) 을 추정하기위해 표본평균(확률변수)를 사용하죠.
      어떤 모수를 추정하기 위해선 무수히 많은 다양한 방법이 존재하겠죠. 그런데 그러한 추정량중에 불편추정량(Unbiased Estimator)이라는 것이 있습니다. 예를 들어 모평균을 추정하기위해 독립이고 동일한 확률분포를 지니는 N개의 표본으로 만든 표본평균을 사용했다고 치죠. 그러면 표본평균에 기댓값을 취해주면 원래의 모평균값이 나옴을 볼 수 있습니다. (모집단의 모수를 안다는 가정하에)
      그런데 이렇게 불편추정량을 사용하는 이유가 무엇이냐면, 이러한 불편추정량이 모수에 확률수렴(Convergence in Probability) 함을, 즉 표본의 크기가 커질수록 불편추정량은 미지의 모수로 다가가게 됨을 쉽게 설명할 수 있기 때문입니다. 표본의 갯수 n마다 생기는 모수에 대한 추정량을 수열이라고 표현하면, 그 수열의 극한값이 바로 모집단의 모수인 거겠죠. 예시로 표본평균과 모평균의 차이가 확률적으로 0에 수렴함을 체비셰프 부등식을 통해 증명할 수 있습니다.
      그런데 원래 분산을 계산하듯이 n으로 나누어 준 표본분산(확률변수)은 기댓값을 취해주면 편의(biased)추정량임을 쉽게 알 수 있습니다. 즉, 모집단의 분산이 sigma^2 라고 하면 E[S^2] = a*sigma^2 의 형태로 나오기 때문에 이를 조정해주기 위해 n-1로 나눠서 E[S^2] = sigma^2 즉, 불편추정량을 만들어주기 위한 방법이라고 생각하시면 되겠습니다.

  • @HS-bm5sx
    @HS-bm5sx 3 ปีที่แล้ว

    E( Σ(Xi - μ)^2) 이 n σ(시그마)^2 가 되는 이유가 궁금합니다 ㅠㅠ 12:19초 입니다.

    • @AngeloYeo
      @AngeloYeo  3 ปีที่แล้ว

      그게 분산의 정의라서 그렇습니다~

    • @HS-bm5sx
      @HS-bm5sx 3 ปีที่แล้ว

      @@AngeloYeo 시그마를 풀면 표본이 1인 경우의 기댓값인 E(X1 - μ)+ E(X2 - μ)....E(Xn - μ)으로 쪼갤 수 있기 때문이군요

  • @박세진-j5l
    @박세진-j5l 4 ปีที่แล้ว +1

    죄송합니다만 기대값을 취해준다는 것이 어떤 의미인지 알 수 있을까요ㅠㅠ
    이해 계속하다가 12:10 에서부터 이해가 안되서 질문드립니다.
    편차의 제곱을 나누어 주는 것이 없는데 분산이 되는게 이해가 안됩니다. ㅠㅠ

    • @sy1178
      @sy1178 3 ปีที่แล้ว

      분산 = 변동의 기댓값입니다. 변동은 편차의 제곱이죠.(Xi-u)^2 편차의 제곱이 i=1부터 n까지 총 n개 있으니 n*변동의 기댓값 = n*sigma^2 가 되네요~ 마찬가지로 (u-x_bar)^2은 x_bar의 변동이고 이에 대해 기대값을 물어본다면 x_bar의 분산이 됩니다.

  • @chaewoohyun
    @chaewoohyun 2 ปีที่แล้ว +1

    처음 궁금해서 중간에 막히는 부분이 있는데 질문 좀 드리고 싶습니다.
    1. 9:35에서 위에선 없던 n이 추가되는 이유가 뭔가요?
    2. 10:00에서 n은 어떻게 생긴 건가요?

    • @chaewoohyun
      @chaewoohyun 2 ปีที่แล้ว

      @@gospelgloryof7045 염치없지만 12:20 부분에 대한 설명도 해주실 수 있을까요...? '모평균-표본평균'의 제곱이 모분산/n과 같다고 진행되는데 왜 그런지 전혀 모르겠습니다

  • @압바-r4z
    @압바-r4z ปีที่แล้ว

    이미 표본에서 평균값을 뺀 값을 제곱했기 때문에 변량에서 1을 빼고 나눈다고도 들었는데 이 말은 중학수학에서 분산 구할때도 똑같이 쓰는 건데 말이 안되는 거 같은데 어떻게 생각하시는지요. 계산기에서도 두개가 따로나오잖아요. 모표준편차의 값은 n으로 나눈 값의 루트값이 나오고 표준편차는 n-1로 나눈 값의 루트값이 나오니 참 헷갈립니다. 아 저는 94년 대학교 졸업생입니다. 정말 해묵은 의문인데 요즘 갑자기 생각나서 계속 찾아봐도 잘 이해가 안되네요. 공업통계할때 이거 너무 궁금했는데 이 영상으로도 풀리지는 않네요..ㅠㅠ

  • @dude_brooo
    @dude_brooo 3 ปีที่แล้ว

    제가 1학년인데 저거 E처럼 생긴건 뭐에영

    • @AngeloYeo
      @AngeloYeo  3 ปีที่แล้ว

      기댓값 연산자 입니다~

  • @sandpocket1
    @sandpocket1 8 ปีที่แล้ว +3

    S를 n-1로 나눈 것이 정당하다는 걸 증명한 것 맞지만, 왜 S를 n-1로 나누었는가에 대해 증명했다고 하긴 힘들지 않나요
    고딩인데 겨우겨우겨우 이해해서 댓글을 써봅니다...

    • @AngeloYeo
      @AngeloYeo  8 ปีที่แล้ว +1

      좋은 질문입니다.
      말씀하신 것 처럼, 조금 더 엄밀하게는 sample variance의 bias가 왜 생기는지 알아보고 모분산과 bias가 있는 sample variance의 차이의 기대값이 모분산/n 이라는 사실을 확인하는 방식으로 증명할 수도 있습니다. 그렇게 하면 왜 S를 n-1로 나눌 수 밖에 없는지에 대해 증명한다고 할 수 있겠네요.
      자세한 내용은 Bessel's correction의 여러가지 증명 방법을 참고하길 바랍니다. 좋은 하루 되세요!

    • @hslee7501
      @hslee7501 5 ปีที่แล้ว +2

      Milch Holstein 하호준님의 말씀에 동의하지 않지만 질문에 답을 드리지면, 일반적으로 자유도의 경우 개별 식들보단 n-k 라고 생각하시기 바랍니다. 여기서 k는 제약조건, 통계량, 추정값 등등으로 이해하시기 바랍니다. 분산으로 들어가면 평균을 빼야하는 것을 알 수 있습니다. 평균은 표본에서 구한 통계량이고요. 그래서 n-k를 이용 n-1이라고 보시면 될 것 같습니다. 같은 이유로 평균은 k에 0이 들어가서 n으로만 나누는겁니다.