통계데이터분석 - 회귀분석 - 더미변수 회귀분석 🔑 dummy variable | 독립변수가 범주형 변수 | 기준범주(reference category)
ฝัง
- เผยแพร่เมื่อ 1 ม.ค. 2025
- [R을 이용한 통계데이터분석]
선형회귀분석을 위해서는 변수들이 모두 간격척도나 비율척도로 측정된 연속형 변수이어야 합니다. 하지만 독립변수의 경우에는 명목척도나 서열척도와 같은 범주형 변수로 측정되었다 하더라도 이 변수를 더미변수(dummy variable)로 변환하면 회귀분석이 가능합니다. 더미변수란 어떤 속성(또는 사건)이 존재할 경우 그 값을 1로, 존재하지 않을 경우 그 값을 0으로 코딩한 인위적 변수를 말합니다. 더미변수를 이용한 회귀분석을 통해 얻게 되는 회귀계수는 1로 코딩된 범주가 종속변수에 미치는 영향(또는 효과)을 나타냅니다. 다음과 같은 함수에 대한 설명이 포함되어 있습니다: levels(), tapply(), lm(), summary(), contrasts(), aov(), TukeyHSD(), relevel().
📢 R과 RStudio 설치는 'R 프로그래밍 / R 기초 - 설치' 강좌를 참고하세요( • R 프로그래밍 / R 기초 - 설치 🔑 ... ).
📚 『곽기영』 채널의 동영상 강의는 다음 도서를 바탕으로 하고 있습니다. 책의 목차를 포함한 책자에 대한 소개는 도서명 옆의 링크를 참고해주세요. 💕
『R 기초와 활용』 (product.kyobob...)
『R을 이용한 통계데이터분석』 (product.kyobob...)
『R을 이용한 머신러닝과 텍스트마이닝』 (product.kyobob...)
『R을 이용한 웹스크레이핑과 데이터분석』 (product.kyobob...)
『SPSS를 이용한 통계데이터분석』 (product.kyobob...)
『소셜네트워크분석』 (product.kyobob...)
#R프로그래밍 #데이터분석 #통계 #머신러닝 #데이터애널리틱스 #데이터사이언스
좋은 설명 감사합니다.
꼼꼼한 강의 감사합니다. 기존에 알고 있던 내용에서 더 알게 된 내용이었습니다. 꼼꼼하게 알려주셔서 감사합니다!
좋은 강의 감사합니다. 큰 도움이 되고 있습니다.
강의를 듣다 궁금한 점이 있어 질문 드립니다.
Dummy regression과 ANOVA의 메커니즘이 동일함에 대해서 이해는 되었습니다.
하지만 Dummy regression 의 coefficient에 대한 p-value와 TukeyHSD의 adjusted p-value 간의 차이에 대해서 잘 이해가 가지 않습니다.
앞선 강의 중 Linear regression 에서 t-test와 F-test와 관련,
1. 연속형 변수의 Linear regression 에서는 자유도와 관련, df = [N-k, k-1] 에서 k = 2 이기 때문에 (t-value)^2 = F-value 가 성립하고, 이로인해 t-test와 F test로 구한 p value가 동일하게 나온 것은 이해하였습니다.
2. 이번강의에서 나온 Dummy regression의 coefficient가 기준집단과 비교하는 대상에 대한 평균 차이를 의미하고 이를 t-test를 진행한 것이 coefficient 관련 p -value를 얻은것은 확인하였습니다.
3. TukeyHSD에서 두 집단 간 one-way ANOVA를 진행하여 p-value를 얻은 부분에 대해서도 확인하였습니다.
하지만 연속형 변수의 Linear regression경우와 어떤 차이가 존재하여 t-test와 F-test의 p-value가 다르게 나왔는지 잘 모르겠습니다.
부끄러운 질문인것 같지만, 궁금증이 해결되지 않아 질문 드립니다.
정확히 어떤 질문인지 조금 이해하기 어려워서요(질문이 잘못되었다는 뜻은 아니고요 제가 그렇다는 얘기입니다). 일반적으로만 말씀 드리자면, 더미변수를 이용한 회귀분석은 독립변수가 범주형 변수인 경우에 사용합니다. 이 경우에는 범주에 따른 집단이 구분되기 때문에 분산분석의 맥락에서 직관적으로 해석이 가능합니다. 독립변수가 연속형 변수인 경우에 대해서 F값은 회귀식에 의해서 설명되는 분산과 회귀식에 의해 설명되지 않는 분산(잔차) 간의 비율에 의해 계산됩니다. 덜 직관적이긴 합니다만 각각 분산분석의 집단 간 분산과 집단내 분산에 해당합니다. 이렇게 계산된 F값은 회귀식의 유의성 검정(즉 회귀계수가 모두 0인지 검정)에 사용할 수 있고요.
상세하고 이해하기 쉬운 설명 감사합니다:)
교수님 강의 정말 감사히 잘 듣고 있습니다. 보통 회귀분석 결과 해석시, y-intercept의 p-value는 별로 중요하게 안 보잖아요~ 그런데, 이런 더미변수 사용시에는 기준범주에 의한 예측 결과값 평균이 y-intercept의 숫자(베타0 부분)인데, 이 경우에 혹시나 y절편의 p값이 유의하지 않다면(
1. 절편은 기준범주의 종속변수 평균값을 나타냅니다. 이 값이 통계적으로 유의하지 않으면(예를 들어, p-값 > 0.05) 모집단에서 절편이 0일 가능성을 배제할 수 없다는 뜻입니다(즉 절편이 0이다). 절편이 아닌 다른 더미변수의 종속변수 평균값은 해당 더미변수의 회귀계수와 절편을 더해서 구할 수 있습니다(회귀계수 + 절편). 다시 말해 절편을 제외한 나머지 다른 더미변수의 회귀계수는 각 더미변수에 대응되는 범주(더미변수값이 1인 범주)와 기준범주 간의 종속변수값의 평균 차이를 의미합니다. 각 더미변수의 회귀계수는 절편이 통계적으로 유의하지 않더라도 여전히 각 더미변수에 대응되는 범주와 기준범주 간의 종속변수값의 평균 차이를 의미합니다. 다만 기준범주에 해당하는 절편이 통계적으로 유의하지 않기 때문에(즉 통계적으로 0이라고 할 수 있기 때문에) 각 더미변수의 회귀계수는 그 자체로 해당 더미변수의 종속변수 평균값일 가능성을 배제할 수 없습니다(회귀계수 + 절편 0). 절편이 통계적으로 유의하지 않은 것은 다른 더미변수 회귀계수의 해석에 직접적으로 영향을 미치지는 않습니다.
2. 기준범주를 바꾸어도 결과는 동일합니다. 기준범주에 따라 회귀계수는 달라지기는 하지만 각 범주별 종속변수의 평균값은 같습니다. 회귀계수의 유의성도 마찬가지입니다. 살충제 스프레이 예에서 보면, A를 기준범주로 하나 F를 기준범주로 하나 살충제 A, ,B, F 간에는 살충효과에 있어서 통계적으로 유의한 차이가 없습니다. 질문에서는 기준범주를 제외한 나머지 범주 간의 유의성만 말씀하셨는데요, 기준범주까지 포함해서 얘기하면 A를 기준범주로 하나 F를 기준범주로 하나 같은 결과입니다. (사실 이것은 절편이 비유의적일 경우 다른 더미변수 회귀계수의 해석 방법을 문의한 앞서의 질문과 다른 맥락이기에 별도로 답변 드렸습니다.)