간명도(parsimony)란 간결함, 단순함을 의미합니다. 간명도 원칙이란 유사한 설명력을 제공하는 대안 모델들이 다수 있다면 가능하면 보다 간결하고 단순한 것을 선택한다는 것을 의미합니다. 간명하다는 것은 추정해야 할 파라미터(예를 들면, 회귀계수)의 개수가 작은 것을 뜻합니다. 모델이 복잡할수록 일반화 가능성이 작아지기 때문에 설명력이 유사하다면 가능한 단순한 모델을 선택하는 것이 바람직합니다.
네~ 데이터셋의 분산이 일정하지 않을 경우 정상성을 갖도록 변환(로그변환, 제곱근변환 등)한 후 ARIMA모델을 생성할 수 있습니다. auto.arima() 함수를 이용하여 모델을 자동으로 생성할 수도 있고요, arima() 함수에 직접 p, d, q 패러미터를 지정하여 모델을 생성할 수도 있습니다.
교수님 궁금한게 있습니다. 교수님 저서인 R을 이용한 통계데이터분석을 구입해 볼 예정입니다. 아주 잘 만들어 주신 영상을 참고 하여 공부 하려 하는데 로지스틱 과 포아송 차원분석 생존 분석 부분이 영상으로 빠진걸 까요? 아니면 현재 영상 목록에 없는 걸까요? 궁금해서 여쭈어 봅니다 ^^
안녕하세요 교수님! 유튭 강의 너무 잘보고 있습니다 ㅎㅎ 혹시 관련 질문 해도 될까요? 제가 1년간 월별 판매 수량 데이터를 가지고 있습니다. 이를 바탕으로 다음 분기 수량을 예측하고 싶습니다. 1년간의 데이터는 예측 모델에 쓰기에 너무 적은 걸까요? 이런 경우 어떤 모델을 사용하면 좋은지 조언 부탁드립니다!
네~ 1년간의 데이터이긴 하지만 월별 데이터이기 때문에 12개에 불과합니다. 시계열모델을 구축할 수는 있겠지만 의미 있는 모델이 만들어질 수 있을지는 확인이 필요할 것 같습니다. 혹시 다른 예측변수(독립변수)가 있다면 다양한 머신러닝 기법(예를 들면, 회귀분석, MARS, 의사결정나무 등)을 활용해보시는 것도 좋을 것 같습니다.
교수님 강의 너무 도움이 되어서 늘 감사드립니다.^^ 시계열 ACF, PACF 표는 아무리봐도 이해가 잘 안되는데요. NILE의 PACF의 경우는 1~3차시가 점진적으로 0에 이르고 있다고 보여지는데요. ACF가 어떻게 점진적으로 0에 이르고 있는지 모르겠습니다. 막대들이 들쑥날쑥으로 보이는데 절단선 밖의 막대들만 봐야 되는 것인가요?
위 아래의 점선은 자기상관이 0이라는 주장에 대한 95% 신뢰구간을 나타내며, 이를 통해 자기상관이 통계적으로 유의하게(statistically significant) 0인지 검정할 수 있습니다. 즉 이 선을 넘어선 자기상관은 그 값이 통계적으로 유의하게 0이 아니라는 것을 나타내고, 선 안쪽의 자기상관은 통계적으로 유의하게 0이라는 것을 의미합니다. 쉽게 말해 선 안쪽에 위치한 막대는 자기상관이 (통계적으로 유의하게) 0입니다. 막대가 들쑥날쑥 하더라도 점선 안쪽에 있으면 모두 0이라고 볼 수 있습니다. 그래서 PACF는 자기상관이 시차3(Lag 3)에서 0으로 떨어지고요, ACF는 시차2에서 0에 이릅니다. 물론 그 뒤의 시차에서 일부 0이 아닌 것도 나타나기 때문에 그러한 패턴이 완벽하다고는 볼 수 없습니다만 대체로 그러한 패턴을 충족한다고 볼 수 있습니다. ACF와 PACF에 대한 보다 자세한 설명은 다음 강의를 참고하세요. 통계데이터분석- 시계열분석 - ARIMA예측모델: 정상성과 자기상관(th-cam.com/video/YQF5PDDI9jo/w-d-xo.html)
안녕하세요!! 항상 잘 보고 있습니다 제가 교수님 영상을 보면서 혼자 R을 독학하는 중인데요 너무 어려운 부분이 있어 문의드려요ㅠ PACF 그래프에서 점선 구간안에 있어도 신뢰구간을 넘지 않을 수도 있나요?? 점선 구간 자체가 신뢰구간이라는 뜻으로 이해했는데 제가 도출한 PACF 그래프에서는 lag6=-0.112 이고 lag9=0.038 값을 가집니다. 그리고 6과 9를 제외한 나머지 값(1,2,3,4,5,7,8)은 모두 점선을 넘는 값을 가집니다. (점선은 +-0.2에서 형성되었습니다.) 그런데 책에서는 "부분자기상관함수가 lag=1~8에서 신뢰구간을 넘어서 음의 값을 가지고 lag=9에서 양의 값으로 넘어갔다. 따라서 lag=9에서 절단값을 가진다. " 라고 설명하고 있습니다. 이 부분이 너무 이해가 가질 않습니다.... 긴 댓글 읽어주셔서 감사합니다
ACF/PACF도표에서 점선은 자기상관이 0이라는 주장에 대한 95% 신뢰구간을 나타내며, 산출된 자기상관이 통계적으로 0인지 검정합니다. 즉 이 선을 넘어선 자기상관은 그 값이 통계적으로 유의하게 0과 다르다는 것을 나타내며, 따라서 해당 시차 시계열의 자기상관은 0이 아니라는 것을 의미합니다. 쉽게 말해 특정 시차에서 자기상관이 점선 내에 있으면 0이고 점선 밖에 있으면 0이 아니라는 뜻입니다. ACF/PACF도표는 시계열의 정상성(stationary)을 평가하거나 ARMA모델의 모수를 결정할 때 사용할 수 있습니다. 보시고 계신 책에서 이해가 안 된다고 하신 부분은 그 책의 저자분께 직접 문의하시는 것이 좋을 것 같습니다.
회귀분석에서처럼 결과변수가 연속형 변수인 경우에는 confusion matrix를 만들 수 없습니다. 따라서 이를 바탕으로 한 성능지표도 구할 수 없고요. confusion matrix는 범주형 결과변수(예를 들면, 양성 또는 악성)의 관측값과 모델에 의한 예측값 간의 교차표(crosstabulation)입니다.
ADF테스트의 귀무가설은 사실 '시계열 데이터에 unit root가 존재한다'입니다. unit root는 non-stationary의 한 원인입니다(unit root가 무엇인지도 궁금하실텐데요, 이 부분은 쉽게 설명이 어려운 부분이라 그냥 넘어가겠습니다). 따라서 unit root가 존재한다는 귀무가설을 채택하면(기각하지 못하면) non-stationary로 간주하게 되는 겁니다. ADF테스트의 대립가설은 귀무가설의 반대로서 stationary를 얘기할 뿐만 아니라 trend stationary라는 것도 포함합니다. 따라서 AirPassengers 데이터와 같이 명백히 계절적 추세적 트렌드를 가지고 있을 경우 귀무가설을 기각하는 것이 stationary가 아닌 trend stationary를 의미할 수도 있습니다. 다음과 같이 원래의 데이터와 차분한 데이터에 대해 ADF테스트를 해보면 모두 귀무가설을 기각하는 결과가 나오는 것을 볼 수 있습니다. 그래서 ADF테스트로는 귀무가설을 기각할 경우 우리가 얘기하는 정상성을 정확히 테스트하기 어려운 경우도 생길 수 있습니다. > adf.test(AirPassengers) Augmented Dickey-Fuller Test data: AirPassengers Dickey-Fuller = -7.3186, Lag order = 5, p-value = 0.01 alternative hypothesis: stationary > adf.test(diff(AirPassengers)) Augmented Dickey-Fuller Test data: diff(AirPassengers) Dickey-Fuller = -7.0177, Lag order = 5, p-value = 0.01 alternative hypothesis: stationary 이럴 때 다음과 같이 KPSS테스트를 이용하는 것이 좋은 대안이 될 수 있습니다. KPSS테스트는 ADF테스트와 반대로 귀무가설이 "stationary 시계열이다"입니다. 아래의 결과를 보면 원래의 데이터는 귀무가설을 기각하여 non-stationary 시계열이라고 판정하고 있고, 반면에 차분한 데이터는 귀무가설을 기각하지 못하여 stationary 시계열로 판정합니다. > kpss.test(AirPassengers) KPSS Test for Level Stationarity data: AirPassengers KPSS Level = 2.7395, Truncation lag parameter = 4, p-value = 0.01 > kpss.test(diff(AirPassengers)) KPSS Test for Level Stationarity data: diff(AirPassengers) KPSS Level = 0.014626, Truncation lag parameter = 4, p-value = 0.1
네~ 좋은 제안 감사합니다. VAR모델(vector autoregression model) 강의도 차츰 준비해보겠습니다. 시계열분석 강의를 추가할 때 VAR모델과 그에 앞서 알고 있으면 좋을 주제(예를 들면, 동적회귀모델(dynamic regression model))도 차근차근 다루어보도록 하겠습니다.
자격증 공부하다 우연히 영상을 접하게 되었는데, 와.. 왜 이제 알았죠 ㅠㅠ
도움이 되시길 바라겠습니다 😎
교수님 강의를 유투브로 들을 수 있어서 너무 좋습니다. 대학생때 교수님 강의 열심히 듣고 많이 배웠습니다. 졸업한지 좀 되었지만 교수님 영상을 통해
유투브로 계속 공부하겠습니다 ㅎㅎ
와~ 반갑습니다^^😊
안녕하세요. 교수님 강의 잘보고있습니다.
12:11' 감명도 원칙? 은 어떤 의미인가요?
간명도(parsimony)란 간결함, 단순함을 의미합니다. 간명도 원칙이란 유사한 설명력을 제공하는 대안 모델들이 다수 있다면 가능하면 보다 간결하고 단순한 것을 선택한다는 것을 의미합니다. 간명하다는 것은 추정해야 할 파라미터(예를 들면, 회귀계수)의 개수가 작은 것을 뜻합니다. 모델이 복잡할수록 일반화 가능성이 작아지기 때문에 설명력이 유사하다면 가능한 단순한 모델을 선택하는 것이 바람직합니다.
좋은 강의 올려주셔서 감사합니다
항상 감사합니다.
교수님 MA모델은 예측오차의 선형결합이라고 되어있는데, 예측오차라면 회귀식의 y값과 원래 시계열자료(측정치)와의 차이를 말하는 것인가요?
네 개념상으로 그렇습니다.
안녕하세요 교수님 ! 질문있습니다.
변동성이 큰 데이셋의 경우
arima모델은 정상성을 가정하니까 ① 데이터셋을 로그변환 후 ② autoarima 함수를 사용해야하는건가요!?
네~ 데이터셋의 분산이 일정하지 않을 경우 정상성을 갖도록 변환(로그변환, 제곱근변환 등)한 후 ARIMA모델을 생성할 수 있습니다. auto.arima() 함수를 이용하여 모델을 자동으로 생성할 수도 있고요, arima() 함수에 직접 p, d, q 패러미터를 지정하여 모델을 생성할 수도 있습니다.
안녕하세요. 좋은 강의 감사드립니다. 혹시 Slides를 따로 download 할 수 있나요?
교수님 궁금한게 있습니다.
교수님 저서인 R을 이용한 통계데이터분석을 구입해 볼 예정입니다.
아주 잘 만들어 주신 영상을 참고 하여 공부 하려 하는데 로지스틱 과 포아송 차원분석 생존 분석 부분이 영상으로 빠진걸 까요? 아니면
현재 영상 목록에 없는 걸까요? 궁금해서 여쭈어 봅니다 ^^
'통계데이터분석' 재생목록에 포함되어 있습니다.
안녕하세요 교수님! 유튭 강의 너무 잘보고 있습니다 ㅎㅎ 혹시 관련 질문 해도 될까요? 제가 1년간 월별 판매 수량 데이터를 가지고 있습니다. 이를 바탕으로 다음 분기 수량을 예측하고 싶습니다. 1년간의 데이터는 예측 모델에 쓰기에 너무 적은 걸까요? 이런 경우 어떤 모델을 사용하면 좋은지 조언 부탁드립니다!
네~ 1년간의 데이터이긴 하지만 월별 데이터이기 때문에 12개에 불과합니다. 시계열모델을 구축할 수는 있겠지만 의미 있는 모델이 만들어질 수 있을지는 확인이 필요할 것 같습니다. 혹시 다른 예측변수(독립변수)가 있다면 다양한 머신러닝 기법(예를 들면, 회귀분석, MARS, 의사결정나무 등)을 활용해보시는 것도 좋을 것 같습니다.
@@kykwahk 교수님 만약 월이 아닌, 일별 판매 데이터가 있다면 최소 몇개월이 예측 모델을 사용하기에 적용하시다고 보시나요?
도메인, 데이터 특성, 연구목적 등에 따라 달라질 수 있기 때문에 정답은 없습니다. 분석을 한 후 의미 있는 결과가 나오는지 분석자가 판단하시면 됩니다.
교수님 통계데이터분석 책도 사서 강의 잘 듣고 있습니다. R기초와 활용과 달리 통계데이터분석 책에는 연습 문제가 없는데 혹시 따로 준비해두신 연습문제가 있을까요?
감사합니다~^^ 아쉽게도 연습문제는 아직 준비된 것은 없습니다.
교수님 강의 너무 도움이 되어서 늘 감사드립니다.^^
시계열 ACF, PACF 표는 아무리봐도 이해가 잘 안되는데요.
NILE의 PACF의 경우는 1~3차시가 점진적으로 0에 이르고 있다고 보여지는데요. ACF가 어떻게 점진적으로 0에 이르고 있는지 모르겠습니다.
막대들이 들쑥날쑥으로 보이는데 절단선 밖의 막대들만 봐야 되는 것인가요?
@UC2bYkgsEdEsY0eshZpps2aQ아 이제 확실히 알겠네요. 바쁘신데 빠른 답변주셔서 너무 감사합니다.~^^
위 아래의 점선은 자기상관이 0이라는 주장에 대한 95% 신뢰구간을 나타내며, 이를 통해 자기상관이 통계적으로 유의하게(statistically significant) 0인지 검정할 수 있습니다. 즉 이 선을 넘어선 자기상관은 그 값이 통계적으로 유의하게 0이 아니라는 것을 나타내고, 선 안쪽의 자기상관은 통계적으로 유의하게 0이라는 것을 의미합니다. 쉽게 말해 선 안쪽에 위치한 막대는 자기상관이 (통계적으로 유의하게) 0입니다. 막대가 들쑥날쑥 하더라도 점선 안쪽에 있으면 모두 0이라고 볼 수 있습니다.
그래서 PACF는 자기상관이 시차3(Lag 3)에서 0으로 떨어지고요, ACF는 시차2에서 0에 이릅니다. 물론 그 뒤의 시차에서 일부 0이 아닌 것도 나타나기 때문에 그러한 패턴이 완벽하다고는 볼 수 없습니다만 대체로 그러한 패턴을 충족한다고 볼 수 있습니다.
ACF와 PACF에 대한 보다 자세한 설명은 다음 강의를 참고하세요.
통계데이터분석- 시계열분석 - ARIMA예측모델: 정상성과 자기상관(th-cam.com/video/YQF5PDDI9jo/w-d-xo.html)
안녕하세요!! 항상 잘 보고 있습니다
제가 교수님 영상을 보면서 혼자 R을 독학하는 중인데요 너무 어려운 부분이 있어 문의드려요ㅠ
PACF 그래프에서 점선 구간안에 있어도 신뢰구간을 넘지 않을 수도 있나요?? 점선 구간 자체가 신뢰구간이라는 뜻으로 이해했는데
제가 도출한 PACF 그래프에서는 lag6=-0.112 이고 lag9=0.038 값을 가집니다. 그리고 6과 9를 제외한 나머지 값(1,2,3,4,5,7,8)은 모두 점선을 넘는 값을 가집니다.
(점선은 +-0.2에서 형성되었습니다.)
그런데 책에서는 "부분자기상관함수가 lag=1~8에서 신뢰구간을 넘어서 음의 값을 가지고 lag=9에서 양의 값으로 넘어갔다. 따라서 lag=9에서 절단값을 가진다. "
라고 설명하고 있습니다.
이 부분이 너무 이해가 가질 않습니다.... 긴 댓글 읽어주셔서 감사합니다
ACF/PACF도표에서 점선은 자기상관이 0이라는 주장에 대한 95% 신뢰구간을 나타내며, 산출된 자기상관이 통계적으로 0인지 검정합니다. 즉 이 선을 넘어선 자기상관은 그 값이 통계적으로 유의하게 0과 다르다는 것을 나타내며, 따라서 해당 시차 시계열의 자기상관은 0이 아니라는 것을 의미합니다. 쉽게 말해 특정 시차에서 자기상관이 점선 내에 있으면 0이고 점선 밖에 있으면 0이 아니라는 뜻입니다. ACF/PACF도표는 시계열의 정상성(stationary)을 평가하거나 ARMA모델의 모수를 결정할 때 사용할 수 있습니다. 보시고 계신 책에서 이해가 안 된다고 하신 부분은 그 책의 저자분께 직접 문의하시는 것이 좋을 것 같습니다.
모르는게 너무 많네요. 하나더 질문 드립니다. 회귀분석, 시계열은 분류분석처럼 confusionmatrix로 정확도 및 민감도, ROC를 구하는게 의미가 없는지요?
회귀분석에서처럼 결과변수가 연속형 변수인 경우에는 confusion matrix를 만들 수 없습니다. 따라서 이를 바탕으로 한 성능지표도 구할 수 없고요. confusion matrix는 범주형 결과변수(예를 들면, 양성 또는 악성)의 관측값과 모델에 의한 예측값 간의 교차표(crosstabulation)입니다.
@@kykwahk 아 넘 모르는게 많네요.. 대단히 감사합니다. 이해가 쏙쏙 됩니다. 감사합니다.
안녕하세요. 질문 하나 드리려 합니다.
adf.test()를 통해 정상성을 확인하는데.
'귀무가설이 정상성을 만족하지 못한다' 인데
adf.test(AirPassengers)를 하면 0.01이 나오는데 AirPassengers는 완전 비정상 시계열인데 왜 그럴까요?
ADF테스트의 귀무가설은 사실 '시계열 데이터에 unit root가 존재한다'입니다. unit root는 non-stationary의 한 원인입니다(unit root가 무엇인지도 궁금하실텐데요, 이 부분은 쉽게 설명이 어려운 부분이라 그냥 넘어가겠습니다). 따라서 unit root가 존재한다는 귀무가설을 채택하면(기각하지 못하면) non-stationary로 간주하게 되는 겁니다. ADF테스트의 대립가설은 귀무가설의 반대로서 stationary를 얘기할 뿐만 아니라 trend stationary라는 것도 포함합니다. 따라서 AirPassengers 데이터와 같이 명백히 계절적 추세적 트렌드를 가지고 있을 경우 귀무가설을 기각하는 것이 stationary가 아닌 trend stationary를 의미할 수도 있습니다. 다음과 같이 원래의 데이터와 차분한 데이터에 대해 ADF테스트를 해보면 모두 귀무가설을 기각하는 결과가 나오는 것을 볼 수 있습니다. 그래서 ADF테스트로는 귀무가설을 기각할 경우 우리가 얘기하는 정상성을 정확히 테스트하기 어려운 경우도 생길 수 있습니다.
> adf.test(AirPassengers)
Augmented Dickey-Fuller Test
data: AirPassengers
Dickey-Fuller = -7.3186, Lag order = 5, p-value = 0.01
alternative hypothesis: stationary
> adf.test(diff(AirPassengers))
Augmented Dickey-Fuller Test
data: diff(AirPassengers)
Dickey-Fuller = -7.0177, Lag order = 5, p-value = 0.01
alternative hypothesis: stationary
이럴 때 다음과 같이 KPSS테스트를 이용하는 것이 좋은 대안이 될 수 있습니다. KPSS테스트는 ADF테스트와 반대로 귀무가설이 "stationary 시계열이다"입니다. 아래의 결과를 보면 원래의 데이터는 귀무가설을 기각하여 non-stationary 시계열이라고 판정하고 있고, 반면에 차분한 데이터는 귀무가설을 기각하지 못하여 stationary 시계열로 판정합니다.
> kpss.test(AirPassengers)
KPSS Test for Level Stationarity
data: AirPassengers
KPSS Level = 2.7395, Truncation lag parameter = 4, p-value = 0.01
> kpss.test(diff(AirPassengers))
KPSS Test for Level Stationarity
data: diff(AirPassengers)
KPSS Level = 0.014626, Truncation lag parameter = 4, p-value = 0.1
@@kykwahk 아 정말 대단히 감사합니다. 정상성 검증은 위 2가지를 모두 해봐야겠네요.
선생님 VAR (벡터자기회귀)모형도 어게 하는지 궁금합니다 ㅜㅜㅜ!!! 항상 잘 보고 있습니다. 감사합니다.
네~ 좋은 제안 감사합니다. VAR모델(vector autoregression model) 강의도 차츰 준비해보겠습니다. 시계열분석 강의를 추가할 때 VAR모델과 그에 앞서 알고 있으면 좋을 주제(예를 들면, 동적회귀모델(dynamic regression model))도 차근차근 다루어보도록 하겠습니다.
안녕하세요 교수님, 강의 영상으로부터 많은 도움을 받고있습니다. 질문이 있습니다. bollinger band 그리는데 가장 널리 쓰이는 패키지가 어떤게 있는지 알려주실수있나요? 그 패키지에 추정치와 중간 연산 데이터들도 뽑아낼수있으면 좋겠습니다.
TTR 패키지라고 있습니다.
@@kykwahk 감사합니다!