질문 있습니다! 만약에 데이터를 통해 좋은 모델이 생성되었고 실제 업무에 적용시키려 할때 새로운 데이터들은 어떻게 적용을 하면 되나요? 질문이 조금 이상한데....ㅋㅋㅋ 실제 새로운 회원들이 등록했고 그 사람들의 데이터를 이 모델에 적용하려면 어떻게 하면되나요? 이 모델에 새로운 데이터셋을 불러와서 적용시키는건가요?
print(classification_report(Y_train,Y_train_pred))의 결과가 거의 대부분 0값에 가까운 데이터를 냅니다.. 이런 경우가 말이 되나요...? 데이터상에 결측치는 모두 보정을 했는데, 이상치(편차이상 벌어진 극단의 값들)을 빼지 않을 경우 이렇게 되나요....
네 충분히 그렇게 나올 수 있습니다. 보통 분류모델에서 데이터가 깨져있는 경우, 많이 발생합니다. Under Sampling과 Threshold Tuning을 통해 개선되는 경우도 있지만, 데이터가 너무 적다면 일정 이상 성능을 높이기가 어렵습니다. 데이터 마이닝이라고 하는 영역은 전통적 통계에서 표본조사의 개념과 달리, 전수조사 (데이터 그 자체가 모집단)개념이기에, 데이터가 많이 확보되어 있어야하고, Under Sampling 과 같은 여러 전처리 작업을 진행해도 데이터가 일정 수 이상 유지되어야 합니다.
@@data_station 또 하나 이상한 점은, 결과테이블이 ( 0,1, accuracy, macro avg, weighted avg )의 행이 나타나는데, 제 경우에는 (0,1,2,3,4,5,6,7 ... 39, accuracy, macro avg, weighted avg)가 나옵니다. 이런 경우도 충분히 있을 수 있는 거지요...?
@@순덕-g2i 여러가지 가능성이 있습니다. 먼저 random State가 똑같이 부여됨에도 결과가 다른경우엔, 앞서 전처리 과정에서 데이터가 다르게 처리되었을 수 있습니다. 또 트리기반의 알고리즘은 gini기법이나 entropy 기법을 이용해 결과를 도출하는데, 해당 값이 서로다른 조건에서 동일하게 나올 수 있습니다. 그런 경우엔, 같은 데이터라도 다른 모델 하이퍼 파라미터를 이용해 튜닝이 될 수 있습니다. 이 경우엔 GridsearchCv 함수를 활용해 Hyper Parameter를 튜닝하여 해결할 수 있습니다. 회원전용영상에 의료데이터 분류 영상을 한번 참조해 보시면 되겠습니다. 데이터 마이닝 관련한 영상은 곧 업로드 할 예정입니다. 감사합니다.
완전 최고 학교에서 공부하면서 같이 보는데 이해가 정말 잘되요
감사합니다 👍
진짜 최고십니다.
감사합니다
더 좋은 내용 준비해 찾아뵙겠습니다
6.20 학습완료! , 자고 일어나서 블로그에 정리하겠습니다!
감사합니다!!
근데 진짜 설명잘하심... 재능기부이신 건가요?
이쪽 분야 학생은 아닌데 이해 개잘됨.. 감사합니다.
감사합니다 ☺️
너무재밌는데 아직 어렵네요 언능 쓸수있는날이 오길..
더 쉽고 좋은 콘텐츠 올리겠습니다! 새해복많이받으세요~!!
이후 강의는언제 진행하는건가요?
제가 현업에서 계속 활동중에 있어, 언제 정확히 업로드 되는지 확답드리기가 어렵네요 ㅠㅠ 대신 업로드 일정이 확정되면, 커뮤니티 메뉴를 통해 공지드리도록 하겠습니다!
감사합니다.
질문 있습니다!
만약에 데이터를 통해 좋은 모델이 생성되었고 실제 업무에 적용시키려 할때
새로운 데이터들은 어떻게 적용을 하면 되나요?
질문이 조금 이상한데....ㅋㅋㅋ
실제 새로운 회원들이 등록했고 그 사람들의 데이터를 이 모델에 적용하려면 어떻게 하면되나요?
이 모델에 새로운 데이터셋을 불러와서 적용시키는건가요?
네 새로운 데이터같은경우, 어플리케이션에 모델을 올려서 입력받은 데이터를 바로 예측할 수 있고, 새로 수집한 데이터를 정형데이터 형태로 집어넣을 수 있습니다. 이에대한 내용은 토요일에 다뤄보도록 할게요!
print(classification_report(Y_train,Y_train_pred))의 결과가 거의 대부분 0값에 가까운 데이터를 냅니다.. 이런 경우가 말이 되나요...? 데이터상에 결측치는 모두 보정을 했는데, 이상치(편차이상 벌어진 극단의 값들)을 빼지 않을 경우 이렇게 되나요....
네 충분히 그렇게 나올 수 있습니다.
보통 분류모델에서 데이터가 깨져있는 경우, 많이 발생합니다.
Under Sampling과 Threshold Tuning을 통해 개선되는 경우도 있지만, 데이터가 너무 적다면 일정 이상 성능을 높이기가 어렵습니다.
데이터 마이닝이라고 하는 영역은 전통적 통계에서 표본조사의 개념과 달리, 전수조사 (데이터 그 자체가 모집단)개념이기에, 데이터가 많이 확보되어 있어야하고, Under Sampling 과 같은 여러 전처리 작업을 진행해도 데이터가 일정 수 이상 유지되어야 합니다.
@@data_station 또 하나 이상한 점은, 결과테이블이 ( 0,1, accuracy, macro avg, weighted avg )의 행이 나타나는데, 제 경우에는 (0,1,2,3,4,5,6,7 ... 39, accuracy, macro avg, weighted avg)가 나옵니다. 이런 경우도 충분히 있을 수 있는 거지요...?
@@순덕-g2i 음 혹시 Print 함수를 적으셨나요?? 저 함수 자체가 print 함수 안에서 출력되는 기능을 가지고 있어서, 그냥 classification_report로 확인하면 행이 정렬되지 않게 나올 수 있습니다.
@@data_station 네.. 썻는데.. ㅎㅎ.. 강의에서 이해한대로라면, DecisionTreeClassifier()
@@순덕-g2i 여러가지 가능성이 있습니다.
먼저 random State가 똑같이 부여됨에도 결과가 다른경우엔, 앞서 전처리 과정에서 데이터가 다르게 처리되었을 수 있습니다.
또 트리기반의 알고리즘은 gini기법이나 entropy 기법을 이용해 결과를 도출하는데, 해당 값이 서로다른 조건에서 동일하게 나올 수 있습니다.
그런 경우엔, 같은 데이터라도 다른 모델 하이퍼 파라미터를 이용해 튜닝이 될 수 있습니다.
이 경우엔 GridsearchCv 함수를 활용해 Hyper Parameter를 튜닝하여 해결할 수 있습니다.
회원전용영상에 의료데이터 분류 영상을 한번 참조해 보시면 되겠습니다.
데이터 마이닝 관련한 영상은 곧 업로드 할 예정입니다. 감사합니다.