시계열 데이터 분석 기초 Part.1

แชร์
ฝัง
  • เผยแพร่เมื่อ 9 พ.ย. 2024

ความคิดเห็น • 23

  • @scale1522
    @scale1522 8 หลายเดือนก่อน

    강의 감사드립니다! 재미있네요!

  • @dth1819
    @dth1819 3 ปีที่แล้ว +1

    좋은 내용을 공유해주서셔 감사해요

  • @양현준-q9f
    @양현준-q9f 3 ปีที่แล้ว +1

    강의 너무 좋네요

    • @양현준-q9f
      @양현준-q9f 3 ปีที่แล้ว

      part 4도 나중에 올라오나요?

  • @onnosho
    @onnosho 3 ปีที่แล้ว +2

    안녕하세요! 강의 정말 감사히 잘 보고 있습니다! 질문이 있는데 Datetime으로 바꾼 후 시간 순으로 정렬은 해줄 필요 없나요?

    • @onnosho
      @onnosho 3 ปีที่แล้ว +1

      df1 데이터 프레임에서 17번 index는 20년 데이터가 있어서 질문드렸습니다!

    • @data_station
      @data_station  3 ปีที่แล้ว +2

      네 안녕하세요 데이터스테이션 입니다
      정렬을 해준 뒤 분석이 진행되어야 합니다
      sort_values 함수를 이용해 정렬을 해줄 수 있습니다
      감사합니다

  • @jahyeoni
    @jahyeoni 2 ปีที่แล้ว +1

    안녕하세요 공부 잘하고 있습니다. 오래된 영상이라 보실지 모르겠지만 날짜데이터를 datetime형태로 변환하는 과정에서
    OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 1-01-19 00:00:00 시간 범위가 잘못됬다고 오류가 뜨는데
    아무리 구글링해도 확실한 방안이 없어서요..ㅜㅜ 방법을 아시는지 여쭤봅니다.

  • @stonebridgee
    @stonebridgee 3 ปีที่แล้ว +2

    영상 잘 보고 있습니다. 감사드립니다.
    제가 2개의 엑셀시트를 비교하면서 날짜 데이터를 초(sec)로 바꾸어 오차범위 10초 이내로 있는 중복row를 검출 하여
    고객 데이터의 휴대전화 뒤 4자리가 같은 열들을 추출 하는 작업을 하고 있습니다.
    여기서 궁금한 것이, 날짜데이터를 초(sec)로 변환 하는 datetime 함수는 따로 없을까요?

    • @data_station
      @data_station  3 ปีที่แล้ว

      영상 시청 항상 감사드립니다.
      아래와 같은 함수를 이용하면, datetime으로 되어있는 날짜데이터를 초 형태로 변환이 가능합니다!
      df['time'].dt.total_seconds()

    • @stonebridgee
      @stonebridgee 3 ปีที่แล้ว +1

      @@data_station time 이 index로 들어가있는데 KeyError : 'time' 에러가 뜹니다.
      df8['time'].dt.total_seconds() 을 코드로 사용 했는데, total_seconds 부분이 적용이 안되는 듯 싶습니다. 어떻게 해야할까요?

    • @data_station
      @data_station  3 ปีที่แล้ว

      @@stonebridgee 코드랑 에러메시지 한번 댓글로 남겨주시겠어요??

    • @stonebridgee
      @stonebridgee 3 ปีที่แล้ว

      @@data_station df8['new_수신시간'].dt.total_seconds()
      시간 형태를 변형해서 new_수신시간 index에 데이터가 들어가있습니다.
      에러메시지 : Traceback (most recent call last):
      File "C:\Users\user\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\indexes\base.py", line 3361, in get_loc
      return self._engine.get_loc(casted_key)
      File "pandas\_libs\index.pyx", line 76, in pandas._libs.index.IndexEngine.get_loc
      File "pandas\_libs\index.pyx", line 108, in pandas._libs.index.IndexEngine.get_loc
      File "pandas\_libs\hashtable_class_helper.pxi", line 5198, in pandas._libs.hashtable.PyObjectHashTable.get_item
      File "pandas\_libs\hashtable_class_helper.pxi", line 5206, in pandas._libs.hashtable.PyObjectHashTable.get_item
      KeyError: 'new_수신시간'
      The above exception was the direct cause of the following exception:
      Traceback (most recent call last):
      File "c:\Users\user\Desktop\project-e (2)\02_excelplus.py", line 84, in
      print(df8['new_수신시간'].dt.total_seconds())
      File "C:\Users\user\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\frame.py", line 3455, in __getitem__
      indexer = self.columns.get_loc(key)
      File "C:\Users\user\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\indexes\base.py", line 3363, in get_loc
      raise KeyError(key) from err
      KeyError: 'new_수신시간'

    • @stonebridgee
      @stonebridgee 3 ปีที่แล้ว +1

      @@data_station 추가로 말씀 드리자면 어제 질문 드렸던 2021년 01월 01 00:00:00의 형식을 2021-01-01 00:00:00 형식으로 변경 후 이 데이터를 모두 초로 변환 하려고 합니다.

  • @user-uu3ej8hd3r
    @user-uu3ej8hd3r 2 ปีที่แล้ว +1

    안녕하세요 최근 빅데이터 모델링 관련해서 공부를 많이 하고 있는 학생입니다. 다름이 아니라 시계열 데이터는 전처리를 처음해봐서 어떻게 해야할지 몰라 질문 드립니다.
    예를 들어 100개의 기업의 지출내역 데이터가 2011년부터 2020년까지 연간 단위로 있다고 가정을 합니다. 이 때 총 소비비용이 반응변수이고, 여러 자잘한 소비내역들을 설명변수로 하여 2021년 각 기업별 총 소비비용을 예측 한다고 할 때, 전처리를 어떻게 해야할까요? 각 데이터들은 하나의 csv파일로 구성되어 있고 2011년부터 2020년까지 총 10개의 csv 파일을 현재 보유중인 상황입니다.
    이 때, 이 10개의 데이터를 하나의 데이터로 조인하여 모델링을 할 수 있을까요? 만약에 조인을 한다면 year 변수를 만들어서 2011년부터 2020년까지 줄세우기 식으로 만들어야 할까요 아니면 다른 방법이 있을까요? 결국 목적은 각 기업별로 예측값을 구하는것인데요..!

    • @data_station
      @data_station  2 ปีที่แล้ว

      답변늦어 죄송합니다. 근래 컨설팅일정이 많아 이제 확인했네요. 작년부터 온라인 및 오프라인 교육관련 메일이 많아 회신이 늦었습니다. ㅠㅠ
      시계열 데이터 분석같은 경우, X는 시간데이터만 들어가게 됩니다. 따라 X엔 '소비일자' Y엔 '사용금액'만 들어가게 되죠.
      그리고 Row 단위로는 일자 별 '사용금액'이 와야할 거에요.
      하지만 중간에 날짜가 비어있는경우엔, 7일단위로 묶에 시계열 모델을 구성할 수 있습니다.
      만약 날짜의 간격이 다른 데이터를 Table을 조인하려면, 텀이 큰 날짜를 기준으로 맞춰야합니다.
      데이터를 구체적으로 보지않아 이정도까지만 답변드릴수 있겠네요.
      너무 늦게 답변드려 도움이 됐을지 모르겠습니다 ㅠㅠ

  • @tspark1071
    @tspark1071 3 ปีที่แล้ว +1

    저 구매일은 주문확정일이나 배송일이 아니고 계산서 발급일이겠지요?

    • @data_station
      @data_station  3 ปีที่แล้ว

      구매일로 보시면되겠습니다 .
      회사에 물품을 공급하는 데이터가 아닌, 소비자가 직접 웹을 통해서 결제된 날짜를 뜻합니다.
      데이터가 물품명과 여러가지 구매정보가 더 있지만, 보안상 삭제했습니다