리스트에 있는 개별 상세 페이지 데이터를 추출하는 더 나은 방법! | 코딩 없이 웹 크롤링하기

แชร์
ฝัง
  • เผยแพร่เมื่อ 18 ก.ย. 2024
  • Octoparse에서 상세 페이지를 크롤링 할 때, 리스트에서 Click해서 상세 페이지를 들어가는 Loop를 만들어줄 수 있습니다. (이전 영상에서 소개한 방법)
    그러나 이 방법은 크롤링 워크플로우가 너무 복잡해지는 문제가 있는데요. 이 영상의 URL 리스트를 응용하는 방식으로 상세 페이지를 크롤링하는게 더 나은 방법입니다. 이러면 더 쉽고 안정적으로 크롤링할 수 있어요.
    많은 대안 노코드 크롤링 툴들은 이와 비슷하게 상세 페이지 크롤링 동작을 수행합니다. 먼저 URL 리스트를 수집하고, 그 다음에 대표 하나만 가지고 크롤링 동작을 셋팅하고, 나머지는 루프를 돌면서 반복하는거죠. 이 영상으로 한번 연습해보세요!
    #Octoparse #크롤링 #웹사이트크롤링 #자동화 #노코드

ความคิดเห็น • 50

  • @PKan00
    @PKan00 10 วันที่ผ่านมา

    1:20 오랫동안 이런 영상을 기다렸다우

    • @jangpm
      @jangpm  10 วันที่ผ่านมา

      감사합니다 :)

  • @danapark5693
    @danapark5693 ปีที่แล้ว

    오늘도 감사합니다!!!😊😊😊

    • @jangpm
      @jangpm  ปีที่แล้ว

      봐주셔서 감사합니다

  • @niceguy6109
    @niceguy6109 4 หลายเดือนก่อน

    감사합니다. 잘보았습니다 :)

  • @이지희-e4j
    @이지희-e4j ปีที่แล้ว +1

    안녕하세요!
    따라하기 쉽게 잘 설명해주셔서 잘사용하고 있습니다 ㅎㅎ
    궁금한게 한가지 있는데요!
    옵션이 여러개 있는 상품에 대해서 dropdown 박스안에 있는 값들까지 모두 엑셀로 출력하려고 할땐 어떻게 해야 하나요 ㅠㅠ?

    • @jangpm
      @jangpm  ปีที่แล้ว

      숨겨져있는 메뉴는 크롤링이 어렵긴 합니다. 실제로 클릭을 워크플로 안에 추가해서 드랍다운 메뉴를 오픈한 다음에 extract 동작을 넣어보세요.

  • @user-zw3wb5tq4q
    @user-zw3wb5tq4q 2 ปีที่แล้ว

    와 항상 프로그램 개발해서 썼었는데 진짜 좋네요

    • @jangpm
      @jangpm  2 ปีที่แล้ว

      네 노코드 크롤링 진짜 쉽고 유용해요~

  • @bomjung9521
    @bomjung9521 2 ปีที่แล้ว

    확실히 이 방법이 간단하고 편하네요.감사합니다. run할때 부스트모드와 일반모드는 어떤 차이가 있는지요? 부스트모드로만 run 하는게 빠르고 좋은건지 궁금하네요. 영상 감사합니다

    • @jangpm
      @jangpm  2 ปีที่แล้ว

      부스트는 루프를 동시에 돌리는거예요 그래서 빨리 완료되지만 결과물의 순서가 보이는 순서와 달라질 수 있습니다

    • @bomjung9521
      @bomjung9521 2 ปีที่แล้ว

      @@jangpm 아 그렇군요. 답변 고맙습니다. 주말 잘보내세요

  • @KIKI-ll5fm
    @KIKI-ll5fm ปีที่แล้ว

    안녕하세요! 영상에서 쉽게 설명해주셔서 길라잡이처럼 잘 활용하고 있습니다! ㅎㅎ 근데 말씀해주신 방법으로는 한개의 url 안에서 next page 를 설정하고 끝까지 돈 다음 다음 url 로 넘어가게하는 루프는 작동하지 않는 것일까요ㅜㅜ? 아니면 혹시 제가 무언가를 놓쳤는지 궁금합니다..!

    • @jangpm
      @jangpm  ปีที่แล้ว +1

      구독자님의 문제 상황이 pagination이 잘 안되신다는 걸로 들리는데요. 워낙 다양한 페이지 별로 상황이 달라서 말씀하신 것만으로는 문제 해결이 어렵습니다. 죄송해요.
      loop click으로 페이지네이션을 만드는 걸 다른 제 옥토파스 튜토리얼 영상을 보고 따라해보시고, 그럼에도 잘 안된다면 페이지네이션을 직접 구성하지 말고, 각 페이지 별 url을 따서 그 url들을 loop 돌면서 내용을 크롤링하는 방향으로 시도해보시면 좋겠습니다.

    • @KIKI-ll5fm
      @KIKI-ll5fm ปีที่แล้ว

      네 도움 주셔서 감사합니다!! @@jangpm

  • @lcardina6101
    @lcardina6101 7 หลายเดือนก่อน

    안녕하세요. 좋은 영상 잘 봤습니다
    혹시 특정 조건을 만족하는 경우만 해당 데이터를 덤프하고 싶어서 extract data에 트리거를 걸었는데 해당 조건이 만족하지 않아도 싹다 dump하는 현상이 있네요...
    혹시 If - text - contain - 원하는 키워드 인 경우에 Dump this line data 이런 방식으로 하는게 아닐까요?

  • @병호황-o1o
    @병호황-o1o 3 หลายเดือนก่อน

    안녕하세요, 좋은 강의 감사합니다. 저는 쇼핑몰 웹 사이트의 주소, 대표명, 전화번호, 이메일 주소 등을 크롤링하려 합니다. 온라인 쇼핑몰 순위가 나와있는 웹사이트에서 순위별로 나와있는 쇼핑몰 url 주소를 1차로 크롤링한 후에, 각 쇼핑몰 url에 접속해서 주소, 전화번호 등의 정보를 수집해야하는데 위 방법을 동일하게 적용할 수 있을까요?

    • @jangpm
      @jangpm  21 วันที่ผ่านมา

      답이 늦어서 죄송해요. 순위별 리스트는 순위 사이트에서 수집이 가능할거 같은데, 각 쇼핑몰에 접속해서 크롤링하는건 쇼핑몰마다 html 구조가 달라서 안될거 같습니다.

  • @user-nh1ou4ti4l
    @user-nh1ou4ti4l ปีที่แล้ว

    안녕하세요.
    잘 설명해 주셔서 많은 도움이 되고 있습니다.
    업무적인 이유로 크롤링 하고 싶은것이 있는데 스마트폰 엡으로 보는 자료입니다.
    스마트폰 엡에서만 확인하는 자료도 크롤링이 가능한지요> 어떻게 할 수 있는지요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      octoparse는 웹 크롤러라서 앱은 크롤링이 안됩니다. 앱에 대한 크롤링을 할 수 있는 도구가 있는지는 잘 모르겠습니다. 아마 쉽지 않을거 같습니다만... 한번 찾아보시고 연구해보시길 바랍니다.

  • @kasoonfil8264
    @kasoonfil8264 ปีที่แล้ว

    유용한 강의 감사합니다. 아래 문의 사항 확인해 주시면 감사하겠습니다.
    Import from file에서 파일 올리고 Select sheet 후에 칼럼 지정하는 부분이 뜨지 않는데 어떤 이유인지 아시나요?

    • @jangpm
      @jangpm  ปีที่แล้ว +1

      흠 죄송하지만 이건 잘 모르겠네요ㅠㅠ

  • @권광현-u3j
    @권광현-u3j ปีที่แล้ว

    잘 설명해주셔서 하나하나 따라하며 배우고 있습니다. 궁금한게 상세페이지의 긴 이미지 url도 크롤링 하고 싶은데 이미지가 여러 조각으로 나뉘어 있어선지 Select all이 활성되지 않고 첫번째 이미지만 선택이 됩니다. 또한 선택된 이미지의 URL 도 run 하면 비어서 추출이 됩니다. 방법이 있을까요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      이미지 요소가 잘 안될 땐 이미지가 포함된 영역의 outerHTML을 크롤링해서 거기서 이미지 관련된 데이터를 뽑아내는게 방법인데요. 사이트마다 달라서 이 꼼수가 먹힐지 안먹힐지는 잘 모르겠습니다.

  • @하호허후
    @하호허후 2 ปีที่แล้ว

    좋은 정보 감사합니다.~.궁금한거 있어서 문의드립니다. 상세페이지 옵션중에 사이즈가 여러개 있을때 해당정보를 가져오고 싶은데 어떻게 하면 되는지 궁금합니다. 혹시 click + 정보선택 + loop하면 될거 같은데 잘안되서 의견 부탁합니다...

    • @jangpm
      @jangpm  2 ปีที่แล้ว

      상세 페이지의 페이지 구성이 달라지면 크롤링이 어려워지거든요. 방법은 옵션이 나오는 div보다 한 단계 상위 div를 선택해서 그 안에 있는 데이터를 모두 수집하도록 하는 방법이 있고요. 또 다른 방법은 alternative xpath라는 기능을 이용해서 A가 크롤링이 안되면 B를 크롤링해라 이런식으로 옵션 설정을 해줄 수 있습니다. 이 두가지 방법을 시도해보시길 바랍니다~

    • @하호허후
      @하호허후 2 ปีที่แล้ว

      @@jangpm 네 답면 고맙습니다 ~ 테스트해보고 안되면 또 문의드릴게요

  • @행복한열정-s1b
    @행복한열정-s1b 8 หลายเดือนก่อน

    잘보고 있습니다.^^ 혹시 크롤링할때 차단되는 경우가 있다는데 방지하려면 어떻게 해야할까요~~?

    • @jangpm
      @jangpm  7 หลายเดือนก่อน

      옥토파스 유료 결제하시면 proxy라는 기능을 이용해서 ip를 우회하실 수 있습니다 자세한 기술적인 설명은 www.octoparse.com/blog/proxy-server-for-web-scraping 여기를 참고해주세요

  • @benson4244
    @benson4244 ปีที่แล้ว

    유용한 정보 잘 구독하고 있습니다. 이 방법으로 크롤링 하려는 사이트에서 실행해 봤는데 엑셀 data 로딩하고 다음 단계 진행하려고 하는데 로봇접근이 감지 되었다고 상세페이지 접근을 금지하네요 이걸 해결하는 방법이 있을까요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      그렇군요... 외부 크롤링 봇의 접근을 차단하는 사이트는 아무래도 크롤링이 이런 노코드 툴로는 어려울 거 같습니다

  • @티스에모
    @티스에모 ปีที่แล้ว

    안녕하세요! 상세페이지에 모든 항목을 보려면 로그인을 해야 되는 사이트도 크롤링이 가능할까요? 옥토파스에서 사이트URL을 불러와서 로그인을 한 다음 크롤릴을 할 수도 있을까요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      네 그런식으로 가능합니다! 로그인을 절차 안에 넣을수도 있고요. 오픈 웹페이지에서 옵션 중 쿠키 저장을 하시면 로그인 정보가 쿠키로 저장됩니다.

    • @티스에모
      @티스에모 ปีที่แล้ว

      @@jangpm 말씀해주신 로그인을 절차 안에 넣거나, 오픈 웹페이지에서 옵션 중 쿠키 저장을 하는 방법을 좀 알려주실 수 있을까요?^^;

  • @user-rv5yg1ry4u
    @user-rv5yg1ry4u ปีที่แล้ว

    안녕하세요! 크롤링이 막혀있는 사이트도 있을까요?
    해외 채널인 쇼피채널에서 크롤링을 진행해보려 하는데, 제품 링크값을 입력하면 로그인 창으로 전환이 되어서요!
    해당 사이트에서 크롤링을 하는것을 막아둔건가 싶어서 여쭤봅니다.

    • @jangpm
      @jangpm  ปีที่แล้ว

      크롤링을 막아두는 사이트도 있고, 옥토파스로 몇번 크롤링하다면 막히는 경우도 있습니다

  • @_ideal281
    @_ideal281 ปีที่แล้ว

    혹시 쿠팡외에 스마트스토어나 11번가 등 전부 섞여있는 링크도 쉽게 크롤링 할 수 있나요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      웹사이트 구조에 따라 되는지 안되는지 판단되는거라서요. 단언하긴 어렵지만 시도해보실만한 가치가 있다고 생각합니다.

  • @개뿔-s3u
    @개뿔-s3u ปีที่แล้ว

    너무 너무 감사합니다. 제가 찾던것이네요 ^^; 한가지 문의 좀 할께요 Octoparse실행 후 크롤링하는 페이지에 자꾸 로그인 화면이 뜨네요 크로링페이지에서는 로그인 한 상태입니다. 로그인 방법 부탁합니다. >> 이메일로 문의 하였습니다.

  • @Restatstay
    @Restatstay ปีที่แล้ว

    추출한 text 부분을 다시 클릭헀을 때, extract url 이 안뜨는데 왜 그런걸까요 ㅠ? image url 은 추출되는 것 같은데..

    • @jangpm
      @jangpm  ปีที่แล้ว

      툴 팁에서 A 태그를 찾아서 선택해보세요. 링크는 A 태그 안에 들어있습니다. A를 선택하면 extract url이 뜨실거예요.

  • @kyoungsanchoi7791
    @kyoungsanchoi7791 ปีที่แล้ว

    로켓배송 상품인지 일반배송상품인지도 크롤링 되나요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      네 화면에 있는 정보는 다 크롤링됩니다. 로켓배송 표시가 텍스트가 아니라 이미지라면 조금 골치가 아플 수 있는데요. extract outerhtml 이런 방식으로 html 코드에서 정보를 뽑아내는 시도를 해보세요~

  • @sclee9833
    @sclee9833 2 ปีที่แล้ว

    상세페이지를 따는게 어렵네요,,,,, 한번만 하면 되는데! 전 셀렉트 올이 안떠서요,,,

  • @sclee9833
    @sclee9833 2 ปีที่แล้ว

    어드벤스모드가 뉴에 없는데 이것도 유료 사용자만 있는 기능일까요?

    • @jangpm
      @jangpm  2 ปีที่แล้ว

      아녜요 그냥 표현이 바뀐거 같아요 new로 시작하시면 됩니다.

  • @user-qn9ct6wf1t
    @user-qn9ct6wf1t ปีที่แล้ว

    만약 페이지가 제대로 코딩이 되어있지 않아 텍스트를 선택했을때 전체 선택이 안되는 경우면 어떻게 해야할까요?

    • @jangpm
      @jangpm  ปีที่แล้ว

      그러면 노코드로는 어려울거 같습니다ㅠㅠ

    • @user-qn9ct6wf1t
      @user-qn9ct6wf1t ปีที่แล้ว

      @@jangpm 그렇군요ㅠㅠ 그럼 혹시 페이지 다음 버튼을 눌렀을때 맨 끝페이지에 도달하는 것도 노코드로 해결을 못할까요..!?

    • @jangpm
      @jangpm  ปีที่แล้ว

      @@user-qn9ct6wf1t 페이지 넘기는건 octoparse에서 잘 됩니다~ 다만 넥스트 버튼에 해당되는 버튼이 존재하긴 해야 됩니다.