How To Web Scrape with Python (even sites that block you!)

แชร์
ฝัง
  • เผยแพร่เมื่อ 17 พ.ย. 2024

ความคิดเห็น • 20

  • @billybofh2363
    @billybofh2363 หลายเดือนก่อน +3

    I had no idea there was a python library for playwright! I've been suffering using node/bun and swearing a lot! thanks!

  • @uwegenosdude
    @uwegenosdude หลายเดือนก่อน

    Great example! Thanks a lot for creating this video. And the cool thing is, that even today your code still works :-)

  • @NgynAn-dg3kp
    @NgynAn-dg3kp 8 วันที่ผ่านมา

    Not work with shopee, there are login page, otp and captcha to scrape product and if i catch the request hidden api it require a lot of cookie, please help me :(((

  • @geopopos
    @geopopos หลายเดือนก่อน

    this is freaking awesome!

  • @dingdongkornik9521
    @dingdongkornik9521 หลายเดือนก่อน +1

    perfect.. thanks

  • @BruceGatacillo
    @BruceGatacillo 2 หลายเดือนก่อน

    Can you build a script similar to agent zero?

  • @personofnote1571
    @personofnote1571 หลายเดือนก่อน

    Where is the part about getting past blockers? This is only about using playwright.

  • @markomarjanovic8348
    @markomarjanovic8348 หลายเดือนก่อน

    We would like a betting website scraped, thank you! :)

  • @velchurivyaswanth8665
    @velchurivyaswanth8665 หลายเดือนก่อน

    could you please produce a series on webscraping since i observed that when i am using bs4 i am getting only some part of dom content,please try to explain how to webscrape the important information by manipulating ip's for sake of collecting information. Thanks

  • @_rozto
    @_rozto หลายเดือนก่อน

    Why would you use BS4 if you can use Playwright for the same thing? You are already using it to get the web source..

    • @unconv
      @unconv  หลายเดือนก่อน +3

      Good point, haha. I was just using Playwright to get past the block, but yeah it would make sense to get the elements with playwright directly.

    • @_rozto
      @_rozto หลายเดือนก่อน

      @@unconv I think we tend to gravitate towards what we are used to and BS4 has been around for a long time. And it's really good with malformed html, but i really miss the lack of type hinting.

  • @robrita
    @robrita หลายเดือนก่อน +1

    Awesome!! 🎉🎉🎉🎉🎉🎉

  • @Circe-wz3kg
    @Circe-wz3kg หลายเดือนก่อน +1

    But this only shows the results of the first page.

    • @triovo6468
      @triovo6468 หลายเดือนก่อน

      Probably not the best solution but for sites which include a page number parameter you could just loop over it saving each of the page’s results

  • @deadlooop
    @deadlooop หลายเดือนก่อน

    What about LinkedIn

  • @darkreader01
    @darkreader01 หลายเดือนก่อน

    How about twitter live scrapping of a trending topic like any crypto currency or AI, and print them live as they ar posted.

  • @voiceofthetrue1849
    @voiceofthetrue1849 หลายเดือนก่อน

    You have to use proxy, so you will never get banded.

  • @NathanChambers
    @NathanChambers หลายเดือนก่อน +2

    WHy do people always do these on simple sites that return plain html? Be a man and do this vs sites like instagram that return all javascript ;)

  • @soulsearch4077
    @soulsearch4077 หลายเดือนก่อน

    I got a headache