Web Scraping with ChatGPT Code Interpreter is Mind-Blowing!

แชร์
ฝัง
  • เผยแพร่เมื่อ 7 ก.ค. 2024
  • In this video, we'll see how to do web scraping using ChatGPT Code Interpreter.
    🔥 My FREE Cheat Sheets (ChatGPT, web scraping, data science): artificialcorner.substack.com...
    Social Media
    ===========
    ✏️ Medium: thepycoach.com/
    🔗 LinkedIn: / thepycoach
    🐥 Twitter: / thepycoach
    😺 GitHub: github.com/thepycoach
    🎮 Discord: / discord
    My Courses
    ==========
    🔥 Join My Automation Course in Python: www.udemy.com/course/automate...
    🔥 Join My Python for Data Science Bootcamp: www.udemy.com/course/python-f...
    🔥 8-hour Web Scraping Course in Python: www.udemy.com/course/web-scra...
    💰 Make money by writing about AI, programming, data science or tech: thepycoach.teachable.com/p/me...
    Support My Work
    ==============
    💵 PayPal: www.paypal.com/donate/?hosted...
    Content
    0:00 Web Scraping with ChatGPT Code Interpreter
    4:42 Scraping Multiple Pages with Code Interpreter
    7:04 Extra things to consider

ความคิดเห็น • 106

  • @ThePyCoach
    @ThePyCoach  11 หลายเดือนก่อน +13

    Download my FREE ChatGPT Cheat Sheet: frankandrade.ck.page/08c94cf1c1

    • @ahmedmohammed-xo7rr
      @ahmedmohammed-xo7rr 7 หลายเดือนก่อน

      It will be nice if we can apply this approach on Facebook posts and websites?

    • @yusufadeoye5600
      @yusufadeoye5600 4 หลายเดือนก่อน

      HI , please can we still assess the the free chatGPT cheat sheet. please do share again

  • @MHawkinsx
    @MHawkinsx 3 หลายเดือนก่อน

    Mind-blowing stuff! Wonder if combining it with Proxy-Store's proxies would level up the scraping game even more. Any ChatGPT fans here?

  • @Autoscraping
    @Autoscraping 5 หลายเดือนก่อน +5

    A terrific video that has been the cornerstone for our new team members. Thank you for sharing it!

  • @LuisCarlosChavez717
    @LuisCarlosChavez717 11 หลายเดือนก่อน

    Awesome!!!! and extremely useful!

  • @yuryhorulko3834
    @yuryhorulko3834 5 หลายเดือนก่อน

    Thank you so much The PyCoach!

  • @BiologicalDataScientist
    @BiologicalDataScientist 7 หลายเดือนก่อน

    Thanks, that's really helpful advice - and indeed pretty mind-blowing!

  • @therealjohnshelburne
    @therealjohnshelburne 7 หลายเดือนก่อน

    thank you!!! never thought about the save page as html and then uploading

  • @russellwright3818
    @russellwright3818 9 หลายเดือนก่อน

    Thank you very helpful.

  • @Code___Play
    @Code___Play 4 หลายเดือนก่อน

    Very practical and helpful video with very detailed explanation!

  • @DaveNougalMusic
    @DaveNougalMusic 11 หลายเดือนก่อน +2

    Hey PyCoach, learning a lot from you. Thanks man!

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน

      You're welcome!!

  • @Su1c1deK1ng1028
    @Su1c1deK1ng1028 4 หลายเดือนก่อน

    Top tier content bro. Easy sub.

  • @hasanulgonisohayeb6323
    @hasanulgonisohayeb6323 7 หลายเดือนก่อน

    This is really cool❤

  • @montbeltrading
    @montbeltrading 6 หลายเดือนก่อน

    very nice! thumbs up.

  • @mohamadzidani9404
    @mohamadzidani9404 3 หลายเดือนก่อน

    You are the best, subscribed :)

  • @SPL88
    @SPL88 2 หลายเดือนก่อน +1

    Great stuff @ThePyCoach! Question now is, how do we automate this scraping for multi-pages instead of manually saving each page as a new html file?

  • @vventurez
    @vventurez 10 หลายเดือนก่อน

    Thanks for the video! I tried both methods to scrape Udemy and it didn't work, since the content is in a container. Do you have a solution for this?

  • @Scuurpro
    @Scuurpro 4 หลายเดือนก่อน

    how would you do it for the products page. So the tv plus the product pages details of the tv then so on.

  • @yasim9435
    @yasim9435 11 หลายเดือนก่อน +1

    Try saving all the pages at once to reduce manual repetitive work

    • @robertoflores2078
      @robertoflores2078 3 หลายเดือนก่อน

      I guess the manual download part is intended for demonstration. You'd do this programmatically.

  • @laultimaverdad1187
    @laultimaverdad1187 11 หลายเดือนก่อน +1

    cool

  • @KeneDigital
    @KeneDigital 11 หลายเดือนก่อน

    I love your contents especially this one..
    Sir how can we offer this as a service. Who would need this service ?
    Can you help out maybe with a resources thank your

  • @RonWilliams-Hoodle
    @RonWilliams-Hoodle 11 หลายเดือนก่อน +10

    Cool process. But what is the advantage of doing this process, instead of using pre-built scrapers already available like "Instant Data Scraper".

    • @xaviergonzalez6180
      @xaviergonzalez6180 9 หลายเดือนก่อน

      You can tell Chat GPT code interpreter to do the same thing for any amazon page, just upload the html and run the same process. Instant data scraper is clunky and the interface looks old, I'm sick of clicking an dragging with all these data scrapping app extensions. Also certain websites don't work well with data scraper apps to many blockers. try extracting data from harbor freight with instant data scraper. its a nightmare! no thank you.

  • @32AA32
    @32AA32 6 หลายเดือนก่อน

    can this be used to scrape multiple pages like 100 pages on a domain? i guess so, because one page would be silly

  • @awakenwithoutcoffee
    @awakenwithoutcoffee 4 หลายเดือนก่อน

    this is cool ! although It is probably not able to scrape any IMG/Links ?

  • @gsonbiswas9765
    @gsonbiswas9765 7 หลายเดือนก่อน

    Hi, is there any way now to scrape all posts and comments of a subreddit? I need them for my research.

  • @giraldomedia
    @giraldomedia 11 หลายเดือนก่อน +3

    Can you make a video like this that's scrapes the SEO keywords that a website is using?

    • @Daddytang67
      @Daddytang67 10 หลายเดือนก่อน

      YES...LIKE AHREFS

  • @TheLaunchingPadHQ-xz8vy
    @TheLaunchingPadHQ-xz8vy 10 หลายเดือนก่อน

    Hi Frank ty for the great walkthrough! I am trying to scrape google to deterniine companies near me that do not have a website. it appears to be a simple task to determine on the search results which ones to choose but for some reason gpt says the html structure of nesting elements is not allowing it to do so. Any ideas?

    • @lifistudyAnupam
      @lifistudyAnupam 10 หลายเดือนก่อน +1

      So have you done it?

    • @Corteum
      @Corteum 7 หลายเดือนก่อน

      Just make a list of all the businesses near you. Then identify among those which could benefit from having a website. BOOMSHAKALAKA!

  • @SaidThaher
    @SaidThaher 10 หลายเดือนก่อน

    If you used harpa or perplexity it will get the job done with no complications 😅

  • @bigpickles
    @bigpickles 11 หลายเดือนก่อน +5

    I've had a huge increase in scrapers across my entire domain portfolio.
    Given the power of AI, I've managed to poison most of the scraped data and cause major headaches going forward.

    • @tryderrick
      @tryderrick 11 หลายเดือนก่อน

      What do you mean?

    • @bigpickles
      @bigpickles 11 หลายเดือนก่อน +2

      @@tryderrick upon detection, I feed a load of nonsense back in between legit data, and it totally ruins the dataset.

    • @bigpickles
      @bigpickles 11 หลายเดือนก่อน +2

      @@ronin4518 depends what you're scraping. Not my data

  • @aimattant
    @aimattant 11 หลายเดือนก่อน +1

    But not the automation I am looking for - will keep up with the options choose and one click. Maybe a long way to complete it but will do everything I need. Really python and is with some chat chatbot content writing - might use ChatGPT - but the content never passes ai detection like clause on it's first time.

    • @pocketsfullofdynamite
      @pocketsfullofdynamite 11 หลายเดือนก่อน

      You really have to do the most part of the writing for SEO, based on the 'draft' or outline of the content.

  • @Md.HasiburRahman-op7ll
    @Md.HasiburRahman-op7ll หลายเดือนก่อน

    is it same work as like other language website like Hindi , Japanese , Chinese and many more language ?

  • @abdelkrimsaida-zs3tc
    @abdelkrimsaida-zs3tc 5 หลายเดือนก่อน

    the interpreter code does not appear in the beta feautures to activate it just i have only plugin why? do you have a solution please

  • @bobbynicholson5329
    @bobbynicholson5329 11 หลายเดือนก่อน +1

    Could have also just Did View Source, then copy paste, or maybe even use plugins with link reader and paste that viewed source URL in.

    • @egauci1
      @egauci1 8 หลายเดือนก่อน +1

      View source won’t work if the page is rendered dynamically

    • @bobbynicholson5329
      @bobbynicholson5329 8 หลายเดือนก่อน

      true that@@egauci1

  • @markspringfield6112
    @markspringfield6112 7 หลายเดือนก่อน +2

    This was pretty good, but I notice that none of these GPT methods for data extraction deal with pagination. How would we do this if we've got multiple pages of jobs on Glassdoor and you wanted to let chatGPT run through all of them?

    • @LucrativeSetbacks
      @LucrativeSetbacks 6 หลายเดือนก่อน

      Thank you for pointing this out before I went too far in this video, as I am trying to scrape dynamic content loaded with JS

  • @baldyardigan
    @baldyardigan 11 หลายเดือนก่อน

    So how do I scrape data from the product pages as well?

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน

      Just upload its HTML file and follow the same steps

  • @hadijannat4821
    @hadijannat4821 11 หลายเดือนก่อน

    Thanks, but what if we ask it to use link directly with help of beautiful soup and selenium? What would happen

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน +2

      When I checked the code I could see it's using Beautiful Soup. I'm not quite sure what would happen if you specify to use Selenium. Just remember that code interpreter is mostly parsing the HTML file

  • @christiankonnerth3818
    @christiankonnerth3818 10 หลายเดือนก่อน

    Hi, is Code Interpreter also available through the API?

    • @ThePyCoach
      @ThePyCoach  10 หลายเดือนก่อน

      Hi. I'm not quite sure

  • @tradingchamp3493
    @tradingchamp3493 11 หลายเดือนก่อน

    we need to all this thing for scrap? And scrap for what?

  • @denwo1982
    @denwo1982 11 หลายเดือนก่อน +1

    Is it not possible to provide the url and then get it to loop through the pages till it gets to the last page and then get it to export the results to csv

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน +2

      If you pass the URL, ChatGPT will probably tell you that it's not able to perform web scraping or that is against the ToS

    • @anuroop345
      @anuroop345 11 หลายเดือนก่อน +3

      you can ask chatgpt for python script to scrap that page. and then you can run that script on your computer to loop and scrap.

    • @denwo1982
      @denwo1982 10 หลายเดือนก่อน +1

      @@ThePyCoach I would have thought someone would have made a plug-in for this now

    • @denwo1982
      @denwo1982 10 หลายเดือนก่อน

      @@anuroop345 I tried this but it’s not as easy, Chatgpt keeps having trouble with the looping side, plus a few websites require a login to access their site

  • @MSteppe
    @MSteppe 11 หลายเดือนก่อน

    Did they remove the Code Interpreter plugin? How do you get it? I have a paid account. Thanks

    • @Fredsiika
      @Fredsiika 11 หลายเดือนก่อน +1

      Try enabling it in your settings. Open Settings > Click on "Beta Features" > Press "Code interpreter" toggle button

  • @wanderingzanzey2126
    @wanderingzanzey2126 7 หลายเดือนก่อน

    listening to this video gives me "Two Minute Papers" vibes. I was waiting for ""Alright everyone, hold onto your papers"

    • @tonycummings4588
      @tonycummings4588 5 หลายเดือนก่อน +1

      what a time to be alive

  • @Baka_Oppai
    @Baka_Oppai 8 หลายเดือนก่อน

    code interpreter isnt even an option was it removed? Maybe explain how to get it thatd be helpful

  • @xtremereality
    @xtremereality 7 หลายเดือนก่อน +1

    So basically you made a tutorial about saving a file and loading it into chatgpt?

  • @Brisius
    @Brisius 9 หลายเดือนก่อน

    Why would I do this? What is the use case for this

  • @countitworldwide007
    @countitworldwide007 9 หลายเดือนก่อน +1

    🎯 Key Takeaways for quick navigation:
    00:00 🌐 Introduction to web scraping with ChatGPT Code Interpreter
    01:07 📂 Saving a webpage as an HTML file
    03:38 🧩 Extracting data from HTML using ChatGPT
    04:08 📄 Exporting extracted data to CSV
    05:03 🔁 Repeating the process for multiple pages
    06:51 🌐 Scraping data from Glassdoor
    08:13 🧩 Scraping specific data elements from Glassdoor
    11:56 📄 Exporting Glassdoor data to CSV
    12:37 🚀 Conclusion and call to action
    Made with HARPA AI

  • @armwrestling_nerd
    @armwrestling_nerd 10 หลายเดือนก่อน +1

    This was actually slower than classic python scraping.

    • @abiol1542
      @abiol1542 9 หลายเดือนก่อน

      Hey would you be able to assist in python scraping script and looping the scape for another search ?

  • @josiahgwar1697
    @josiahgwar1697 9 หลายเดือนก่อน +1

    But it appears this only works with the paid version of chatGBT

  • @Daddytang67
    @Daddytang67 10 หลายเดือนก่อน

    Ok...but what I really need is for chatgpt to code a webapp like Ahrefs.

  • @alexv259
    @alexv259 10 หลายเดือนก่อน

    What is the purpose of doing this? What was the problem that makes your work its solution?

  • @letitbeai
    @letitbeai 11 หลายเดือนก่อน +1

    I don't wanna be that guy, but you can do this with a free tool called Harpa in a split of a second, it is nice to see the procedure but... 🤷‍♀

  • @MarioZuniga-pi3cz
    @MarioZuniga-pi3cz 7 หลายเดือนก่อน

    3:05 a empresa AVANCO SOCIAL tem o poder de transformar marcas e negócios por meio da habilidade em impulsionar redes sociais. É inspirador!

  • @craftedbysrs
    @craftedbysrs 11 หลายเดือนก่อน +7

    I used it to scrap some websites. Last week my account was banned, said my activity was suspicions.

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน

      How could that happen? Did you upload too many HTML files?

    • @craftedbysrs
      @craftedbysrs 11 หลายเดือนก่อน +1

      ​@@ThePyCoachNo i didn’t. I just uploaded direct link with scraper plugin on. And prompted the code interpreter to generate a new programming language that is more advanced.

    • @curious_one1156
      @curious_one1156 11 หลายเดือนก่อน +3

      that is why you need to use langchain and make your own code agent.
      Also, only use interpreter to write code once, then handle it yourself.

    • @contentfreeGPT5-py6uv
      @contentfreeGPT5-py6uv 11 หลายเดือนก่อน

      ​@@curious_one1156how

    • @bigpickles
      @bigpickles 11 หลายเดือนก่อน +1

      Good. We don't like dodgy scrapers.

  • @simongus
    @simongus 11 หลายเดือนก่อน +1

    What will happen if you want to scrape 1 million pages? 😀

    • @robertoflores2078
      @robertoflores2078 3 หลายเดือนก่อน

      1 million page downloads, and 1 million ChatGPT uploads.

  • @egretfx
    @egretfx 11 หลายเดือนก่อน +1

    this video should have been a short.

  • @AlexandrShevchenko000
    @AlexandrShevchenko000 11 หลายเดือนก่อน +46

    This scraping is very manual. There are much better ways.

    • @carkawalakhatulistiwa
      @carkawalakhatulistiwa 11 หลายเดือนก่อน

      Next version of code interpreter

    • @izzyal-zyoud7563
      @izzyal-zyoud7563 11 หลายเดือนก่อน +10

      Could you please share them

    • @mishos.2228
      @mishos.2228 11 หลายเดือนก่อน +12

      @@izzyal-zyoud7563 webpilot plugin, can scrape any number of pages with one prompt and by just providing the page 1 link

    • @klaaskay2685
      @klaaskay2685 11 หลายเดือนก่อน

      @@mishos.2228 Won't that get you banned anytime soon using just links?

    • @rancio3354
      @rancio3354 11 หลายเดือนก่อน +3

      Yea this aint web scraping. this is html extracting data, where is the web scraping at?? you are doing it manual…

  • @seobookpro
    @seobookpro 6 หลายเดือนก่อน

    Dude 😂

  • @fizzlid4511
    @fizzlid4511 5 หลายเดือนก่อน

    This is more of a chatgpt-aided manual scraping. The processes aren't automated.

  • @timgentemann6324
    @timgentemann6324 5 หลายเดือนก่อน

    If you know web scraping this is really nothing :D

  • @faizelnoorgat7141
    @faizelnoorgat7141 10 หลายเดือนก่อน +2

    Watching your video made me angry

  • @faizelnoorgat7141
    @faizelnoorgat7141 10 หลายเดือนก่อน +1

    I really don’t like this title. It feels dishonest. There’s are much better ways to use chatgpt to scrape

  • @dhuruvm
    @dhuruvm 11 หลายเดือนก่อน

    Bro how to train a own AI 😅 and make like chatgpt

    • @ThePyCoach
      @ThePyCoach  11 หลายเดือนก่อน +1

      I think you need to use Langchain for that

    • @dhuruvm
      @dhuruvm 11 หลายเดือนก่อน

      @@ThePyCoach you can create a chatbot using Langchain how to make a chatgpt using Langchain

  • @ikjb8561
    @ikjb8561 4 หลายเดือนก่อน

    Not too useful. Stick to node puppeteer or perl/python command line scripts.

  • @RedTekno
    @RedTekno 4 หลายเดือนก่อน

    Clickbait 😅

  • @AI-4-U
    @AI-4-U 10 หลายเดือนก่อน +1

    Please remove this video, you wasted my 15 minutes 😢