Web Scraping AI AGENT, that absolutely works 😍

แชร์
ฝัง
  • เผยแพร่เมื่อ 19 ม.ค. 2025

ความคิดเห็น • 105

  • @unclemike2008
    @unclemike2008 8 หลายเดือนก่อน +5

    "poor" Love you brother! Right there with you. Great video. Been trying and failing to get a scraper with java support. Cheers!

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +1

      Someone noticed it :D

  • @jbo8540
    @jbo8540 8 หลายเดือนก่อน +4

    If your LLM gives you an article you can't find, my first assumption is that it made it up. While this is an interesting use case, it's going to likely take very precise prompt engineering to not get hallucinated outputs.

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +3

      No, it's my bad. After the video I reviewed the web page. In fact, I added the screenshot in the video. It was inside the carousel

  • @bastabey2652
    @bastabey2652 7 หลายเดือนก่อน +1

    this ScrapegraphAI tool is the most interesting scraping tool I've tested so far

    • @De-e-kay
      @De-e-kay 6 หลายเดือนก่อน

      I am not having success with it. It only gives me urls, titles, related posts. No content that I ask for.

  • @marcoaerlic2576
    @marcoaerlic2576 7 หลายเดือนก่อน +1

    Really great video, thank you. I would be interested in seeing more videos about ScrapeGraphAI.

  • @HeberLopez
    @HeberLopez 8 หลายเดือนก่อน +1

    I find this live example pretty useful for general purpose, I can think of multiple ways I could use this for one off PoCs

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      Glad it was helpful!

  • @Panacea_archive
    @Panacea_archive 8 หลายเดือนก่อน +3

    Amazing ! If my PSU wasn’t dead I wouldn’t be sleeping for days

  • @NaveenChouhan-mm5gz
    @NaveenChouhan-mm5gz 8 หลายเดือนก่อน +1

    I tried to install the scrapegraphai but I'm getting stuck in the yahoo search dependency which breaks the execution and return attribute error.

  • @alqods80
    @alqods80 8 หลายเดือนก่อน +1

    There is a playwright function that bypasses the irrelevant resources so the scraping becomes faster

  • @madhudson1
    @madhudson1 7 หลายเดือนก่อน

    It depends on the llm used and questions you pose it. It can often not generate json and the library isnt best suited for iteration through a collection of sites

  • @alx8439
    @alx8439 8 หลายเดือนก่อน +11

    Next time it will also need a visual model to solve capchas because website administrators will be protecting their precious content from scraping :)

  • @patrickwasp
    @patrickwasp 8 หลายเดือนก่อน +10

    It’s a spider, not an octopus. Spiders crawl on webs.

    • @opusdei1151
      @opusdei1151 8 หลายเดือนก่อน

      What is an octopus? Which crawls API's or do datamining

  • @kalilinux8682
    @kalilinux8682 8 หลายเดือนก่อน +1

    Could you please do more videos on this. Like trying to use it on more educational content with equations used using mathjax and katex

  • @Balajik7-qh1pq
    @Balajik7-qh1pq 8 หลายเดือนก่อน +1

    I like all your videos , keep rocking bro

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      Thank you so much 😀

  • @ayyanarjayabalan
    @ayyanarjayabalan 8 หลายเดือนก่อน

    Awesome we need more practical session with code like this.

  • @edgarl.mardal8256
    @edgarl.mardal8256 7 หลายเดือนก่อน

    you are the best indian youtuber I have soon to this date.

  • @DhruvPatel-vl1tj
    @DhruvPatel-vl1tj 6 หลายเดือนก่อน

    There is a problem i am encountering for many websites i am getting empty response from the library i have tried many solutions that were listed in their official documentation like proxy rotation , using different models etc .... also the output that it gives for any website also takes like minimum of 2-3 minutes pls help me solve the problem

  • @liamlarsen9286
    @liamlarsen9286 8 หลายเดือนก่อน

    thanks for the heads up at 6:00 .
    worked when using that version only

  • @mihirprakash6009
    @mihirprakash6009 6 หลายเดือนก่อน

    Hi, can it scrape from the web in general? Like not a particular website

  • @meetscreationz5591
    @meetscreationz5591 6 หลายเดือนก่อน

    Hi, Could you please elaborate on setting base_url port number? also, where did you check olama information? kindly guide. TIA

  • @Kevinsmithns
    @Kevinsmithns 6 หลายเดือนก่อน

    Have you used vapi to automatically do cold calls

  • @darkreader01
    @darkreader01 6 หลายเดือนก่อน

    if we want to scrape from websites that need authentication, how can we do that? Is there any way to login first or any option to use cookies?

  • @inplainview1
    @inplainview1 8 หลายเดือนก่อน +3

    Watching this before youtube gets upset again. 😉

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +2

      Honestly, I was actually scared before uploading this, but let's see!

    • @inplainview1
      @inplainview1 8 หลายเดือนก่อน +1

      @1littlecoder Hopefully all is well.

  • @morease
    @morease 8 หลายเดือนก่อน

    I fail to see why rag is needed when the library can simply be asked to identify the html path/element that contains the content, and then extract the html from that with cheerio

  • @manojy1015
    @manojy1015 8 หลายเดือนก่อน

    We need more tutorials of practical live examples of llm especially rag and fine tuning

  • @moonwhisperer4804
    @moonwhisperer4804 7 หลายเดือนก่อน

    Only if this tool has a way to automatically know how to go through different paginated pages and go into each detail page to extract data

  • @ramanaraj7
    @ramanaraj7 7 หลายเดือนก่อน

    can we use Gemini API to do the same?

  • @Ari_Alur
    @Ari_Alur 8 หลายเดือนก่อน +1

    Would it be possible to explain the whole thing to someone who has nothing to do with programming? I was able to install everything but I can't do anything with the code from github...
    Would be great :) Thanks for the video! Very interesting but unfortunately not feasible for me.
    (I'm on Linux)

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +1

      Do you want me to show how to run the code from GitHub? Will it be helpful

    • @Ari_Alur
      @Ari_Alur 8 หลายเดือนก่อน

      Yeah! At least in a way that's easier to understand. I don't know anything about code, so I need things to be clear and simple.

    • @Ari_Alur
      @Ari_Alur 8 หลายเดือนก่อน

      Thanks!:)

  • @TUSHARGOPALKA-nj7jx
    @TUSHARGOPALKA-nj7jx 2 หลายเดือนก่อน +1

    Very useful!

    • @1littlecoder
      @1littlecoder  2 หลายเดือนก่อน

      Glad it was helpful!

  • @Anesu-nv1mh
    @Anesu-nv1mh 2 หลายเดือนก่อน

    can it scrape photos and videos also and get it downloaded ??

  • @jarad4621
    @jarad4621 8 หลายเดือนก่อน

    Is the llm there to convert the raw html to structured data? Then it saves to rag and you can query the data with another llm to analyse? I need to scrape homepages from 10k sites tostructured data into rag db to ask The sites questions, can it be setup todo many sites like an automated agent, or can it be used as a tool or function call in an agent framework like crew ai? that video would be cool

  • @IdPreferNot1
    @IdPreferNot1 8 หลายเดือนก่อน

    What am i missing.... error running the async cell?

  • @BiXmaTube
    @BiXmaTube 8 หลายเดือนก่อน

    Need proper pdf parsing ai that I can run on a cloud server without gpu. Extracting text, tables and images and arranging it in a db based on a prompt that puts each data in the right table. That will be amazing if you can find something like that.

  • @adriangpuiu
    @adriangpuiu 8 หลายเดือนก่อน

    another question , what if we only want to scrape and not emmbed anything ?

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      I think in those cases you can probably use a conventional libraries I guess but that's a good question there are different classes within this library that might let it do

    • @adriangpuiu
      @adriangpuiu 8 หลายเดือนก่อน

      @@1littlecoder
      from scrapegraphai.graphs import BaseGraph
      from scrapegraphai.nodes import FetchNode, ParseNode,generate_answer_node
      graph = BaseGraph(
      nodes={
      fetch_node,
      parse_node,
      },
      edges={
      (fetch_node, parse_node),
      (parse_node, generate_answer_node),
      },
      entry_point=fetch_node
      ) .. i dont have time to try it now cause im at work :))

  • @AI-Wire
    @AI-Wire 8 หลายเดือนก่อน

    So, this is impossible to run in Colab? I like to automate many of my tasks using Github actions.

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      You can run on colab. But you'd need openai keys

  • @TailorJohnson-l5y
    @TailorJohnson-l5y 7 หลายเดือนก่อน

    Great video! Thank you!

  • @oliverli9630
    @oliverli9630 8 หลายเดือนก่อน

    wondering when somebody will integrate `undetected-chrome` to it.

  • @ngoduyvu
    @ngoduyvu 8 หลายเดือนก่อน

    thanks for the tutorial, please make more tutorial for this ScrapeGraphAI, can you make one for scraping the website that has antibot or credential (require login)

  • @viddeshk8020
    @viddeshk8020 8 หลายเดือนก่อน

    I don't understand that for web scrapping why do I have to install so much of other dependencies like ollama etc. I mean it is just a simple webscraping why make the thinks complex? Still for the complex task a complex prompt needs to be given.

    • @liamlarsen9286
      @liamlarsen9286 8 หลายเดือนก่อน

      ollama is just a frmework to run LLMs locally, so it downloads the model insted of using an API and connecting to server

    • @madhudson1
      @madhudson1 7 หลายเดือนก่อน

      If you just want scraping, don't bother with this.
      However, if you want scraping + RAG, with LLM integration, then use this. But it's not without it's issues

  • @planplay5921
    @planplay5921 8 หลายเดือนก่อน

    it still have the risk of being blocked, it's just a way of parsing

  • @CM-zl2jw
    @CM-zl2jw 8 หลายเดือนก่อน

    🤣 I enjoy your sense of humor. Thank you. You are RICH in kindness and intelligence. That’s almost as good as money…. Money only buys limited amounts of happiness.
    Your videos are very helpful and informative. I’ll pay you to help me figure a couple things out. What’s your contact?

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      Thank you 1littlecoder@gmail.com is my email

  • @kushagrakapoor9181
    @kushagrakapoor9181 6 หลายเดือนก่อน

    hey man im getting not implemented error

  • @einekleineente1
    @einekleineente1 7 หลายเดือนก่อน

    It would have been nice if you would have shown to install Ollama locally first.

    • @1littlecoder
      @1littlecoder  7 หลายเดือนก่อน

      I'm sorry I had done it a few times before so didn't repeat th-cam.com/video/C0GmAmyhVxM/w-d-xo.html

    • @einekleineente1
      @einekleineente1 7 หลายเดือนก่อน +1

      @@1littlecoder cool. Thank you 👍🏻

  • @DM-py7pj
    @DM-py7pj 8 หลายเดือนก่อน

    looks something like spider (scrape/crawl) + bone (GET/fetch) + document | parse ( HTML) ???

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +1

      Plus RAG, yes!

  • @user-nm2wc1tt9u
    @user-nm2wc1tt9u 8 หลายเดือนก่อน

    does it work on google colab?

  • @yashsrivastava677
    @yashsrivastava677 8 หลายเดือนก่อน

    Will it work to scrape linkedIn jobs?

  • @CryptoMaN_Rahul
    @CryptoMaN_Rahul 5 หลายเดือนก่อน

    Wanted to do it using misyral apt

  • @prasannaprakash892
    @prasannaprakash892 8 หลายเดือนก่อน

    This is great, thanks for sharing, Can you share your python version as i am getting an error when running the same code

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      I guess mine is 3.9ish

  • @EobardUchihaThawne
    @EobardUchihaThawne 8 หลายเดือนก่อน

    Ok, now that's a good useage of ai model

  • @aionair77
    @aionair77 8 หลายเดือนก่อน +1

    BTW, that's a spider in the logo. It's a spider that lives in the World Wide Web 😅

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      How did I not even think about it?😭😭😭

    • @aionair77
      @aionair77 8 หลายเดือนก่อน

      @@1littlecoder :)

  • @LeeBrenton
    @LeeBrenton 8 หลายเดือนก่อน

    scrape Facebook please! - I need to do the most boring thing for work, I tried to program a scrapper but FB makes it very hard, I was only partially successful (expecially grabbing the post date). This method looks very exciting :)

    • @webhosting7062
      @webhosting7062 8 หลายเดือนก่อน

      What was ur requirements?

    • @LeeBrenton
      @LeeBrenton 8 หลายเดือนก่อน

      @@webhosting7062 I write a daily report, based on the new posts in various FB groups .. but FB doesn't put posts in the correct order (also, pinned posts up the top will be old posts) .. so i need to check the date, but, FB obfuscates the date like a MF .. i wasn't able to figure it out with selenium.
      so, requirements are .. 'get the latest (less than ~24hr old posts) from a FB group.

  • @honneon
    @honneon 8 หลายเดือนก่อน

    i luv it❤

  • @adriangpuiu
    @adriangpuiu 8 หลายเดือนก่อน

    can it do heavy JavaScript sites ? :))

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      I've not tried it! it'd be a good opportunity to try that, especially given it uses Playwright!

    • @adriangpuiu
      @adriangpuiu 8 หลายเดือนก่อน

      @@1littlecoder ill tell ya, i tried and it fails miserably :)) , if you have better luck let us know man

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      @@adriangpuiu ah that's bad. Which website was it ?

    • @adriangpuiu
      @adriangpuiu 8 หลายเดือนก่อน

      @@1littlecoder the user replyes are incapsulated in a JS response from what i noticed, maybe they have an api or soething , i was just unable to figure it out . YET ...

    • @adriangpuiu
      @adriangpuiu 8 หลายเดือนก่อน

      @@1littlecoder its the appian discussion forum

  • @monuaimat5228
    @monuaimat5228 8 หลายเดือนก่อน +1

    RAG: Ritual Augmented Generation 😂

    • @J3R3MI6
      @J3R3MI6 8 หลายเดือนก่อน +1

      🕯️🕷️🕯️

  • @tauquirahmed1879
    @tauquirahmed1879 8 หลายเดือนก่อน +1

    great video....

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      Glad you enjoyed it

  • @pavanpraneeth4659
    @pavanpraneeth4659 หลายเดือนก่อน

    Is this for free
    ? Or is it paid 😊

  • @jmirodg7094
    @jmirodg7094 8 หลายเดือนก่อน

    thanks! 👍

  • @MadhavJoshi-m8m
    @MadhavJoshi-m8m 8 หลายเดือนก่อน

    Only is own-lee
    Not one-lee
    Btw great video

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน

      😭 will try to fix it!

  • @shobhanaayodya7024
    @shobhanaayodya7024 8 หลายเดือนก่อน

    That logo is a spider 🕸️🕷️

  • @rahuldinesh2840
    @rahuldinesh2840 8 หลายเดือนก่อน

    I think Chrome extensions are best.

  • @reserseAI
    @reserseAI หลายเดือนก่อน

    Looks like jina reader

  • @Naniirowadesuka
    @Naniirowadesuka 7 หลายเดือนก่อน

    reddit being called front page of internet is like... no please

  • @Macorelppa
    @Macorelppa 8 หลายเดือนก่อน +1

    🥇

  • @webhosting7062
    @webhosting7062 8 หลายเดือนก่อน

    What about site build with jquery.. Does it works for that too?

    • @1littlecoder
      @1littlecoder  8 หลายเดือนก่อน +1

      I have not tried it . Someone else in the comments said it might not very good.

  • @mldn007
    @mldn007 หลายเดือนก่อน

    can i get your email to help me with this project. Im not sure how to set this up for my project.

  • @Balajik7-qh1pq
    @Balajik7-qh1pq 8 หลายเดือนก่อน

    I like all your videos , keep rocking bro