Chunking Strategies in RAG: Optimising Data for Advanced AI Responses

แชร์
ฝัง
  • เผยแพร่เมื่อ 20 ม.ค. 2025

ความคิดเห็น • 127

  • @loganhallucinates
    @loganhallucinates 9 หลายเดือนก่อน +8

    This is a shorter version of Greg's video, thanks for sharing!

  • @TelB
    @TelB 10 หลายเดือนก่อน +5

    Outstanding! An absolute masterclass. Thank you so much Mervin. Personally, I think that this is one of your best videos to-date. I watched enthralled!

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Thank you 😊

    • @Puneet-Bajaj
      @Puneet-Bajaj 8 หลายเดือนก่อน

      @@MervinPraison How can we use the agentic chunking with groq api, i tried to replace there in the code but it is throwing error

  • @timothyspottering
    @timothyspottering 10 หลายเดือนก่อน +1

    Thank you for the video!
    I recently built my first RAG application and chunking + retrieval was the main challenge.

  • @yotubecreators47
    @yotubecreators47 10 หลายเดือนก่อน +1

    this is best high quality channel and videos no intor/no long stuff just to point thank you very much

  • @truthwillout1980
    @truthwillout1980 10 หลายเดือนก่อน

    This is an absolutely brilliant video Mervin. Exactly what I needed and implemented and explained brilliantly.

  • @traineroperators2885
    @traineroperators2885 10 หลายเดือนก่อน +1

    Really a good job Mr Mervin !!!!!! we really appreciate your effort for this valuable knwoledge

  • @SolutreanHypothesis
    @SolutreanHypothesis 10 หลายเดือนก่อน

    That's really excellent! I watched Greg's video last week and have been thinking since about implementing it. Thank you so much!

  • @Slimshady68356
    @Slimshady68356 10 หลายเดือนก่อน +1

    I am glad you put all these on open ,Thanks ,I subscribed instantly Underrated channel I must say

  • @adamchan4403
    @adamchan4403 10 หลายเดือนก่อน +1

    That’s what I m looking for ! Thanks so much again , Mervin 🙏🏻

  • @sivi3883
    @sivi3883 8 หลายเดือนก่อน

    Best 15 mins of my day. Excited to try the agentic chunker. Would love to hear your thoughts on what if the source contents contain a mix of texts and lot of tables.

  • @mariacardoso5145
    @mariacardoso5145 16 วันที่ผ่านมา

    Im loving your videos!

  • @rodeldagumampan8858
    @rodeldagumampan8858 4 หลายเดือนก่อน

    Great video. Short and practical. All the best.

  • @FANATANGO
    @FANATANGO 10 หลายเดือนก่อน

    Thanks a lot for your work, it is very interesting and you are very clear in your explanation

  • @TLabsLLC-AI-Development
    @TLabsLLC-AI-Development 10 หลายเดือนก่อน

    This is very nice of you to make. Thank you.

  • @RonMar
    @RonMar 5 หลายเดือนก่อน

    Fantastic ideas and breakdown! Thank you!

  • @memhans
    @memhans 10 หลายเดือนก่อน

    Well done, it expleained briefly. Thanks

  • @kamalsinghbisht1964
    @kamalsinghbisht1964 2 วันที่ผ่านมา

    Superb!!!

  • @pradikshadevi2024
    @pradikshadevi2024 6 หลายเดือนก่อน +1

    Really amazing...Thanks a lot

  • @hassentangier3891
    @hassentangier3891 10 หลายเดือนก่อน

    I applied the semantic approach for topic modelling approach and it's produce a better topicallity a better titling propositions when we use hf LLM with.
    I will try the last method for the db creation
    Thanks Mille

  • @ForTheEraOfLove
    @ForTheEraOfLove 10 หลายเดือนก่อน

    You did what I recommended! I appreciate you 🎉

  • @neelpatel9910
    @neelpatel9910 วันที่ผ่านมา

    hello @Mervin praison Sir
    what we can do if we want to use it in free tier

  • @luxlmj109
    @luxlmj109 9 หลายเดือนก่อน

    Thanks a lot for the video! I have a question? how can use the same code but directly to a pdf file and not a string in the code?
    thanks a lot

  • @ajithdevadiga9939
    @ajithdevadiga9939 หลายเดือนก่อน

    Quality Content, Thanks

  • @I.L.-nd6hs
    @I.L.-nd6hs 10 หลายเดือนก่อน

    Thanks for an amazing, educational and insightful video.
    One comment please: It seems you're skipping the "Chunk #1" along the process, which has the "This capability" in its beginning, so it's not categorized correctly to the first chunk. This seems to be caused by an error of the LLM, not un-contextualizing that sentence correctly as it's instructed by the prompt.
    Am I right?
    Any idea why it happened?
    Thanks again for a great video!

  • @paoloavogadro7329
    @paoloavogadro7329 10 หลายเดือนก่อน +1

    Excellent, bravo

  • @UncleDao
    @UncleDao 10 หลายเดือนก่อน

    That is great! Mervin.

  • @tomhiggins451
    @tomhiggins451 8 หลายเดือนก่อน

    Excellent Video! Thanks for sharing!

  • @antonijo01
    @antonijo01 5 หลายเดือนก่อน

    What would be the best chunking strategy for a large code base?

  • @NetZeroEarth
    @NetZeroEarth 10 หลายเดือนก่อน +1

    Thank you! Any IOT use cases with CrewAI?

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน +1

      I will look in to this

  • @user-motivational13
    @user-motivational13 10 หลายเดือนก่อน

    Thanks for the video, trying this out

  • @nagireddygajjela5430
    @nagireddygajjela5430 5 หลายเดือนก่อน +1

    Great video

  • @Hoxle-87
    @Hoxle-87 9 หลายเดือนก่อน +1

    Thank you for the informative video. How do you handle pictures or plots in documents ? Is there a special way to handle them?

    • @MrAhsan99
      @MrAhsan99 8 หลายเดือนก่อน

      u got anything on that?

    • @Hoxle-87
      @Hoxle-87 8 หลายเดือนก่อน +1

      @@MrAhsan99 no, but ollama has a model for that, Llava. It does ok. I guess I would need to fine tune a model for better results

    • @MrAhsan99
      @MrAhsan99 8 หลายเดือนก่อน

      @@Hoxle-87 Thanks for sharing this

  • @hughesadam87
    @hughesadam87 5 หลายเดือนก่อน +1

    Really great stuff

  • @tal7atal7a66
    @tal7atal7a66 10 หลายเดือนก่อน

    ❤ , excellent tutorial/infos . thanks bro

  • @cynorsense
    @cynorsense 6 หลายเดือนก่อน

    Nice tutorials
    Great stuff. How do we store the json data as chucking is actually not doing great job with key values instead thinking random brackets and so on? Do you have a solution ?

  • @sanoussabarry4218
    @sanoussabarry4218 8 หลายเดือนก่อน

    really great video and well explained

  • @AnangTomar
    @AnangTomar 8 หลายเดือนก่อน

    Amazing Video !!

  • @limjuroy7078
    @limjuroy7078 10 หลายเดือนก่อน

    Thank you very much! This video is helpful for those interested in building RAG apps. I'm not sure if it can also be helpful with chunking legal or contract documents in PDF format.

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Yes , you need to extend this document chunking code to include PDF docs .

    • @raajahaihum6177
      @raajahaihum6177 6 หลายเดือนก่อน

      How to increase this code for PDF?

  • @mushtaquelovepooja
    @mushtaquelovepooja 2 หลายเดือนก่อน

    Great explanation... Can you make a video on how to chunk a large json file.

  • @AmeliaMelia-tj3kc
    @AmeliaMelia-tj3kc 4 หลายเดือนก่อน

    does this is for all cases ,or for this specific case

  • @nicklesseos
    @nicklesseos 9 หลายเดือนก่อน

    😮Thank you so much!

  • @AIWalaBro-Bharatbhushan
    @AIWalaBro-Bharatbhushan 10 หลายเดือนก่อน

    love with this video

  • @theclip810
    @theclip810 2 หลายเดือนก่อน

    very usefull sir

  • @alqods80
    @alqods80 10 หลายเดือนก่อน +2

    So the best technique is to use agentic chunking with grouping ?

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Yes, but it also costs a bit more compared to others

    • @alqods80
      @alqods80 10 หลายเดือนก่อน

      @@MervinPraison so which next best for free

  • @jim02377
    @jim02377 10 หลายเดือนก่อน

    Great video!

  • @SaurabhSharma-jp2kv
    @SaurabhSharma-jp2kv 8 หลายเดือนก่อน

    can we try agentic chunking with ollama?

  • @ainc-fp2cp
    @ainc-fp2cp 10 หลายเดือนก่อน

    you are excellent! thank u

  • @MrSuntask
    @MrSuntask 10 หลายเดือนก่อน

    Great content ❤

  • @TerrenceVerlander
    @TerrenceVerlander 10 หลายเดือนก่อน

    So once youve used this tactic to create a vector database with all the stuff inside it and save it to a chroma db, how would you use an llm to query the database afterwards ? It seems the chunking is part of the retrival process aswell based on how you presented this, running this script everytime doesnt seem that great

  • @rafsankabir9152
    @rafsankabir9152 7 หลายเดือนก่อน

    Amazing one

  • @VinayakShanawad
    @VinayakShanawad 10 หลายเดือนก่อน

    Thank you so much for the video!!
    When using models like "all-mpnet-base-v2" from the Sentence Transformers library to generate embeddings and store them in Vector DB, which are based on architectures like BERT, the maximum token limit per input sequence is typically 512 tokens.
    As long as my input text does not exceed the maximum input sequence which is 512 tokens then we don't need to deal with different chunking strategies covered in this video. I meant chunking strategies are meant for long input text (1000s of words), is that correct understanding?

    • @ilianos
      @ilianos 10 หลายเดือนก่อน

      You're right, chunking is only relevant for longer input. Though, I'm not sure if it would be correct to say that it's ONLY relevant when the context length of your LLM is exceeded or if a RAG makes sense nonetheless.

    • @VinayakShanawad
      @VinayakShanawad 10 หลายเดือนก่อน

      @@ilianosYeah, we will be retrieving the top k closest vectors, ranking them if necessary then fed to LLM so that we will not exceed the context window of our LLM.

  • @Augmented_AI
    @Augmented_AI 10 หลายเดือนก่อน

    Are you from South Africa?

  • @vikramkharvi9679
    @vikramkharvi9679 9 หลายเดือนก่อน

    value is not a valid list (type=type_error.list) I get this error

  • @robinmordasiewicz
    @robinmordasiewicz 10 หลายเดือนก่อน

    Is it possible to use nomic-embed-text with autogen ?

  • @umangternate
    @umangternate 8 หลายเดือนก่อน

    Can I use Gemini embedding instead of openai?

    • @MervinPraison
      @MervinPraison  8 หลายเดือนก่อน +1

      Yes. But you might need to modify the code accordingly.

    • @umangternate
      @umangternate 8 หลายเดือนก่อน

      ​@@MervinPraisonI installed langchain-experimental and it is listed when I checked it with pip list. However, when I tried to import it, it could not be resolved. I tried to rerun the terminal, conda, reopen the folder, but nothing seems to work.

  • @60pluscrazy
    @60pluscrazy 19 วันที่ผ่านมา

    Good one Mervin. Shouldn't you use chunks instead of documents in this snippet?
    # RAG
    def rag(chunks, collection_name):
    vectorstore = Chroma.from_documents(
    documents=documents, #

  • @proterotype
    @proterotype 8 หลายเดือนก่อน

    This is amazing

  • @THE-AI_INSIDER
    @THE-AI_INSIDER 10 หลายเดือนก่อน

    awesome as always!
    i have a question, can we use any other llm for agentic chunking, can you suggest any open source free alternative to gpt3.5? I have the same setup with local ollama mistral, can i again use that for agentic chunkling?

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน +1

      Nexus Raven is the closest. You need funtion calling to do that task . But you might need to modify the agentic chunker.py code

  • @machinelearning6817
    @machinelearning6817 5 หลายเดือนก่อน

    Thakyou so much sir

  • @powersshui2406
    @powersshui2406 10 หลายเดือนก่อน

    hello Mervin Praison,
    Your coding environment is my favorite style.
    colud you tell me how to setup in ubuntu?
    thank you.

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      It’s just VS code

  • @pochtaliot
    @pochtaliot 9 หลายเดือนก่อน

    Very nice, how about achieving the same using open source LLMs?

  • @jawadmansoor6064
    @jawadmansoor6064 10 หลายเดือนก่อน

    agentic chunking, good idea, but you can top that apply vactorization of these chunks i.e. apply previous (semantic chunking) now.

    • @jawadmansoor6064
      @jawadmansoor6064 10 หลายเดือนก่อน

      BTW, agentic chunking is extremely expensive, though on MTEB only LLMs stand atop.

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Yes you can again implement semantic back again . Yes it’s expensive

    • @I.L.-nd6hs
      @I.L.-nd6hs 10 หลายเดือนก่อน

      @@jawadmansoor6064 If you mean 'expensive' as a computing power - you're right. About expensive in money - maybe it can be implemented using one of the great free available LLMs?
      What do you say, dear @MervinParison ?

  • @hamzazerouali7820
    @hamzazerouali7820 10 หลายเดือนก่อน

    Thank you for the video. That's amazing. Could you please give us the name of the tool that makes autocomplete for your code ? Amazing content :D

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      I use GitHub copilot and continue interchangeably

  • @ImpactEtching
    @ImpactEtching 4 หลายเดือนก่อน

    this is good sh..t.. thank you for your public service !

  • @latrompetasonara
    @latrompetasonara 7 หลายเดือนก่อน

    This is so mind-blowing!! Is there any option for coder beginners? I'd be happy to pay a one-time subscription to get a software that helps me organize my data this way.
    Especially if the rag system is able to get the references from the retrieved info. That'd be awesome for a deeper understanding of multiple (not hundreds, but thousands) papers in academic reaearch.
    Thanks for the video!

  • @PandoraBox1943
    @PandoraBox1943 10 หลายเดือนก่อน

    I like it 👍

  • @MrAhsan99
    @MrAhsan99 8 หลายเดือนก่อน

    1- How are you handling the tables and diagrams in the documents?
    2- You are loading a text document, How to do this on a pdf file?

  • @DougLopes
    @DougLopes 8 หลายเดือนก่อน

    Good explanation. But it is impossible to read line 185 and by consequence, impossible to test the best snippet that you are soposed to teaching

  • @micbab-vg2mu
    @micbab-vg2mu 10 หลายเดือนก่อน +8

    I am a fan of preparing data beforehand and semantic chunking - this random 1k token chunking methods does not work for me. In medical field you need at least 95% accuracy:)

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      True. Preparing data beforehand would be more ideal

    • @RobertoMartin1
      @RobertoMartin1 10 หลายเดือนก่อน +2

      Yep data prepping is key especially if you're extracting data from pdfs and such!

    • @harshitgupta7496
      @harshitgupta7496 9 หลายเดือนก่อน

      Hello! How do we limit the output tokens in each document to say 512 tokens in semantic chunking. I am trying to implement it but it fails.

    • @smklearn-hy9me
      @smklearn-hy9me 6 หลายเดือนก่อน

      Hey what do you mean by preparing data beforehand here can you explain me

    • @smklearn-hy9me
      @smklearn-hy9me 6 หลายเดือนก่อน

      Hello

  • @darwingli1772
    @darwingli1772 10 หลายเดือนก่อน

    Thanks. What do you think about chunking manually? Human brain understands the context more accurately ..

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Haha Good idea . But what if you have 1 million pages to chunk? And you have 1 day to do it

    • @darwingli1772
      @darwingli1772 10 หลายเดือนก่อน

      Coz the problem I’m facing is that the data is very scattered… like there is a webpage(1000url) that contains everything. But looking simply at one url and do the chunk won’t yield valuable information for query.
      So imagine I will have to access some parts of 5-6 url to create an useful document for retrieval. I think it’s because I don’t have a structured and organised documents so I resort to manual chunking. I know it’s very not efficient so I’m looking for ways to solve this problem.

  • @alexsov
    @alexsov 10 หลายเดือนก่อน

    Little slower might be better?

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน +1

      You are correct. Thanks for the feedback
      First I recorded the whole tutorial and at the end realised I forgot to press the record button 🤦‍♂️
      Then out of frustration I recorded the second time

  • @HemaMari-j2b
    @HemaMari-j2b 7 วันที่ผ่านมา

    ok ok chunking ..

  • @satyajamalla1429
    @satyajamalla1429 10 หลายเดือนก่อน

    Too fast to understand 😢

    • @MervinPraison
      @MervinPraison  10 หลายเดือนก่อน

      Sorry for that, yes I did speed up little this time. Will try to be normal next time

  • @mayorc
    @mayorc 10 หลายเดือนก่อน

    Great video.