How to build Multimodal Retrieval-Augmented Generation (RAG) with Gemini

แชร์
ฝัง
  • เผยแพร่เมื่อ 21 พ.ย. 2024

ความคิดเห็น • 62

  • @GoogleDevelopers
    @GoogleDevelopers  6 หลายเดือนก่อน +5

    Check out all the AI videos at Google I/O 2024 → goo.gle/io24-ai-yt

    • @gangababu2063
      @gangababu2063 5 หลายเดือนก่อน +3

      IO2024_Multimodal_RAG_Demo.ipynb can't find this notebook

    • @PeterLappo
      @PeterLappo 5 หลายเดือนก่อน +7

      Pretty useless video without sample code.

  • @jprak123asd
    @jprak123asd 5 หลายเดือนก่อน +12

    I wanted to extend my heartfelt thanks for the excellent session on how Retrieval-Augmented Generation (RAG) can be used to train Large Language Models (LLMs) to build expert systems in the retail, software, automotive, and other sectors.
    Your explanation was incredibly clear and insightful, making a complex topic easily understandable. I truly felt like Dr. Watson listening to Sherlock Holmes unravel the mysteries of the universe, marveling at the clarity and depth of the information presented.
    Your efforts in breaking down the concepts and applications of RAG in such a straightforward manner have left me feeling both enlightened and excited about the potential this technology holds for our industry.
    Thank you once again for your time and for sharing your expertise. I look forward to exploring and implementing these innovative solutions in our own projects

  • @thyagarajesh184
    @thyagarajesh184 4 หลายเดือนก่อน +3

    Impressive technology. Look forward to using it for my project.

  • @charlesbabbage6786
    @charlesbabbage6786 6 หลายเดือนก่อน +11

    Could'nt find the exact notebook used here.

  • @dumbol8126
    @dumbol8126 6 หลายเดือนก่อน +7

    will there be an opensource version of this, or atleast a paper

  • @sarvariabhinav
    @sarvariabhinav 3 หลายเดือนก่อน +14

    WHERE IS THE SAMPLE CODE??????? This is very frustrating to showcase but not share code.

    • @diegomoralessepulved
      @diegomoralessepulved 2 หลายเดือนก่อน +1

      @googledevelopers I second this comment.. could you please share that notebook?

    • @noetic4681
      @noetic4681 หลายเดือนก่อน

      agree

  • @zuowang5185
    @zuowang5185 4 หลายเดือนก่อน +1

    How do you handle terabytes of enterprise data, just do embedding groups? Should you generate sub questions first? How do you handle large amount of users?

  • @nestorbao2108
    @nestorbao2108 2 หลายเดือนก่อน +1

    Why do you use multimodal embedding model if you summarize images and ground them into text?

  • @mariaescobar8003
    @mariaescobar8003 6 หลายเดือนก่อน +8

    When I use RAG, Am I sharing my data with the model/company? or is it private with an extracost?

    • @vichupayyan
      @vichupayyan 6 หลายเดือนก่อน

      Rag is an architecture i believe. with out without it - whatever happening to the data same applies

    • @hitmusicworldwide
      @hitmusicworldwide 5 หลายเดือนก่อน +1

      Not necessarily. You can keep the data local. You only use the LLM for it's ability to summarize and generate responses as well as queries

  • @mohamedkarim-p7j
    @mohamedkarim-p7j 24 วันที่ผ่านมา +1

    Thank for sharing👍

  • @hasszhao
    @hasszhao 6 หลายเดือนก่อน +12

    where is this notebook in the cookbook repo?

    • @d.d.z.
      @d.d.z. 6 หลายเดือนก่อน

      Same question

    • @shubhamsharma5631
      @shubhamsharma5631 6 หลายเดือนก่อน +3

      33:18

    • @Chitragar
      @Chitragar 6 หลายเดือนก่อน +4

      I have a notebook in Kaggle named Multimodal RAG Gemini - should help, YT removing links for some reason.

    • @d.d.z.
      @d.d.z. 6 หลายเดือนก่อน

      @@Chitragar thank you

    • @cullenharris1837
      @cullenharris1837 6 หลายเดือนก่อน

      ​@@shubhamsharma5631 I challenge you to find it. That is simply a link to the general github which is convoluted , not the exact notebook which is difficult to find.

  • @homeandr1
    @homeandr1 หลายเดือนก่อน

    Hello Jeff, could be that there is a mistake 24:00 in a for loop instead of “for i, s in enumerate(texts + table_summaries + image_summaries)” should be “for i, s in enumerate(text_summaries + table_summaries + image_summaries)”

  • @TL735
    @TL735 2 หลายเดือนก่อน +1

    Nice, but why don't you develop a simple drag-and-drop RAG? e.g. I add a drive folder link and Google generates a RAG chat based on its content.

  • @RiccardoCarlessoGoogle
    @RiccardoCarlessoGoogle หลายเดือนก่อน

    Is there a link to the python notebook? I'd love to play with it!

  • @nagpalvikas
    @nagpalvikas 5 หลายเดือนก่อน +1

    Is "unstructured" the best choice here for parsing PDF? Any better alternatives?

    • @ai_asymmetric
      @ai_asymmetric 5 หลายเดือนก่อน

      Llamaparse

    • @You_Only_LiveOnce
      @You_Only_LiveOnce 5 หลายเดือนก่อน

      langchain would be a good choice

  • @yadav-r
    @yadav-r 19 วันที่ผ่านมา

    Can I use the fine tuned Gemini RAG model via API from a mobile app?

  • @evanrfraser
    @evanrfraser หลายเดือนก่อน

    Fantastic. Thank You!

  • @ammarfasih3866
    @ammarfasih3866 4 หลายเดือนก่อน

    where is the notebook?
    Can someone please share the link?

  • @IndianLeopard7
    @IndianLeopard7 5 หลายเดือนก่อน

    Wat about Copyright and Ethical issues? How much do u guys charge for using ur model? And as per IBM and Oracle embeddings are nothing new so why use urs?

  • @nagarathnabheggade8410
    @nagarathnabheggade8410 5 หลายเดือนก่อน +1

    This example briefs about text and PDF, do we have any for video how de we use RAG, Vector store for Video can anyone give some reference

    • @descarded
      @descarded 5 หลายเดือนก่อน

      im not sure if there are existing libraries to do that, maybe check docs. although here's my intuitive approach. video is basically series of images with some history/context attached to previous and subsequent frames. so if you keep that history across frames intact by either providing previous frames as input, or keep a local vector of it all, you can make it work. not sure if its the best approach, but i m open for discussion

  • @julianayue402
    @julianayue402 หลายเดือนก่อน

    Can you please provide the source code? It would be great help!! Thank you!

  • @ajanieniola9172
    @ajanieniola9172 18 วันที่ผ่านมา

    Wonderful

  • @ai_asymmetric
    @ai_asymmetric 5 หลายเดือนก่อน

    dense embeddings are never enough for RAG system

  • @oldmansgoldenwords
    @oldmansgoldenwords 6 หลายเดือนก่อน

    You can get blue driver and get all error codes and example

  • @SonuChaudhary
    @SonuChaudhary 2 หลายเดือนก่อน

    Where is the code link?

  • @pra8495
    @pra8495 6 หลายเดือนก่อน +3

    github link please

    • @shubhamsharma5631
      @shubhamsharma5631 6 หลายเดือนก่อน

      33:18

    • @kaushikdas5115
      @kaushikdas5115 5 หลายเดือนก่อน

      @@shubhamsharma5631 can we run the code without subscription?

  • @SB-md2km
    @SB-md2km 6 หลายเดือนก่อน +1

    Ok but someone could literally look any of this up online or look for it in a manual, etc. w/out using AI...

  • @adithiyag4616
    @adithiyag4616 6 หลายเดือนก่อน +4

    Please share the colab link

  • @KitchenAIdev
    @KitchenAIdev 9 วันที่ผ่านมา

    Hmm... interestin...

  • @dr.p.srinivasaragavanperum2911
    @dr.p.srinivasaragavanperum2911 4 หลายเดือนก่อน

    Happy

  • @user-xx3mr6vx9u
    @user-xx3mr6vx9u 4 หลายเดือนก่อน

    Haha we just need your browsing history

  • @dr.p.srinivasaragavanperum2911
    @dr.p.srinivasaragavanperum2911 4 หลายเดือนก่อน

    🎉

  • @Inceptionxg
    @Inceptionxg 6 หลายเดือนก่อน +1

    After Muaadh Rilwan's post on LinkedIn

  • @dr.p.srinivasaragavanperum2911
    @dr.p.srinivasaragavanperum2911 4 หลายเดือนก่อน

  • @fast-path
    @fast-path 6 หลายเดือนก่อน

    🥺

  • @JH-bb8in
    @JH-bb8in 6 หลายเดือนก่อน +5

    This shows how garbage Langchain is as a library. Extremely verbose and intransparent.

    • @imai-pg3cz
      @imai-pg3cz 6 หลายเดือนก่อน +1

      Is there any framework better than Langchain?

    • @gokusaiyan1128
      @gokusaiyan1128 5 หลายเดือนก่อน

      can you tell me more about it please :)

  • @ohmatokita5990
    @ohmatokita5990 4 หลายเดือนก่อน

    So if I'm using the 2nd way, what's the name of the multidality-modal would be?