Image Recognition with LLaVa in Python

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 ธ.ค. 2024

ความคิดเห็น • 36

  • @yuvrajkukreja9727
    @yuvrajkukreja9727 4 หลายเดือนก่อน +1

    Awesome, man! I was not aware of customizing Ollama with this kind of Python script! Thanks :)

  • @blackstonesoftware7074
    @blackstonesoftware7074 5 หลายเดือนก่อน

    This is quite useful!
    It gives me some great ideas for my own local apps!

  • @ammadkhan4687
    @ammadkhan4687 18 วันที่ผ่านมา

    Hi, I love all your videos. Could please make a video on getting structured output using ollama. I have use-case to extract specific information from the image and get the output so that automatically the data will be added in database.
    thanks in advance.

  • @derekchance8197
    @derekchance8197 4 หลายเดือนก่อน

    Are there models that recognize a photo and then vectorizes it?

  • @NiceTechViews5403
    @NiceTechViews5403 20 วันที่ผ่านมา

    impressive this llva! my original plan was to detect objects via yolo7 ..give the detected objects to ollama to get some text..and let this text then sound via a loudspeaker. llva ist detecting much more object i guess!? - thx for your video 🙂

  • @yuvrajkukreja9727
    @yuvrajkukreja9727 4 หลายเดือนก่อน

    how to add long term memory in this local llm ???

  • @R8R809
    @R8R809 6 หลายเดือนก่อน

    Thanks for the video, how to make sure that I install Ollama on the GPU not on the CPU?

  • @timstevens3361
    @timstevens3361 หลายเดือนก่อน

    what gpu ?
    how much vram ?

  • @GuillermoGarcia75
    @GuillermoGarcia75 6 หลายเดือนก่อน

    Riding the awesomeness wave again!

  • @declan6052
    @declan6052 2 หลายเดือนก่อน +1

    How can I modify this code to use my local GPU? It seems to default to my CPU but can't find any way to do this easily

    • @NiceTechViews5403
      @NiceTechViews5403 20 วันที่ผ่านมา

      it is using my GPU..i have py39, CUDA 11.2 and cuDNN 8, 2019 Visual Studio, GTX 1660TI “Tuning sm_75”

  • @giovannicordova4803
    @giovannicordova4803 6 หลายเดือนก่อน +1

    If my local ram is 8 gb, which ollama model would you recommend to use?

    • @WebWizard977
      @WebWizard977 6 หลายเดือนก่อน

      deepseek-coder ❤

    • @WebWizard977
      @WebWizard977 6 หลายเดือนก่อน

      deepseek-coder ❤

  • @jaykrown
    @jaykrown 3 หลายเดือนก่อน

    This was very helpful, my first time getting results from a multimodal LLM directly using Python.

  • @wasgeht2409
    @wasgeht2409 6 หลายเดือนก่อน +1

    Thanks :) Is it possible to use this model as an ocr alternativ to get for example informationen from a jpeg image which is an id-card ?

    • @sumukhas5418
      @sumukhas5418 6 หลายเดือนก่อน

      This will be too much heavy for just that
      Instead considering yolo would be a better option

    • @wasgeht2409
      @wasgeht2409 6 หลายเดือนก่อน

      @@sumukhas5418 Thanks for the answer :) Actually I am trying pytesseract to read id-card information, which are photographed by a phone and the results are not very good :/ Do you have some ideas, how I could get some better results?

  • @AlissonSantos-qw6db
    @AlissonSantos-qw6db 6 หลายเดือนก่อน

    Nice, very helpful!
    Is it possible to create embeddings of pictures with the model?

  • @joebywan
    @joebywan 2 หลายเดือนก่อน

    Rad video, thanks dude.
    Why's the image path take a list, but supplying multiple images to it doesn't work?

  • @potatoes1000
    @potatoes1000 5 หลายเดือนก่อน

    is this fully offline? I am not sure you downloaded the 13B 7.4Gb package

  • @brpatil_007
    @brpatil_007 3 หลายเดือนก่อน

    Is ollama and llava is free to use and I have spec 16GB/1TB RTX 3050Ti what no. of model is suitable for my device 13B one or else. And I already using ollama basic 4GB model in my device is it ok to run 13B model and some Other model like OpenAi or Gemini API??

  • @rajm5349
    @rajm5349 4 หลายเดือนก่อน

    can we get the answer in different languages as per the client requrement just like in hindi or tamil or japanese etc if possible

  • @aaronbornmann9835
    @aaronbornmann9835 3 หลายเดือนก่อน

    Thanks for your help you legend

  • @fastmamajama
    @fastmamajama 4 หลายเดือนก่อน +1

    wow this is too easy to be real. i am using opencv to record videos of flying saucers. i could record images and use llama to verify if there is a flying saucer in it. can i also search videos with videos: instead of images:?

  • @Isusgsue
    @Isusgsue 6 หลายเดือนก่อน

    What a nice vid. Can I do a ai without using open ai ?

  • @antonpictures
    @antonpictures 5 หลายเดือนก่อน

    rag - webcam - selfawareness - speech --> tutorial pls

  • @aoa1015
    @aoa1015 6 หลายเดือนก่อน

    How much RAM and VRAM needed ?!

    • @RedFoxRicky
      @RedFoxRicky 6 หลายเดือนก่อน

      With 4-bit quantization, for LLaVA-1.5-7B, it uses less than 8GB VRAM on a single GPU, typically the 7B model can run with a GPU with less than 24GB memory, and the 13B model requires ~32 GB memory. You can use multiple 24-GB GPUs to run 13B model

  • @naturexmusic2567
    @naturexmusic2567 3 หลายเดือนก่อน

    Help me out ,it took less than 10 seconds to get the output , but for me it is like taking 3mins to run , of course it runs , i am happy but it is too late

    • @santhosh-j7e
      @santhosh-j7e 3 หลายเดือนก่อน +1

      My computer takes more than an hour , the system is installed with a 4GB 3060 GPU , what can I do

    • @naturexmusic2567
      @naturexmusic2567 3 หลายเดือนก่อน

      @@santhosh-j7e I dont know man , i was like working it for my hackathon , i tried like all pc ,like pentium , i3 , i5 ,i7 but no difference.

  • @Justwil07
    @Justwil07 4 หลายเดือนก่อน

    7.5 Gb ?????

    • @Tech_Distro
      @Tech_Distro 4 หลายเดือนก่อน

      It's 4.7gb for 7b version

  • @arjuntt2604
    @arjuntt2604 6 หลายเดือนก่อน

    oh im too fast

  • @syedmokarromhossain4867
    @syedmokarromhossain4867 6 หลายเดือนก่อน

    First comment 😊😊😊