OCR Using Microsoft's Florence-2 Vision Model on Free Google Colab

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 มิ.ย. 2024
  • In this video, I demonstrate how to implement Microsoft's recently released Florence-2 novel Foundational Vision Model on a free Google Colab workspace using a T4 GPU. I use Optical Character Recognition (OCR) as the primary use case to showcase the model's capabilities.
    You'll learn:
    1. An introduction to the Florence-2 Vision Model
    2. Loading and configuring the Florence-2
    3. Implementing OCR task with this advanced model
    4. Evaluating the performance and results of OCR using Florence-2 Vision Model.
    Code Link - colab.research.google.com/dri...
    Florence-2 Model - huggingface.co/microsoft/Flor...
    #florence2 #vision #multimodal #multimodalai #llm #microsoftai #googlecolab #ocr #machinelearning #ai #tutorial #freeresources #attention #objectdetection #segmentation
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 15

  • @vishalranjan2429
    @vishalranjan2429 4 วันที่ผ่านมา +1

    i want to intergate this in an android app , how to do it ?

  • @jinanlionbridge4521
    @jinanlionbridge4521 17 วันที่ผ่านมา

    Thanks for sharing! very useful

  • @Steven_249
    @Steven_249 12 วันที่ผ่านมา

    wow... you are super smart..... especially when you change the code for OCR REGION....! Amazing !!!

    • @theailearner1857
      @theailearner1857  12 วันที่ผ่านมา

      Glad it helped!

    • @kushaldulani
      @kushaldulani 21 ชั่วโมงที่ผ่านมา

      Yes really, No one does that on TH-cam, rest of all teach only basics. Thanks bro

  • @despo13
    @despo13 23 วันที่ผ่านมา

    Thanks

  • @sudabadri7051
    @sudabadri7051 14 วันที่ผ่านมา

    Good video

  • @seanthibert5961
    @seanthibert5961 14 วันที่ผ่านมา

    Any luck with making use of the raw OCR results? I find it picks up more than the ocr_with_region

  • @trinityblood5622
    @trinityblood5622 14 วันที่ผ่านมา +1

    Any luck on Finetuning the OCR part with custom dataset other than English?

    • @theailearner1857
      @theailearner1857  13 วันที่ผ่านมา

      Haven't tried yet, but will try to make a video on finetuning.

  • @ai_enthusiastic_
    @ai_enthusiastic_ 22 วันที่ผ่านมา +1

    How much RAM does it need to run on a CPU?

    • @theailearner1857
      @theailearner1857  22 วันที่ผ่านมา +1

      In full precision, it would need approximately 10-11 GB of RAM for inference. If you are not able run it on CPU, you can try with quantized model.

  • @NimeshV-nf6uz
    @NimeshV-nf6uz 23 วันที่ผ่านมา +1

    Can I run this on cpu ?

    • @theailearner1857
      @theailearner1857  23 วันที่ผ่านมา +2

      Yes you can. Change the "device_map" argument to "cpu". And also make sure to not move input tensors to "cuda".

    • @NimeshV-nf6uz
      @NimeshV-nf6uz 22 วันที่ผ่านมา

      @@theailearner1857 thanks 🤜🤛