Research Forum 4 | Keynote: Phi-3-Vision: A highly capable and "small" language vision model

แชร์
ฝัง
  • เผยแพร่เมื่อ 31 ต.ค. 2024

ความคิดเห็น • 21

  • @JaredWoodruff
    @JaredWoodruff หลายเดือนก่อน +38

    The Phi series never fails to surprise me, combined with ONNX runtime its really portable and powerful.
    I'm using Phi-3.5 instruct at the moment for enterprise clients and its performing very well, Looking forward to adapting the vision model into the mix too.
    Fantastic work MSR team, keep up the amazing work!
    Small, Smart and Scalable for the win! 🚀

    • @quickpert1382
      @quickpert1382 หลายเดือนก่อน

      a realistic voice decoder along that image encoder is all we need in rest. Hope meta guys are not going to be late at the small vision models party.

  • @WearyTimeTraveler
    @WearyTimeTraveler หลายเดือนก่อน

    The phi models are truly impressive, excited to see the future work around embodiment. Only hope in future is that frozen weights at different training stages are available to download

  • @GNARGNARHEAD
    @GNARGNARHEAD หลายเดือนก่อน +15

    open source, lets go!

    • @sammcj2000
      @sammcj2000 หลายเดือนก่อน

      Microsoft hasn’t contributed in the most widely used format (GGUF) though meaning unless the community does the work it won’t be usable in common tooling such as llama.cpp, Ollama etc

    • @ChristianNode
      @ChristianNode หลายเดือนก่อน

      what do you mean ​@@sammcj2000

  • @ahmedtremo
    @ahmedtremo หลายเดือนก่อน +2

    Great and concise explanation, thanks!

  • @markmatzke
    @markmatzke หลายเดือนก่อน

    Fantastic presentation! I’m particularly interested in how the F3 Vision model's performance compares to other vision-language models in terms of scalability for different hardware platforms. It seems like a game-changer for integrating vision capabilities with language understanding. Also, how do you see the model evolving to address emerging challenges in diverse data contexts? Looking forward to seeing its future applications and updates!

  • @n8works
    @n8works หลายเดือนก่อน

    This was a detailed and interesting video. Congrats on the achievement.

  • @renereiche
    @renereiche หลายเดือนก่อน

    Phi-3 is absolutely incredible, super capable and yet resilient to misuse and always kind and understanding. Magical at this size already and then it's even good at math.
    However, I think Microsoft should cut the parameter sizes of the different versions more smartly in regards to current device hardware.

  • @tamineabderrahmane248
    @tamineabderrahmane248 หลายเดือนก่อน

    phi-3 vision has the same structure of PaliGemma , and both are open sourced , great !

  • @p4r7h-v
    @p4r7h-v หลายเดือนก่อน

    brilliant

  • @YiKidane
    @YiKidane หลายเดือนก่อน

    specswriter AI fixes this. Highly capable small vision model.

  • @ChristophBackhaus
    @ChristophBackhaus หลายเดือนก่อน

    SO how well does this for extraction from pdfs in comparison to OCR?

  • @r.m8146
    @r.m8146 หลายเดือนก่อน

    awesome

  • @octaviusp
    @octaviusp หลายเดือนก่อน

    How can i join the microsoft research team? that's one of my life-goals, and i will reach it.

  • @sammcj2000
    @sammcj2000 หลายเดือนก่อน

    Needs a GGUF!

  • @fahnub
    @fahnub หลายเดือนก่อน

    microsoft catchin up

  • @getasmilefix
    @getasmilefix หลายเดือนก่อน

    LFG

  • @edi.maulana
    @edi.maulana หลายเดือนก่อน

    okay great, but i have to turn on subtitle now.

  • @bilalazhar4495
    @bilalazhar4495 หลายเดือนก่อน +2

    The fucking contrast of the text transparency looks straight garbage microsoft needs to fire all the Modern art majors on their design team in the next layoff round