LocalAI LLM Testing: Part 2 Network Distributed Inference Llama 3.1 405B Q2 in the Lab!

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ก.พ. 2025

ความคิดเห็น •

  • @tbranch227
    @tbranch227 5 หลายเดือนก่อน +7

    Congrats! You unlocked a masssive achievement running this on your own hardware!!! All hail the AI and the kilowatts we feed them

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +2

      Skynet is possible in your basement 🦾

  • @marekkroplewski6760
    @marekkroplewski6760 5 หลายเดือนก่อน +4

    Dad! Where did my gaming rig go!!! Now listen up there Junior, this is for science. Just don't tell your Mum. And you can have the car keys for Saturday.

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +1

      Better than stealing their GPU's out of their rigs right? 😂

  • @animationgaming8539
    @animationgaming8539 3 หลายเดือนก่อน +1

    I liked every comment on this video!

    • @RoboTFAI
      @RoboTFAI  3 หลายเดือนก่อน

      Thanks!

  • @ckckck12
    @ckckck12 4 หลายเดือนก่อน +1

    What I see is 1/3 working time caused by using a model built on close to 6 times the data points. That's nice! And... Enabled by distributed mode.
    Am I correct? Is there a way that the quant factor affects the computation of those general factors (time/tokens vs size) that would make this more 1:1?
    Already it's nice you can get the big models in.

  • @twinnie38
    @twinnie38 4 หลายเดือนก่อน +1

    Really impressive, congrats ! Do you know the impact of a limited PCIe bus (1x , 4x GEN3) for those GPU cards ?

  • @nickmajkic1436
    @nickmajkic1436 5 หลายเดือนก่อน +2

    Would you be able to make a tutorial on getting lovalAI working in kubernetes?

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +1

      Sure, I think that's overdue at this point!

  • @_zproxy
    @_zproxy 5 หลายเดือนก่อน +1

    wild. does this work for llava images too?

  • @unsaturated8482
    @unsaturated8482 3 หลายเดือนก่อน

    Damn

  • @mckirkus
    @mckirkus 5 หลายเดือนก่อน +1

    What's the network bandwidth? I wonder what could be done if you connected to a bunch of buddies with gigabit symmetrical fiber connections.

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +2

      As much as you can pump for distributing the model - during inference it's really only about 10-20 MB/s per node

  • @bechti44
    @bechti44 4 หลายเดือนก่อน +1

    around 4 Times faster than cpu only... But around 100x more expensive...

    • @RoboTFAI
      @RoboTFAI  4 หลายเดือนก่อน +1

      It's just money and power! like always.... 😁

  • @andriidrihulias6197
    @andriidrihulias6197 5 หลายเดือนก่อน +2

    First

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +1

      Congrats!

  • @Anurag_Tulasi
    @Anurag_Tulasi 5 หลายเดือนก่อน +1

    It would be more intelligible if your results mention (Higher is better or Lower is better) beside the chart headings.

    • @RoboTFAI
      @RoboTFAI  5 หลายเดือนก่อน +1

      Thanks for the feedback!