Mixture of Experts LLM - MoE explained in simple terms

แชร์
ฝัง
  • เผยแพร่เมื่อ 18 ต.ค. 2024

ความคิดเห็น • 21

  • @HugoCatarino
    @HugoCatarino 10 หลายเดือนก่อน +10

    What a great class! Very much appreciated 🙌👏👏🙏

  • @javiergimenezmoya86
    @javiergimenezmoya86 10 หลายเดือนก่อน +14

    Video implementation with MoE training with several swiching Lora layers would be great!

  • @patxigonzalez4206
    @patxigonzalez4206 10 หลายเดือนก่อน +2

    Woah...thanks a lot for this clean and powerful explanation about this dense topics, as a representative of average people, I appreciate it so much.

  • @TylerLali
    @TylerLali 10 หลายเดือนก่อน

    Hopefully this doesn’t sound entitled, but rather expresses my gratitude towards your excellent work - yesterday I did a TH-cam search for MOE on this topic and saw several videos but decided not to watch others and rather wait for your analysis- and here I am today and this video enters my feed automatically :)
    Thanks for all you do for your community!

  • @suleimanshehu5839
    @suleimanshehu5839 10 หลายเดือนก่อน +1

    Please create a video on Fine tuning a MoE LLM using LoRA adapters.
    Can one train individual expert LLM within a MoE such as Mixtral 8x7B

  • @ricardocosta9336
    @ricardocosta9336 10 หลายเดือนก่อน

    yaya!🎉🎉🎉🎉🎉 ty so much once again

  • @hoangvanhao7092
    @hoangvanhao7092 10 หลายเดือนก่อน

    00:02 Mixture of Experts LLM enables efficient computation and research allocation for AI models.
    02:46 Mixture of Experts LLM uses different gating functions to assign tokens to specific expert systems.
    05:24 Mega Blocks addressed limitations of classical MoE system and optimized block sparse computations.
    08:12 Mixture of Experts selects the top K expert system based on scores.
    10:59 Mixture of Experts LLM enhances model parameters without computational expense
    13:33 Mixture of Experts LLM - MoE efficiently organizes student-teacher distribution
    16:07 Block Spar formulation ensures no token is left behind
    18:35 Mixture of Expert system dynamically adjusts block sizes for more efficiency in matrix multiplication
    20:57 Mixture of expert layer consists of independent feed-forward experts with an intelligence gating functionality.

  • @darknessbelowth1409
    @darknessbelowth1409 10 หลายเดือนก่อน

    very nice, thank you for a great vid.

  • @yinghaohu8784
    @yinghaohu8784 6 หลายเดือนก่อน

    In autoregressive model, the generation of the token is progressively. However, when will the router works? Is it in each pass or the routing will be decided at the very beginning ?

  • @TheDoomerBlox
    @TheDoomerBlox 4 หลายเดือนก่อน

    Is this where I raise the obvious question of "wouldn't a Grokked(tm) model be the perfect fit for an Expert-Picking mechanism?"

  • @LNJP13579
    @LNJP13579 7 หลายเดือนก่อน

    Can you please share a link to your Presentation. Need to use the content to make my own abridged notes.

  • @YashNimavat-b3s
    @YashNimavat-b3s 8 หลายเดือนก่อน

    which PDF reader you are using to read the research paper?

  • @cecilsalas8721
    @cecilsalas8721 10 หลายเดือนก่อน +1

    🤩🤩🤩🥳🥳🥳👍

  • @davidamberweatherspoon6131
    @davidamberweatherspoon6131 10 หลายเดือนก่อน

    Can you explain to me how to mix MoE with Lora adapters?

  • @densonsmith2
    @densonsmith2 9 หลายเดือนก่อน

    Do you have a patreon or other paid subscription?

  • @PaulSchwarzer-ou9sw
    @PaulSchwarzer-ou9sw 10 หลายเดือนก่อน

  • @matten_zero
    @matten_zero 10 หลายเดือนก่อน +1

    Hello!

  • @Jason-ju7df
    @Jason-ju7df 10 หลายเดือนก่อน +1

    I wonder if I can get them to do RPA

    • @krishanSharma.69.69f
      @krishanSharma.69.69f 10 หลายเดือนก่อน +1

      I made them do SEX. I was tough but I managed.

  • @omaribrahim5519
    @omaribrahim5519 10 หลายเดือนก่อน +1

    cool but MoE is so fool

  • @EssentiallyAI
    @EssentiallyAI 10 หลายเดือนก่อน

    You're not Indian! 😁