Large Language Models in Five Formulas

แชร์
ฝัง

ความคิดเห็น • 32

  • @nintishia
    @nintishia 9 หลายเดือนก่อน +7

    This appears to be a distillation of the most important concepts in large language models today. Thanks for the exposition.

  • @muhannadobeidat
    @muhannadobeidat 9 หลายเดือนก่อน +5

    Extremely high entropy video. Amazing clarity, delivery, content, and follow. Pure genius!

  • @sarthak-ti
    @sarthak-ti 8 หลายเดือนก่อน +2

    I found this to be an incredibly unique and interesting approach to explaining LLMs, an excellent introduction, thank you so much for the video!

  • @DistortedV12
    @DistortedV12 9 หลายเดือนก่อน +13

    This is a great modern supplement to Karpathy's guide to language models! Thanks Sasha! Just subbed

  • @icriou
    @icriou 9 หลายเดือนก่อน +1

    Knowledge/sec in this video is off the chart, and the info is cutting edge!

  • @joedigiovanni8758
    @joedigiovanni8758 8 หลายเดือนก่อน

    Excellent presentation! Easy to follow and tons of great material including the links to the slides

  • @sheikhakbar2067
    @sheikhakbar2067 9 หลายเดือนก่อน

    Thank you for making this video so interesting with those nice graphics and examples. I need to sit down and watch it attentively.

  • @arkaprovobhattacharjee8691
    @arkaprovobhattacharjee8691 8 หลายเดือนก่อน +1

    For someone like me who is new to this field and wants to understand the nitty-gritty of language models, it's necessary to see each part separately, understand it first, and then move on to the next part. But still, I can sense how fantastically it is explained to those who have the basic understanding of deep learning.

  • @donatocapitella
    @donatocapitella 7 หลายเดือนก่อน

    Amazing content, thanks for putting this together!

  • @syedmostofamonsur7583
    @syedmostofamonsur7583 9 หลายเดือนก่อน

    Thanks a lot Prof. Rush for this material.

  • @ItzGanked
    @ItzGanked 9 หลายเดือนก่อน

    Thanks for the video good high level overview. I like the excalidraw slides also

  • @pebre79
    @pebre79 9 หลายเดือนก่อน

    This is very insightful. Thanks for posting!

  • @ChinaTalkMedia
    @ChinaTalkMedia 8 หลายเดือนก่อน

    this was a wonderful video thanks so much for this

  • @FabienFabienB
    @FabienFabienB 9 หลายเดือนก่อน

    Great complement to Karphathy's video

  • @corgirun7892
    @corgirun7892 8 หลายเดือนก่อน

    amazing video!

  • @hernanlira811
    @hernanlira811 9 หลายเดือนก่อน

    Great video!

  • @brandonsager223
    @brandonsager223 9 หลายเดือนก่อน

    Very nice talk

    • @ClydeWright
      @ClydeWright 9 หลายเดือนก่อน

      Excellent talk!! Will recommend to all my coworkers.

  • @drayg0n806
    @drayg0n806 9 หลายเดือนก่อน

    amazing video!

  • @excalidraw
    @excalidraw 9 หลายเดือนก่อน

    Awesome! 🙌

  • @Rajistics
    @Rajistics 9 หลายเดือนก่อน

    So good!

  • @andrewdunbar828
    @andrewdunbar828 9 หลายเดือนก่อน

    I'm perpexed.

  • @shubhamtoshniwal2221
    @shubhamtoshniwal2221 8 หลายเดือนก่อน

    Hey Sasha, What tools do you use to make your presentations? It's so different from the typical academic presentations :)

  • @benjaminsteenhoek3842
    @benjaminsteenhoek3842 8 หลายเดือนก่อน

    Thanks for this awesome explanation! Can someone explain one point to me? The issue with argmax at 22:15 is that it has no derivative, so neural network parameters cannot be trained using it. If I understand correctly, the argmax is the word which should be "attended" when predicting the next word (park). Why is argmax the desired function here - what if the prediction of the next word depends on not the most important single word, but the most important two words in the context? Considering this case, doesn't softmax have an additional benefit over the "naive" argmax that it can also compute distributions with more than one mode?

    • @srush_nlp
      @srush_nlp  8 หลายเดือนก่อน +1

      This is a good point. One detail I didn't mention is that at each layer there are multiple "heads" each with a different query so even if you have an argmax you still get to select multiple words per layer. But even so your point is fair that there may be other advantages to softmax besides easier learning.

    • @benjaminsteenhoek3842
      @benjaminsteenhoek3842 8 หลายเดือนก่อน

      That makes sense. Thanks for your helpful reply!

  • @ZylinTeo
    @ZylinTeo 8 หลายเดือนก่อน

    At 32:41, isn't each element in AB rows in A multiplying with columns in B? Waiting for your answer.

    • @srush_nlp
      @srush_nlp  7 หลายเดือนก่อน

      Yes this is a bug, sorry about that!

  • @AllNightLearner
    @AllNightLearner 8 หลายเดือนก่อน

    was narration generated? I would love to use the same technique for narrating text.

  • @martiancoders1518
    @martiancoders1518 8 หลายเดือนก่อน

    Well every output must be mathematical proven ingest so can we not build a formula for every pattern of output. Let's say it out human sense n grammar sense of each word constructed. While it construct can it not out how it did it

  • @Tony_Indiana
    @Tony_Indiana 4 หลายเดือนก่อน

    WOOHOO! just found this channel. it is almost better than porn. how do we give you our money so you keep making videos? pls tell us :o