Coding a ChatGPT Like Transformer From Scratch in PyTorch

แชร์
ฝัง
  • เผยแพร่เมื่อ 15 พ.ย. 2024

ความคิดเห็น • 201

  • @statquest
    @statquest  4 หลายเดือนก่อน +15

    - You can get the code here: github.com/StatQuest/decoder_transformer_from_scratch
    - Learn more about GiveInternet.org: giveinternet.org/StatQuest NOTE: Donations up to $30 will be matched by an Angel Investor - so a $30 donation would give $60 to the organization. DOUBLE BAM!!!
    - The full Neural Networks playlist, from the basics to AI, is here: th-cam.com/video/CqOfi41LfDw/w-d-xo.html
    - Support StatQuest by buying my book The StatQuest Illustrated Guide to Machine Learning or a Study Guide or Merch!!! statquest.org/statquest-store/

  • @thebirdhasbeencharged
    @thebirdhasbeencharged 4 หลายเดือนก่อน +91

    Can't imagine the work that goes into this, writing the code, making diagrams, recording, editing and voice over, you're the goat big J.

    • @statquest
      @statquest  4 หลายเดือนก่อน +4

      Thanks!

    • @thomasalderson368
      @thomasalderson368 4 หลายเดือนก่อน

      he is well compensated

    • @statquest
      @statquest  4 หลายเดือนก่อน +17

      @@thomasalderson368 am I? Maybe it's relative, but hour for hour I'm making significantly less than I did doing data analysis in a lab.

    • @FindEdge
      @FindEdge 4 หลายเดือนก่อน +13

      @@statquest Sir we Love you and your work, please don't let such comments to your heart! You may never meet us but there is a generation of statisticians and Data Scientists who owe a lot to you may be all of it!

    • @statquest
      @statquest  4 หลายเดือนก่อน +6

      @@FindEdge Thanks!

  • @techproductowner
    @techproductowner 4 หลายเดือนก่อน +39

    You will be rememberd for next 1000 years in the history of Statistics and Data Science , You should be named as "Father of Applied Statistics & Machine Learning " , Pls thumbs up if you are with me

    • @statquest
      @statquest  4 หลายเดือนก่อน +5

      BAM! :)

  • @hewas321
    @hewas321 4 หลายเดือนก่อน +10

    Hey Josh, you know what? I used to watch your videos explaining the key ingredients of statistics EVERY DAY in 2020~2021 when I was a freshman. Whatever I click among your videos, it was always the first time for me to learn it. I knew nothing. But I still remember what concept you dealt with in videos and how you explained them.
    Fortunately now I work as an AI researcher - it's been a year already - although I am a 3rd grade student. You suddenly came to my mind so I've just taken a look at your channel for the first time in a long time. This time I've already knew about all of what you explain in videos. It feels really weird. Everything is all thanks to you and still your explanations are clear, well-visualized and awesome. You are such a big help to the newbies of statistics and machine/deep learning. Always love your works. Please keep it going!!! 🔥

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thank you very much! I'm so happy that my videos were helpful for you. BAM! :)

  • @jahanzebnaeem2525
    @jahanzebnaeem2525 4 หลายเดือนก่อน +14

    HUGE RESPECT for all the work you put into your videos

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thank you!

  • @Op1czak
    @Op1czak 4 หลายเดือนก่อน +1

    Josh, I want to express my sincerest gratitude. I have been following your videos for years and they have been becoming increasingly more important for my study and career path. You are a hero.

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thank you! :)

  • @muhammadikram375
    @muhammadikram375 4 หลายเดือนก่อน +11

    sir you deserved millions of views on your TH-cam ❤❤🎉

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thanks!

  • @n.h.son1902
    @n.h.son1902 4 หลายเดือนก่อน +9

    You said this was going to come out at the end of May. And I’ve been waiting for this for 2 months. Finally, it’s out 😂

    • @statquest
      @statquest  4 หลายเดือนก่อน +15

      I guess better later than never?

  • @Brad-qw1te
    @Brad-qw1te 4 หลายเดือนก่อน +1

    I’ve been trying to make a Neural Network in c++ for like a month now. I was trying to just use 3b1b’s videos but they wernt good enough. But then I found your videos and I’m getting really close to being able to finish the back propagation algorithm.
    When I started I thought it would look good on my resume but now I’m thinking nobody will care but I’m in too deep to quit

    • @statquest
      @statquest  4 หลายเดือนก่อน

      good luck!

  • @hammry_pommter
    @hammry_pommter 2 หลายเดือนก่อน +1

    sir first of all huge respect to your content......Sir one more request can u make one video on how to apply transformer on image datasets for different image processing models....like object detection,segmentation....
    but only thing is teachers like u make this world more beautiful....

    • @statquest
      @statquest  2 หลายเดือนก่อน +1

      Thanks! I'll keep those topics in mind.

  • @abhinavsb9228
    @abhinavsb9228 3 หลายเดือนก่อน +1

    100/100 🔥when i search for an explanation video on youtube this is what i expect🔥

    • @statquest
      @statquest  3 หลายเดือนก่อน

      Thanks!

  • @ramwisc1
    @ramwisc1 4 หลายเดือนก่อน +1

    Wow - have been waiting for this one! Now that I've wrapped my head around word embeddings, time to code this one up! Thank you @statquest!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Bam! :)

  • @bayoudata
    @bayoudata 4 หลายเดือนก่อน +5

    Cool, learn a lot from all of your videos Josh! 🤯

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks!

  • @sillypoint2292
    @sillypoint2292 4 หลายเดือนก่อน +1

    This video's amazing man. Not just this one but every video of yours. Before I began actually learning Machine Learning I used to watch your videos jus for fun and trust me, it had taught me a lot. Thanks for your amazing teaching :) with love from India ❤

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Great to hear!

    • @sillypoint2292
      @sillypoint2292 4 หลายเดือนก่อน +1

      @@statquest :)

  • @akshaygs4048
    @akshaygs4048 4 หลายเดือนก่อน +3

    It had been sometime since i watched your video. Very good video as always 🎉🎉

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks! 😃

  • @SaftigKnackig
    @SaftigKnackig หลายเดือนก่อน +2

    I could only watch your videos for getting cheered up by your intro song.

    • @statquest
      @statquest  หลายเดือนก่อน

      bam! :)

  • @TalkOfWang
    @TalkOfWang 4 หลายเดือนก่อน +6

    It is party time! Thanks for uploading!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      You bet!

  • @Sravdar
    @Sravdar 3 หลายเดือนก่อน +1

    AMAZING VIDEOS. Watched all of your nn playlist in 3 days. And now reaching the end i have some questions. One is what are the future planned videos? And two is how do you select activation functions? In fact a video where you create custom models for for different problems and explaining "why to use this" would be great. No need to explain math or programing needed for that.
    Thank you for all of these videos!

    • @statquest
      @statquest  3 หลายเดือนก่อน +1

      Thanks! I'm glad you like the videos. My guess is the next one will be about encoder-only transformers. I'm also working on a book about neural networks that includes all the content from the videos plus a few bonus things. I've finished the first draft and will start editing it soon.

  • @pro100gameryt8
    @pro100gameryt8 4 หลายเดือนก่อน +4

    Incredible video, Josh! Love your content. Can you please make a video on diffusion models?

    • @statquest
      @statquest  4 หลายเดือนก่อน +2

      I'll keep that in mind.

    • @pro100gameryt8
      @pro100gameryt8 4 หลายเดือนก่อน +1

      Thank you very much​ Josh! Bam @statquest

  • @jawadmansoor6064
    @jawadmansoor6064 4 หลายเดือนก่อน +3

    Finally greatly watied video arrived. Thank you.

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Bam! :)

  • @jorgesanabria6484
    @jorgesanabria6484 4 หลายเดือนก่อน +1

    This will be awesome. I am trying to learn the math behind transformers and PyTorch so hopefully this helps give me some intuition

    • @statquest
      @statquest  4 หลายเดือนก่อน +2

      I've got a video all about the math behind transformers here: th-cam.com/video/KphmOJnLAdI/w-d-xo.html

  • @sikandarnadaf7858
    @sikandarnadaf7858 29 วันที่ผ่านมา +1

    Thanks for making it so easy to understand

    • @statquest
      @statquest  29 วันที่ผ่านมา

      You're welcome!

  • @neonipun
    @neonipun 4 หลายเดือนก่อน +3

    I'm gonna enjoy this one!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      bam! :)

  • @elifiremarslan9408
    @elifiremarslan9408 วันที่ผ่านมา +1

    Great video! I like the way you teach!

    • @statquest
      @statquest  วันที่ผ่านมา

      Thanks!

  • @gvascons
    @gvascons 4 หลายเดือนก่อน +1

    Great and very didactic as usual, Josh!! Definitely going to wrap my head around this for a while and try a few tweaks! Do you plan on eventually also discussing other non-NLP topics like GANs and Diffusion Models?

    • @statquest
      @statquest  4 หลายเดือนก่อน

      One day I hope to.

  • @pompymandislian5628
    @pompymandislian5628 3 วันที่ผ่านมา +1

    so briliant, please create video scratch more again, i so like it thankyouu

    • @statquest
      @statquest  3 วันที่ผ่านมา

      Thanks! Will do!

  • @iqra2291
    @iqra2291 2 หลายเดือนก่อน +1

    Amazing explanation 🎉❤ you are the best 😊

    • @statquest
      @statquest  2 หลายเดือนก่อน

      Thank you! 😃

  • @artofwrick
    @artofwrick 2 หลายเดือนก่อน +1

    Hey... Josh, can you please make a Playlist on all the videos on probability that you've posted so far??? Please ❤❤

    • @statquest
      @statquest  2 หลายเดือนก่อน

      I'll keep that in mind, in the mean time, you can go through the Statistics Fundaments in this list: statquest.org/video-index/

  • @glaudiston
    @glaudiston 4 หลายเดือนก่อน +1

    Today we learned that statquest is awesome. triple BAM!

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks!

  • @alexsemchenkov5740
    @alexsemchenkov5740 18 วันที่ผ่านมา +1

    Great job! Thanks a million!

    • @statquest
      @statquest  17 วันที่ผ่านมา

      Thanks!

  • @hasibahmad297
    @hasibahmad297 4 หลายเดือนก่อน +1

    I saw the title and right away knew that it is BAM. Can we expect some data analysis, ML projects from scratch?

    • @statquest
      @statquest  4 หลายเดือนก่อน

      I hope so.

  • @sidnath7336
    @sidnath7336 4 หลายเดือนก่อน

    Awesome video!
    Maybe we can have a part 2 where we incorporate multi-head attention? 👌🏽
    And then could make this a series on different decoder models and how they differ e.g., mistral uses RoPE and sliding window attention etc…

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      If you look at the code you'll see how to to create multi-headed attention: github.com/StatQuest/decoder_transformer_from_scratch

  • @datasciencepassions4522
    @datasciencepassions4522 4 หลายเดือนก่อน +1

    God Bless You for the great work you do! Thank you so much

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thank you very much! :)

  • @205-cssaurabhmaulekhi9
    @205-cssaurabhmaulekhi9 4 หลายเดือนก่อน +2

    Thank you
    I was in need of this 😊

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Glad it was helpful!

  • @Pqrsaw
    @Pqrsaw 2 หลายเดือนก่อน +1

    Loved it!
    Thank you very much

    • @statquest
      @statquest  2 หลายเดือนก่อน +1

      Thank you!

  • @Sikandar456
    @Sikandar456 27 วันที่ผ่านมา +2

    Hi Josh, this video really helped. Can you do one on diffusion models?

    • @statquest
      @statquest  27 วันที่ผ่านมา

      I'll keep that in mind.

  • @gigabytechanz9646
    @gigabytechanz9646 4 วันที่ผ่านมา +1

    Really helpful! Thanks

    • @statquest
      @statquest  3 วันที่ผ่านมา

      Glad it was helpful!

  • @1msirius
    @1msirius 24 วันที่ผ่านมา +1

    I really like your teaching

    • @statquest
      @statquest  24 วันที่ผ่านมา +1

      Thank you!

    • @1msirius
      @1msirius 24 วันที่ผ่านมา +1

      @@statquest I should thank you sir! I love watching your videos!

  • @ShadArfMohammed
    @ShadArfMohammed 4 หลายเดือนก่อน +2

    as always, wonderful content.
    Thanks :)

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thanks again!

  • @sharjeel_mazhar
    @sharjeel_mazhar 4 หลายเดือนก่อน +2

    Thank you! You're the best!!!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      You're welcome!

  • @mohamedthasneem7327
    @mohamedthasneem7327 2 หลายเดือนก่อน +1

    Thank you very much sir...💚

    • @statquest
      @statquest  2 หลายเดือนก่อน +1

      Thanks!

  • @旭哥-r5b
    @旭哥-r5b หลายเดือนก่อน +1

    Thank you. You're a lifesaver when I need this to finish my school project. However, if the input contains a various number of strings, do I add padding after ?

    • @statquest
      @statquest  หลายเดือนก่อน +1

      Yes, you do that when training a batch of inputs with different lengths.

    • @旭哥-r5b
      @旭哥-r5b หลายเดือนก่อน

      @@statquest Thank you for your help. However, if I use zero padding and include zero as a valid token in the vocabulary, won't the model end up predicting zero-which is meant to represent padding-thereby making the output meaningless?

    • @statquest
      @statquest  หลายเดือนก่อน +1

      @@旭哥-r5b You create a special token for padding.

    • @旭哥-r5b
      @旭哥-r5b หลายเดือนก่อน

      @@statquest And that token will still be used as the label for training?

    • @statquest
      @statquest  หลายเดือนก่อน

      @@旭哥-r5b I believe that is is correct.

  • @Priyanshuc2425
    @Priyanshuc2425 3 หลายเดือนก่อน +1

    Please include this in your happy halloween playlist

    • @statquest
      @statquest  3 หลายเดือนก่อน +1

      Thanks! Will do! :)

    • @Priyanshuc2425
      @Priyanshuc2425 3 หลายเดือนก่อน +1

      @@statquest triple bam :)

  • @mikinyaa
    @mikinyaa 4 หลายเดือนก่อน +4

    🎉🎉🎉thank you😊

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      bam! :)

  • @codinghighlightswithsadra7343
    @codinghighlightswithsadra7343 2 หลายเดือนก่อน +1

    thank you ! can you please explane how we can use transformer in time series please?

    • @statquest
      @statquest  2 หลายเดือนก่อน +1

      I'll keep that in mind. But in the mean time, you can thank of an input prompt (like "what is statquest?") as a time series dataset - because the words are ordered and occur sequentially. So, based on a sequence of ordered sequence of tokens, the transformer generates a prediction about what happens next.

  • @miriamramstudio3982
    @miriamramstudio3982 4 หลายเดือนก่อน +1

    Great video. Thanks

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Glad you liked it!

  • @PadaiLikhai-hu6op
    @PadaiLikhai-hu6op 26 วันที่ผ่านมา +1

    never stop making videos, or else i'll track you down and make you eat very spicy chillies

    • @statquest
      @statquest  26 วันที่ผ่านมา

      bam! :)

  • @Simon-FriedrichBöttger
    @Simon-FriedrichBöttger 4 หลายเดือนก่อน +1

    Thank you very much!

    • @statquest
      @statquest  4 หลายเดือนก่อน

      TRIPLE BAM!!! Thank you so much for supporting StatQuest!!!

  • @Faisal-cl9iu
    @Faisal-cl9iu 4 หลายเดือนก่อน +1

    Thanks a lot for for this free wonderful content. ❤😊

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thank you!

  • @gstiebler
    @gstiebler 4 หลายเดือนก่อน +2

    Thanks!

    • @statquest
      @statquest  4 หลายเดือนก่อน

      TRIPLE BAM!!! Thank you for supporting StatQuest!

  • @kimjong-un4521
    @kimjong-un4521 5 วันที่ผ่านมา +1

    Finally completed. Took 1.5 months. God i am so slow

    • @statquest
      @statquest  5 วันที่ผ่านมา +1

      BAM! :) It took me over 4 years to make the videos, so 1.5 months isn't bad.

  • @thomasalderson368
    @thomasalderson368 4 หลายเดือนก่อน +1

    How about an encoder only classifier to round off the series? thanks

    • @statquest
      @statquest  4 หลายเดือนก่อน

      I'll keep that in mind.

  • @__no_name__
    @__no_name__ 4 หลายเดือนก่อน +1

    I want to make a sequence prediction model. How should i test the model? What can i use for inference/ testing? (Not for natural language)

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      I'm pretty sure you can do it just like shown in this video, just swap out the words for the tokens in your sequence.

  • @gayedemiray
    @gayedemiray 4 หลายเดือนก่อน +1

    you are the best!!! hooray!!!! 😊

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks!

  • @zeroonetwothree1298
    @zeroonetwothree1298 4 หลายเดือนก่อน +1

    Legend.

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @yosimadsu2189
    @yosimadsu2189 4 หลายเดือนก่อน

    🙏🏻🙏🏻🙏🏻🙏🏻🙏🏻 Please please please show us how to train QVK Weights in detail 🙏🏻🙏🏻🙏🏻🙏🏻🙏🏻
    You showed us just a simple call to function. But we are curious how it did the math, what to train, and how it can changes values of the weights. ABC

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Every single weight and bias in a neural network is trained with backpropagation. To learn more about how this process works, see: th-cam.com/video/IN2XmBhILt4/w-d-xo.html th-cam.com/video/iyn2zdALii8/w-d-xo.html and th-cam.com/video/GKZoOHXGcLo/w-d-xo.html

    • @yosimadsu2189
      @yosimadsu2189 4 หลายเดือนก่อน

      @@statquest Since both QVK Weights are splitted and the calculations are passing non neural network, imho the back propagation process is quite tricky. In the other hand, the fit function did not tell the order of calculations on each nodes.

  • @danielhernandezmota225
    @danielhernandezmota225 หลายเดือนก่อน

    I see that the two inputs have the same lenght... what would change if I wanted to train with another phrase, for instance: "What awesome statquest" (uses 4 tokens instead of 5). How can I generate an input with torch.tensor where the input is no longer the same dimension?

    • @statquest
      @statquest  หลายเดือนก่อน

      It depends. If you want to train everything in a batch, all at once, you can add a "" token and mask that out when calculating attention.

  • @Mạnhfefe
    @Mạnhfefe 4 หลายเดือนก่อน +1

    thank you sm fr bro

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Any time!

  • @frommarkham424
    @frommarkham424 2 หลายเดือนก่อน +1

    Optimus prime has been real quiet since this one dropped😬😬😬😬😬

    • @statquest
      @statquest  2 หลายเดือนก่อน

      :)

  • @rishabhsoni
    @rishabhsoni 4 หลายเดือนก่อน +1

    Respect

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks!

  • @gastonmorixe
    @gastonmorixe 4 หลายเดือนก่อน +1

    gold

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Thanks!

  • @TheFunofMusic
    @TheFunofMusic 4 หลายเดือนก่อน +3

    Triple Bam!!!

    • @statquest
      @statquest  4 หลายเดือนก่อน +2

      :)

  • @paslaid
    @paslaid 4 หลายเดือนก่อน +1

    🎉

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @jayjhaveri1906
    @jayjhaveri1906 3 วันที่ผ่านมา +1

    love youuu

    • @statquest
      @statquest  2 วันที่ผ่านมา +1

      :)

  • @cuckoo_is_singing
    @cuckoo_is_singing 4 หลายเดือนก่อน

    hi josh,
    should embedding weigths be updated during training? for example nn.embedding(vocab_size,d_model) produces random numbers that each token will be referred to the related rows in our embedding matrice, should we update this weights during training? positional embedding weights are constant during our training and the only weights (except other parameters of course, like q,k,v) that prone to change are our nn.embedding weights!
    I wrote a code for translating amino acids to sequences
    everything in training works well with accuracy 95-98%
    but in inference stage I get to the bad results. i recall my model by
    loading_path=os.path.join(checkpoint_dir, config['model_name'])
    model.load_checkpoint(loading_path,model,optimizer)
    but after inference loop my result is like:
    'tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc tcc ' :(
    even we assume my algorithm has overfitted We shouldn't get to this result!
    also I think other parameters like dropout factor should not be considered in inference stage (p=0 for dropout)
    I mean we shouldn't just reload the best parameters, we should change some parameters (srry I spoke alot :)) )

    • @statquest
      @statquest  4 หลายเดือนก่อน

      The word embedding weights are updated during training.

  • @Bartosz-o4p
    @Bartosz-o4p 4 หลายเดือนก่อน +1

    Bam!
    Peanut Butter and Jaaam ;)

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @nossonweissman
    @nossonweissman 4 หลายเดือนก่อน +2

    BAM!!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thanks Nosson!

  • @keeperofthelight9681
    @keeperofthelight9681 4 หลายเดือนก่อน

    Sir can you include how to make the chatbot to hold a conversation with

    • @statquest
      @statquest  4 หลายเดือนก่อน

      I'll keep that in mind.

  • @tismanasou
    @tismanasou 4 หลายเดือนก่อน

    Let's start from the basics. ChatGPT is not a transformer. It's an application.

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Yep, that's correct.

  • @acasualviewer5861
    @acasualviewer5861 4 หลายเดือนก่อน

    I'm confused as to why the values would come from the ENCODER when computing the cross attention between the Encoder and Decoder. Shouldn't the values come from the decoder itself?
    So if I trained a model to translate from English to German, then wanted to switch out the German for Spanish, I'd expect the new decoder to know what to do with the output of the Encoder. But if the values are coming from the Encoder, then this wouldn't work.

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      The idea is that the query in the decoder is used to determine how a potential word in the output is related to the words in the input. This done by using a query from the decoder and keys for all of the input words in the encoder. Then, once we have established how much (what percentages) a potential word in the output is related to all of the input word, we then have to determine what that percentage is of. It is of the values. And thus, the values have to come from the encoder. For more details, see: th-cam.com/video/zxQyTK8quyY/w-d-xo.html

  • @gustavojuantorena
    @gustavojuantorena 4 หลายเดือนก่อน +1

    🎉🎉🎉

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Triple 🎉!

  • @observor-ds3ro
    @observor-ds3ro 4 หลายเดือนก่อน

    22:50 hey Josh you assigned 4 for number of tokens, but we have 5 tokens (including ) , even in the shape of the diagram, as you are pointing, there are 5 boxes (representing 5 outputs).. I got confused
    And you know what? Words fail me to say how much you affected on my life.. so I won’t say anything 😂

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      See 26:46 . At 22:50 we just assign a default value for that parameter, however, we don't use that default value when we create the transformer object at 26:46. Instead, we set it to the number of tokens in the vocabulary.

  • @suika6459
    @suika6459 4 หลายเดือนก่อน +2

    amazinggg

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Thanks!

  • @aadijha14
    @aadijha14 หลายเดือนก่อน +1

    reply with :) if you are think statquest is fully hydrated while recording these

    • @aadijha14
      @aadijha14 หลายเดือนก่อน +1

      really excited for the book btw

    • @statquest
      @statquest  หลายเดือนก่อน

      bam! :)

  • @zendr0
    @zendr0 4 หลายเดือนก่อน +1

    Bam!

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @HanqiXiao-x1u
    @HanqiXiao-x1u 4 หลายเดือนก่อน +1

    Horray!

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @BooleanDisorder
    @BooleanDisorder 4 หลายเดือนก่อน

    I have imported a torch. Do I light it now?

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @김정헌-i8r
    @김정헌-i8r 4 หลายเดือนก่อน +2

    GTP :)

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Corrected! ;)

  • @arnabmishra827
    @arnabmishra827 4 หลายเดือนก่อน

    What is that extra "import" at line 2, @1.37

    • @statquest
      @statquest  4 หลายเดือนก่อน

      That's called a typo.

  • @louislim2316
    @louislim2316 หลายเดือนก่อน +2

    Triple Bam :)

    • @statquest
      @statquest  หลายเดือนก่อน

      :)

  • @أحمدأكرمعامر
    @أحمدأكرمعامر 4 หลายเดือนก่อน +1

    Baaaam!❤

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @mousquetaire86
    @mousquetaire86 4 หลายเดือนก่อน +2

    Wish you could be Prime Minister of the United Kingdom!

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Ha! :)

  • @Melle-sq4df
    @Melle-sq4df 4 หลายเดือนก่อน

    in the very first slide the imports are broken at th-cam.com/video/C9QSpl5nmrY/w-d-xo.html
    `import torch.nn as nn import` # there's an extra trailing import here.

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Yep, that's a typo. That's why it's best to download the code. Here's the link: github.com/StatQuest/decoder_transformer_from_scratch

  • @lamlamnguyen7093
    @lamlamnguyen7093 4 หลายเดือนก่อน

    Damnn bro 😮😮😮😮

    • @statquest
      @statquest  4 หลายเดือนก่อน

      :)

  • @ckq
    @ckq 4 หลายเดือนก่อน +1

    GTP

    • @statquest
      @statquest  4 หลายเดือนก่อน

      Corrected! :)

  • @isaacsalzman
    @isaacsalzman 4 หลายเดือนก่อน +3

    Ya misspelled ChatGPT - Generative Pre-trained Transformer

    • @statquest
      @statquest  4 หลายเดือนก่อน +1

      Corrected! :)

  • @naromsky
    @naromsky 4 หลายเดือนก่อน +1

    From scratch in pytorch, huh.

    • @statquest
      @statquest  4 หลายเดือนก่อน +4

      I decided to skip doing it in assembly. ;)

  • @frommarkham424
    @frommarkham424 2 หลายเดือนก่อน +1

    ARTIFICIAL NEURAL NETWORKS ARE AWESOMEEEEEEEEEE🔥🔥🔥🔥🦾🦾🦾🗣🗣🗣🗣💯💯💯💯

    • @statquest
      @statquest  2 หลายเดือนก่อน

      bam! :)