Herman Kamper
Herman Kamper
  • 161
  • 435 219

วีดีโอ

Reinforcement learning from human feedback (NLP817 12.3)
มุมมอง 5395 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/12_llm_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOVLRdimL3lS9F_33fzh9jU.html Course website: www.kamperh.com/nlp817/ PPO theory: th-cam.com/video/3uvnoVjM8nY/w-d-xo.html Proximal policy optimization explained: th-cam.com/video/HrapVFNBN64/w-d-xo.html
The difference between GPT and ChatGPT (NLP817 12.2)
มุมมอง 2015 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/12_llm_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOVLRdimL3lS9F_33fzh9jU.html Course website: www.kamperh.com/nlp817/
Large language model training and inference (NLP817 12.1)
มุมมอง 2755 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/12_llm_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOVLRdimL3lS9F_33fzh9jU.html Course website: www.kamperh.com/nlp817/ Andrej Karpathy's LLM video: th-cam.com/video/zjkBMFhNj_g/w-d-xo.html Byte pair encoding: th-cam.com/video/20xtCxAAkFw/w-d-xo.html Transformers: th-cam.com/play/PLmZlBIcArwhOPR2s-FIR7WoqNaBML233s.html
Extensions of RNNs (NLP817 9.7)
มุมมอง 1275 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/ Andrej Karpathy's blog: karpathy.github.io/2015/05/21/rnn-effectiveness/
Solutions to exploding and vanishing gradients (in RNNs) (NLP817 9.6)
มุมมอง 1075 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdfFull playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSjiCourse.html website: www.kamperh.com/nlp817/ Gradient descent: th-cam.com/video/BlnLoqn3ZBo/w-d-xo.html Colah's blog: colah.github.io/posts/2015-08-Understanding-LSTMs/
Vanishing and exploding gradients in RNNs (NLP817 9.5)
มุมมอง 1545 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/ Vector and matrix derivatives: th-cam.com/video/xOx2SS6TXHQ/w-d-xo.html
Backpropagation through time (NLP817 9.4)
มุมมอง 3485 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/ Vector and matrix derivatives: th-cam.com/video/xOx2SS6TXHQ/w-d-xo.html Computational graphs for neural networks: th-cam.com/video/fBSm5ElvJEg/w-d-xo.html Forks in neural networks: th-cam.com/video/6mmEw738MQo/w-d-xo.html
RNN definition and computational graph (NLP817 9.3)
มุมมอง 2096 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/
RNN language model loss function (NLP817 9.2)
มุมมอง 1966 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/
From feedforward to recurrent neural networks (NLP817 9.1)
มุมมอง 4436 หลายเดือนก่อน
Lecture notes: www.kamperh.com/nlp817/notes/09_rnn_notes.pdf Full playlist: th-cam.com/play/PLmZlBIcArwhOSBWBgRR70xip-NnbOwSji.html Course website: www.kamperh.com/nlp817/
Embedding layers in neural networks
มุมมอง 4647 หลายเดือนก่อน
Full video list and slides: www.kamperh.com/data414/ Introduction to neural networks playlist: th-cam.com/play/PLmZlBIcArwhMHnIrNu70mlvZOwe6MqWYn.html Word embeddings playlist: th-cam.com/play/PLmZlBIcArwhPN5aRBaB_yTA0Yz5RQe5A_.html
Git workflow extras (including merge conflicts)
มุมมอง 1277 หลายเดือนก่อน
Full playlist: th-cam.com/play/PLmZlBIcArwhPFPPZp7br31Kbjt4k0NJD1.html Notes: www.kamperh.com/notes/git_workflow_notes.pdf
A Git workflow
มุมมอง 3608 หลายเดือนก่อน
Full playlist: th-cam.com/play/PLmZlBIcArwhPFPPZp7br31Kbjt4k0NJD1.html Notes: www.kamperh.com/notes/git_workflow_notes.pdf
Evaluating word embeddings (NLP817 7.12)
มุมมอง 3498 หลายเดือนก่อน
Full playlist: th-cam.com/play/PLmZlBIcArwhPN5aRBaB_yTA0Yz5RQe5A_.html Lecture notes: www.kamperh.com/nlp817/notes/07_word_embeddings_notes.pdf Course website: www.kamperh.com/nlp817/
GloVe word embeddings (NLP817 7.11)
มุมมอง 3308 หลายเดือนก่อน
GloVe word embeddings (NLP817 7.11)
Skip-gram with negative sampling (NLP817 7.10)
มุมมอง 1K8 หลายเดือนก่อน
Skip-gram with negative sampling (NLP817 7.10)
Continuous bag-of-words (CBOW) (NLP817 7.9)
มุมมอง 2568 หลายเดือนก่อน
Continuous bag-of-words (CBOW) (NLP817 7.9)
Skip-gram example (NLP817 7.8)
มุมมอง 2608 หลายเดือนก่อน
Skip-gram example (NLP817 7.8)
Skip-gram as a neural network (NLP817 7.7)
มุมมอง 6838 หลายเดือนก่อน
Skip-gram as a neural network (NLP817 7.7)
Skip-gram optimisation (NLP817 7.6)
มุมมอง 3108 หลายเดือนก่อน
Skip-gram optimisation (NLP817 7.6)
Skip-gram model structure (NLP817 7.5)
มุมมอง 2738 หลายเดือนก่อน
Skip-gram model structure (NLP817 7.5)
Skip-gram loss function (NLP817 7.4)
มุมมอง 3698 หลายเดือนก่อน
Skip-gram loss function (NLP817 7.4)
Skip-gram introduction (NLP817 7.3)
มุมมอง 3698 หลายเดือนก่อน
Skip-gram introduction (NLP817 7.3)
One-hot word embeddings (NLP817 7.2)
มุมมอง 1918 หลายเดือนก่อน
One-hot word embeddings (NLP817 7.2)
Why word embeddings? (NLP817 7.1)
มุมมอง 5918 หลายเดือนก่อน
Why word embeddings? (NLP817 7.1)
What can large spoken language models tell us about speech? (IndabaX South Africa 2023)
มุมมอง 15110 หลายเดือนก่อน
What can large spoken language models tell us about speech? (IndabaX South Africa 2023)
Hidden Markov models in practice (NLP817 5.13)
มุมมอง 257ปีที่แล้ว
Hidden Markov models in practice (NLP817 5.13)
The log-sum-exp trick (NLP817 5.12)
มุมมอง 1.1Kปีที่แล้ว
The log-sum-exp trick (NLP817 5.12)
Why expectation maximisation works (NLP817 5.11)
มุมมอง 172ปีที่แล้ว
Why expectation maximisation works (NLP817 5.11)

ความคิดเห็น

  • @nolifebruh7093
    @nolifebruh7093 10 ชั่วโมงที่ผ่านมา

    At 5:55 when calculating negative log likelihood, is it base-10 log or natural log?

  • @navidmafi
    @navidmafi 2 วันที่ผ่านมา

    I'm not sure but in 12:12 I think using a FFN to transform would be very very cool. However I don't know whether it's better to put the net after the red vector then concat or concat then FFN.

  • @navidmafi
    @navidmafi 2 วันที่ผ่านมา

    11:55 at this moment when you finished the sentence I realized I am immensely enjoying math after years

  • @navidmafi
    @navidmafi 2 วันที่ผ่านมา

    one important question: in 2:51 you say ŷ₁ is a vector of probabilities. but isn't that just the word embedding that the model has predicted, that is then going to be superimposed to vocab size and then softmaxed to get the output word? or am I understanding it wrong?

  • @navidmafi
    @navidmafi 3 วันที่ผ่านมา

    wow. I am attending a god awful university for my bachelor's and subjects are explained in the most superficial way possible. Don't get me wrong, our professors are very kind and welcoming but the environment is not. especially with other students who are not interested in these subjects. Watching these I realize how badly I wanted to be in your classes xD

  • @navidmafi
    @navidmafi 3 วันที่ผ่านมา

    Thank you! the flow and explanation in this series is consice, informative and on-point!

  • @utopianscholastic
    @utopianscholastic 7 วันที่ผ่านมา

    Super useful, thanks!

    • @kamperh
      @kamperh 5 วันที่ผ่านมา

      SO happy this helps! :)

  • @shrirangkanade5921
    @shrirangkanade5921 7 วันที่ผ่านมา

    Got to learn many things about RNN Thanks

    • @kamperh
      @kamperh 5 วันที่ผ่านมา

      Thanks a ton for the kind message! :)

  • @ck-mu3ks
    @ck-mu3ks 8 วันที่ผ่านมา

    😘😘😘😘😘 Thank YOu SOo soo muchhhh

  • @haidernaqvi4664
    @haidernaqvi4664 10 วันที่ผ่านมา

    This is incredible, thank you for providing such high quality resources online for free. My university teacher could not do in 1 semester what you taught me in 1 video.

    • @kamperh
      @kamperh 10 วันที่ผ่านมา

      Thanks so much for the encouragement!!

  • @ShrirangKanade
    @ShrirangKanade 11 วันที่ผ่านมา

    why are we writng that k value in vec at 4:57, as our prediction will already contain some value at that point

  • @emo-v9c
    @emo-v9c 15 วันที่ผ่านมา

    greate explaintion the orignal image are so misleading

  • @sudhanvasavyasachi2525
    @sudhanvasavyasachi2525 16 วันที่ผ่านมา

    nice explanation sir

  • @tomasbeltran04050
    @tomasbeltran04050 18 วันที่ผ่านมา

    nice video. The Wikipedia link proved useful for my econometrics 101101 class

  • @litttlemooncream5049
    @litttlemooncream5049 21 วันที่ผ่านมา

    tried but failed again lol..thanks a lot

  • @kewang4683
    @kewang4683 หลายเดือนก่อน

    Your explanation just keeps getting better and better into the video, incredible job!

  • @johnson_diapers
    @johnson_diapers หลายเดือนก่อน

    Thank you so much, this is the best explanation I have came across, I went through 10+ videos from popular instructors and institute but this was clear and through

  • @kamleshverma-s2w
    @kamleshverma-s2w หลายเดือนก่อน

    great explanation

  • @advancedappliedandpuremath
    @advancedappliedandpuremath หลายเดือนก่อน

    Sir which book is this

  • @kaushkay-uk
    @kaushkay-uk หลายเดือนก่อน

    This is amazing!!!

  • @na50r24
    @na50r24 หลายเดือนก่อน

    17:35 What confuses me about this is, can we do the comparison to figure out if the same word is in the signal or if the both signals came from the same speaker? (IIrc the algo used for this is called DTW which is very similar to the Edit Distance algo)

  • @toprakbilici9030
    @toprakbilici9030 2 หลายเดือนก่อน

    Cool video, thanks.

  • @paigecarlson1742
    @paigecarlson1742 2 หลายเดือนก่อน

    Simple to understand. Thank you for writing the intermediate steps out. It really helps!

  • @KP-fy5bf
    @KP-fy5bf 2 หลายเดือนก่อน

    Great video but I still dont understand why you would have to use sin and cosine. You can just adjust the frequency of sin or cos and then get unique encodings and still maintain relative distance relationships between tokens. Why bother with sin and cosine? I know it has to do with the linear transform but I dont see why you cant perform a linear transform with cos or sin only.

  • @breadzeppelin2705
    @breadzeppelin2705 2 หลายเดือนก่อน

    Hey, I love your explanations and I use your TH-cam channel for machine learning almost exclusively. Could you please make a playlist to explain SVMs

    • @kamperh
      @kamperh 2 หลายเดือนก่อน

      So happy this helps! :) I should negotiate with my boss so I can make videos full time...

  • @realdragon
    @realdragon 2 หลายเดือนก่อน

    But how do I use polynomial regression when I have multiple points?

  • @samridhsrivastava4236
    @samridhsrivastava4236 2 หลายเดือนก่อน

    Bro this is like the best video I have seen on this topic

    • @kamperh
      @kamperh 2 หลายเดือนก่อน

      Thanks so much! Really appreciate! :)

  • @shinoz9517
    @shinoz9517 2 หลายเดือนก่อน

    Please do one on hierarchical clustering

  • @shinoz9517
    @shinoz9517 2 หลายเดือนก่อน

    Your lectures are amazing! Could you do some videos on hierarchical clustering?

    • @kamperh
      @kamperh 2 หลายเดือนก่อน

      Thanks so much for the encouraging message! :) I wish I had time to just make lecture videos... But hierarchical clustering is high on the list!

    • @shinoz9517
      @shinoz9517 2 หลายเดือนก่อน

      @@kamperh Thankss!!

  • @EdmonBegoli
    @EdmonBegoli 2 หลายเดือนก่อน

    K,Q,V is one of those concepts that will go into the history of Computer Science as one of the most unfortunate metaphors ever.

  • @emyomar8814
    @emyomar8814 2 หลายเดือนก่อน

    Great

  • @arnabsinha3627
    @arnabsinha3627 3 หลายเดือนก่อน

    Great lecture Prof. May I ask what are d=6 and d=7 here? Is it the embedding dimension? If so, for d=6, we should be having 3 pairs of sine-cosine waves right?

    • @kamperh
      @kamperh 3 หลายเดือนก่อน

      Hey Arnab! Sorry if this was a bit confusing. No, d=6 is the 6th dimension of the positional embedding. The embedding dimensionality itself will typically be the dimensionality of the word embeddings. If you jump to 14:00-ish, you will see the complete positional embedding. The earlier plots would be one dimension of this (when I should d=6, that would be the 6th dimension within this embedding).

    • @arnabsinha3627
      @arnabsinha3627 3 หลายเดือนก่อน

      Thanks so much for the prompt clarification Prof!

  • @jcamargo2005
    @jcamargo2005 3 หลายเดือนก่อน

    And since B is the max element, this justifies the interpretation of the log-sum-exp as a 'smooth max operator'

  • @aditya3984
    @aditya3984 3 หลายเดือนก่อน

    Really well explained, thanks.

  • @aditya3984
    @aditya3984 3 หลายเดือนก่อน

    Great video.

  • @RuthClark-f1j
    @RuthClark-f1j 3 หลายเดือนก่อน

    Drake Forges

  • @awenzhi
    @awenzhi 3 หลายเดือนก่อน

    I'm confused about the deriative of a vector function at 5:40, i think the gradient of a function f:Rn→Rm should be a matrix of size m×n. not sure about it

  • @andrefreitas9936
    @andrefreitas9936 3 หลายเดือนก่อน

    2:59 actually the pseudo algo you are using is 0 index.

  • @Gwittdog
    @Gwittdog 3 หลายเดือนก่อน

    Wonderful Lecture. Thank you

  • @warpdrive9229
    @warpdrive9229 3 หลายเดือนก่อน

    Cuz world wars!

  • @RahulSinghChhonkar
    @RahulSinghChhonkar 3 หลายเดือนก่อน

    For AnyOne having any doubts in relation bt NLL abd Cross entropy . this is a must watch !!!

  • @Josia-p5m
    @Josia-p5m 3 หลายเดือนก่อน

    This helped a lot. Fantastic intuitive explanation.

    • @kamperh
      @kamperh 3 หลายเดือนก่อน

      Super happy that it helped! :)

  • @nschweiz1
    @nschweiz1 4 หลายเดือนก่อน

    Great video series! The algorithm video was the one that finally got me to "get" DTW!

  • @adityasonale1608
    @adityasonale1608 4 หลายเดือนก่อน

    Your content is amazing !!!

    • @kamperh
      @kamperh 4 หลายเดือนก่อน

      Thanks Aditya!

  • @tgzhu3258
    @tgzhu3258 4 หลายเดือนก่อน

    So if I have a list of categorical inputs, where the order indeed imply their closeness, then I should not use one-hot encoding, but just use numerical values to represent the categories, is that right?

  • @tgzhu3258
    @tgzhu3258 4 หลายเดือนก่อน

    love this series! you explained the concepts really well and dive into details!

    • @kamperh
      @kamperh 4 หลายเดือนก่อน

      So super grateful for the positive feedback!!!

  • @viswanathvuppala4526
    @viswanathvuppala4526 4 หลายเดือนก่อน

    You look like Benedict Cumberbatch

    • @kamperh
      @kamperh 4 หลายเดือนก่อน

      The nicest thing that anyone has ever said!

  • @molebohengmokapane3311
    @molebohengmokapane3311 4 หลายเดือนก่อน

    Thanks for posting Herman, super insightful!

    • @kamperh
      @kamperh 4 หลายเดือนก่อน

      Thanks a ton for the feedback! :)

  • @Alabsi3A
    @Alabsi3A 4 หลายเดือนก่อน

    You are good

    • @kamperh
      @kamperh 4 หลายเดือนก่อน

      The nicest thing anyone has ever said ;)

  • @cuongnguyenuc1776
    @cuongnguyenuc1776 4 หลายเดือนก่อน

    Awesome, very great video!!