Efficient Fine-Tuning for Llama-v2-7b on a Single GPU

แชร์
ฝัง
  • เผยแพร่เมื่อ 17 ต.ค. 2024

ความคิดเห็น • 64

  • @thelinuxkid
    @thelinuxkid ปีที่แล้ว +15

    Very helpful! Already trained llama-2 with custom classifications using the cookbook. Thanks!

  • @craigrichards5472
    @craigrichards5472 2 หลายเดือนก่อน

    Amazing, can’t wait to play and train my first model 🎉

  • @thedelicatecook2
    @thedelicatecook2 5 หลายเดือนก่อน

    Well this was simply excellent, thank you 🙏🏻

  • @dinupavithran
    @dinupavithran 10 หลายเดือนก่อน +1

    Very informative. Direct and to the point content in a easily understandable presentation.

  • @ggm4857
    @ggm4857 ปีที่แล้ว +6

    I like to kindly request @DeepLearningAI to prepare such hands-on workshop on fine-tunning Source Code Models.

    • @Deeplearningai
      @Deeplearningai  ปีที่แล้ว +3

      Don't miss our short course on the subject! www.deeplearning.ai/short-courses/finetuning-large-language-models/

    • @ggm4857
      @ggm4857 ปีที่แล้ว

      @@Deeplearningai , Wow thanks.

  • @andres.yodars
    @andres.yodars ปีที่แล้ว +1

    One of the most complete videos. Must watch

  • @manojselvakumar4262
    @manojselvakumar4262 10 หลายเดือนก่อน +1

    Great content, well presented!

  • @ab8891
    @ab8891 ปีที่แล้ว

    Excellent xtal clear surgery on GPU VRAM utilization...

  • @tomhavy
    @tomhavy ปีที่แล้ว +2

    Thank you!

  • @KarimMarbouh
    @KarimMarbouh ปีที่แล้ว

    🖖alignement by sectoring hyperparameters in behaviour, nice one

  • @Ev3ntHorizon
    @Ev3ntHorizon ปีที่แล้ว

    Excellent coverage, thankyou.

  • @Ay-fj6xf
    @Ay-fj6xf 11 หลายเดือนก่อน

    Great video, thank you!

  • @karanjakhar
    @karanjakhar ปีที่แล้ว +1

    Really helpful. Thank you 👍

  • @zubairdotnet
    @zubairdotnet ปีที่แล้ว +15

    Nvidia H100 GPU on Lambda labs is just $2/hr, I am using it for past few months unlike $12.29/hr on AWS as shown in the slide.
    I get it, it's still not cheap but just worth mentioning here

    • @pieromolino_pb
      @pieromolino_pb ปีที่แล้ว +2

      You are right, we reported the AWS price there as it's hte most popular option and it was not practical to show all the pricing of all the vendors. But yes you can get them for cheaper elsewhere like from Lambda, thanks for pointing it out

    • @rankun203
      @rankun203 ปีที่แล้ว

      Last time I tried it, H100s are out of stock on Lambda

    • @zubairdotnet
      @zubairdotnet ปีที่แล้ว

      @@rankun203 They are available only in specific region mine is in Utah, I don't think they have expanded it plus there is no storage available in this region meaning if you shut down your instance, all data is lost

    • @Abraham_writes_random_code
      @Abraham_writes_random_code ปีที่แล้ว +2

      together AI is $1.4/hr on your own fine tuned model :)

    • @PieroMolino
      @PieroMolino ปีที่แล้ว +2

      @@Abraham_writes_random_code Predibase is cheaper than that

  • @rajgothi2633
    @rajgothi2633 11 หลายเดือนก่อน

    amazing video

  • @ayushyadav-bm2to
    @ayushyadav-bm2to 8 หลายเดือนก่อน +1

    What's the music in the beginning, can't shake it off

  • @msfasha
    @msfasha ปีที่แล้ว +1

    Clear and informative, thanx.

  • @dudepowpow
    @dudepowpow 2 หลายเดือนก่อน

    28 zoom notifications! Travis working too hard

  • @nguyenanhnguyen7658
    @nguyenanhnguyen7658 ปีที่แล้ว

    Very helpful. Thanks.

  • @goelnikhils
    @goelnikhils ปีที่แล้ว

    Amazing Content of fine tuning LLM

  • @TheGargalon
    @TheGargalon ปีที่แล้ว +6

    And I was under the delusion that I would be able to fine-tune the 70B param model on my 4090. Oh well...

    • @iukeay
      @iukeay 11 หลายเดือนก่อน

      I got a 40b model working on a 4090

    • @TheGargalon
      @TheGargalon 11 หลายเดือนก่อน +2

      @@iukeay Did you fine tune it, or just inference?

    • @ahsanulhaque4811
      @ahsanulhaque4811 7 หลายเดือนก่อน

      70B param? hahaha.

  • @jirikosek3714
    @jirikosek3714 ปีที่แล้ว

    Great job, thumbs up!

  • @stalinamirtharaj1353
    @stalinamirtharaj1353 ปีที่แล้ว

    @pieromolino_pb -Is Ludwig allows to locally download and deploy the fine-tuned model?

  • @pickaxe-support
    @pickaxe-support ปีที่แล้ว +2

    Cool video. If I want to fine-tune it on a single specific tassk (keyword extraction), should I first train an instruction-tuned model, and then train that on my specific task? Or mix the datasets together?

    • @shubhramishra8698
      @shubhramishra8698 ปีที่แล้ว

      also working on keyword extraction! I was wondering if you'd had any success fine tuning?

  • @PickaxeAI
    @PickaxeAI ปีที่แล้ว +1

    at 51:30 he says don't repeat the same prompt in the training data. What if I am fine-tuning the model on a single task but with thousands of different inputs for the same prompt?

    • @brandtbealx
      @brandtbealx ปีที่แล้ว +2

      It will cause overfitting. It would be similar to training an image classifier with a 1000 pictures of roses and only one lilly, then asking it to predict both classes with good accuracy. You want the data to have a normal distribution around your problem space.

    • @satyamgupta2182
      @satyamgupta2182 ปีที่แล้ว

      @PickaxeAI Did you come across a solution for this?

    • @manojselvakumar4262
      @manojselvakumar4262 10 หลายเดือนก่อน

      Can you give an example for the task? I'm trying to understand in what situation you'd need different completions for the same prompt

  • @bachbouch
    @bachbouch ปีที่แล้ว

    Amazing ❤

  • @nminhptnk
    @nminhptnk ปีที่แล้ว

    I ran Colab T4 and still got into “RuntimeError: CUDA Out of memory”. Any thing else I can do please?

  • @rgeromegnace
    @rgeromegnace ปีที่แล้ว

    Eh, c'était super. Merci beaucoup!

  • @nekro9t2
    @nekro9t2 ปีที่แล้ว +2

    Please can you provide a link to the slides?

  • @feysalmustak9604
    @feysalmustak9604 ปีที่แล้ว +3

    How long did the entire training process take?

    • @edwardduda4222
      @edwardduda4222 6 หลายเดือนก่อน

      Depends on your hardware, dataset, and hyper parameters you’re manipulating. The training process is the longest phase in developing a model.

  • @hemanth8195
    @hemanth8195 ปีที่แล้ว

    Thankyou

  • @kevinehsani3358
    @kevinehsani3358 ปีที่แล้ว

    epochs=3, since we are fine tunning, would epochs=1 would suffice?

    • @pieromolino_pb
      @pieromolino_pb ปีที่แล้ว +3

      It really depends on the dataset. Ludwig has also an early stopping mechanism where you can specify the number of epochs (or steps) without improvement before stopping, so you could set epochs to a relatively large number and have the early stopping take care of not wasting compute time

  • @ggm4857
    @ggm4857 ปีที่แล้ว +1

    Hello everyone, I would be so happy if the recorded video have caption/subtitles.

    • @kaifeekhan_25
      @kaifeekhan_25 ปีที่แล้ว +1

      Right

    • @dmf500
      @dmf500 ปีที่แล้ว +2

      it does, you just have to enable it! 😂

    • @kaifeekhan_25
      @kaifeekhan_25 ปีที่แล้ว +1

      ​@@dmf500now it is enabled😂

  • @leepro
    @leepro 6 หลายเดือนก่อน

    Cool! ❤

  • @rachadlakis1
    @rachadlakis1 2 หลายเดือนก่อน

    can we have the slides plz ?

  • @SDAravind
    @SDAravind ปีที่แล้ว

    can you share the slide, please?

  • @arjunaaround4013
    @arjunaaround4013 ปีที่แล้ว

    ❤❤❤

  • @Neberheim
    @Neberheim 10 หลายเดือนก่อน

    This seems to make a case for Apple Silicon for training. The M3 Max performs close to an RTX 3080, but with access to up to 192GB of memory.

    • @ahsanulhaque4811
      @ahsanulhaque4811 7 หลายเดือนก่อน

      Did you try on Apple silicon M1 Max?

  • @mohammadrezagh4881
    @mohammadrezagh4881 ปีที่แล้ว

    when I run the code in Perform Inference, I frequently receive ValueError: If `eos_token_id` is defined, make sure that `pad_token_id` is defined.
    what should I do?

    • @arnavgrg
      @arnavgrg ปีที่แล้ว

      This is now fixed on Ludwig master!