Файнтюнинг и квантизация Llama-3 70B

แชร์
ฝัง
  • เผยแพร่เมื่อ 20 ธ.ค. 2024

ความคิดเห็น • 30

  • @dmitrychernyak4397
    @dmitrychernyak4397 2 หลายเดือนก่อน

    Для фоновых процессов такого типа удобнее использовать команду screen. Она создаёт текстовый терминал с возможностью переподключения.
    screen - создать
    C-a C-d - отключиться
    screen -d -r переподключиться

  • @vasilysimonov3315
    @vasilysimonov3315 2 หลายเดือนก่อน

    ЦэПэПэ! Да, Вы, батенька, олдскул! Улыбнуло. А серьезно - очень полезное видео, спасибо!

  • @toster8240
    @toster8240 7 หลายเดือนก่อน +5

    Спасибо! Очень интересно и весьма наглядно.

  • @dolotube
    @dolotube 3 หลายเดือนก่อน

    3:49 Докидывают 78 тысяч пар вопрос-ответов? С мультиязычностью понятно, а тематика там какая? Или этот файнтюнинг предназначен только для уменьшения ошибок?
    5:08 Полное дообучение лламы 70b на три эпохи на одной А100 - около пяти дней. Для дообучения 8b на три эпохи нужно было полтора часа (из предыдущего видео).
    11:43 Предполагаю, что не "с достаточно мощным процессором", а "с достаточным объемом оперативной памяти".

  • @TheMr0day
    @TheMr0day 7 หลายเดือนก่อน +4

    Спасибо за видео! Стали примерно понятны время и бюджеты, необходимых для дообучения таких больших моделей как 70B.
    Что касается метрик, то хотелось бы подробнее узнать про эти самые метрики, по которым сравниваются LLM и строятся всяческие топы моделей, например на Huggingface.
    Потому что по определенным бенчмаркам в топе зачастую вижу малоизвестные открытые модели (чаще всего дообученная llama), которые вроде там заявляются чуть ли не на уровне ChatGPT 4.
    В реальных же задачах (например, генерация кода) они обычно ничего выдающегося не показывают и сильно отстают от пресловутого ChatGPT. То есть по факту, возможно, идет подгон под бенчмарк.
    Поэтому интересна сама природа этих метрик: что и как измеряют самые популярные из них и насколько им следует, на твой взгляд, доверять.

  • @noino5458
    @noino5458 7 หลายเดือนก่อน +5

    Может скинемся денюжкой на обучение? А после уже получим результат для общественности?

  • @waxboy6331
    @waxboy6331 5 หลายเดือนก่อน

    Спасибо. Отличное видео. Запускал Llama3 70b через Ollama, но не смог повторить проблему как видео с пониманием русского языка, возможно там уже другая модель.

  • @викторВиктор-ы5ж
    @викторВиктор-ы5ж 7 หลายเดือนก่อน

    Ну надо пробовать что получилось

  • @TheSniperoff
    @TheSniperoff 2 หลายเดือนก่อน +1

    Друг, можешь подсказать, трюк с квантованием модели можно провести с FRED-T5? У них на хг лежит пайторч только а мне бы GGUF из неё получить, можно даже просто конвертировать без самого квантования, модель там на 6ГБ. Спрашиваю потому что не знаю, все ли модели одинаковы по своей структуре и поддаются такой обработке.

  • @IT_psychopath
    @IT_psychopath 7 หลายเดือนก่อน +1

    дождались!😁спасибо!

  • @vitall789
    @vitall789 3 หลายเดือนก่อน +1

    Так и не разобрался какая видеокарта c VRAM нужна к примеру для GGUF Llama 3 70B 4bit - для локального запуска ? Одна нейронка говорит одни данные, другая другие!

    • @silentage6310
      @silentage6310 2 หลายเดือนก่อน +1

      для 4bit достаточно половины кол-ва весов: 70/2 = 35gb vram + запас. то есть например или 2хRTX3090 или A100 40gb.

    • @silentage6310
      @silentage6310 2 หลายเดือนก่อน +1

      также можете посомтреть сколько весят файлы весов на huggingface. примерно столько памяти и надо будет (+ запас)

    • @vitall789
      @vitall789 2 หลายเดือนก่อน

      @@silentage6310 Это как слушать музыку на 4bit хуже будет звучать чем дэнда!

  • @romanbolgar
    @romanbolgar 3 หลายเดือนก่อน

    Если бы это бесплатно. Может есть что-то типа Лоры. Я в этом не сильно разбираюсь но они вроде да обучаются быстрее

  • @PaulWide
    @PaulWide 3 หลายเดือนก่อน

    спасибо

  • @jetbrain9115
    @jetbrain9115 หลายเดือนก่อน

    Подскажите пожалуйста, какая версия python используется в роклике?

  • @AlekseyIT
    @AlekseyIT 7 หลายเดือนก่อน

    Что Вы знаете о rugtp? Есть смысл смотреть в её сторону или лучше взять lama3 и попробовать дообучить на русском датасете?
    Было бы интересно узнать, как создать самому датасет в рамках какого-то домена знаний? Например, взяв литературу по определённой тематике.

    • @ruslandev
      @ruslandev  7 หลายเดือนก่อน +2

      лучше взять llama 3
      в репозитории датасета из этого видео - tagengo есть код, с помощью которого этот датасет был создан через запросы к gpt-4

  • @andreyegorov450
    @andreyegorov450 5 หลายเดือนก่อน

    Помогите объеденить Llama3 70b q8, не могу понять какието файлы можно объеденить с помощью copy /b а эта модел не хочет работать, чем делили непонятно

    • @ruslandev
      @ruslandev  5 หลายเดือนก่อน

      Что именно объединить? По квантизации в q8_0 есть инструкция у llama.cpp

  • @topodin
    @topodin 7 หลายเดือนก่อน

    Спасибо. Есть ли команда чтобы приостановить файнтюнинг, сохранить состояние модели, а затем команда чтобы продолжить файнтюнинг с места остановки?

    • @ruslandev
      @ruslandev  7 หลายเดือนก่อน +2

      файнтюнинг - непрерывный процесс, но каждые 500 шагов автоматически создается чекпоинт

    • @topodin
      @topodin 6 หลายเดือนก่อน

      ​​@@ruslandev спасибо вам, понял

  • @alex_great23
    @alex_great23 7 หลายเดือนก่อน

    прегонишь в gguf llama-3-8b-samantha модель?

    • @ruslandev
      @ruslandev  6 หลายเดือนก่อน +1

      В gptchain есть команда с инструкцией, можешь сам сконвертировать

    • @alex_great23
      @alex_great23 6 หลายเดือนก่อน

      ​@@ruslandevну я в обучении не разбираюсь сори.

  • @alex_great23
    @alex_great23 7 หลายเดือนก่อน

    эта модель запустится на 3080ti 32г оперативы или не хватит? у меня есть 64г но нет свободных слотов в материнке(

    • @alex_great23
      @alex_great23 7 หลายเดือนก่อน

      не нехватает оперативки. жаль чуть меньше не создал модель.