Файнтюнинг и квантизация Llama-3 70B

Ruslan Dev

มุมมอง 5 041

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 20 ธ.ค. 2024

ความคิดเห็น • 30

@dmitrychernyak4397 2 หลายเดือนก่อน
Для фоновых процессов такого типа удобнее использовать команду screen. Она создаёт текстовый терминал с возможностью переподключения.
screen - создать
C-a C-d - отключиться
screen -d -r переподключиться
@vasilysimonov3315 2 หลายเดือนก่อน
ЦэПэПэ! Да, Вы, батенька, олдскул! Улыбнуло. А серьезно - очень полезное видео, спасибо!
@toster8240 7 หลายเดือนก่อน ⁺⁵
Спасибо! Очень интересно и весьма наглядно.
@dolotube 3 หลายเดือนก่อน
3:49 Докидывают 78 тысяч пар вопрос-ответов? С мультиязычностью понятно, а тематика там какая? Или этот файнтюнинг предназначен только для уменьшения ошибок?
5:08 Полное дообучение лламы 70b на три эпохи на одной А100 - около пяти дней. Для дообучения 8b на три эпохи нужно было полтора часа (из предыдущего видео).
11:43 Предполагаю, что не "с достаточно мощным процессором", а "с достаточным объемом оперативной памяти".
@TheMr0day 7 หลายเดือนก่อน ⁺⁴
Спасибо за видео! Стали примерно понятны время и бюджеты, необходимых для дообучения таких больших моделей как 70B.
Что касается метрик, то хотелось бы подробнее узнать про эти самые метрики, по которым сравниваются LLM и строятся всяческие топы моделей, например на Huggingface.
Потому что по определенным бенчмаркам в топе зачастую вижу малоизвестные открытые модели (чаще всего дообученная llama), которые вроде там заявляются чуть ли не на уровне ChatGPT 4.
В реальных же задачах (например, генерация кода) они обычно ничего выдающегося не показывают и сильно отстают от пресловутого ChatGPT. То есть по факту, возможно, идет подгон под бенчмарк.
Поэтому интересна сама природа этих метрик: что и как измеряют самые популярные из них и насколько им следует, на твой взгляд, доверять.
@noino5458 7 หลายเดือนก่อน ⁺⁵
Может скинемся денюжкой на обучение? А после уже получим результат для общественности?
@waxboy6331 5 หลายเดือนก่อน
Спасибо. Отличное видео. Запускал Llama3 70b через Ollama, но не смог повторить проблему как видео с пониманием русского языка, возможно там уже другая модель.
@викторВиктор-ы5ж 7 หลายเดือนก่อน
Ну надо пробовать что получилось
@TheSniperoff 2 หลายเดือนก่อน ⁺¹
Друг, можешь подсказать, трюк с квантованием модели можно провести с FRED-T5? У них на хг лежит пайторч только а мне бы GGUF из неё получить, можно даже просто конвертировать без самого квантования, модель там на 6ГБ. Спрашиваю потому что не знаю, все ли модели одинаковы по своей структуре и поддаются такой обработке.
@IT_psychopath 7 หลายเดือนก่อน ⁺¹
дождались!😁спасибо!
@vitall789 3 หลายเดือนก่อน ⁺¹
Так и не разобрался какая видеокарта c VRAM нужна к примеру для GGUF Llama 3 70B 4bit - для локального запуска ? Одна нейронка говорит одни данные, другая другие!
@silentage6310 2 หลายเดือนก่อน ⁺¹
для 4bit достаточно половины кол-ва весов: 70/2 = 35gb vram + запас. то есть например или 2хRTX3090 или A100 40gb.
@silentage6310 2 หลายเดือนก่อน ⁺¹
также можете посомтреть сколько весят файлы весов на huggingface. примерно столько памяти и надо будет (+ запас)
@vitall789 2 หลายเดือนก่อน
@@silentage6310 Это как слушать музыку на 4bit хуже будет звучать чем дэнда!
@romanbolgar 3 หลายเดือนก่อน
Если бы это бесплатно. Может есть что-то типа Лоры. Я в этом не сильно разбираюсь но они вроде да обучаются быстрее
@PaulWide 3 หลายเดือนก่อน
спасибо
@jetbrain9115 หลายเดือนก่อน
Подскажите пожалуйста, какая версия python используется в роклике?
@AlekseyIT 7 หลายเดือนก่อน
Что Вы знаете о rugtp? Есть смысл смотреть в её сторону или лучше взять lama3 и попробовать дообучить на русском датасете?
Было бы интересно узнать, как создать самому датасет в рамках какого-то домена знаний? Например, взяв литературу по определённой тематике.
@ruslandev 7 หลายเดือนก่อน ⁺²
лучше взять llama 3
в репозитории датасета из этого видео - tagengo есть код, с помощью которого этот датасет был создан через запросы к gpt-4
@andreyegorov450 5 หลายเดือนก่อน
Помогите объеденить Llama3 70b q8, не могу понять какието файлы можно объеденить с помощью copy /b а эта модел не хочет работать, чем делили непонятно
@ruslandev 5 หลายเดือนก่อน
Что именно объединить? По квантизации в q8_0 есть инструкция у llama.cpp
@topodin 7 หลายเดือนก่อน
Спасибо. Есть ли команда чтобы приостановить файнтюнинг, сохранить состояние модели, а затем команда чтобы продолжить файнтюнинг с места остановки?
@ruslandev 7 หลายเดือนก่อน ⁺²
файнтюнинг - непрерывный процесс, но каждые 500 шагов автоматически создается чекпоинт
@topodin 6 หลายเดือนก่อน
@@ruslandev спасибо вам, понял
@alex_great23 7 หลายเดือนก่อน
прегонишь в gguf llama-3-8b-samantha модель?
@ruslandev 6 หลายเดือนก่อน ⁺¹
В gptchain есть команда с инструкцией, можешь сам сконвертировать
@alex_great23 6 หลายเดือนก่อน
@@ruslandevну я в обучении не разбираюсь сори.
@alex_great23 7 หลายเดือนก่อน
эта модель запустится на 3080ti 32г оперативы или не хватит? у меня есть 64г но нет свободных слотов в материнке(
@alex_great23 7 หลายเดือนก่อน
не нехватает оперативки. жаль чуть меньше не создал модель.

ต่อไป

เล่นอัตโนมัติ

Как обучить свой GPT-4o - Часть 1 - Бенчмарки