Для фоновых процессов такого типа удобнее использовать команду screen. Она создаёт текстовый терминал с возможностью переподключения. screen - создать C-a C-d - отключиться screen -d -r переподключиться
3:49 Докидывают 78 тысяч пар вопрос-ответов? С мультиязычностью понятно, а тематика там какая? Или этот файнтюнинг предназначен только для уменьшения ошибок? 5:08 Полное дообучение лламы 70b на три эпохи на одной А100 - около пяти дней. Для дообучения 8b на три эпохи нужно было полтора часа (из предыдущего видео). 11:43 Предполагаю, что не "с достаточно мощным процессором", а "с достаточным объемом оперативной памяти".
Спасибо за видео! Стали примерно понятны время и бюджеты, необходимых для дообучения таких больших моделей как 70B. Что касается метрик, то хотелось бы подробнее узнать про эти самые метрики, по которым сравниваются LLM и строятся всяческие топы моделей, например на Huggingface. Потому что по определенным бенчмаркам в топе зачастую вижу малоизвестные открытые модели (чаще всего дообученная llama), которые вроде там заявляются чуть ли не на уровне ChatGPT 4. В реальных же задачах (например, генерация кода) они обычно ничего выдающегося не показывают и сильно отстают от пресловутого ChatGPT. То есть по факту, возможно, идет подгон под бенчмарк. Поэтому интересна сама природа этих метрик: что и как измеряют самые популярные из них и насколько им следует, на твой взгляд, доверять.
Спасибо. Отличное видео. Запускал Llama3 70b через Ollama, но не смог повторить проблему как видео с пониманием русского языка, возможно там уже другая модель.
Друг, можешь подсказать, трюк с квантованием модели можно провести с FRED-T5? У них на хг лежит пайторч только а мне бы GGUF из неё получить, можно даже просто конвертировать без самого квантования, модель там на 6ГБ. Спрашиваю потому что не знаю, все ли модели одинаковы по своей структуре и поддаются такой обработке.
Так и не разобрался какая видеокарта c VRAM нужна к примеру для GGUF Llama 3 70B 4bit - для локального запуска ? Одна нейронка говорит одни данные, другая другие!
Что Вы знаете о rugtp? Есть смысл смотреть в её сторону или лучше взять lama3 и попробовать дообучить на русском датасете? Было бы интересно узнать, как создать самому датасет в рамках какого-то домена знаний? Например, взяв литературу по определённой тематике.
Для фоновых процессов такого типа удобнее использовать команду screen. Она создаёт текстовый терминал с возможностью переподключения.
screen - создать
C-a C-d - отключиться
screen -d -r переподключиться
ЦэПэПэ! Да, Вы, батенька, олдскул! Улыбнуло. А серьезно - очень полезное видео, спасибо!
Спасибо! Очень интересно и весьма наглядно.
3:49 Докидывают 78 тысяч пар вопрос-ответов? С мультиязычностью понятно, а тематика там какая? Или этот файнтюнинг предназначен только для уменьшения ошибок?
5:08 Полное дообучение лламы 70b на три эпохи на одной А100 - около пяти дней. Для дообучения 8b на три эпохи нужно было полтора часа (из предыдущего видео).
11:43 Предполагаю, что не "с достаточно мощным процессором", а "с достаточным объемом оперативной памяти".
Спасибо за видео! Стали примерно понятны время и бюджеты, необходимых для дообучения таких больших моделей как 70B.
Что касается метрик, то хотелось бы подробнее узнать про эти самые метрики, по которым сравниваются LLM и строятся всяческие топы моделей, например на Huggingface.
Потому что по определенным бенчмаркам в топе зачастую вижу малоизвестные открытые модели (чаще всего дообученная llama), которые вроде там заявляются чуть ли не на уровне ChatGPT 4.
В реальных же задачах (например, генерация кода) они обычно ничего выдающегося не показывают и сильно отстают от пресловутого ChatGPT. То есть по факту, возможно, идет подгон под бенчмарк.
Поэтому интересна сама природа этих метрик: что и как измеряют самые популярные из них и насколько им следует, на твой взгляд, доверять.
Может скинемся денюжкой на обучение? А после уже получим результат для общественности?
Спасибо. Отличное видео. Запускал Llama3 70b через Ollama, но не смог повторить проблему как видео с пониманием русского языка, возможно там уже другая модель.
Ну надо пробовать что получилось
Друг, можешь подсказать, трюк с квантованием модели можно провести с FRED-T5? У них на хг лежит пайторч только а мне бы GGUF из неё получить, можно даже просто конвертировать без самого квантования, модель там на 6ГБ. Спрашиваю потому что не знаю, все ли модели одинаковы по своей структуре и поддаются такой обработке.
дождались!😁спасибо!
Так и не разобрался какая видеокарта c VRAM нужна к примеру для GGUF Llama 3 70B 4bit - для локального запуска ? Одна нейронка говорит одни данные, другая другие!
для 4bit достаточно половины кол-ва весов: 70/2 = 35gb vram + запас. то есть например или 2хRTX3090 или A100 40gb.
также можете посомтреть сколько весят файлы весов на huggingface. примерно столько памяти и надо будет (+ запас)
@@silentage6310 Это как слушать музыку на 4bit хуже будет звучать чем дэнда!
Если бы это бесплатно. Может есть что-то типа Лоры. Я в этом не сильно разбираюсь но они вроде да обучаются быстрее
спасибо
Подскажите пожалуйста, какая версия python используется в роклике?
Что Вы знаете о rugtp? Есть смысл смотреть в её сторону или лучше взять lama3 и попробовать дообучить на русском датасете?
Было бы интересно узнать, как создать самому датасет в рамках какого-то домена знаний? Например, взяв литературу по определённой тематике.
лучше взять llama 3
в репозитории датасета из этого видео - tagengo есть код, с помощью которого этот датасет был создан через запросы к gpt-4
Помогите объеденить Llama3 70b q8, не могу понять какието файлы можно объеденить с помощью copy /b а эта модел не хочет работать, чем делили непонятно
Что именно объединить? По квантизации в q8_0 есть инструкция у llama.cpp
Спасибо. Есть ли команда чтобы приостановить файнтюнинг, сохранить состояние модели, а затем команда чтобы продолжить файнтюнинг с места остановки?
файнтюнинг - непрерывный процесс, но каждые 500 шагов автоматически создается чекпоинт
@@ruslandev спасибо вам, понял
прегонишь в gguf llama-3-8b-samantha модель?
В gptchain есть команда с инструкцией, можешь сам сконвертировать
@@ruslandevну я в обучении не разбираюсь сори.
эта модель запустится на 3080ti 32г оперативы или не хватит? у меня есть 64г но нет свободных слотов в материнке(
не нехватает оперативки. жаль чуть меньше не создал модель.