Спасибо за интересный обзор с примерами! Просьба на будущее - при подготовке презентаций учитывайте вставку видео с Вами. Иногда этот экран перекрывает информацию на слайде. Успехов Вам!
а есть видео с обзором ламы 3.1? очень интересно о запуске старших версий на сервере. Я не особо разбираюсь в этом, но очень интересно почему такие цены на генерацию? :)
нет, не готовил обзор. Но много пишут и по старшей модели (405В) есть противоречивые отзывы. А ее запуск точно не для простых смертных ) так как даже в квантизации 2 бита для запуска надо больше чем одна А100
Про автоагента интересно: какая задача и какой промтинг использовали (наверняка CoT который не работает по сути, но он к сожалению везде в популярных либах типа AutoGPT). Интересна метрика, которую вы сами себе придумали, чтобы понимать когда делать стоп агента когда он уже ушел в дебри чепухи и просто тратит ваши деньги
Не совсем CoT, там цепочки мыслей нет как таковой, хотя и есть структура с отдельными наблюдениями, размышлениями и тд. И зависит от типа агента. На самом деле, пока все автоагенты для прода сыроваты. Я создаю свои с нуля, пока достаточно простые и метрики разные в зависимости от задачи. Пока там не много шагов, чтобы они зашли в лес.
Для RAG экономика не совсем так считается: тк контекста почти всегда для бизнес-решений не будет хватать, даже 128к и 2м (если вдруг Гемини даст) - то там архитектура решения как минимум состоит из модели-эмбеддера (которая тоже требует GPU) + гибридного поиска + самой финальной LLM. То есть там дороже будет
Не согласен что не совсем так ) Эмбединги можно поднять и на CPU. Или на почти любой GPU. Прилично работающие эмбединги это 1-2Gb VRAM или обычной памяти. Даже платные стоят сущие копейки по отношению ко всему остальном. Стратегия отбора контекста (рерэнкинги, графовые и тд) позволяют повысить точность и сократить объем передаваемого контекста. Но в остальном никак не влияют. Также стоят не сильно дорого все стратегии, кроме рерэнкинга LLM.
Спасибо за информацию. А я хотел поднять у себя ламу 3, на 70 млрд параметров, для своего домашнего проектика. Думал что и из оперативки нормально будет работать. Поставил 64 Гб. Стало быстрее, чем из свопа, конечно, но всё равно слишком медленно. Может секунд по 20 - 30 генерировать одно предложение. Хочется чтобы всё было локально. У меня как раз 4090 простаивает. Заметил что если модель не сильно вылазит за пределы памяти видеокарты, то скорость генерации, остаётся более чем сносной. Попробовать, что-ли, поюзать квантированную намертво, самую маленькую... Но то что выдаёт лама 3, на 8 млрд параметров, меня совсем не устраивает. Очень она потерянная какая-то. Вдруг будет лучше.
В проде мы используем пусть и меньшие модели, но в точности float16. Квантированные особенно на русском языке сильно проседают. Не знаю Ваши задачи, но LLaMA 3 8B вполне сносная. Единственная пока проблема малое контекстное окно.
Нифига крутой вы мужик. Я подписался
Спасибо за интересный обзор с примерами! Просьба на будущее - при подготовке презентаций учитывайте вставку видео с Вами. Иногда этот экран перекрывает информацию на слайде. Успехов Вам!
Топ контент! Спасибо за видео
Благодарю вас!
не обижайтесь, пожалуйста, на бесполезный комментарий. просто хотел Вас поблагодарить за ваши труды. очень многое для себя подчеркнул. 🎉
Спасибо! Снимаю шляпу.
а есть видео с обзором ламы 3.1? очень интересно о запуске старших версий на сервере. Я не особо разбираюсь в этом, но очень интересно почему такие цены на генерацию? :)
нет, не готовил обзор. Но много пишут и по старшей модели (405В) есть противоречивые отзывы. А ее запуск точно не для простых смертных ) так как даже в квантизации 2 бита для запуска надо больше чем одна А100
качество видео почему-то максимум 360(
youtube еще не успел сконвертировать в HD. В процессе
@@aikula999 спасибо, очень интересно было
Про автоагента интересно: какая задача и какой промтинг использовали (наверняка CoT который не работает по сути, но он к сожалению везде в популярных либах типа AutoGPT). Интересна метрика, которую вы сами себе придумали, чтобы понимать когда делать стоп агента когда он уже ушел в дебри чепухи и просто тратит ваши деньги
Не совсем CoT, там цепочки мыслей нет как таковой, хотя и есть структура с отдельными наблюдениями, размышлениями и тд. И зависит от типа агента. На самом деле, пока все автоагенты для прода сыроваты. Я создаю свои с нуля, пока достаточно простые и метрики разные в зависимости от задачи. Пока там не много шагов, чтобы они зашли в лес.
Для RAG экономика не совсем так считается: тк контекста почти всегда для бизнес-решений не будет хватать, даже 128к и 2м (если вдруг Гемини даст) - то там архитектура решения как минимум состоит из модели-эмбеддера (которая тоже требует GPU) + гибридного поиска + самой финальной LLM. То есть там дороже будет
Не согласен что не совсем так ) Эмбединги можно поднять и на CPU. Или на почти любой GPU. Прилично работающие эмбединги это 1-2Gb VRAM или обычной памяти. Даже платные стоят сущие копейки по отношению ко всему остальном. Стратегия отбора контекста (рерэнкинги, графовые и тд) позволяют повысить точность и сократить объем передаваемого контекста. Но в остальном никак не влияют. Также стоят не сильно дорого все стратегии, кроме рерэнкинга LLM.
@@aikula999 На CPU они станут узким горлышком всей системы, и будут затормаживать весь пайплайн, станет не важно как быстро батчи работают
Спасибо за информацию. А я хотел поднять у себя ламу 3, на 70 млрд параметров, для своего домашнего проектика. Думал что и из оперативки нормально будет работать. Поставил 64 Гб. Стало быстрее, чем из свопа, конечно, но всё равно слишком медленно. Может секунд по 20 - 30 генерировать одно предложение. Хочется чтобы всё было локально. У меня как раз 4090 простаивает. Заметил что если модель не сильно вылазит за пределы памяти видеокарты, то скорость генерации, остаётся более чем сносной. Попробовать, что-ли, поюзать квантированную намертво, самую маленькую... Но то что выдаёт лама 3, на 8 млрд параметров, меня совсем не устраивает. Очень она потерянная какая-то. Вдруг будет лучше.
В проде мы используем пусть и меньшие модели, но в точности float16. Квантированные особенно на русском языке сильно проседают. Не знаю Ваши задачи, но LLaMA 3 8B вполне сносная. Единственная пока проблема малое контекстное окно.