Экономика LLM: что надо и сколько стоит использование больших языковых моделей

Andrey Kulinich

มุมมอง 3 011

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 20 ม.ค. 2025

ความคิดเห็น • 18

@ds_sss_rank 10 หลายเดือนก่อน ⁺⁹
Нифига крутой вы мужик. Я подписался
@sp1n294 8 หลายเดือนก่อน ⁺²
Спасибо за интересный обзор с примерами! Просьба на будущее - при подготовке презентаций учитывайте вставку видео с Вами. Иногда этот экран перекрывает информацию на слайде. Успехов Вам!
@user-berfrfv9k 9 หลายเดือนก่อน ⁺¹
Топ контент! Спасибо за видео
@АсельАртыкбаева-и1в 5 หลายเดือนก่อน
Благодарю вас!
@idontknow3489 10 หลายเดือนก่อน ⁺¹
не обижайтесь, пожалуйста, на бесполезный комментарий. просто хотел Вас поблагодарить за ваши труды. очень многое для себя подчеркнул. 🎉
@СергейНовиков-д2ж 9 หลายเดือนก่อน
Спасибо! Снимаю шляпу.
@ARKIsaa 5 หลายเดือนก่อน ⁺¹
а есть видео с обзором ламы 3.1? очень интересно о запуске старших версий на сервере. Я не особо разбираюсь в этом, но очень интересно почему такие цены на генерацию? :)
@aikula999 5 หลายเดือนก่อน ⁺²
нет, не готовил обзор. Но много пишут и по старшей модели (405В) есть противоречивые отзывы. А ее запуск точно не для простых смертных ) так как даже в квантизации 2 бита для запуска надо больше чем одна А100
@makmakmakk 10 หลายเดือนก่อน
качество видео почему-то максимум 360(
@aikula999 10 หลายเดือนก่อน ⁺¹
youtube еще не успел сконвертировать в HD. В процессе
@makmakmakk 10 หลายเดือนก่อน
@@aikula999 спасибо, очень интересно было
@avatarcybertronics2584 7 หลายเดือนก่อน
Про автоагента интересно: какая задача и какой промтинг использовали (наверняка CoT который не работает по сути, но он к сожалению везде в популярных либах типа AutoGPT). Интересна метрика, которую вы сами себе придумали, чтобы понимать когда делать стоп агента когда он уже ушел в дебри чепухи и просто тратит ваши деньги
@aikula999 7 หลายเดือนก่อน
Не совсем CoT, там цепочки мыслей нет как таковой, хотя и есть структура с отдельными наблюдениями, размышлениями и тд. И зависит от типа агента. На самом деле, пока все автоагенты для прода сыроваты. Я создаю свои с нуля, пока достаточно простые и метрики разные в зависимости от задачи. Пока там не много шагов, чтобы они зашли в лес.
@avatarcybertronics2584 7 หลายเดือนก่อน
Для RAG экономика не совсем так считается: тк контекста почти всегда для бизнес-решений не будет хватать, даже 128к и 2м (если вдруг Гемини даст) - то там архитектура решения как минимум состоит из модели-эмбеддера (которая тоже требует GPU) + гибридного поиска + самой финальной LLM. То есть там дороже будет
@aikula999 7 หลายเดือนก่อน
Не согласен что не совсем так ) Эмбединги можно поднять и на CPU. Или на почти любой GPU. Прилично работающие эмбединги это 1-2Gb VRAM или обычной памяти. Даже платные стоят сущие копейки по отношению ко всему остальном. Стратегия отбора контекста (рерэнкинги, графовые и тд) позволяют повысить точность и сократить объем передаваемого контекста. Но в остальном никак не влияют. Также стоят не сильно дорого все стратегии, кроме рерэнкинга LLM.
@avatarcybertronics2584 7 หลายเดือนก่อน
@@aikula999 На CPU они станут узким горлышком всей системы, и будут затормаживать весь пайплайн, станет не важно как быстро батчи работают
@true_rus364 7 หลายเดือนก่อน
Спасибо за информацию. А я хотел поднять у себя ламу 3, на 70 млрд параметров, для своего домашнего проектика. Думал что и из оперативки нормально будет работать. Поставил 64 Гб. Стало быстрее, чем из свопа, конечно, но всё равно слишком медленно. Может секунд по 20 - 30 генерировать одно предложение. Хочется чтобы всё было локально. У меня как раз 4090 простаивает. Заметил что если модель не сильно вылазит за пределы памяти видеокарты, то скорость генерации, остаётся более чем сносной. Попробовать, что-ли, поюзать квантированную намертво, самую маленькую... Но то что выдаёт лама 3, на 8 млрд параметров, меня совсем не устраивает. Очень она потерянная какая-то. Вдруг будет лучше.
@aikula999 7 หลายเดือนก่อน ⁺¹
В проде мы используем пусть и меньшие модели, но в точности float16. Квантированные особенно на русском языке сильно проседают. Не знаю Ваши задачи, но LLaMA 3 8B вполне сносная. Единственная пока проблема малое контекстное окно.

ต่อไป

เล่นอัตโนมัติ

Введение в большие языковые модели (LLM)