Экономика LLM: что надо и сколько стоит использование больших языковых моделей

แชร์
ฝัง
  • เผยแพร่เมื่อ 12 มี.ค. 2024
  • Презентация (так как видео иногда закрывает слайды здесь: cloud.mail.ru/public/2X2y/aAD...
    В видео рассматриваю что надо и сколько стоит использование LLM. Как примерно посчитать себестоимость одного действия и тд.
    Вопросы и пожелания пишите в Телеграм t.me/aikula
    Присоединяйтесь к моему каналу t.me/hirearobot

ความคิดเห็น • 15

  • @ds_sss_rank
    @ds_sss_rank 4 หลายเดือนก่อน +5

    Нифига крутой вы мужик. Я подписался

  • @sp1n294
    @sp1n294 2 หลายเดือนก่อน +1

    Спасибо за интересный обзор с примерами! Просьба на будущее - при подготовке презентаций учитывайте вставку видео с Вами. Иногда этот экран перекрывает информацию на слайде. Успехов Вам!

  • @user-berfrfv9k
    @user-berfrfv9k 3 หลายเดือนก่อน

    Топ контент! Спасибо за видео

  • @user-xu1wk3cv7c
    @user-xu1wk3cv7c 4 หลายเดือนก่อน

    Спасибо! Снимаю шляпу.

  • @idontknow3489
    @idontknow3489 4 หลายเดือนก่อน

    не обижайтесь, пожалуйста, на бесполезный комментарий. просто хотел Вас поблагодарить за ваши труды. очень многое для себя подчеркнул. 🎉

  • @true_rus364
    @true_rus364 หลายเดือนก่อน

    Спасибо за информацию. А я хотел поднять у себя ламу 3, на 70 млрд параметров, для своего домашнего проектика. Думал что и из оперативки нормально будет работать. Поставил 64 Гб. Стало быстрее, чем из свопа, конечно, но всё равно слишком медленно. Может секунд по 20 - 30 генерировать одно предложение. Хочется чтобы всё было локально. У меня как раз 4090 простаивает. Заметил что если модель не сильно вылазит за пределы памяти видеокарты, то скорость генерации, остаётся более чем сносной. Попробовать, что-ли, поюзать квантированную намертво, самую маленькую... Но то что выдаёт лама 3, на 8 млрд параметров, меня совсем не устраивает. Очень она потерянная какая-то. Вдруг будет лучше.

    • @aikula999
      @aikula999  หลายเดือนก่อน +1

      В проде мы используем пусть и меньшие модели, но в точности float16. Квантированные особенно на русском языке сильно проседают. Не знаю Ваши задачи, но LLaMA 3 8B вполне сносная. Единственная пока проблема малое контекстное окно.

  • @avatarcybertronics2584
    @avatarcybertronics2584 หลายเดือนก่อน

    Про автоагента интересно: какая задача и какой промтинг использовали (наверняка CoT который не работает по сути, но он к сожалению везде в популярных либах типа AutoGPT). Интересна метрика, которую вы сами себе придумали, чтобы понимать когда делать стоп агента когда он уже ушел в дебри чепухи и просто тратит ваши деньги

    • @aikula999
      @aikula999  หลายเดือนก่อน

      Не совсем CoT, там цепочки мыслей нет как таковой, хотя и есть структура с отдельными наблюдениями, размышлениями и тд. И зависит от типа агента. На самом деле, пока все автоагенты для прода сыроваты. Я создаю свои с нуля, пока достаточно простые и метрики разные в зависимости от задачи. Пока там не много шагов, чтобы они зашли в лес.

  • @avatarcybertronics2584
    @avatarcybertronics2584 หลายเดือนก่อน

    Для RAG экономика не совсем так считается: тк контекста почти всегда для бизнес-решений не будет хватать, даже 128к и 2м (если вдруг Гемини даст) - то там архитектура решения как минимум состоит из модели-эмбеддера (которая тоже требует GPU) + гибридного поиска + самой финальной LLM. То есть там дороже будет

    • @aikula999
      @aikula999  หลายเดือนก่อน

      Не согласен что не совсем так ) Эмбединги можно поднять и на CPU. Или на почти любой GPU. Прилично работающие эмбединги это 1-2Gb VRAM или обычной памяти. Даже платные стоят сущие копейки по отношению ко всему остальном. Стратегия отбора контекста (рерэнкинги, графовые и тд) позволяют повысить точность и сократить объем передаваемого контекста. Но в остальном никак не влияют. Также стоят не сильно дорого все стратегии, кроме рерэнкинга LLM.

    • @avatarcybertronics2584
      @avatarcybertronics2584 หลายเดือนก่อน

      @@aikula999 На CPU они станут узким горлышком всей системы, и будут затормаживать весь пайплайн, станет не важно как быстро батчи работают

  • @makmakmakk
    @makmakmakk 4 หลายเดือนก่อน

    качество видео почему-то максимум 360(

    • @aikula999
      @aikula999  4 หลายเดือนก่อน +1

      youtube еще не успел сконвертировать в HD. В процессе

    • @makmakmakk
      @makmakmakk 4 หลายเดือนก่อน

      @@aikula999 спасибо, очень интересно было