Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

แชร์
ฝัง
  • เผยแพร่เมื่อ 23 ก.ย. 2024

ความคิดเห็น • 56

  • @РамильАхмедов-м6ъ
    @РамильАхмедов-м6ъ 5 วันที่ผ่านมา +1

    Просто 10/10. Продолжайте, Виталий. Такой контент нам нужен

  • @VLfrog
    @VLfrog หลายเดือนก่อน +2

    Дружище, продолжайте!

  • @Azantys-w6h
    @Azantys-w6h 3 หลายเดือนก่อน +2

    Классный тест получился. Скоро магистерская по ИИ и на ваш канал я пожалуй подпишусь). Удачи в развитии проекта.

  • @si6arit
    @si6arit 3 หลายเดือนก่อน +3

    С Обновками)

  • @ПавелМинич
    @ПавелМинич 3 หลายเดือนก่อน +1

    Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.

  • @stanislavk5609
    @stanislavk5609 3 หลายเดือนก่อน +2

    Отличная работа!

  • @IT_psychopath
    @IT_psychopath 3 หลายเดือนก่อน +2

    Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео!
    большое спасибо за ваши труды!

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +1

      Да планирую записать видео о сборке сервера.

  • @ПетяПетрович-з5м
    @ПетяПетрович-з5м 3 หลายเดือนก่อน +2

    Спасибо

  • @FotonPC
    @FotonPC 3 หลายเดือนก่อน +2

    Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +2

      У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.

  • @astroiLL2010
    @astroiLL2010 3 หลายเดือนก่อน +1

    Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее.
    Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки.
    Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать?
    Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием.
    Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание.
    Ну все как было когда-то с майнингом. ASICS или аренда мощностей?
    Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду.
    Спасибо за обзор.

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно.
      rus-gpt.com/

    • @astroiLL2010
      @astroiLL2010 3 หลายเดือนก่อน

      @@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.

  • @МичилЕгоров-п3ц
    @МичилЕгоров-п3ц หลายเดือนก่อน +1

    А какой инструмент для сервинга llm вы использовали для тестов? vllm?

  • @mux8717
    @mux8717 3 หลายเดือนก่อน +1

    Подскажите, а каким образом память видеокарт на Вашем сервере суммируется?
    Используется мостик NVLink ?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +5

      nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.

  • @IT_psychopath
    @IT_psychopath 3 หลายเดือนก่อน +1

    Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +2

      rus-gpt.com/
      Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.

  • @adammartin7477
    @adammartin7477 3 หลายเดือนก่อน +1

    Коллеги, у меня простой вопрос.
    Для учебы и работы,
    нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду.
    Комбинация "железа":
    * две rtx-2080ti через nvlink,
    * intel 13700kf
    Какую материнку выбрать?
    * как пример ASUS PRIME Z790-P D4
    взлетит комбинация?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +1

      Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.

  • @KorneevZakhar
    @KorneevZakhar 2 หลายเดือนก่อน

    А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)

    • @kuliev.vitaly
      @kuliev.vitaly  2 หลายเดือนก่อน +1

      Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.

    • @KorneevZakhar
      @KorneevZakhar 2 หลายเดือนก่อน

      @@kuliev.vitaly Спасибо, за ответ! Тогда посижу пока на своей 3080) Мне для запуска локально codegemma:7b хватает, а там посмотрим ,как пойдёт)

    • @vitall789
      @vitall789 หลายเดือนก่อน

      @@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B

  • @aleksandrephatsatsia4530
    @aleksandrephatsatsia4530 หลายเดือนก่อน +1

    could you please explain what worker is? can you have multiple worker on single gpu?

    • @kuliev.vitaly
      @kuliev.vitaly  หลายเดือนก่อน +1

      That is client worker. It makes parallel requests to llm service. Llm service can process multiple requests simultaneously.

    • @aleksandrephatsatsia4530
      @aleksandrephatsatsia4530 หลายเดือนก่อน

      @@kuliev.vitaly so it means if i have single rtx 4090 i can run 60 workers in parallel and get those results?

    • @kuliev.vitaly
      @kuliev.vitaly  หลายเดือนก่อน +1

      Yes you can run 8b model on 4090 and make multiple requests to it.

    • @aleksandrephatsatsia4530
      @aleksandrephatsatsia4530 หลายเดือนก่อน

      Thanks vitaly, it improves the performance so much! could you please suggest some open source libraries that do it easily?

    • @kuliev.vitaly
      @kuliev.vitaly  หลายเดือนก่อน +1

      I use 'vllm' in docker.

  • @StaLenin
    @StaLenin 3 หลายเดือนก่อน +1

    Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +1

      Можешь попробовать по апи на моем сайте rus-gpt.com/
      Также есть открытые чаты для доступа к ламе.

    • @StaLenin
      @StaLenin 3 หลายเดือนก่อน

      @@kuliev.vitaly Спасибо, но какую видеокарту можно взять до 50 тыс?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб

  • @Nikita-g1d
    @Nikita-g1d 3 หลายเดือนก่อน

    Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь th-cam.com/video/lkMdvoY-xWo/w-d-xo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Схема рабочая и подходит для подключения к ноутбуку мощной карты. Сам я ее не тестировал, так как использую полноценный системник для инференса.

    • @Nikita-g1d
      @Nikita-g1d 3 หลายเดือนก่อน

      @@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +1

      можно выбирать нужную карту в задачах обучения и инференса.

  • @MikeMike-zf9up
    @MikeMike-zf9up 3 หลายเดือนก่อน

    Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +4

      Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.

    • @MikeMike-zf9up
      @MikeMike-zf9up 3 หลายเดือนก่อน

      ​@@kuliev.vitaly здорово! Спасибо за ответ!

  • @crypto.hirurg
    @crypto.hirurg 2 หลายเดือนก่อน

    Как с вами связаться?

    • @kuliev.vitaly
      @kuliev.vitaly  2 หลายเดือนก่อน

      t.me/kulievvitaly

  • @Rassvet5
    @Rassvet5 3 หลายเดือนก่อน +1

    Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน

      Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.

    • @АзатИмаев-ь4п
      @АзатИмаев-ь4п 3 หลายเดือนก่อน

      Я сам использовал Saiga в huggyface видел, но мало ее использовал

    • @kuliev.vitaly
      @kuliev.vitaly  3 หลายเดือนก่อน +1

      зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать

    • @astroiLL2010
      @astroiLL2010 3 หลายเดือนก่อน +1

      Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский.
      Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.

  • @karatemoscow
    @karatemoscow 2 หลายเดือนก่อน

    сколько вы потратили денег на тестирование?

    • @kuliev.vitaly
      @kuliev.vitaly  2 หลายเดือนก่อน

      Примерно 3000 рублей. Почасовая аренда всех этих серверов.