Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

Виталий Кулиев

มุมมอง 2 879

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 23 ก.ย. 2024

ความคิดเห็น • 56

@РамильАхмедов-м6ъ 5 วันที่ผ่านมา ⁺¹
Просто 10/10. Продолжайте, Виталий. Такой контент нам нужен
@VLfrog หลายเดือนก่อน ⁺²
Дружище, продолжайте!
@Azantys-w6h 3 หลายเดือนก่อน ⁺²
Классный тест получился. Скоро магистерская по ИИ и на ваш канал я пожалуй подпишусь). Удачи в развитии проекта.
@si6arit 3 หลายเดือนก่อน ⁺³
С Обновками)
@kuliev.vitaly 3 หลายเดือนก่อน
Спасибо)
@ПавелМинич 3 หลายเดือนก่อน ⁺¹
Огромное спасибо за огромный труд! Можно еще добавить к тестам мониторинг загрузки процов по потокам, для разных архитектур, а также загрузка оперативки в зависимости от количества запросов. Интересно оптимальное сочетание проц-гпу-оператива для разных задач.
@kuliev.vitaly 3 หลายเดือนก่อน
Процессор и оперативка минимально используются. Все вычисления идут на видеокарте и данные между картами по pcie передаются.
@stanislavk5609 3 หลายเดือนก่อน ⁺²
Отличная работа!
@IT_psychopath 3 หลายเดือนก่อน ⁺²
Вииталий, а можно еще видос по сборке вашего варианта ПК. что как подбирали, как собрали все в кучу и остальное. мне не сложно собрать свой ПК, сто раз собирал. НО! пока соберешь то что надо до кучи в плане разгребешься что брать а что нет,ю что подойдет а что нет.. было бы шикарно такое видео как по мне. я сам разраб, FullStack, Python хорошо знаю пишу на нем очень давно и темой ИИ периодический интересуюсь как хобби.😁 у вас превосходные видео!
большое спасибо за ваши труды!
@kuliev.vitaly 3 หลายเดือนก่อน ⁺¹
Да планирую записать видео о сборке сервера.
@ПетяПетрович-з5м 3 หลายเดือนก่อน ⁺²
Спасибо
@FotonPC 3 หลายเดือนก่อน ⁺²
Возможны ли тесты 2080ti с модификацией на 22гб? Также, пожалуй при выборе 3090\3090ti надо учитывать надежность карт (память с обратной стороны у 3090)
@kuliev.vitaly 3 หลายเดือนก่อน ⁺²
У меня нет 2080ti с такой модификацией. Да есть такая проблема у 3090. Еще они начали продаваться на пару лет раньше, чем 3090ti и застали эпоху майнинга. 3090ti сейчас более перспективны - лучше немного доплатить и ее взять.
@astroiLL2010 3 หลายเดือนก่อน ⁺¹
Спасибо за обзор и тесты. Теперь понятно как выбирать. Буду изучать таблицы, считать что выгоднее.
Пока юзаю RTX3060-12Gb (купленную на Авито у дизайнера) на XEON 22 ядра, 190Гб оперативки.
Думал в какую сторону расширяться. Купить игровую видюху мощнее, профкарту или проще арендовать?
Аренда создаёт гибкость в работе, если работаешь из разных мест и нет заморочек с оборудованием.
Если используешь самосборный сервер, то кроме траты на покупку оборудования, надо делать VPN в свою сеть, да и трата электроэнергии, нагрев, деградация оборудования. И устаревание.
Ну все как было когда-то с майнингом. ASICS или аренда мощностей?
Всё-таки думаю, что когда эта видюха перестанет справляться с моими задачами (а похоже к этому идёт), перейду на аренду.
Спасибо за обзор.
@kuliev.vitaly 3 หลายเดือนก่อน
Я решил, что лучше иметь свое железо и всегда иметь к нему доступ. Можешь попробовать использовать мое апи к ллама 70б. Пока нагрузка маленькая предоставляю всем его бесплатно.
rus-gpt.com/
@astroiLL2010 3 หลายเดือนก่อน
@@kuliev.vitaly Пока использую ollama run llama3:8b и оболочку WEB-UI с удаленным доступом к компу через VPN. Ну и другие модели, что помещаются в видяху. Попробую твой доступ, спасибо.
@МичилЕгоров-п3ц หลายเดือนก่อน ⁺¹
А какой инструмент для сервинга llm вы использовали для тестов? vllm?
@kuliev.vitaly หลายเดือนก่อน
да
@mux8717 3 หลายเดือนก่อน ⁺¹
Подскажите, а каким образом память видеокарт на Вашем сервере суммируется?
Используется мостик NVLink ?
@kuliev.vitaly 3 หลายเดือนก่อน ⁺⁵
nvlink не используется. В задаче инференса он мало полезен. Все данные передаются по pcie x8 gen4. Нейросеть запускается в режиме tensor parallel. Видео с деталями сборки сервера будет одно из ближайших.
@IT_psychopath 3 หลายเดือนก่อน ⁺¹
Виталий, а что с сервисом? будут ламы в народ? мне по тестить надо ламу3 для бота.. арпи надо.. ищу. как скоро свое запустите?
@kuliev.vitaly 3 หลายเดือนก่อน ⁺²
rus-gpt.com/
Сервис запущен в тестовом режиме. Есть 70b и 8b версии лламы-3. Пока можно использовать бесплатно. Планирую более детальное видео записать.
@adammartin7477 3 หลายเดือนก่อน ⁺¹
Коллеги, у меня простой вопрос.
Для учебы и работы,
нужна платформа уровня обработки взаимодействия с `codestral 22b`, со скоростью - не менее 100 токенов в секунду.
Комбинация "железа":
* две rtx-2080ti через nvlink,
* intel 13700kf
Какую материнку выбрать?
* как пример ASUS PRIME Z790-P D4
взлетит комбинация?
@kuliev.vitaly 3 หลายเดือนก่อน
Должно заработать. Nvlink в задаче инференса мало влияет на производительность. Можно по PCI e подключить
@kuliev.vitaly 3 หลายเดือนก่อน ⁺¹
Если важна скорость могу рекомендовать карту 3090/4090. Она быстрее должна работать.
@KorneevZakhar 2 หลายเดือนก่อน
А у меня вопрос появился, все почему-то используют nvidia для запуска нейросеток, а на amd вообще не запустится или будет сильно хуже работать? Просто карточки с аналогичным объёмом памяти стоят в 2 раза дешевле вот и решил поинтересоваться)
@kuliev.vitaly 2 หลายเดือนก่อน ⁺¹
Карты амд не имеют тензорных ядер. Практически вся тренировка идет на видеокартах нвидиа. Практически весь софт ориентируется на поддержку технологии cuda от nvidia. В последнее время поддержка амд карт улучшается и ряд задач можно делать на амд картах.
@KorneevZakhar 2 หลายเดือนก่อน
@@kuliev.vitaly Спасибо, за ответ! Тогда посижу пока на своей 3080) Мне для запуска локально codegemma:7b хватает, а там посмотрим ,как пойдёт)
@vitall789 หลายเดือนก่อน
@@KorneevZakhar Ждем конкуренции на видео потому что цены космические, да и ламу бы подтянуть, а то как-то слабенькая в сравнении с основными конкурентами даже 405B
@aleksandrephatsatsia4530 หลายเดือนก่อน ⁺¹
could you please explain what worker is? can you have multiple worker on single gpu?
@kuliev.vitaly หลายเดือนก่อน ⁺¹
That is client worker. It makes parallel requests to llm service. Llm service can process multiple requests simultaneously.
@aleksandrephatsatsia4530 หลายเดือนก่อน
@@kuliev.vitaly so it means if i have single rtx 4090 i can run 60 workers in parallel and get those results?
@kuliev.vitaly หลายเดือนก่อน ⁺¹
Yes you can run 8b model on 4090 and make multiple requests to it.
@aleksandrephatsatsia4530 หลายเดือนก่อน
Thanks vitaly, it improves the performance so much! could you please suggest some open source libraries that do it easily?
@kuliev.vitaly หลายเดือนก่อน ⁺¹
I use 'vllm' in docker.
@StaLenin 3 หลายเดือนก่อน ⁺¹
Я вот не пойму, можно ли для Llama 3 70b 8b будет использовать 4060 или 4070? Бюджет ограничен, а хотелось бы попробовать что это такое, Есть вариант купить 4060Ти 16 гб за 37000 и 4070 12гб за 44000, какая лучше будет, или никакая не пойдет?
@kuliev.vitaly 3 หลายเดือนก่อน ⁺¹
Можешь попробовать по апи на моем сайте rus-gpt.com/
Также есть открытые чаты для доступа к ламе.
@StaLenin 3 หลายเดือนก่อน
@@kuliev.vitaly Спасибо, но какую видеокарту можно взять до 50 тыс?
@kuliev.vitaly 3 หลายเดือนก่อน
Бери у которой памяти больше - это приоритет для запуска нейросетей. Лучше всего, если сможешь 3090 бу найти в этом бюджете. Если нет, то бери 4060ти на 16гб
@Nikita-g1d 3 หลายเดือนก่อน
Виталий, что ты думаешь про использование внешних видеокарт через порт oculink (как здесь th-cam.com/video/lkMdvoY-xWo/w-d-xo.html) или usb4, в идеале хотелось бы тест нейронок с внешними видеокартами?
@kuliev.vitaly 3 หลายเดือนก่อน
Схема рабочая и подходит для подключения к ноутбуку мощной карты. Сам я ее не тестировал, так как использую полноценный системник для инференса.
@Nikita-g1d 3 หลายเดือนก่อน
@@kuliev.vitalyинтересно не получится ли, что в некоторых случаях обучения или даже применения нейронок будет невозможно задействовать внешнюю карту и всё будет запускаться на встроенной?
@kuliev.vitaly 3 หลายเดือนก่อน ⁺¹
можно выбирать нужную карту в задачах обучения и инференса.
@MikeMike-zf9up 3 หลายเดือนก่อน
Вы уверены, что у обоих карт pci x8? На чипсетах для амд под am4 я только asus pro art видел, чтобы второй слот выдавал тоже х8.
@kuliev.vitaly 3 หลายเดือนก่อน ⁺⁴
Да. Две карты x8 подключены, третья по x4. Это можно посмотреть в свойствах карты. Платформа ам4, чипсет x570.
@MikeMike-zf9up 3 หลายเดือนก่อน
@@kuliev.vitaly здорово! Спасибо за ответ!
@crypto.hirurg 2 หลายเดือนก่อน
Как с вами связаться?
@kuliev.vitaly 2 หลายเดือนก่อน
t.me/kulievvitaly
@Rassvet5 3 หลายเดือนก่อน ⁺¹
Модели llama3 плохо дружат с русским языком, даже если в системном промте прописать мол пиши всегда на русском, все равно проскакивают английские слова там где это не уместно, что с этим делать? Модели на хагинфейсе дообученные на русских датасетах работают очень криво
@kuliev.vitaly 3 หลายเดือนก่อน
Встречал проблемы с русским при использование квантизации. 70b awq, которая тестируется в этом видео работает корректно с русским.
@АзатИмаев-ь4п 3 หลายเดือนก่อน
Я сам использовал Saiga в huggyface видел, но мало ее использовал
@kuliev.vitaly 3 หลายเดือนก่อน ⁺¹
зафайнтюненные версии ламы на другой язык или длинный контекст могут показывать плохие результаты. оригинальная версия с системным промптом должна хорошо отрабатывать
@astroiLL2010 3 หลายเดือนก่อน ⁺¹
Что приводит к мысли (меня во всяком случае убедило окончательно), что надо применять английский.
Пока не появятся нормальные прокси-транслейт для того, чтобы писать на родном языке, прокси-транслейт переводил (адекватно) на английский, подавал в модель и ответ пройдя через прокси выдавал обратно на родном языке. Чтобы переводом занималась не каждая модель как она худо-бедно может, а специальная, которая идеально под это заточена. Технически это реализовать вроде уже не сложно. А пока дуолингво нам всем в помощь.
@karatemoscow 2 หลายเดือนก่อน
сколько вы потратили денег на тестирование?
@kuliev.vitaly 2 หลายเดือนก่อน
Примерно 3000 рублей. Почасовая аренда всех этих серверов.

ต่อไป

เล่นอัตโนมัติ

Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.