Quer aprender mais sobre como trabalhar com IAs e LLMs locais? Confira a Trilha Aplicações IA com Python, da Asimov Academy: asimov.academy/trilha-aplicacoes-ia-com-python/?
Calma ai amigo! Tem muito conteúdo bom em português já! É claro que não tem comparação com conteúdo em inglês, mas o canal Hoje na IA por exemplo e uma possibilidade da uma olhada!
Rodar em nuvem é mais barato. Só em placa de vídeo ele gastou 9 mil. Em nuvem o servidor vai ficar em pé só na hora de fazer os cálculos mais pesados. O resto do tempo fica desligado e vc só paga pelo q efetivamente usa.
@@fernandopereira1329 Uma 4060ti conseguiria fazer isso bem, um ponto e que ele usa para varias pessoas ao mesmo tempo. Seria um video interessante comparar com o custo do chatgpt.
É muito bom ouvir um brasileiro abordando esse assunto com tanta propriedade. Normalmente, só encontro vídeos de estrangeiros. Obrigado por compartilhar esse conteúdo.
@@AsimovAcademy Tente por mais um ar condicionado seja de 12k ou 18k btus para atender a demanda por refrigeração. Sugiro por Daikin e Fujitsu pois tem uma maior vazão de ar e economia de energia.
Excelente vídeo! Os vídeos de vcs são os mais completos e simples q já encontrei por aqui. Sempre ansioso pelo próximo. Parabéns! Continuem nessa pegada!
Show, estou criando uns teste para um jogo com interação com IA nos npc. Tô ainda estudando algumas estratégias para busca de contextos e ativar condições para liberar assuntos e missões secreta. Tô me divertindo muito com os npc mesmo ainda sendo só o teste no terminal
@@DucatiPikesPeak , estou usando o esquema de agente. cada npc seria um agente com uma historia e conhecimento sobre o ambiente. estou fazendo um histórico de conversa com o player. estou usando a mesma técnica do video desse canal "Construí uma IA que sabe tudo sobre minha empresa (Usando Python e Langchain)" th-cam.com/video/xNCBS_aJTgo/w-d-xo.html&ab_channel=AsimovAcademy
Eu subi um servidor para duas salas de aula usando um pc de menos de R$500,00. Reaproveitando hardware e usando o mesmo ubuntu server. Realmente um so muito versátil. Parabéns pelo video.
Comprei uma RTX 4070 TI Super justamente pq ela tem bastante VRAM e isso facilita muito na hora de rodar modelos e a treinar redes neurais. Tenho um serviço rodando num website online usando um VPS bem básico, e o poder de processamento em IA do serviço vem de uma máquina local através de tunelamento privado. Dessa forma eu consigo desenvolver e testar soluções de IA de forma pública usando processamento local. Certamente vou me inscrever nesse canal, pois esses assuntos me interessam muito!
Cara que video incrivel, na empresa que trabalho sou um desenvolvedor eu precisava desenvolver uma aplicacao aonde ela estaria transcrevendo audios para texto, foi um desafio muito grande pois procurei varios videos para entender como poderia está rodando modelos de IA em rede local, acabou que a maneira mais rapida e efical foi integrar com uma Api da openIA ksksk, sensacional do trabalho de voces!!!!
Lembrando que a google colab possui acesso gratuito para transcrição de texto utilizando o whisper. Demora um pouco, mas da para usar. Já testei e funciona 100%. Ha possibilidade também de alugar GPUs
Excelente! Já pensou instalar um hypervisor ( proxmox ) , fazer o passthrough das placas de vúdeo e criar máquinas virtuais ou containers para para isolar as cargas de trabalho ?
Oi, Marcos, obrigado pelo elogio! Chegamos a cogitar sim, mas acabamos abdicando da ideia pois acabaríamos ter que "fracionar" a GPU entre diferentes VMs e perderíamos a capacidade de utilizar a VRAM ao máximo. Como poucas pessoas vão utilizar (4) optamos por deixar apenas a instalação principal do Linux, com acesso total ao sistema e irmos conversando entre nós quando quisermos rodar algo mais pesado. Mas é uma abordagem que, para uma equipe maior, seria inviável, é claro.
@@AsimovAcademy Excelente retorno companheiro. Estou criando uma máquina física para implementar LLM para extração de dados de arquivos PDF e imagens. Alguma dica de quais LLMs são mais indicados?
Muito interessante... Tenho vontade de entender melhor como implementar uma LLM local na minha máquina por motivos de segurança da informação uma vez que as ferramentas comerciais de AI não aparentam ser confidenciais.
Por default, o OLLAMA e todos os outros players de llama.cpp, fazem split do modelo entre todas as GPUs, deixando cada um responsavel por processar mais ou menos a mesma quantidade de layers (camadas). Enquanto essa divisão é interessante para modelos grandes, há uma sensível perda de performance para modelos pequenos, pois cada token processando ira requerer a transferência de um grande volume de dados de uma GPU para a próxima, penalizando performance. Uma solução é setar a variável de ambiente CUDA_VISIBLE_DEVICES com o id da GPU alvo, ou lançar "manualmente" o llama.cpp com algo tipo: --main_gpu 0 ou --tensor_split [1.0, 0.0]
Já setamos o CUDA_VISIBLE_DEVICES=0 no processo de inicialização do Ollama no Linux. Mas percebi que dividi-lo entre 2 GPUs ou deixar em apenas 1 impacta por volta de 10% a performance geral do modelo, nada gritante.
Mas a VRAM das duas RTX 3090 se somam mesmo sem o NVlink? Já que uma GPU não consegue acessar a memória da outra diretamente sem o NVlink elas não estariam limitadas a 24GB de VRAM ? Tenho duas RTX3080 e não consigo usar a VRAM combinada das duas em programas 3D por exemplo, apesar de a performance ser combinada e renderizar aprox. 2x mais rápido, só consigo render de cenas que consomem menos de 10GB de VRAM ao invés dos teóricos 20GB se contasse elas combinadas. Além disso quais modelos precisam de mais 24GB de VRAM para rodar?
cara baita video esse, sou novo e gostei bastante desse conteudo, se possivel faça o teste com o programa Mojo e faça as conparaçoes com outros programas em seu desempenho e velocidade
Muito maneiro galera, grato por compartilhar. Posso pedir a opinião de vcs? Um laptop i9 13h, 32gram, rtx 4050/60/70.. vai me dar uma condição boa de usar a AI? Valeu, forte abraço, vou continuar aprendendo com vcs aqui
No meu lab aqui fiz testes e percebi que o Llama 3.1 tem uma capacidade de censurar maior que o 3.0 (8B Q8 ambos), em diversos contextos, por exemplo temas sensíveis, política etc. Ainda preciso apurar as variações baseada na comunidade (quantfactory, lmstudio, etc..) mas é bem notável a censura, recusa em responder, evasão ou até critica a pergunta.
Duas RTX 4090 por 9k é um achado do tipo de vô pra neto. Fiquei na dúvida se fazer crossover realmente faz sentido já que as VRAMs não são somadas no treinamento mesmo usando paralelismo já que elas não possuem suporte a NVLink
Sensacional, curti de mais. Temos uma empresa de prestação serviço tradicional, estou aprendendo para automatizar a 90% das tarefas. Gostaria de saber se vcs tem essa consultoria para empresas e como faço para entrar em contato?
Hoje possuo um : Cores i5 14o 4x Memória DDR5 Zadak SPARK, RGB, 32GB (2x16GB), 6000MHz, White, ZD5-SPR60C51-32G2W2 Não se se faz diferença, mas é meu gabinete: Gabinete Gamer Cooler Master Masterframe 700, Open Frame, VESA, Vidro Temperado Panorâmico, Preto - MCF-MF700-KGNN-S00 Water Cooler Gamdias Chione P3-360U, ARGB, 360mm, Display LCD, Intel-AMD 3x SSD Kingston Fury Renegade, 1TB, M.2 NVMe, 2280, Leitura 7300MBs e Gravação 6000MBs, SFYRS/1000G 1x 4080 super e 1x 3090 para depois que fiz o upgrade Fonte 1000w Mandei essa confirmação pq já tenho um bom hardware e gostaria de um excelente lugar para estudar, queria indicação
NVIDIA devia lançar logo a Placa IA focada especificamente em NPU , manter tudo dentro da placa de video vai limitar muita coisa no futuro podem ver a inter com seus novos processadores , não chegam nem perto de uma RTX , agora se tiver uma placa dedicada para modelos de IA é lua imagina... seu pc com uma CPU topo de linha, uma GPU topo de linha, e uma NPU topo de linha esses 3 componentes trabalhando simultaneamente, ter modelos locais vai ser o padrão .
Não acredito que valha apena depender de fabricantes de hardware sendo que vc oferece a solução completa e minúscula. Conecta 10 em rede e tu ens 700 trilhões por segundo. 2.500 dólares e não ocupa 1 metro por 50cm já com cooler de resfriamento..
Faz um vídeo explicando melhor sobre esses aluguel de placa se tem que ter um PC bom pra isso ou algo assim. Eu tenho um notebook com i3 sem placa de vídes.
Eu ia perguntar por que placas de vídeo tão potentes são necessárias se tudo está sendo executado via terminal. Não sabia que elas desempenhavam um papel tão importante mesmo em contextos sem gráficos.
Tem como fazer esse setup ao estilo puxadinho? Tipo, começar com uma GPU, um SSD só pra ir pegando o jeito da coisa e ir incrementando ao longo do caminho?
Tem sim, inclusive é o que te recomendaria. Acredito que 90% do resultado você já consiga investindo primeiro em uma boa placa de vídeo (3090 é a melhor custo benefício, mas uma 3070 já faz um bom trabalho). O CPU e RAMs não são tão necessárias para rodar IA. Abraços.
Fala meu rei eu gostaria de saber qual seria o eletronico de transporte mais viavel para trabalhar com ia e estudar ia com boa tela e de boa locomoção que se consiga ficar na frente da tela sem desgastar tanto a visão mas que tambem me permita ter uma tela nitida do conteudo estudado ou apresentado
tenho uma VM com duas nvidea A40 de 48gb cada, utilizo modelos de forma fluida de até 32b os de 70b que da uma média de 40gb é executado mas são mais lentos, e mesmo usando duas placas de vídeo, o ollama não utiliza as duas GPUs de forma que somem as memorias.
Vocês que estão mais antenados, existe algum surgimento de QUALQUER COISA que faça termos modelos top notch em menos VRAM, ou melhor ainda, deixarmos de ser reféns da NVIDIA, para podermos usar GPU da AMD? Notícias, lançamentos, etc?
Olá! Temos visto um movimento de downscale das LLMs abertas sim... hoje um Llama 3.2 8B é muitíssimo superior a suas versões anteriores (Llama 2 8b, por exemplo)... e o próprio surgimento do ChatGPT 4o-mini indica que as Big Techs também estão focando em redução geral... quanto a AMD superar a NVIDIA, isto ainda irá demorar um tempo, principalmente pelo fato de muita tecnologia já ter sido desenvolvida em cima da CUDA (torch, tensorflow...).
As GPUs da Intel estão tentanto pegar um pedaço desse mercado, mas aí todas as ferramentas precisam substituir o CUDA. O Pytorch anunciou suporte recentemente. Não tenho uma, mas estou curioso
@@sevenshivas O custo da NVidia está muito alto, monopólio. A Intel lançou uma série de GPUs chamada ARC e acabaram de lançar a ARC Battlemage por 250$. Apesar da dificuldade de sair do CUDA por ser uma boa para games e AI
olá , sei que é fora do assunto , mas preciso de uma maquina potente para dentre outras tarefas , suportar fazer mineração ... vc que demostrou propriedade o que me recomenda ? não é para montar uma rede de mineração ... é um trabalho especifico que exige mineração
Excelente vídeo! Lí que esse Ryzen 9 7950x possui 24 PCI lanes. Já que as GPUs "gamers" como a 3090 são 16x, sobram 8x para a segunda GPU e os nvmes que usam PCI. Estão percebendo algum gargalo de transferência de dados na segunda GPU? Acham que se utilizassem um processador com mais PCI lanes (como um Ryzen Threadripper por exemplo) os treinamentos dos modelos seriam ainda mais rápidos? Só uma curiosidade mesmo, pois não vejo muita gente falar sobre isso. Valeu!
Exceleeeeente pergunta. A primeira versão deste computador utilizava uma Threadripper 2990WX que possuía 64 PCIe Lanes. Quando optamos pelo upgrade para o Ryzen 9, fiquei com medo que isto pudesse significar uma queda de performance por conta das Lanes. Mas na pratica, uma vez carregado os modelos na placa, a performance ficou virtualmente idêntica.
@@AsimovAcademy Interessante! Sempre tive essa dúvida, legal saber que isso não está impactando negativamente. Fica a dica ai também de um vídeo legal no futuro, comparar a performance de duas GPUs em IA com processadores com mais e menos PCI lanes, ainda não achei youtubers na gringa que fizeram esse teste, muito menos aqui no Brasil. No mais, valeu pela informação!
Parabens pelo computador e um grande projeto uma pergunta que tipo de UPS o nobreak online esta usando e quando vai ser sua autonomia em modo bateria ?
Assim eu posso estar errado, mas tecnicamente vocês estão com 2x 24 não 48 de VRAM, parece estranho, mas você precisaria usar um NVLink(SLL salve engano), que aí sim ele transforma as duas placas de vídeos em um, aiii sim teria 48GB de VRAM, mas como eu disse não tenho 100% de certeza 👍 Update: Não é SLL não é SLI kkkk
pra fazer um pc voltado pra IA o recomendado é usar placas com processadores da mediatek arm ou qualcom, se fizer como voce fez vai gastar dinheiro e energia (se tiver conhecimento em arm, x86 ainda é bem arcaico o windows não suporta muito, mas funciona...) então a base principal deve ser economia de energia, e a potencia pra ia que é muito maior...
Tenho uma RX76000 (que custa 1700 reais) e consigo, usando a versão 24.9.1 do driver amd, 78 tokens por segundo. Dado o investimento feito acho que tenho um ENORME custo benefício em comparação com esse super computador aí... Usei o modelo llama 3.2 de 8B,
@AsimovAcademy quais, por exemplo? Posso testar aqui... Receio que isso não seja verdade (ao menos, não como foi proposto - a fabricante do chip em si ser um fator limitante).
sou desevolvedor em stable diffusion sd15 e flux dev 1 e S1, os tamanhos fp32 e fp16, são os melhores pra treinar, consigo treinar modelos com uma rtx 4080 super, devo comprar uma rtx 6000 ada com 48gb de vram
Fera, e as placas de vídeo da AMD, o que vc acha/recomenda para IA? Comparado com as placas de vídeo NVIDIA as da AMD perdem/ganham muito no segmento de IA?
A mediatek é uma empresa bem oculta eles tão trabalhando pra criar uns pc baixo consumo e um desempenho extremo... só a compatibilidade com o x86 que lascou muito
Sem o nvlink a memória não se soma, na real você não deve ter percebido por não rodar modelo grandes, mas sem o link, você não tem 48gb somados, mas sim 24gb
NVLink para LLMs é extremamente necessário... inúmeros usuários do LocalLLama, do Reddit, afirmam ter ganhos na inferência da ordem de 10% apenas... sem contar que eu não faço ideia de onde encontrar NVLink para a 3090 aqui no Brasil :(
Oi, Lucas! Escolhi a RTX por conta de alguns benchmarks que vi no fórum Local Llama, do Reddit, onde os testes em LLMs locais de alguns setups com a série Quadro entregavam menos de 50% da velocidade de um 3090. Acredito que isso ocorra por conta da Bandwitch reduzida destas placas (uma NVIDIA Quadro Ada SFF 20GB possui 300GB/s contra 900GB/s de uma 3090). Este outro post é muito bom nestas comparações: github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Amigo, apesar de ter um conteúdo relevante, e visivelmente dedicado ao seguimento e com uma pegada forte em educar, ensinar ,compartilhar conhecimento , mas também não posso deixar de questionar a falta de compreensão quanto ao hardware apresentado, seu setup tem boas intenções, mas não está bem planejado , arrisco dizer que está desperdiçando 70% do que apresentou, quando falamos de GPU,CPU,CHIPSET,NVMe PCIe nv2 ;cada peça apresentada é excelente individualmente ,mas da maneira que está, os componentes não casam. Algumas peças estão claramente sendo subutilizadas, especialmente as GPUs, devido às limitações de linhas PCIe da placa-mãe.
@@Pyend não estão não… barreamento x16 em ambas as placas não impacta a performance para rodarmos modelos de IA (uma vez que o modelo é carregado uma única vez e inferido repetidas vezes). Neste setup em questão estamos com uma placa em x16 e outra em x4, mas a performance de llms em ambas é semelhante. Antes deste setup, usavamos uma ROG Zenith Extreme com um Threadripper 2990WX (que acomodava até 4 placas em x16) e a velocidade de processamento era idêntico. Aliás, este erro de análise que você cometeu é bem comum, você não foi o primeiro a alertar sobre isto… mas pesquisamos bastante sobre essa configuração. Abraços
Quer aprender mais sobre como trabalhar com IAs e LLMs locais? Confira a Trilha Aplicações IA com Python, da Asimov Academy: asimov.academy/trilha-aplicacoes-ia-com-python/?
o único canal do Brasil a falar de uso de IA em local....parabens e obrigadoooo
Calma ai amigo! Tem muito conteúdo bom em português já! É claro que não tem comparação com conteúdo em inglês, mas o canal Hoje na IA por exemplo e uma possibilidade da uma olhada!
Rodar em nuvem é mais barato. Só em placa de vídeo ele gastou 9 mil. Em nuvem o servidor vai ficar em pé só na hora de fazer os cálculos mais pesados. O resto do tempo fica desligado e vc só paga pelo q efetivamente usa.
@@SuperJamu Depende muito do uso.. Para empresas pequenas e médias, servidor físico ainda é mais seguro (e dependendo, mais barato também).
@@fernandopereira1329 Uma 4060ti conseguiria fazer isso bem, um ponto e que ele usa para varias pessoas ao mesmo tempo. Seria um video interessante comparar com o custo do chatgpt.
E fala preços tbm kkkk
É muito bom ouvir um brasileiro abordando esse assunto com tanta propriedade. Normalmente, só encontro vídeos de estrangeiros. Obrigado por compartilhar esse conteúdo.
@@laurobmmb Nós que agradecemos! seja bem vindo ao canal.
Adquiri o curso da Asimov perpétuo. Cara , evolui demais! Nem minha pós não tinha tanto conteúdo que agrega. Sensacional!!!! Recomendo demais.
@@BrunoFonseca-h2p Ficamos felizes e gratos por isso, Bruno! Continue contando conosco.
@@AsimovAcademy Tente por mais um ar condicionado seja de 12k ou 18k btus para atender a demanda por refrigeração. Sugiro por Daikin e Fujitsu pois tem uma maior vazão de ar e economia de energia.
Excelente vídeo! Os vídeos de vcs são os mais completos e simples q já encontrei por aqui. Sempre ansioso pelo próximo. Parabéns! Continuem nessa pegada!
@@douglasloureiro5747 Ficamos felizes e gratos por isso.
Finalmente um vídeo sobre hardware. Eu sou empreendedor e quero me tornar pesquisado também. Por isso meu interesse no assunto.
Cara eu tenho um Mac M2 pro Max com 96 GB de ram e um PC COM uma RTX 4070 , eu de tido , o Mac bate forte , talvez seja interessante vc dar uma olhada
Excelente conteúdo!
Quem sabe , sabe , até no modo de falar, a gente nota.
Abraço!
@@hallbookRedesocial Agradecemos!!
Show, estou criando uns teste para um jogo com interação com IA nos npc. Tô ainda estudando algumas estratégias para busca de contextos e ativar condições para liberar assuntos e missões secreta. Tô me divertindo muito com os npc mesmo ainda sendo só o teste no terminal
Mas os NPCs nativos do proprio jogo já nao possui uma IA propria ?
@@DucatiPikesPeak , estou usando o esquema de agente. cada npc seria um agente com uma historia e conhecimento sobre o ambiente. estou fazendo um histórico de conversa com o player.
estou usando a mesma técnica do video desse canal "Construí uma IA que sabe tudo sobre minha empresa (Usando Python e Langchain)"
th-cam.com/video/xNCBS_aJTgo/w-d-xo.html&ab_channel=AsimovAcademy
@@devemprender Show de bola, parabens!!!!
Eu subi um servidor para duas salas de aula usando um pc de menos de R$500,00. Reaproveitando hardware e usando o mesmo ubuntu server. Realmente um so muito versátil. Parabéns pelo video.
Que vídeo foda!!!
Comprei uma RTX 4070 TI Super justamente pq ela tem bastante VRAM e isso facilita muito na hora de rodar modelos e a treinar redes neurais.
Tenho um serviço rodando num website online usando um VPS bem básico, e o poder de processamento em IA do serviço vem de uma máquina local através de tunelamento privado.
Dessa forma eu consigo desenvolver e testar soluções de IA de forma pública usando processamento local.
Certamente vou me inscrever nesse canal, pois esses assuntos me interessam muito!
bem parecido com meu setup também, com 4070 ti e uma 3090. aplicação web no servidor DSM e inferencia em máquina local via tunel
Caramba, me deparei com esse canal e estou muito feliz, pois é o único BR falando sobre um assunto pelo qual sempre tive interesse
Cara que video incrivel, na empresa que trabalho sou um desenvolvedor eu precisava desenvolver uma aplicacao aonde ela estaria transcrevendo audios para texto, foi um desafio muito grande pois procurei varios videos para entender como poderia está rodando modelos de IA em rede local, acabou que a maneira mais rapida e efical foi integrar com uma Api da openIA ksksk, sensacional do trabalho de voces!!!!
A partir do seu video eu montei o meu, unica coisa que nao copiei foi o gabinete e duas placas de video. Obrigado.
@@sabaronni.brasil Muito bom!! Conte conosco.
Excelente explicação .
Lembrando que a google colab possui acesso gratuito para transcrição de texto utilizando o whisper. Demora um pouco, mas da para usar. Já testei e funciona 100%. Ha possibilidade também de alugar GPUs
vídeo com muiita qualidade, parabéns irmão. O custo beneficio das 3090 por ter 24 tá muito bom
Excelente!
Já pensou instalar um hypervisor ( proxmox ) , fazer o passthrough das placas de vúdeo e criar máquinas virtuais ou containers para para isolar as cargas de trabalho ?
Oi, Marcos, obrigado pelo elogio!
Chegamos a cogitar sim, mas acabamos abdicando da ideia pois acabaríamos ter que "fracionar" a GPU entre diferentes VMs e perderíamos a capacidade de utilizar a VRAM ao máximo. Como poucas pessoas vão utilizar (4) optamos por deixar apenas a instalação principal do Linux, com acesso total ao sistema e irmos conversando entre nós quando quisermos rodar algo mais pesado. Mas é uma abordagem que, para uma equipe maior, seria inviável, é claro.
Muito bom, eu ia justamente perguntar isso.
@@AsimovAcademy Excelente retorno companheiro.
Estou criando uma máquina física para implementar LLM para extração de dados de arquivos PDF e imagens.
Alguma dica de quais LLMs são mais indicados?
Video TOP!
Muito interessante... Tenho vontade de entender melhor como implementar uma LLM local na minha máquina por motivos de segurança da informação uma vez que as ferramentas comerciais de AI não aparentam ser confidenciais.
A IA mais eficiente é a que precisar de cada vez menos recursos, é ai que entra a genialidade do criador da IA.
Parabéns pela absoluta qualidade e explicação clara e objetiva de assunto muito complexo.
@@MarcioBrenerCosta Ficamos felizes e gratos por isso, Márcio!
Por default, o OLLAMA e todos os outros players de llama.cpp, fazem split do modelo entre todas as GPUs, deixando cada um responsavel por processar mais ou menos a mesma quantidade de layers (camadas).
Enquanto essa divisão é interessante para modelos grandes, há uma sensível perda de performance para modelos pequenos, pois cada token processando ira requerer a transferência de um grande volume de dados de uma GPU para a próxima, penalizando performance.
Uma solução é setar a variável de ambiente CUDA_VISIBLE_DEVICES com o id da GPU alvo,
ou lançar "manualmente" o llama.cpp com algo tipo: --main_gpu 0 ou --tensor_split [1.0, 0.0]
Já setamos o CUDA_VISIBLE_DEVICES=0 no processo de inicialização do Ollama no Linux. Mas percebi que dividi-lo entre 2 GPUs ou deixar em apenas 1 impacta por volta de 10% a performance geral do modelo, nada gritante.
Mas a VRAM das duas RTX 3090 se somam mesmo sem o NVlink? Já que uma GPU não consegue acessar a memória da outra diretamente sem o NVlink elas não estariam limitadas a 24GB de VRAM ?
Tenho duas RTX3080 e não consigo usar a VRAM combinada das duas em programas 3D por exemplo, apesar de a performance ser combinada e renderizar aprox. 2x mais rápido, só consigo render de cenas que consomem menos de 10GB de VRAM ao invés dos teóricos 20GB se contasse elas combinadas.
Além disso quais modelos precisam de mais 24GB de VRAM para rodar?
cara baita video esse, sou novo e gostei bastante desse conteudo, se possivel faça o teste com o programa Mojo e faça as conparaçoes com outros programas em seu desempenho e velocidade
genial, uma máquina monstrona ligada a rede, permitindo conexão remota de outras máquinas.
Podem mostrar o processo de configuração para que as duas GPUs funcionem “em paralelo” e como vcs estão utilizando esse computador no dia a dia?
Salvo engano as bibliotecas identificam automaticamente as GPUs
Um vídeo mostrando o uso da Qwen 2.5 do Alibaba seria muito legal!
me abriu os olhos para algumas possibilidas aqui...vou montar minha empresa de AI, pronto!!!
Duas RTX QUADRO ai ficaria sensacional! O problema é o valor.
Muito maneiro galera, grato por compartilhar.
Posso pedir a opinião de vcs?
Um laptop i9 13h, 32gram, rtx 4050/60/70.. vai me dar uma condição boa de usar a AI?
Valeu, forte abraço, vou continuar aprendendo com vcs aqui
Bruto em
No meu lab aqui fiz testes e percebi que o Llama 3.1 tem uma capacidade de censurar maior que o 3.0 (8B Q8 ambos), em diversos contextos, por exemplo temas sensíveis, política etc. Ainda preciso apurar as variações baseada na comunidade (quantfactory, lmstudio, etc..) mas é bem notável a censura, recusa em responder, evasão ou até critica a pergunta.
Duas RTX 4090 por 9k é um achado do tipo de vô pra neto. Fiquei na dúvida se fazer crossover realmente faz sentido já que as VRAMs não são somadas no treinamento mesmo usando paralelismo já que elas não possuem suporte a NVLink
Quem dominar o magnetismo... ops, eu quis dizer, quem dominar a IA, vai dominar o futuro.
Sensacional, curti de mais.
Temos uma empresa de prestação serviço tradicional, estou aprendendo para automatizar a 90% das tarefas. Gostaria de saber se vcs tem essa consultoria para empresas e como faço para entrar em contato?
Hoje possuo um :
Cores i5 14o
4x Memória DDR5 Zadak SPARK, RGB, 32GB (2x16GB), 6000MHz, White, ZD5-SPR60C51-32G2W2
Não se se faz diferença, mas é meu gabinete: Gabinete Gamer Cooler Master Masterframe 700, Open Frame, VESA, Vidro Temperado Panorâmico, Preto - MCF-MF700-KGNN-S00
Water Cooler Gamdias Chione P3-360U, ARGB, 360mm, Display LCD, Intel-AMD
3x SSD Kingston Fury Renegade, 1TB, M.2 NVMe, 2280, Leitura 7300MBs e Gravação 6000MBs, SFYRS/1000G
1x 4080 super e 1x 3090 para depois que fiz o upgrade
Fonte 1000w
Mandei essa confirmação pq já tenho um bom hardware e gostaria de um excelente lugar para estudar, queria indicação
Muito bom o vídeo
essas RTX 3090 ainda são muito fortes, tenho uma aqui e roda tudo
NVIDIA devia lançar logo a Placa IA focada especificamente em NPU , manter tudo dentro da placa de video vai limitar muita coisa no futuro podem ver a inter com seus novos processadores , não chegam nem perto de uma RTX , agora se tiver uma placa dedicada para modelos de IA é lua imagina... seu pc com uma CPU topo de linha, uma GPU topo de linha, e uma NPU topo de linha esses 3 componentes trabalhando simultaneamente, ter modelos locais vai ser o padrão .
Não acredito que valha apena depender de fabricantes de hardware sendo que vc oferece a solução completa e minúscula. Conecta 10 em rede e tu ens 700 trilhões por segundo. 2.500 dólares e não ocupa 1 metro por 50cm já com cooler de resfriamento..
Custo total do PC: R$ 24.350,00
Olá, Asinov! Qual site você recomenda para encontrar hardware usado, como os excelentes preços que você conseguiu na placa de vídeo, por exemplo?
excelente video
Faz um vídeo de benchmark em jogos...
aí teria que pedir pra algum canal de jogos...
Kkk
É mole
Amigo, a marca é XPG, Lancer é a linha.
Faz um vídeo explicando melhor sobre esses aluguel de placa se tem que ter um PC bom pra isso ou algo assim. Eu tenho um notebook com i3 sem placa de vídes.
Eu ia perguntar por que placas de vídeo tão potentes são necessárias se tudo está sendo executado via terminal. Não sabia que elas desempenhavam um papel tão importante mesmo em contextos sem gráficos.
é porque os modelos de IA utilizam seus núcleos CUDA para calcular a passagem nas redes neurais das LLMs
Tem como fazer esse setup ao estilo puxadinho? Tipo, começar com uma GPU, um SSD só pra ir pegando o jeito da coisa e ir incrementando ao longo do caminho?
Tem sim, inclusive é o que te recomendaria. Acredito que 90% do resultado você já consiga investindo primeiro em uma boa placa de vídeo (3090 é a melhor custo benefício, mas uma 3070 já faz um bom trabalho). O CPU e RAMs não são tão necessárias para rodar IA. Abraços.
@@AsimovAcademy Obrigado! E vocês teriam algum vídeo ensinando a montar? Sou da área de software, ainda não manjo nada de hardware kkkkkk
@@luizfelipecezar5732 só este vídeo mesmo :/
Fala meu rei eu gostaria de saber qual seria o eletronico de transporte mais viavel para trabalhar com ia e estudar ia com boa tela e de boa locomoção que se consiga ficar na frente da tela sem desgastar tanto a visão mas que tambem me permita ter uma tela nitida do conteudo estudado ou apresentado
dica para quem quer começar é ter uma 4060 de 16GB ou uma 4070ti S de 16GB, tenho a 4070ti S e trabalho com SDXL e Flux fp8 entre outros
tenho uma VM com duas nvidea A40 de 48gb cada, utilizo modelos de forma fluida de até 32b os de 70b que da uma média de 40gb é executado mas são mais lentos, e mesmo usando duas placas de vídeo, o ollama não utiliza as duas GPUs de forma que somem as memorias.
tenta utilizar o LMStudio, o LM Deploy, ou setar no systemd para o processo do Ollama forçar o uso nas duas GPUs. Abraços!
Vocês que estão mais antenados, existe algum surgimento de QUALQUER COISA que faça termos modelos top notch em menos VRAM, ou melhor ainda, deixarmos de ser reféns da NVIDIA, para podermos usar GPU da AMD? Notícias, lançamentos, etc?
Olá! Temos visto um movimento de downscale das LLMs abertas sim... hoje um Llama 3.2 8B é muitíssimo superior a suas versões anteriores (Llama 2 8b, por exemplo)... e o próprio surgimento do ChatGPT 4o-mini indica que as Big Techs também estão focando em redução geral... quanto a AMD superar a NVIDIA, isto ainda irá demorar um tempo, principalmente pelo fato de muita tecnologia já ter sido desenvolvida em cima da CUDA (torch, tensorflow...).
As GPUs da Intel estão tentanto pegar um pedaço desse mercado, mas aí todas as ferramentas precisam substituir o CUDA.
O Pytorch anunciou suporte recentemente. Não tenho uma, mas estou curioso
@@jcamargo2005 Para intel? Quais coisas eles fizeram pra pegar essa fatia bro?
@@sevenshivas O custo da NVidia está muito alto, monopólio. A Intel lançou uma série de GPUs chamada ARC e acabaram de lançar a ARC Battlemage por 250$. Apesar da dificuldade de sair do CUDA por ser uma boa para games e AI
tem algum vídeo explicando como instalar IA no PC pra usar sem restrições?
olá , sei que é fora do assunto , mas preciso de uma maquina potente para dentre outras tarefas , suportar fazer mineração ...
vc que demostrou propriedade o que me recomenda ?
não é para montar uma rede de mineração ... é um trabalho especifico que exige mineração
Excelente vídeo!
Lí que esse Ryzen 9 7950x possui 24 PCI lanes. Já que as GPUs "gamers" como a 3090 são 16x, sobram 8x para a segunda GPU e os nvmes que usam PCI.
Estão percebendo algum gargalo de transferência de dados na segunda GPU? Acham que se utilizassem um processador com mais PCI lanes (como um Ryzen Threadripper por exemplo) os treinamentos dos modelos seriam ainda mais rápidos?
Só uma curiosidade mesmo, pois não vejo muita gente falar sobre isso. Valeu!
Acredito que o impacto seja só para gamers se por acaso fossem usar as duas vgas, para outra aplicações não haverá impacto.
Exceleeeeente pergunta. A primeira versão deste computador utilizava uma Threadripper 2990WX que possuía 64 PCIe Lanes. Quando optamos pelo upgrade para o Ryzen 9, fiquei com medo que isto pudesse significar uma queda de performance por conta das Lanes. Mas na pratica, uma vez carregado os modelos na placa, a performance ficou virtualmente idêntica.
@@AsimovAcademy Acredito que a utilização das 64 PCIes lanes seja para aplicações especificas, para IA os CUDA com certeza são o ponto chave.
@@AsimovAcademy Interessante! Sempre tive essa dúvida, legal saber que isso não está impactando negativamente. Fica a dica ai também de um vídeo legal no futuro, comparar a performance de duas GPUs em IA com processadores com mais e menos PCI lanes, ainda não achei youtubers na gringa que fizeram esse teste, muito menos aqui no Brasil.
No mais, valeu pela informação!
Parabens pelo computador e um grande projeto uma pergunta que tipo de UPS o nobreak online esta usando e quando vai ser sua autonomia em modo bateria ?
Assim eu posso estar errado, mas tecnicamente vocês estão com 2x 24 não 48 de VRAM, parece estranho, mas você precisaria usar um NVLink(SLL salve engano), que aí sim ele transforma as duas placas de vídeos em um, aiii sim teria 48GB de VRAM, mas como eu disse não tenho 100% de certeza 👍
Update: Não é SLL não é SLI kkkk
Antigamente tinha um cabo slave conectando em SLI, não sei se hoje as mobos de hoje já fazem isso por si só.
pra fazer um pc voltado pra IA o recomendado é usar placas com processadores da mediatek arm ou qualcom, se fizer como voce fez vai gastar dinheiro e energia (se tiver conhecimento em arm, x86 ainda é bem arcaico o windows não suporta muito, mas funciona...) então a base principal deve ser economia de energia, e a potencia pra ia que é muito maior...
Como você faz pra ligar GPU dedicada com chips ARMs??
Alguma recomendação de onde comprar as peças? Tentei montar o meu mas não acho as placas de vídeo
hmmm, as placas de vídeo eu dei sorte de encontrar em um revendedor pelo Mercado Livre, usadas.
Tenho uma RX76000 (que custa 1700 reais) e consigo, usando a versão 24.9.1 do driver amd, 78 tokens por segundo. Dado o investimento feito acho que tenho um ENORME custo benefício em comparação com esse super computador aí... Usei o modelo llama 3.2 de 8B,
Muito bom. O problema da AMD é que terá dificuldade para rodar outros modelos
@AsimovAcademy quais, por exemplo? Posso testar aqui... Receio que isso não seja verdade (ao menos, não como foi proposto - a fabricante do chip em si ser um fator limitante).
Você lembra bastante o Professor HOC.
Processadores da Intel não se saem melhor na área de IA ao invés de AMD?
Professor HOC ???? Ta de sacanagem né, meu Deus do céuuuuuuuuuuu Aquilo nem Professor é, é um completo enganador e farsante !!!!!!!!!!
Mas o ponto do vídeo foi sobre o fato de que IAs não dependem do processador, e sim das GPUs (que no caso, precisa ser NVIDIA).
processadores AMD ta colocando a intel pra mamar tem varios anos...
@@AsimovAcademy Entendi agora.
@@unixandroidkkkkkkkkkkk brincadeira
Grande conteúdo damn, gostei eu tenho isso tudo também em casa, menos a vossa super maquina montada
Tenho um R5 4500, 32gb ram ddr4, RTX 3060 12GB e 2tb ssd. Da pra começar a brincar?
Não sou programador, como aprendo a montar soluções em IA para minha empresa?
Seria mais ou menos quantos tops?
Eu queria uma gainward phantom 3080 ou 3080 ti de 10 ou 12 gb e nao acho pra conprar..
Que interessante não precisou do nvlink nas placas de vídeo
O Nvlink ajuda um pouco se estiver fazendo fine tunning nos modelos. Na parte de inferência, o resultado impacta pouco.
Já é possível rodar "um modelo" com suporte para o ollama em 2 placas de vídeos ao mesmo tempo, quando esse modelo precisar de muita memória?
o maior problema é que a maioria dos clientes nao quer pagar mensal prefere comprar uma coisa que pode usar "pra sempre"
Legal, eu tenhomaquinas nesse estilo, uso para trabalho com 3D.
Esse mercado de iA como eu poderia iniciar nele?
Senti aquela vontade de voltar aos hardwares e montar o meu, alguma empresa me patrocina? 😂😂😊
Opa, vamos gerar uns memes com facefusion nisso aí man
se fizesse esse projeto com as placas quadros nao seria melhor?
quanto tempo nao vejo um SLI perfeito simplesmente
Ola eu estou criar uma IA Geral pra mim mesmo eu gostaria de saber o que posso fazer nesse projecto estou meio perdido.
sou desevolvedor em stable diffusion sd15 e flux dev 1 e S1, os tamanhos fp32 e fp16, são os melhores pra treinar, consigo treinar modelos com uma rtx 4080 super, devo comprar uma rtx 6000 ada com 48gb de vram
posta mais coisa no seu canal, man, cadê os meme zueros?
6:10 na verdade, a CPU é bem mais rápida em realizar cálculos, porém com uma capacidade extremamente limitada em comparação com a gpu
confesso que eu queria ver um joguinho rodando kk
roda minecraft?
Só em 720p
faltou uma NPU ,unidade de memoria neural que é bem mais eficiente do que os Cuda Core da placa de video,usb, custa uns 500 reais !
NPUs são inúteis para este tipo de projeto apresentado no vídeo.
www.reddit.com/r/LocalLLaMA/comments/1dj46rw/ok_npus_and_how_do_i_make_use_of_them/
mas pra que serve fazer modelos de AI? queria saber
Vc viu o lançamento da Ggabyte para treinar Ai? X870E AORUS XTREME AI TOP.
Explicações mais precisas e cursos, tem nesta Asimov? Os cursos são bons?
Fera, e as placas de vídeo da AMD, o que vc acha/recomenda para IA? Comparado com as placas de vídeo NVIDIA as da AMD perdem/ganham muito no segmento de IA?
eu fiz isso aqui em casa e ainda dei acesso via ssh via cloudflare
A mediatek é uma empresa bem oculta eles tão trabalhando pra criar uns pc baixo consumo e um desempenho extremo... só a compatibilidade com o x86 que lascou muito
Modelo de geração de vídeos como os em Replicate AI rodam nessa máquina? Para gerar vídeos alguma dica?
nome asimov vem do instituto asimov?
Não, o escritor Isaac Asimov mesmo. Abraços
Sem o nvlink a memória não se soma, na real você não deve ter percebido por não rodar modelo grandes, mas sem o link, você não tem 48gb somados, mas sim 24gb
NVLink para LLMs é extremamente necessário... inúmeros usuários do LocalLLama, do Reddit, afirmam ter ganhos na inferência da ordem de 10% apenas... sem contar que eu não faço ideia de onde encontrar NVLink para a 3090 aqui no Brasil :(
Qual diferencia de pc simples?se for feito trava? Não liga ? Não responde?
Manu me recomenda um notebook até 10k para ediçao de vídeos com Ia
Quais foram os motivo de escolher nvidea rtx, ao invez da nvidea quadro?
Oi, Lucas! Escolhi a RTX por conta de alguns benchmarks que vi no fórum Local Llama, do Reddit, onde os testes em LLMs locais de alguns setups com a série Quadro entregavam menos de 50% da velocidade de um 3090. Acredito que isso ocorra por conta da Bandwitch reduzida destas placas (uma NVIDIA Quadro Ada SFF 20GB possui 300GB/s contra 900GB/s de uma 3090). Este outro post é muito bom nestas comparações: github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Provavelmente foi o custo 😂
Comprou o mac usado onde man?
Encontrei na OLX.
@@AsimovAcademy Massa comprou ai mesmo na cidade ou por correios ?
Roda Crysis?
Não era melhor ter montado 2 maquinas e loca-las para empresas?
Não… alias, essa ideia nem faz sentido
@AsimovAcademy vejo locação de PC com 4090 chegando render 4.000 por mês, 3090 é menos, mais sendo 2 deve dar 6.000 por mes
@@leoolliver-br o objetivo do computador não é locar, é usar para desenvolvimento e pesquisa com IA… achei que isto tivesse ficado claro no video
Amigo, apesar de ter um conteúdo relevante, e visivelmente dedicado ao seguimento e com uma pegada forte em educar, ensinar ,compartilhar conhecimento , mas também não posso deixar de questionar a falta de compreensão quanto ao hardware apresentado, seu setup tem boas intenções, mas não está bem planejado , arrisco dizer que está desperdiçando 70% do que apresentou, quando falamos de GPU,CPU,CHIPSET,NVMe PCIe nv2 ;cada peça apresentada é excelente individualmente ,mas da maneira que está, os componentes não casam. Algumas peças estão claramente sendo subutilizadas, especialmente as GPUs, devido às limitações de linhas PCIe da placa-mãe.
@@Pyend não estão não… barreamento x16 em ambas as placas não impacta a performance para rodarmos modelos de IA (uma vez que o modelo é carregado uma única vez e inferido repetidas vezes). Neste setup em questão estamos com uma placa em x16 e outra em x4, mas a performance de llms em ambas é semelhante. Antes deste setup, usavamos uma ROG Zenith Extreme com um Threadripper 2990WX (que acomodava até 4 placas em x16) e a velocidade de processamento era idêntico. Aliás, este erro de análise que você cometeu é bem comum, você não foi o primeiro a alertar sobre isto… mas pesquisamos bastante sobre essa configuração. Abraços
O aistudio com os Gemini experimental lançados quase semanalmente estão espancando o chat gpt . Contexto de 2M tokens e sem limites de uso
OXII PENSEI QUE O BEN MENDES TIRA VIRADO PROGRAMADOR KJKKKK
kkkkkkkkkkk
Mas roda Doom?
Kakakakakak SERA?
Montamos um COMPUTADOR apenas para rodar IA (e você também precisa de um?)