Se a dúvida for simples, posso ajudar aqui mesmo!! Os membros tem acesso à um grupo de whats aberto para qualquer nível! Lá dá para tirar dúvidas desde que alguém saiba responder!! Valeuuuu
Top demais esse conteudo, a configuração do seu pc deve ser top, aquela parte dos documentos seria como se fosse pra fazer RAG? Acho ollama tem api também não tem?
Cara, que video bom! Todos os problemas que eu tive você explicou como solucionar, muito obrigado. Uma duvida, após eu desligar o docker e voltar a utilizar no dia seguinte, ele é capaz de relembrar todo o contexto que conversamos? Ou igual o chatgpt eu preciso sempre explicar tudo novamente
Faaaaala Gabriel!! Que bom que deu certo!!! Fiquei na dúvida agora, mas acredito que perde!! Mas talvez o WebUI consiga recuperar!! Eu testei pouco, acabei não testando essa parte!!
Acabei de instalar no meu pc através do instalador mais recente para windows, é possível ativar a conversa por voz, como no chatgpt e fazer pesquisas online?
Fala Joy!! Até onde usei, é possível clicar no play para ele ler o texto e também é possível clicar no mic para gravar a pergunta!! Mas não vi nenhuma opção para conversar sem precisar clicar!! E para as pesquisas on-line, não encontrei na versão atual!! Pode ser que tenha e acabei não achando!! Ou talvez surja em versões futuras!! Valeuuuuuuuuuu
@@joygumero O gpt4all é outro!! Esse que usei é Openb WebUI!! Você entra no site github.com/open-webui/open-webui e segue as instruções do vídeo! Esse Open WebUI é bem completo, mas não é tão simples de instalar! Precisa de um pouco de persistência!!
Massa meu caro, gostei, agora eu tenho um SSD de 256 onde roda o Windows e tenho também um WSL2 ( O Linux com uma distribuição do Ubuntu ) quanto de espaço esta instalação ocupa???
Faaala Robson!! Ela ocupa bastante!! São pelo menos uns 4 giga de instalação mais o tamanho do modelo!! Eu recomendo usar o WSL2 com um ubuntu dedicado estilo docker que aí fica fácil de desinstalar caso não use muito!! Aqui eu uso tão pouco que só instalo na hora de gravar vídeos! No geral os modelos gpt 3.5 ou haiku são bem baratos para usar via API e vale mais usar on-line! Valeuuuuuuuu
Fala Bob e aí blz? Não sei qual placa de vídeo você tem, mas no Reddit o pessoal falou que consegue tá conseguindo rodar a versão do llama 70b quantizada em iq2_s no formato GGUF com 24 GB de VRAM e tá bem fluindo, se vc tiver condições testa que tá show, pelo Ollama até agora não consegui rodar mas pelo llama.cpp tá de boa
Boaaaaa, gostei!! Eu vi que uma galera só recomenda usar até as Q4, que depois disso degrada bem o resultado!! Mas não vi ninguém comentando se uma Q2 ficar pior que as 8B, ou se é melhor que a 8B e pior que a 70B!! Pq como o peso vai perdendo precisão, às vezes vale uma 8B precisa que uma 70B degenerada!! Mas ainda não li os comentários sobre isso!! Valeuuu pelas informações!!
Então, eu uso geralmente modelo quantizados no máximo até q3_m (Mixtral) por padrão não reparei e nenhuma perca de qualidade tão significativa, realmente no modelo de quantização padrão tanto q1 quanto q2 nos testes que eu fiz ele começa a alucinar bastante, porém tem um novo padrão de quantização que está saindo para os modelos GGUF (imatrix) e incrivelmente pelos resultados que eu vi em iq2_s ele ainda alucina algumas vezes mas está trazendo respostas boas principalmente em inglês.
Mas realmente, também faço uso do llama 8b e as respostas estão me ajudando bastante, o 70b tá em 6 lugar na classificação geral do hugging face arena e um dos melhores em inglês superando o Claude 3 opus
Eu curti a 70B também!! Em geral uso no Groq!! Depois que comecei a fazer few shots na saída esperada com formato JSON, estou conseguindo usar qualquer modelo para as automações!! Tenho usado gpt3.5-turbo e claude3-haiku bastante dessa forma!! O claude só não uso mais porque ele fica dando limite de uso! rsrsrs
tem uma situação que enfrentamos quando usamos a api openai que é a limitação da quantidade de tokens quandos os dados são muito grandes, rodando localmente onde posso consultar esse tipo de limitação? alguem sabe
No caso específico do Llama, eles não informam e não deixam claro isso!! Mas tem algumas discussões sobre em alguns lugares: huggingface.co/meta-llama/Llama-3.1-405B-Instruct/discussions/6
Eu recomendo em primeiro lugar, fazer um projeto usando API e deixar ele bem redondo!! Validar que ele se tornou parte do dia a dia! E se isso der certo, procure as placas da nvidia RTX com 8 GB de Ram para os modelos pequenos, e de 22GB de Ram para fazer fine tunning local ou para rodar as LLms menores com folga!! Eu particularmente não tenho nenhum projeto que justificou comprar hardware novo!! Porque um GPT-4o mini custa 0.15 o input e 0.60 a saída a cada milhão de tokens!! Isso é mais barato que comprar!! Porém se tem questões de sigilo, vale a pena pensar em um modelo local!! Ou alugar uma VPS para rodar modelos fora dos servidores padrões!! Diz o que achou!! Valeuuuuu
Boa tarde amigo. Estou querendo fazer um projetinho mas queria fazer local. 16gb ram ryzen 7 3800 asus 550b gaming plus placa mae 1050 ti isso aqui da pra rodar pelo menos um modelo 7B sem censura ? E esse modelo se eu treinar ele, ele consegui ficar bom em progrmaação pra me ajduar com projeto? sou inciante em progrmaação!
Testa primeiro com o modelo phi3!! E depois testa os 8B!! Aì você vai perceber!! E tenta rodar usando o LM Studio!! É mais simples! Veja o que acha!! Para programação, eu usaria a versão do ChatGPT gratuita on-line mesmo!! Ela é excelente e não vai precisar pagar nada também!! Veja se dá certo!! Valeuuuuuuuu
Faaaaala Estudante!! Tudo bem? Que modelo usou? Confere se você tem uma placa de vídeo tipo NVIDIA que fica mais rápido!! E também confere que as vezes mesmo que a gente tenha, ela não ativa na hora da instalação!! Valeuuuuuuu
foi um modelo em codado em python, eu baixei a pasta e fiz gerar umas imagens. foi do perchance, lembro que fiquei fuçando o site e clicando em td qnt era coisa azul q tinha la, ate que uma redirecionou para uma pagina do github do perchance, achei bem interessante
Oi! viu, qual exatamente a GPU Nvidia que tu usa? Será que qualquer gpu nvidia que possua cuda cores funcionaria? fiz a instalação do llama3 para windows (direto sem docker) e tb em uma VPS linux, na vps ficou impraticavel, em minha maquina com uma boa CPU, 16gb com GPU não Nvidia logo não usou, só rodou de forma aceitável os modelos mais leves como 7b e o phi3. Gostaria de conhecer um setup de hardware onde pudesse ter o llama com um bom modelo(superior aos que citei), +a interface para o pessoal, rodando dentro da empresa para atender a cerca de ~10 pessoas em simultaneo. Só encontrei vídeos falando do harware do servidor de IA na gringa, e as máquinas tem um custo fora da nossa realidade brazuca (vi cara usar 2 gpus cada uma custando ~R$20.000,00 ai inviabiliza) A unica Nvidia com cuda cores que encontrei com preço mais camarada foi a GTX 1650 porem (885,00 na Kabum) mas o medo de comprar para isso e nem ser compatível é grande XD Poderia fazer um video a respeito? ;)
Faaaala Rafael!! Eu diria que hoje em dia, pra ter uma GPU para começar a usar e rodar um Flux eu recomendo começar com uma 3060 da Nvídia de 12gb de vram!! Aqui eu tenho uma 1060, mas não uso para rodar LLM todo dia que a LLM consome bem!! Os modelos que começam com "10" tem uma tecnologia antiga que não é otimizada para multiplicação de matrizes!! Eu atualmente não uso nada local!! Porque o custo de usar on-line é menor! rsrs E no geral o Claude e o ChatGPT online ou pela API já resolvem 99% dos meus casos!! Só compraria uma GPU se fosse para algo que precisasse muito de segurança da informação!! Dá uma pensada! Valeuuuuuu
Tenho uma GTX 1060 de 6 GB de VRAM e rodei hj uma LLM chamada _"Meta Llama 3 1 Instruct 8B q5_k_m gguf"_ que possui 5.73 GB usando o LM Studio no Windows 11. O desempenho dessa LLM foi rápido, gerando aproximadamente 3 palavras por segundo para cada requisição de pergunta no chat. Penso eu que uma RTX 4080 já consiga oferecer um desempenho aceitável para 10 pessoas usarem. Óbvio q se as 10 pessoas enviarem perguntas ao mesmo tempo, vai ficar lento. Imagino eu que uma placa dessas consegue lidar com mais de 50 requisições por hora. Agora, se vc tentar rodar via CPU, o desempenho é horroroso, mesmo com uma CPU topo de linha.
Obrigatoriamente é uma palavra muito forte! Mas a verdade é que sim! Na CPU fica lento demais! Mesmo na GPU, dependendo do modelo já fica lento! Valeuuuuuuu
Faaaaaala Marcelo!! Não esquece que dar o "run"!! Que é ali que ele faz o download do modelo na primeira vez! Por exemplo "ollama run llama3"! É nessa hora que ele instala!! Aqui está a lista de modelos: ollama.com/library
Eu desisto, fiz tudo certinho e rodou tranquilo depois da instalação, liguei o PC outro dia e deu pau, já nao funcionava mais, refiz o passo a passo e agora só carrega a janela do chat mas nao carrega o modelo, mesmo ele estando instalado
@@inteligenciamilgrau Windows 10 mesmo, acabei de fazer varias tentativas, ele não carrega nenhum modelo e quando tento instalar pelo painel da erro de conexão
Boaa! Você fez como eu fiz usando o Ubuntu dentro do windows ou com o instalador deles? O problema que aparemente está acontecendo é que estão subindo dois ou mais ollamas ao mesmo tempo! E o sistema está se perdendo na hora de usar!!
@@inteligenciamilgrau Sim, usando windows mesmo, instalo o Docker, depois copio a linha de comando para GPU e abro um prompt "modo administrador" e colo... dou enter ele começa o download... ja fiz de tudo, so funcionou a primeira vez, ja limpei todos os arquivos e desisntalei tudo, limpei historico e arquivos TEMP.. nada ate agora
É legalzinho pra brincar, mas ainda é bem burrinho com 8B. Para tarefas relevantes não dá pra confiar, o ideal seria 70B+, mas meu PC pegaria fogo. Copilot sai ganhando ainda infelizmente...
Faaaaala Felipe!! A questão do 8B tem mais a ver com o hardware que cada um tem!! Estava vendo aqui que uma A100 da NVidia custa 140 mil reais! Com 80 giga! Aí dá pra rodar um Ollama turbinado com Llama3 70B relativamente suave! Talvez umas duas pra ficar top! rsrsrs No geral eu consigo usar modelos 8B em produção fazendo few shots com JSON na saída esperada!! Dá até para usar modelos 8B!! Os modelos estão cada dia mais robustos!! Valeuuuuuuuuuuu
Vish se custa tudo isso, acho que mesmo otimizando ao máximo não vão conseguir fazer milagre com os modelos, alguma coisa vai ter que surgir aí no caminho para poder usar um ChatGPT em casa algum dia. Provavelmente em menos de uns 10 anos não vamos ver um hardware que não custe o olho da cara nas lojas.
Kkkkkkkkk exatamente! Llm é um problema de hardware e também energético! Certeza que essas empresas estão dando prejuízo nos preços que vendem o uso das apis! A conta não fecha! Aparentemente estão dando lucros colaterais!
Eu tava desenvolvendo uma interface kkk...Boa!
Kkkkkkk, essa já está bem completinha!
Boaa!
Em algum dos planos de "Seja Membro" tem algum vídeo seu mais detalhado sobre Instalação do OpenWebUI ?
Se a dúvida for simples, posso ajudar aqui mesmo!! Os membros tem acesso à um grupo de whats aberto para qualquer nível! Lá dá para tirar dúvidas desde que alguém saiba responder!! Valeuuuu
Top demais esse conteudo, a configuração do seu pc deve ser top, aquela parte dos documentos seria como se fosse pra fazer RAG? Acho ollama tem api também não tem?
Exatamente, é rag sim! Tem api também! Muito completo
Que top!!!
Comentando antes do video, existe API pra ela?
Existe sim!! No outro vídeo que falo do Ollama eu inclusive mostro como usar!! Dá uma olhada:
th-cam.com/video/0lAMNHuZk1w/w-d-xo.html
Top, d++
Você poderia ensinar como fazer fine tuning
Ótima ideia! Valeuuuu Vitor!
Cara, que video bom! Todos os problemas que eu tive você explicou como solucionar, muito obrigado. Uma duvida, após eu desligar o docker e voltar a utilizar no dia seguinte, ele é capaz de relembrar todo o contexto que conversamos? Ou igual o chatgpt eu preciso sempre explicar tudo novamente
Faaaaala Gabriel!! Que bom que deu certo!!! Fiquei na dúvida agora, mas acredito que perde!! Mas talvez o WebUI consiga recuperar!! Eu testei pouco, acabei não testando essa parte!!
Acabei de instalar no meu pc através do instalador mais recente para windows, é possível ativar a conversa por voz, como no chatgpt e fazer pesquisas online?
Fala Joy!! Até onde usei, é possível clicar no play para ele ler o texto e também é possível clicar no mic para gravar a pergunta!! Mas não vi nenhuma opção para conversar sem precisar clicar!! E para as pesquisas on-line, não encontrei na versão atual!! Pode ser que tenha e acabei não achando!! Ou talvez surja em versões futuras!! Valeuuuuuuuuuu
No meu não tem o botão play como aparece aí, só tem o de enviar msg, baixei pelo próprio site do gpt4all o instalador.. poderia me ajudar?
@@joygumero O gpt4all é outro!! Esse que usei é Openb WebUI!! Você entra no site github.com/open-webui/open-webui e segue as instruções do vídeo! Esse Open WebUI é bem completo, mas não é tão simples de instalar! Precisa de um pouco de persistência!!
Massa meu caro, gostei, agora eu tenho um SSD de 256 onde roda o Windows e tenho também um WSL2 ( O Linux com uma distribuição do Ubuntu ) quanto de espaço esta instalação ocupa???
Faaala Robson!! Ela ocupa bastante!! São pelo menos uns 4 giga de instalação mais o tamanho do modelo!! Eu recomendo usar o WSL2 com um ubuntu dedicado estilo docker que aí fica fácil de desinstalar caso não use muito!! Aqui eu uso tão pouco que só instalo na hora de gravar vídeos! No geral os modelos gpt 3.5 ou haiku são bem baratos para usar via API e vale mais usar on-line! Valeuuuuuuuu
Fala Bob e aí blz? Não sei qual placa de vídeo você tem, mas no Reddit o pessoal falou que consegue tá conseguindo rodar a versão do llama 70b quantizada em iq2_s no formato GGUF com 24 GB de VRAM e tá bem fluindo, se vc tiver condições testa que tá show, pelo Ollama até agora não consegui rodar mas pelo llama.cpp tá de boa
Boaaaaa, gostei!! Eu vi que uma galera só recomenda usar até as Q4, que depois disso degrada bem o resultado!! Mas não vi ninguém comentando se uma Q2 ficar pior que as 8B, ou se é melhor que a 8B e pior que a 70B!! Pq como o peso vai perdendo precisão, às vezes vale uma 8B precisa que uma 70B degenerada!! Mas ainda não li os comentários sobre isso!! Valeuuu pelas informações!!
Então, eu uso geralmente modelo quantizados no máximo até q3_m (Mixtral) por padrão não reparei e nenhuma perca de qualidade tão significativa, realmente no modelo de quantização padrão tanto q1 quanto q2 nos testes que eu fiz ele começa a alucinar bastante, porém tem um novo padrão de quantização que está saindo para os modelos GGUF (imatrix) e incrivelmente pelos resultados que eu vi em iq2_s ele ainda alucina algumas vezes mas está trazendo respostas boas principalmente em inglês.
Mas realmente, também faço uso do llama 8b e as respostas estão me ajudando bastante, o 70b tá em 6 lugar na classificação geral do hugging face arena e um dos melhores em inglês superando o Claude 3 opus
Eu curti a 70B também!! Em geral uso no Groq!! Depois que comecei a fazer few shots na saída esperada com formato JSON, estou conseguindo usar qualquer modelo para as automações!! Tenho usado gpt3.5-turbo e claude3-haiku bastante dessa forma!! O claude só não uso mais porque ele fica dando limite de uso! rsrsrs
@@rodrigomata2084 opa mano, voce pode me passar seu contato? queria tirar umas duvidas sobre isso
tem uma situação que enfrentamos quando usamos a api openai que é a limitação da quantidade de tokens quandos os dados são muito grandes, rodando localmente onde posso consultar esse tipo de limitação? alguem sabe
No caso específico do Llama, eles não informam e não deixam claro isso!! Mas tem algumas discussões sobre em alguns lugares: huggingface.co/meta-llama/Llama-3.1-405B-Instruct/discussions/6
Qual placa de vídeo vc recomenda pra desktop ?
Eu recomendo em primeiro lugar, fazer um projeto usando API e deixar ele bem redondo!! Validar que ele se tornou parte do dia a dia! E se isso der certo, procure as placas da nvidia RTX com 8 GB de Ram para os modelos pequenos, e de 22GB de Ram para fazer fine tunning local ou para rodar as LLms menores com folga!! Eu particularmente não tenho nenhum projeto que justificou comprar hardware novo!! Porque um GPT-4o mini custa 0.15 o input e 0.60 a saída a cada milhão de tokens!! Isso é mais barato que comprar!! Porém se tem questões de sigilo, vale a pena pensar em um modelo local!! Ou alugar uma VPS para rodar modelos fora dos servidores padrões!! Diz o que achou!! Valeuuuuu
Eu tava procurando isso 😂
Perfeito!!!!
Boa tarde amigo.
Estou querendo fazer um projetinho mas queria fazer local.
16gb ram
ryzen 7 3800
asus 550b gaming plus placa mae
1050 ti
isso aqui da pra rodar pelo menos um modelo 7B sem censura ?
E esse modelo se eu treinar ele, ele consegui ficar bom em progrmaação pra me ajduar com projeto? sou inciante em progrmaação!
Testa primeiro com o modelo phi3!! E depois testa os 8B!! Aì você vai perceber!! E tenta rodar usando o LM Studio!! É mais simples! Veja o que acha!! Para programação, eu usaria a versão do ChatGPT gratuita on-line mesmo!! Ela é excelente e não vai precisar pagar nada também!! Veja se dá certo!! Valeuuuuuuuu
Olá, ele nao rodar em notebook simples né? Será que daria pra usar o llama 2?
Nesse caso tenta o phi3! Valeuuuu
eu testei esses dias uma IA que gera imagens e tmbm é instalada no PC. bom de +, pena q demora mt pra gerar as imagens
Faaaaala Estudante!! Tudo bem? Que modelo usou? Confere se você tem uma placa de vídeo tipo NVIDIA que fica mais rápido!! E também confere que as vezes mesmo que a gente tenha, ela não ativa na hora da instalação!! Valeuuuuuuu
foi um modelo em codado em python, eu baixei a pasta e fiz gerar umas imagens. foi do perchance, lembro que fiquei fuçando o site e clicando em td qnt era coisa azul q tinha la, ate que uma redirecionou para uma pagina do github do perchance, achei bem interessante
Oi! viu, qual exatamente a GPU Nvidia que tu usa?
Será que qualquer gpu nvidia que possua cuda cores funcionaria? fiz a instalação do llama3 para windows (direto sem docker) e tb em uma VPS linux, na vps ficou impraticavel, em minha maquina com uma boa CPU, 16gb com GPU não Nvidia logo não usou, só rodou de forma aceitável os modelos mais leves como 7b e o phi3.
Gostaria de conhecer um setup de hardware onde pudesse ter o llama com um bom modelo(superior aos que citei), +a interface para o pessoal, rodando dentro da empresa para atender a cerca de ~10 pessoas em simultaneo.
Só encontrei vídeos falando do harware do servidor de IA na gringa, e as máquinas tem um custo fora da nossa realidade brazuca (vi cara usar 2 gpus cada uma custando ~R$20.000,00 ai inviabiliza) A unica Nvidia com cuda cores que encontrei com preço mais camarada foi a GTX 1650 porem (885,00 na Kabum) mas o medo de comprar para isso e nem ser compatível é grande XD
Poderia fazer um video a respeito? ;)
Faaaala Rafael!! Eu diria que hoje em dia, pra ter uma GPU para começar a usar e rodar um Flux eu recomendo começar com uma 3060 da Nvídia de 12gb de vram!! Aqui eu tenho uma 1060, mas não uso para rodar LLM todo dia que a LLM consome bem!! Os modelos que começam com "10" tem uma tecnologia antiga que não é otimizada para multiplicação de matrizes!! Eu atualmente não uso nada local!! Porque o custo de usar on-line é menor! rsrs E no geral o Claude e o ChatGPT online ou pela API já resolvem 99% dos meus casos!! Só compraria uma GPU se fosse para algo que precisasse muito de segurança da informação!! Dá uma pensada! Valeuuuuuu
Tenho uma GTX 1060 de 6 GB de VRAM e rodei hj uma LLM chamada _"Meta Llama 3 1 Instruct 8B q5_k_m gguf"_ que possui 5.73 GB usando o LM Studio no Windows 11.
O desempenho dessa LLM foi rápido, gerando aproximadamente 3 palavras por segundo para cada requisição de pergunta no chat.
Penso eu que uma RTX 4080 já consiga oferecer um desempenho aceitável para 10 pessoas usarem.
Óbvio q se as 10 pessoas enviarem perguntas ao mesmo tempo, vai ficar lento.
Imagino eu que uma placa dessas consegue lidar com mais de 50 requisições por hora.
Agora, se vc tentar rodar via CPU, o desempenho é horroroso, mesmo com uma CPU topo de linha.
Preciso obrigatoriamente de uma GPU, certo?
Obrigatoriamente é uma palavra muito forte! Mas a verdade é que sim! Na CPU fica lento demais! Mesmo na GPU, dependendo do modelo já fica lento! Valeuuuuuuu
os modelos nao aparecem pra mim
Faaaaaala Marcelo!! Não esquece que dar o "run"!! Que é ali que ele faz o download do modelo na primeira vez! Por exemplo "ollama run llama3"! É nessa hora que ele instala!! Aqui está a lista de modelos:
ollama.com/library
Topzera 😮😮
Uhuuuuu, valeuuuu
Eu desisto, fiz tudo certinho e rodou tranquilo depois da instalação, liguei o PC outro dia e deu pau, já nao funcionava mais, refiz o passo a passo e agora só carrega a janela do chat mas nao carrega o modelo, mesmo ele estando instalado
Faaaala MPC, se rodou uma vez estamos no caminho certo! Fez no Windows, Linux ou maços?
@@inteligenciamilgrau Windows 10 mesmo, acabei de fazer varias tentativas, ele não carrega nenhum modelo e quando tento instalar pelo painel da erro de conexão
Boaa! Você fez como eu fiz usando o Ubuntu dentro do windows ou com o instalador deles? O problema que aparemente está acontecendo é que estão subindo dois ou mais ollamas ao mesmo tempo! E o sistema está se perdendo na hora de usar!!
@@inteligenciamilgrau Sim, usando windows mesmo, instalo o Docker, depois copio a linha de comando para GPU e abro um prompt "modo administrador" e colo...
dou enter ele começa o download... ja fiz de tudo, so funcionou a primeira vez, ja limpei todos os arquivos e desisntalei tudo, limpei historico e arquivos TEMP.. nada ate agora
Quando você digita "ollama list" aparece algum modelo listado?
Alguém sabe me dizer se tem um serviço que podemos pagar máquinas mais rápidas para rodar o modelo de 70b?
Sei que tem o aws, que podemos rodar
Um lugar que roda bem é no GROQ, é uma plataforma de IA do criador das TPUs da Google! Veja se lá dá certo! Valeuuuu
Muito obrigado.
E aí, deu certo?@@vitorribas2829
Top
Uhuuuuuuu!! Valeuuuuuu
É legalzinho pra brincar, mas ainda é bem burrinho com 8B. Para tarefas relevantes não dá pra confiar, o ideal seria 70B+, mas meu PC pegaria fogo. Copilot sai ganhando ainda infelizmente...
Faaaaala Felipe!! A questão do 8B tem mais a ver com o hardware que cada um tem!! Estava vendo aqui que uma A100 da NVidia custa 140 mil reais! Com 80 giga! Aí dá pra rodar um Ollama turbinado com Llama3 70B relativamente suave! Talvez umas duas pra ficar top! rsrsrs No geral eu consigo usar modelos 8B em produção fazendo few shots com JSON na saída esperada!! Dá até para usar modelos 8B!! Os modelos estão cada dia mais robustos!! Valeuuuuuuuuuuu
Vish se custa tudo isso, acho que mesmo otimizando ao máximo não vão conseguir fazer milagre com os modelos, alguma coisa vai ter que surgir aí no caminho para poder usar um ChatGPT em casa algum dia. Provavelmente em menos de uns 10 anos não vamos ver um hardware que não custe o olho da cara nas lojas.
Kkkkkkkkk exatamente! Llm é um problema de hardware e também energético! Certeza que essas empresas estão dando prejuízo nos preços que vendem o uso das apis! A conta não fecha! Aparentemente estão dando lucros colaterais!
o meu também pegaria fogo.
@@felipealmeida5880 que será que acontece se tentassemos usar o bloom? que tem 1,75 trilhões de parâmetros?
Achei que o vídeo iria ensinar tudo do zero.. :(
A parte que eu ensino desde o começo está neste outro vídeo aqui:
th-cam.com/video/0lAMNHuZk1w/w-d-xo.html
Valeuuuuuuuuuuu
valeuuu
instalação chatona.
Tem o "LM Studio" para Windows, é muito mais fácil, porém só não tem essa função de analisar documento.
O ollama é simples, a webui que é mais complexa! Valeuuuu
Verdade, e esse daí você sobe em um servidor VPS e já tem até Login e senha