LLAMA 3 da Meta com Interface Gráfica no Seu Computador - Open WebUI

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 ธ.ค. 2024

ความคิดเห็น • 74

  • @fabricciomb
    @fabricciomb 5 วันที่ผ่านมา

    Eu tava desenvolvendo uma interface kkk...Boa!

  • @VitorFachine.
    @VitorFachine. 6 หลายเดือนก่อน

    Boaa!
    Em algum dos planos de "Seja Membro" tem algum vídeo seu mais detalhado sobre Instalação do OpenWebUI ?

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Se a dúvida for simples, posso ajudar aqui mesmo!! Os membros tem acesso à um grupo de whats aberto para qualquer nível! Lá dá para tirar dúvidas desde que alguém saiba responder!! Valeuuuu

  • @CarlosRedoanroberto
    @CarlosRedoanroberto 7 หลายเดือนก่อน

    Top demais esse conteudo, a configuração do seu pc deve ser top, aquela parte dos documentos seria como se fosse pra fazer RAG? Acho ollama tem api também não tem?

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      Exatamente, é rag sim! Tem api também! Muito completo

  • @ChatBot-cy3zf
    @ChatBot-cy3zf 7 หลายเดือนก่อน

    Que top!!!
    Comentando antes do video, existe API pra ela?

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน +1

      Existe sim!! No outro vídeo que falo do Ollama eu inclusive mostro como usar!! Dá uma olhada:
      th-cam.com/video/0lAMNHuZk1w/w-d-xo.html

  • @Vitor-ur2rl
    @Vitor-ur2rl 7 หลายเดือนก่อน

    Top, d++
    Você poderia ensinar como fazer fine tuning

  • @gabrielvenancio9674
    @gabrielvenancio9674 6 หลายเดือนก่อน

    Cara, que video bom! Todos os problemas que eu tive você explicou como solucionar, muito obrigado. Uma duvida, após eu desligar o docker e voltar a utilizar no dia seguinte, ele é capaz de relembrar todo o contexto que conversamos? Ou igual o chatgpt eu preciso sempre explicar tudo novamente

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Faaaaala Gabriel!! Que bom que deu certo!!! Fiquei na dúvida agora, mas acredito que perde!! Mas talvez o WebUI consiga recuperar!! Eu testei pouco, acabei não testando essa parte!!

  • @joygumero
    @joygumero 6 หลายเดือนก่อน +1

    Acabei de instalar no meu pc através do instalador mais recente para windows, é possível ativar a conversa por voz, como no chatgpt e fazer pesquisas online?

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน +1

      Fala Joy!! Até onde usei, é possível clicar no play para ele ler o texto e também é possível clicar no mic para gravar a pergunta!! Mas não vi nenhuma opção para conversar sem precisar clicar!! E para as pesquisas on-line, não encontrei na versão atual!! Pode ser que tenha e acabei não achando!! Ou talvez surja em versões futuras!! Valeuuuuuuuuuu

    • @joygumero
      @joygumero 6 หลายเดือนก่อน

      No meu não tem o botão play como aparece aí, só tem o de enviar msg, baixei pelo próprio site do gpt4all o instalador.. poderia me ajudar?

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      @@joygumero O gpt4all é outro!! Esse que usei é Openb WebUI!! Você entra no site github.com/open-webui/open-webui e segue as instruções do vídeo! Esse Open WebUI é bem completo, mas não é tão simples de instalar! Precisa de um pouco de persistência!!

  • @robsonlirayou
    @robsonlirayou 5 หลายเดือนก่อน

    Massa meu caro, gostei, agora eu tenho um SSD de 256 onde roda o Windows e tenho também um WSL2 ( O Linux com uma distribuição do Ubuntu ) quanto de espaço esta instalação ocupa???

    • @inteligenciamilgrau
      @inteligenciamilgrau  5 หลายเดือนก่อน

      Faaala Robson!! Ela ocupa bastante!! São pelo menos uns 4 giga de instalação mais o tamanho do modelo!! Eu recomendo usar o WSL2 com um ubuntu dedicado estilo docker que aí fica fácil de desinstalar caso não use muito!! Aqui eu uso tão pouco que só instalo na hora de gravar vídeos! No geral os modelos gpt 3.5 ou haiku são bem baratos para usar via API e vale mais usar on-line! Valeuuuuuuuu

  • @rodrigomata2084
    @rodrigomata2084 7 หลายเดือนก่อน +1

    Fala Bob e aí blz? Não sei qual placa de vídeo você tem, mas no Reddit o pessoal falou que consegue tá conseguindo rodar a versão do llama 70b quantizada em iq2_s no formato GGUF com 24 GB de VRAM e tá bem fluindo, se vc tiver condições testa que tá show, pelo Ollama até agora não consegui rodar mas pelo llama.cpp tá de boa

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน +1

      Boaaaaa, gostei!! Eu vi que uma galera só recomenda usar até as Q4, que depois disso degrada bem o resultado!! Mas não vi ninguém comentando se uma Q2 ficar pior que as 8B, ou se é melhor que a 8B e pior que a 70B!! Pq como o peso vai perdendo precisão, às vezes vale uma 8B precisa que uma 70B degenerada!! Mas ainda não li os comentários sobre isso!! Valeuuu pelas informações!!

    • @rodrigomata2084
      @rodrigomata2084 7 หลายเดือนก่อน

      Então, eu uso geralmente modelo quantizados no máximo até q3_m (Mixtral) por padrão não reparei e nenhuma perca de qualidade tão significativa, realmente no modelo de quantização padrão tanto q1 quanto q2 nos testes que eu fiz ele começa a alucinar bastante, porém tem um novo padrão de quantização que está saindo para os modelos GGUF (imatrix) e incrivelmente pelos resultados que eu vi em iq2_s ele ainda alucina algumas vezes mas está trazendo respostas boas principalmente em inglês.

    • @rodrigomata2084
      @rodrigomata2084 7 หลายเดือนก่อน

      Mas realmente, também faço uso do llama 8b e as respostas estão me ajudando bastante, o 70b tá em 6 lugar na classificação geral do hugging face arena e um dos melhores em inglês superando o Claude 3 opus

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      Eu curti a 70B também!! Em geral uso no Groq!! Depois que comecei a fazer few shots na saída esperada com formato JSON, estou conseguindo usar qualquer modelo para as automações!! Tenho usado gpt3.5-turbo e claude3-haiku bastante dessa forma!! O claude só não uso mais porque ele fica dando limite de uso! rsrsrs

    • @ChatBot-cy3zf
      @ChatBot-cy3zf 7 หลายเดือนก่อน

      @@rodrigomata2084 opa mano, voce pode me passar seu contato? queria tirar umas duvidas sobre isso

  • @ademilsonalves2177
    @ademilsonalves2177 หลายเดือนก่อน

    tem uma situação que enfrentamos quando usamos a api openai que é a limitação da quantidade de tokens quandos os dados são muito grandes, rodando localmente onde posso consultar esse tipo de limitação? alguem sabe

    • @inteligenciamilgrau
      @inteligenciamilgrau  หลายเดือนก่อน

      No caso específico do Llama, eles não informam e não deixam claro isso!! Mas tem algumas discussões sobre em alguns lugares: huggingface.co/meta-llama/Llama-3.1-405B-Instruct/discussions/6

  • @brunonogueira1743
    @brunonogueira1743 4 หลายเดือนก่อน

    Qual placa de vídeo vc recomenda pra desktop ?

    • @inteligenciamilgrau
      @inteligenciamilgrau  4 หลายเดือนก่อน

      Eu recomendo em primeiro lugar, fazer um projeto usando API e deixar ele bem redondo!! Validar que ele se tornou parte do dia a dia! E se isso der certo, procure as placas da nvidia RTX com 8 GB de Ram para os modelos pequenos, e de 22GB de Ram para fazer fine tunning local ou para rodar as LLms menores com folga!! Eu particularmente não tenho nenhum projeto que justificou comprar hardware novo!! Porque um GPT-4o mini custa 0.15 o input e 0.60 a saída a cada milhão de tokens!! Isso é mais barato que comprar!! Porém se tem questões de sigilo, vale a pena pensar em um modelo local!! Ou alugar uma VPS para rodar modelos fora dos servidores padrões!! Diz o que achou!! Valeuuuuu

  • @MaxJM74
    @MaxJM74 4 หลายเดือนก่อน

    Eu tava procurando isso 😂

  • @CryptoFrontierWeb3
    @CryptoFrontierWeb3 3 หลายเดือนก่อน

    Boa tarde amigo.
    Estou querendo fazer um projetinho mas queria fazer local.
    16gb ram
    ryzen 7 3800
    asus 550b gaming plus placa mae
    1050 ti
    isso aqui da pra rodar pelo menos um modelo 7B sem censura ?
    E esse modelo se eu treinar ele, ele consegui ficar bom em progrmaação pra me ajduar com projeto? sou inciante em progrmaação!

    • @inteligenciamilgrau
      @inteligenciamilgrau  3 หลายเดือนก่อน

      Testa primeiro com o modelo phi3!! E depois testa os 8B!! Aì você vai perceber!! E tenta rodar usando o LM Studio!! É mais simples! Veja o que acha!! Para programação, eu usaria a versão do ChatGPT gratuita on-line mesmo!! Ela é excelente e não vai precisar pagar nada também!! Veja se dá certo!! Valeuuuuuuuu

  • @juniorsalma
    @juniorsalma 6 หลายเดือนก่อน

    Olá, ele nao rodar em notebook simples né? Será que daria pra usar o llama 2?

  • @estudantededicado6419
    @estudantededicado6419 7 หลายเดือนก่อน

    eu testei esses dias uma IA que gera imagens e tmbm é instalada no PC. bom de +, pena q demora mt pra gerar as imagens

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      Faaaaala Estudante!! Tudo bem? Que modelo usou? Confere se você tem uma placa de vídeo tipo NVIDIA que fica mais rápido!! E também confere que as vezes mesmo que a gente tenha, ela não ativa na hora da instalação!! Valeuuuuuuu

    • @estudantededicado6419
      @estudantededicado6419 7 หลายเดือนก่อน

      foi um modelo em codado em python, eu baixei a pasta e fiz gerar umas imagens. foi do perchance, lembro que fiquei fuçando o site e clicando em td qnt era coisa azul q tinha la, ate que uma redirecionou para uma pagina do github do perchance, achei bem interessante

  • @RafaelOGrande
    @RafaelOGrande 3 หลายเดือนก่อน

    Oi! viu, qual exatamente a GPU Nvidia que tu usa?
    Será que qualquer gpu nvidia que possua cuda cores funcionaria? fiz a instalação do llama3 para windows (direto sem docker) e tb em uma VPS linux, na vps ficou impraticavel, em minha maquina com uma boa CPU, 16gb com GPU não Nvidia logo não usou, só rodou de forma aceitável os modelos mais leves como 7b e o phi3.
    Gostaria de conhecer um setup de hardware onde pudesse ter o llama com um bom modelo(superior aos que citei), +a interface para o pessoal, rodando dentro da empresa para atender a cerca de ~10 pessoas em simultaneo.
    Só encontrei vídeos falando do harware do servidor de IA na gringa, e as máquinas tem um custo fora da nossa realidade brazuca (vi cara usar 2 gpus cada uma custando ~R$20.000,00 ai inviabiliza) A unica Nvidia com cuda cores que encontrei com preço mais camarada foi a GTX 1650 porem (885,00 na Kabum) mas o medo de comprar para isso e nem ser compatível é grande XD
    Poderia fazer um video a respeito? ;)

    • @inteligenciamilgrau
      @inteligenciamilgrau  3 หลายเดือนก่อน

      Faaaala Rafael!! Eu diria que hoje em dia, pra ter uma GPU para começar a usar e rodar um Flux eu recomendo começar com uma 3060 da Nvídia de 12gb de vram!! Aqui eu tenho uma 1060, mas não uso para rodar LLM todo dia que a LLM consome bem!! Os modelos que começam com "10" tem uma tecnologia antiga que não é otimizada para multiplicação de matrizes!! Eu atualmente não uso nada local!! Porque o custo de usar on-line é menor! rsrs E no geral o Claude e o ChatGPT online ou pela API já resolvem 99% dos meus casos!! Só compraria uma GPU se fosse para algo que precisasse muito de segurança da informação!! Dá uma pensada! Valeuuuuuu

    • @VictorCampos87
      @VictorCampos87 3 หลายเดือนก่อน +2

      Tenho uma GTX 1060 de 6 GB de VRAM e rodei hj uma LLM chamada _"Meta Llama 3 1 Instruct 8B q5_k_m gguf"_ que possui 5.73 GB usando o LM Studio no Windows 11.
      O desempenho dessa LLM foi rápido, gerando aproximadamente 3 palavras por segundo para cada requisição de pergunta no chat.
      Penso eu que uma RTX 4080 já consiga oferecer um desempenho aceitável para 10 pessoas usarem.
      Óbvio q se as 10 pessoas enviarem perguntas ao mesmo tempo, vai ficar lento.
      Imagino eu que uma placa dessas consegue lidar com mais de 50 requisições por hora.
      Agora, se vc tentar rodar via CPU, o desempenho é horroroso, mesmo com uma CPU topo de linha.

  • @mellorafael
    @mellorafael 5 หลายเดือนก่อน

    Preciso obrigatoriamente de uma GPU, certo?

    • @inteligenciamilgrau
      @inteligenciamilgrau  5 หลายเดือนก่อน +1

      Obrigatoriamente é uma palavra muito forte! Mas a verdade é que sim! Na CPU fica lento demais! Mesmo na GPU, dependendo do modelo já fica lento! Valeuuuuuuu

  • @marceloguimaraes796
    @marceloguimaraes796 6 หลายเดือนก่อน

    os modelos nao aparecem pra mim

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Faaaaaala Marcelo!! Não esquece que dar o "run"!! Que é ali que ele faz o download do modelo na primeira vez! Por exemplo "ollama run llama3"! É nessa hora que ele instala!! Aqui está a lista de modelos:
      ollama.com/library

  • @eliascarvalhooo
    @eliascarvalhooo 7 หลายเดือนก่อน

    Topzera 😮😮

  • @MPCDesenvolvimentoWeb
    @MPCDesenvolvimentoWeb 6 หลายเดือนก่อน

    Eu desisto, fiz tudo certinho e rodou tranquilo depois da instalação, liguei o PC outro dia e deu pau, já nao funcionava mais, refiz o passo a passo e agora só carrega a janela do chat mas nao carrega o modelo, mesmo ele estando instalado

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Faaaala MPC, se rodou uma vez estamos no caminho certo! Fez no Windows, Linux ou maços?

    • @MPCDesenvolvimentoWeb
      @MPCDesenvolvimentoWeb 6 หลายเดือนก่อน

      @@inteligenciamilgrau Windows 10 mesmo, acabei de fazer varias tentativas, ele não carrega nenhum modelo e quando tento instalar pelo painel da erro de conexão

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Boaa! Você fez como eu fiz usando o Ubuntu dentro do windows ou com o instalador deles? O problema que aparemente está acontecendo é que estão subindo dois ou mais ollamas ao mesmo tempo! E o sistema está se perdendo na hora de usar!!

    • @MPCDesenvolvimentoWeb
      @MPCDesenvolvimentoWeb 5 หลายเดือนก่อน

      @@inteligenciamilgrau Sim, usando windows mesmo, instalo o Docker, depois copio a linha de comando para GPU e abro um prompt "modo administrador" e colo...
      dou enter ele começa o download... ja fiz de tudo, so funcionou a primeira vez, ja limpei todos os arquivos e desisntalei tudo, limpei historico e arquivos TEMP.. nada ate agora

    • @inteligenciamilgrau
      @inteligenciamilgrau  5 หลายเดือนก่อน

      Quando você digita "ollama list" aparece algum modelo listado?

  • @vitorribas2829
    @vitorribas2829 6 หลายเดือนก่อน

    Alguém sabe me dizer se tem um serviço que podemos pagar máquinas mais rápidas para rodar o modelo de 70b?

    • @vitorribas2829
      @vitorribas2829 6 หลายเดือนก่อน

      Sei que tem o aws, que podemos rodar

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน

      Um lugar que roda bem é no GROQ, é uma plataforma de IA do criador das TPUs da Google! Veja se lá dá certo! Valeuuuu

    • @vitorribas2829
      @vitorribas2829 6 หลายเดือนก่อน

      Muito obrigado.

    • @emanueln.2707
      @emanueln.2707 6 หลายเดือนก่อน

      E aí, deu certo?​@@vitorribas2829

  • @MaxJM74
    @MaxJM74 4 หลายเดือนก่อน

    Top

  • @felipealmeida5880
    @felipealmeida5880 7 หลายเดือนก่อน

    É legalzinho pra brincar, mas ainda é bem burrinho com 8B. Para tarefas relevantes não dá pra confiar, o ideal seria 70B+, mas meu PC pegaria fogo. Copilot sai ganhando ainda infelizmente...

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน +1

      Faaaaala Felipe!! A questão do 8B tem mais a ver com o hardware que cada um tem!! Estava vendo aqui que uma A100 da NVidia custa 140 mil reais! Com 80 giga! Aí dá pra rodar um Ollama turbinado com Llama3 70B relativamente suave! Talvez umas duas pra ficar top! rsrsrs No geral eu consigo usar modelos 8B em produção fazendo few shots com JSON na saída esperada!! Dá até para usar modelos 8B!! Os modelos estão cada dia mais robustos!! Valeuuuuuuuuuuu

    • @felipealmeida5880
      @felipealmeida5880 7 หลายเดือนก่อน

      Vish se custa tudo isso, acho que mesmo otimizando ao máximo não vão conseguir fazer milagre com os modelos, alguma coisa vai ter que surgir aí no caminho para poder usar um ChatGPT em casa algum dia. Provavelmente em menos de uns 10 anos não vamos ver um hardware que não custe o olho da cara nas lojas.

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      Kkkkkkkkk exatamente! Llm é um problema de hardware e também energético! Certeza que essas empresas estão dando prejuízo nos preços que vendem o uso das apis! A conta não fecha! Aparentemente estão dando lucros colaterais!

    • @impirotec5786
      @impirotec5786 6 หลายเดือนก่อน

      ⁠o meu também pegaria fogo.

    • @impirotec5786
      @impirotec5786 6 หลายเดือนก่อน

      @@felipealmeida5880 que será que acontece se tentassemos usar o bloom? que tem 1,75 trilhões de parâmetros?

  • @alexsanders8881
    @alexsanders8881 6 หลายเดือนก่อน

    Achei que o vídeo iria ensinar tudo do zero.. :(

    • @inteligenciamilgrau
      @inteligenciamilgrau  6 หลายเดือนก่อน +2

      A parte que eu ensino desde o começo está neste outro vídeo aqui:
      th-cam.com/video/0lAMNHuZk1w/w-d-xo.html
      Valeuuuuuuuuuuu

    • @alexsanders8881
      @alexsanders8881 6 หลายเดือนก่อน

      valeuuu

  • @drillzer4
    @drillzer4 7 หลายเดือนก่อน

    instalação chatona.

    • @skeyenett
      @skeyenett 7 หลายเดือนก่อน

      Tem o "LM Studio" para Windows, é muito mais fácil, porém só não tem essa função de analisar documento.

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      O ollama é simples, a webui que é mais complexa! Valeuuuu

    • @inteligenciamilgrau
      @inteligenciamilgrau  7 หลายเดือนก่อน

      Verdade, e esse daí você sobe em um servidor VPS e já tem até Login e senha