Show! Rapaz... outro mundo este Fine Tunnig! Um novo universo! Entendi a vantagem de fazer um ajuste fino, mas é muita coisa para aprender de primeira. Pelo que eu entendi, então é possível fazer um ajuste fino até mesmo em um modelo pequeno e deixá-lo como precisar, talvez até melhor que um modelo padrão grande, é isso? Valew!
Exatamente! A ideia é essa! Quando você tem um modelo grande que está com respostas boas, você usa ele pra montar um dataset pra treinar um piquininho 😬😬
boa bob.. videos cada x mais profissas.. esse e o ultimo tive q assistir + de 2 vez com outras tabs abertas pra acompanhar. Tenho estudado muito RAG pra aplicar em production. O problema da abordagem em fine tuning, é que ele nao referencia as fontes (no caso, o seu json) com precisão. Algo que acontece com RAG. Porém no RAG, o modelo tambem nao tem conhecimento da informação antes do retrieve do Vector DB. Esses problemas começam a escalar com centaneas de milhoes e bilhoes de registros. Entao pensei, e se fizer os 2 sera q fica bom?
Aeee Sugaith!! Estou fazendo video todo dia, uma hora tinha que aprender! rsrsrs Esse aí foi bem denso!! Se for reparar depois, vai ver que o processo é bem simples, só que entender as etapas e conectar o simples gasta neurônio! rsrs O fine tuning e o RAG são diferentes e com certeza se complementam!! Um exemplo de fine tuning são os datasets de "instructions" que ensinam o modelo cru a responder igual conversa!! No modelo cru, ele é só um completador de texto!! Mesmo os modelos quem dizem ser "sem censura", eles já tem um tune de instructions ou chat! O sem censura só não tem treino de evitar assuntos sensíveis! rsrs Na maior parte dos casos que as pessoas perguntam pra mim de RAG e Fine Tuning, eu resolvo com RAG+Engenharia de prompt! Dificilmente trazem um caso mais pesado que essa dupla não resolva!! Alias, um dos campos mais importantes do prompt é dar exemplos de como você quer a resposta! Às vezes a pessoa fica sofrendo explicando o que quer quando na verdade é só dar exemplos! rsrs Essa questão do RAG que vc falou, ela faz sentido!! As vezes precisa de ReRank depois do Rag para ordenar os assuntos mais relevantes! Mas tem vezes, quando a resposta precisa vir de uma conexão de pontos mais inteligente, o RAG não guenta! rsrss
Professor, como eu faria pra treinar um modelo pequeno (como Phi3, por exemplo) sobre algum assunto em específico (pneumática, por exemplo) e tenho vários pdfs sobre o assunto e quero que ele seja treinado com base estes arquivos e responda qualquer coisa relativa a pneumática com base nos arquivos treinados?
Faaaaaala!! Você vai precisar transformar os PDF em texto, e pode fazer um rag como eu explico nesse vídeo ( th-cam.com/video/qTpy8Rx02-A/w-d-xo.html ) !! Se os pdf tiverem imagens, aí você vai ter que programar uma forma de transformar as imagens em descrição e enviar como texto! Vai dar um trabalho, mas dá para fazer!! Usa a biblioteca PyPDF para importar!! Valeuuuuuuuuuuuuuu
Faaala Hcel!! Nesse tutorial de nodered, no meio dele explica como subir um server na oracle gratuito sem limites!! Já rodei muito flask infinito ali dentro!! Testa aí: blogs.oracle.com/developers/post/installing-node-red-in-an-always-free-vm-on-oracle-cloud
Se for só conversar, faz RAG ou manda o arquivo na conversa mesmo! Porque o fine tuning é quando vc tem um arquivo de referência e quer especializar seu modelo naquele tema! Valeuuuuuu
Parabens pelo video monte de conceito atualizado! to querendo treinar uma ia local pra saber a biblia, atualmente qualquer modelo local dificilmente vai saber os versos na integra ele inventa algo.. a ideia é trenar ele pra conhecer esses livros!!
professor, você poderia fazer o do llma 3.2 criando uma atendente virtual, que pega o nome do client e salva no banco de dados por exemplo. É possível?
Boa noite! Eu vi que vc respondeu o pessoal, então vou perguntar também. Eu tô querendo treinar um modelo pra criar uma carteira de investimentos com base no perfil do cliente. Tu acha que usar rag ou AF no gpt ou na llhama é uma boa opção? No caso, fazer algo como tu ensina no vídeo.
Faala Ygila!! Eu diria que vale a pena ir criando uma memória para cada cliente que tem as informações mais importantes dele! Mesmo sem RAG ou AF!! E depois você pode ir adicionando investimentos que a pessoa fez e coisas que podem ser consultadas como um banco de dados normal e que também pode ser usado para pesquisa semântica!! E depois vc pensa se vale fazer ajuste fino!! Porque no AF, se você fizer um por cliente, você vai ter um modelo de 8B ou 32B por cliente e isso vai usar 8 a 16 giga de HD por modelo!! Aí fica muito grande!! E misturar todos os clientes em uma AF só iria misturar tudo em uma salada!! Então avalia o que faz mais sentido!! Valeuuuuuuu
Oi Bob no minuto 12, o problema na inferência ficar fazendo perguntas, pode ser porque incluiu o input na função e o seu modelo formato Alpaca que foi treinado foi com instrução para o modelo + instruction que é a pergunta + response: que é o output. Porém depois do finetuning quando faz a inferência com streamer ao chamar a função você colocou o input ex: FastLanguageModel.for_inference(model) # Enable native 2x faster inference inputs = tokenizer( [ alpaca_prompt.format( "Qual o nome do apresentador do canal Inteligência Mil Grau?", # instruction "", # input ---> aqui está com input, tem que deixar sem comente essa parte, porque a função alpaca prompt tem instruction e output. "", # output - leave this blank for generation! ) ], return_tensors = "pt").to("cuda") from transformers import TextStreamer text_streamer = TextStreamer(tokenizer) _ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
Faaaala Gabriel!! Em 19:28, o ultimo exemplo que ele mostra é de embeddings! E se vc não for usar o módulo da openai, o endpoint termina em /v1/embeddings !! O endereço inteiro vai aparecer no exemplo do curl!! Aí é só mudar o v1/chat/completions !! Valeuuuuuuu
Olá meu caro, caí aqui no seu canal e estou gostando muito dos seus vídeos! Parabéns, seu trabalho e didática são sensacionais!! O que ainda não ficou claro para mim é o seguinte, após finalizado o treinamento do fine-tuning (seja gpt ou llama), eu devo usar esse modelo gerado para fazer um assistant e usar os dados do banco vetorial em conjunto?? É que estou querendo fazer um para treinar em algumas leis, são mais de 3600 páginas, quero fazer o fine-tuning com 1000 perguntas e respostas (vai ser o suficiente?). Quando pronto, eu tenho que criar um assistant e adicionar o documento de 3600 páginas em banco vetorial para o assistant consultar? Se tiver umas dicas para o tratamento de dados das leis, e agradeço também! 😅😅😅
Se for fazer perguntas e respostas eu recomendo fazer RAG!! Vai custar menos e terá o mesmo impacto!! Dá uma olhada neste vídeo! th-cam.com/video/qTpy8Rx02-A/w-d-xo.html
Faaaaaala Elliton!! No geral os modelos menores estilo Phi3 que tem 2 ou 3B de parâmetros!! Num celular bom vai rodar bem!! Depois diz se deu certo!! Valeuuuuuuuuuu
Faaala Jaelson!! A princípio ele não é multimodal!! Eu tentei enviar imagens pelo PoE e ele disse que não processa!! Oficialmente, pelo site da meta, eu procurei essa info e não encontrei!! Em sites não oficiais cada um diz uma coisa!! Aparentemente não interpreta! Valeuuuuuuuuuuu
@@inteligenciamilgrau provavelmente espero que em futuro próximo venha libera o multimodal será muito revolucionário e com certeza espero ver conteúdo seu falando desse assunto quando liberar
Faaaaala Márcio!! Como é uma rede neural que aprende, a informação não fica em uma memória, a rede toda aprende!! Nesse caso o que ela aprendeu fica de alguma forma armazenado!! Se você tirar dos próximos treinos, ela vai "esquecendo", porém a informação está lá! Muito boa sua pergunta!! Valeuuuuuuuuu
Entendo, interessante, os modelos divergem de complexidade, eu usando o llama3 para roleplay é de uma categoria, de roleplays, com uma lógica de conversação fina e coerente, aqui Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix, se puder utilize o modelo de 8Q (quantização) junto ao silly tavern, compreendo agora o motivo de você dizer que os Modelos de 8b São fracos, porque nunca utilizastes um de conversação, utilize esse que recomendei e verá o que é um esplendor de conversação.
Mas é que na sequencia vc vai dizer que tem que conversar em inglês! Em inglês eles são nativos, foram treinados em inglês, essa que é a questão! Se fosse em inglês eu usava 8B! Mas em pt-BR fica complicado, eles são sempre prolixos e imprecisos, vivem alucinando e completando palavras estranhas! Mas a questão de ser treinado para chat tem a ver com o fine tunning, não com o modelo! Que se os dados da pessoa que vai tunar forem de conversação, ela precisa explorar sequencias de conversas ao invés de input/output
@@inteligenciamilgrau Me expressei errado então? deixei possível aberto demais para interpretação? No caso dá sim pra melhorar a conversação, em português, sem recorrer a um fine tuning assim, como disse o modelo que eu recomendei, é justamente o ideal junto ao silly tavern, ele teria uma contextualização melhor, e somente lá no silly tavern, você poderá dar instruções para que ele compreenda o português de maneira mais coerente, ou outras soluções como tradução em tempo real, onde traduz o imput e o output, para diversas línguas, por isso que eu recomendei o silly tavern, porque dá pra criar bots especificos para funções especificas, como o fine-tuning, ou melhor como os Bots do chat gpt personalizados.....
Dependendo do tamanho do Llama sim! Mas por exemplo, o 405B esquece! Se rodar, vai rodar todo lento!! Essa iAs são bem mais pesadas do que parece! Valeuuuuuu
Pensa que sempre que você não tem memória suficiente para alocar tudo de uma só vez na vRAM, significa que vai precisar fazer um programa que fique carregando e descarregando os blocos de memória! E isso vai aumentar significativamente o tempo to treino!! Então a resposta é que provavelmente é possível, mas vai precisar fazer um programa específico para um treino como este!! Valeuuuuuuuuuuuu
Faaala Arthur, eu não cheguei a fazer isso! Mas aparentemente ele precisa encontrar o diretório com os arquivos que ele salva na pasta do guff!! Estilo essa pasta aqui: huggingface.co/unsloth/Meta-Llama-3.1-8B/tree/main E altera essa linha do código com o direitório e o nome do modelo model_name = "unsloth/Meta-Llama-3.1-8B", Eu acredito que no pior cenário, caso ele não aceite o diretório no código, se vc criar um modelo seu no huggingface e subir a pasta e deve dar certo Outra solução mais simples é ativar os "checkpoints"!! Ele em intervalos de "passos" (steps) o treino, e você consegue recomeçar destes steps!! Testa para ver se ele recomeça do ponto que vc parou! Tem que alterar o trainer trainer = SFTTrainer( .... args = TrainingArguments( .... output_dir = "outputs", save_strategy = "steps", save_steps = 50, ), ) E também ativar o treino a partir dos checkpoints trainer_stats = trainer.train(resume_from_checkpoint = True) Valeuuuuuuuuu
Por favor uma curiosidade qual a configuração da sua maquina, sei que vc edita o tempo de carregamento par ao video não ficar longo mas queria ter uma ideia de maquina para rodar essas LLMs com mais qualidade
Sei que a pergunta não foi para mim, mas eu uso para roleplays, e utilizo modelos 8B como a do vídeo, então aqui vai. um notebook com: Intel I5 de 10 (décima geração) 16 gigas de RAM ddr4 placa de vídeo RTX 3060 1tb de memoria interna SSD Nvme. e é isso. Roda até que rápido os modelos de 8B.
Aqui eu uso uma Nvidia 1060, num i7 com 16GB de ram!! E é um notebook, que em geral a performance das placas de vídeo são piores!! Os modelos RTX da Nvidia, que são os mais novos, eles fazem uma multiplicação de matrizes mais top! E as gerações das placas vc vê pelo primeiro número (1)060, (2)060, (3)060, (4)060 ... são as versões 60 da geração 1, 2, 3 e 4!! Sendo a 4 a mais nova (ou pelo menos era)!! Eu acredito que ano que vem já tem placas para IA pro publico em geral que não são mais placas gamers!! Por exemplo, as RTX tem um ray tracing e umas coisas que não se usa para IA! Valeuuuuuu
@@inteligenciamilgrau O raytracing se destaca por sua memoria VRAM, que é ideal pra rodar modelos I.A e gráficos de jogos, de fato placas focadas em I.A são ideais, mas caras, mas a RTX dá conta do recado.
Faala Marcio! Para mim também não consigo acessar pela meta!! Tente acessar via PoE ou pelo Groq!! Lá tem uma cota gratuita não muito grande, mas já dá para testar!! Valeuuuuuuuuuuuuuuuu
Seria massa um tutorial com o modelo mais pequeno só pra gente se habituar, com certeza modelos menores o treinamento é mais rápido mesmo que n tenha a mesma qualidade de inferência.
Em 6:39, quando eu mostro os parâmetros, tem um que chama 4bitmodels e tem o nome de vários modelos!! Copia o texto do phi3 que é um modelo de 3B!! Ele é menor!! Coloca o texto dele ali na variável um pouco mais para baixo escrita "model_name"!!! Isso vai reduzir o tempo e ajudar a testar mais!! Valeuuuuuuuuuuuuu
@@inteligenciamilgrau A maioria dos vídeos é um chines, um indiano um polonês falando um inglês HORROROSO... Seu canal é um oásis kkk, bem claro sem rodeios.
Era exatamente isso o que eu estava procurando, muito obrigado pela aula professor
Massa prof!!!! Assisti e vou reassistir várias vezes!
Uhuuuuu, valeuu Raul! Assiste os de RAG também!
Ótimo conteúdo. Ótima didática. Muito obrigado pelo maravilhoso conteúdo!
Valeuuuuuuuuu Bruno!!
Show! Rapaz... outro mundo este Fine Tunnig! Um novo universo! Entendi a vantagem de fazer um ajuste fino, mas é muita coisa para aprender de primeira. Pelo que eu entendi, então é possível fazer um ajuste fino até mesmo em um modelo pequeno e deixá-lo como precisar, talvez até melhor que um modelo padrão grande, é isso? Valew!
Exatamente! A ideia é essa! Quando você tem um modelo grande que está com respostas boas, você usa ele pra montar um dataset pra treinar um piquininho 😬😬
Olha voce ai denovo... Ja fazem alguns anos que isso acontece... valeu bro.
Valeuuuuu Fabriccio!! Obrigadão!!
Aula sensacional, Bob! Muito bom!
Valeuuuuuuuuuuuuuuuuuu!!
@@inteligenciamilgrau tmj!
boa bob.. videos cada x mais profissas.. esse e o ultimo tive q assistir + de 2 vez com outras tabs abertas pra acompanhar.
Tenho estudado muito RAG pra aplicar em production.
O problema da abordagem em fine tuning, é que ele nao referencia as fontes (no caso, o seu json) com precisão. Algo que acontece com RAG. Porém no RAG, o modelo tambem nao tem conhecimento da informação antes do retrieve do Vector DB. Esses problemas começam a escalar com centaneas de milhoes e bilhoes de registros.
Entao pensei, e se fizer os 2 sera q fica bom?
Eu acho interessante, e é nítido, a grau de agudeza nos vídeo dele mais recentes.
Aeee Sugaith!! Estou fazendo video todo dia, uma hora tinha que aprender! rsrsrs Esse aí foi bem denso!! Se for reparar depois, vai ver que o processo é bem simples, só que entender as etapas e conectar o simples gasta neurônio! rsrs
O fine tuning e o RAG são diferentes e com certeza se complementam!! Um exemplo de fine tuning são os datasets de "instructions" que ensinam o modelo cru a responder igual conversa!! No modelo cru, ele é só um completador de texto!! Mesmo os modelos quem dizem ser "sem censura", eles já tem um tune de instructions ou chat! O sem censura só não tem treino de evitar assuntos sensíveis! rsrs
Na maior parte dos casos que as pessoas perguntam pra mim de RAG e Fine Tuning, eu resolvo com RAG+Engenharia de prompt! Dificilmente trazem um caso mais pesado que essa dupla não resolva!! Alias, um dos campos mais importantes do prompt é dar exemplos de como você quer a resposta! Às vezes a pessoa fica sofrendo explicando o que quer quando na verdade é só dar exemplos! rsrs
Essa questão do RAG que vc falou, ela faz sentido!! As vezes precisa de ReRank depois do Rag para ordenar os assuntos mais relevantes! Mas tem vezes, quando a resposta precisa vir de uma conexão de pontos mais inteligente, o RAG não guenta! rsrss
Professor, como eu faria pra treinar um modelo pequeno (como Phi3, por exemplo) sobre algum assunto em específico (pneumática, por exemplo) e tenho vários pdfs sobre o assunto e quero que ele seja treinado com base estes arquivos e responda qualquer coisa relativa a pneumática com base nos arquivos treinados?
Faaaaaala!! Você vai precisar transformar os PDF em texto, e pode fazer um rag como eu explico nesse vídeo ( th-cam.com/video/qTpy8Rx02-A/w-d-xo.html ) !! Se os pdf tiverem imagens, aí você vai ter que programar uma forma de transformar as imagens em descrição e enviar como texto! Vai dar um trabalho, mas dá para fazer!! Usa a biblioteca PyPDF para importar!! Valeuuuuuuuuuuuuuu
Conhece algum servidor gratuito que sirva para testar um flask ou fastapi com endpoint com um modelo llm que fizemos ajuste fino?
Faaala Hcel!! Nesse tutorial de nodered, no meio dele explica como subir um server na oracle gratuito sem limites!! Já rodei muito flask infinito ali dentro!! Testa aí:
blogs.oracle.com/developers/post/installing-node-red-in-an-always-free-vm-on-oracle-cloud
Para conversar com um PDF que não mnudará o conteudo, perguntas e respostas. Estou em duvida entre RAG e Fine-Tuning. Usa os 2?
Se for só conversar, faz RAG ou manda o arquivo na conversa mesmo! Porque o fine tuning é quando vc tem um arquivo de referência e quer especializar seu modelo naquele tema! Valeuuuuuu
@inteligenciamilgrau Valeu!
Parabens pelo video monte de conceito atualizado! to querendo treinar uma ia local pra saber a biblia, atualmente qualquer modelo local dificilmente vai saber os versos na integra ele inventa algo.. a ideia é trenar ele pra conhecer esses livros!!
Excelente ideia!! Muitas pessoas vão se interessar!! Valeuuuuuuuuuu
@@inteligenciamilgrau testando o seu script aqui funciona muito bem!! Eheheh
professor, você poderia fazer o do llma 3.2 criando uma atendente virtual, que pega o nome do client e salva no banco de dados por exemplo. É possível?
Faaaaaaaala Frank!! Anotei a sugestão!! Obrigadãoooooooooooo!! Valeuuuuuuuuuuuuu
Top, man! Fazendo aqui
Uhuuuuuuuuuu, valeuuuuuuuuuuuuuuuu!!
Boa noite!
Eu vi que vc respondeu o pessoal, então vou perguntar também.
Eu tô querendo treinar um modelo pra criar uma carteira de investimentos com base no perfil do cliente. Tu acha que usar rag ou AF no gpt ou na llhama é uma boa opção? No caso, fazer algo como tu ensina no vídeo.
Faala Ygila!! Eu diria que vale a pena ir criando uma memória para cada cliente que tem as informações mais importantes dele! Mesmo sem RAG ou AF!! E depois você pode ir adicionando investimentos que a pessoa fez e coisas que podem ser consultadas como um banco de dados normal e que também pode ser usado para pesquisa semântica!! E depois vc pensa se vale fazer ajuste fino!! Porque no AF, se você fizer um por cliente, você vai ter um modelo de 8B ou 32B por cliente e isso vai usar 8 a 16 giga de HD por modelo!! Aí fica muito grande!! E misturar todos os clientes em uma AF só iria misturar tudo em uma salada!! Então avalia o que faz mais sentido!! Valeuuuuuuu
Oi Bob no minuto 12, o problema na inferência ficar fazendo perguntas, pode ser porque incluiu o input na função e o seu modelo formato Alpaca que foi treinado foi com instrução para o modelo + instruction que é a pergunta + response: que é o output. Porém depois do finetuning quando faz a inferência com streamer ao chamar a função você colocou o input ex: FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
alpaca_prompt.format(
"Qual o nome do apresentador do canal Inteligência Mil Grau?", # instruction
"", # input ---> aqui está com input, tem que deixar sem comente essa parte, porque a função alpaca prompt tem instruction e output.
"", # output - leave this blank for generation!
)
], return_tensors = "pt").to("cuda")
from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 128)
A princípio na época testei bem os formatos e aparentemente estavam ok, mas é sempre bom dar um triplo check nessas coisas!
e qual sería a inferencia certa?
@@inteligenciamilgrau sofri aqui no começo também até entender o que passar para LLM
Muito bom. Baixei e usei. Mas ficou uma dúvida como faço backup do modelo após tê-lo feito vários tunnings?
Conforme ele vai gerando os arquivos no drive, você pode deixar eles lá ou fazer download!!
Eu consigo de alguma forma consumir a API dela no LM Studio com o endpoint /embeddings? não estou conseguindo
Faaaala Gabriel!! Em 19:28, o ultimo exemplo que ele mostra é de embeddings! E se vc não for usar o módulo da openai, o endpoint termina em /v1/embeddings !! O endereço inteiro vai aparecer no exemplo do curl!! Aí é só mudar o v1/chat/completions !! Valeuuuuuuu
Olá meu caro, caí aqui no seu canal e estou gostando muito dos seus vídeos! Parabéns, seu trabalho e didática são sensacionais!! O que ainda não ficou claro para mim é o seguinte, após finalizado o treinamento do fine-tuning (seja gpt ou llama), eu devo usar esse modelo gerado para fazer um assistant e usar os dados do banco vetorial em conjunto?? É que estou querendo fazer um para treinar em algumas leis, são mais de 3600 páginas, quero fazer o fine-tuning com 1000 perguntas e respostas (vai ser o suficiente?). Quando pronto, eu tenho que criar um assistant e adicionar o documento de 3600 páginas em banco vetorial para o assistant consultar? Se tiver umas dicas para o tratamento de dados das leis, e agradeço também! 😅😅😅
Se for fazer perguntas e respostas eu recomendo fazer RAG!! Vai custar menos e terá o mesmo impacto!! Dá uma olhada neste vídeo! th-cam.com/video/qTpy8Rx02-A/w-d-xo.html
Você conhece algum modelo que dá para colocar localmente em um aplicativo??
Faaaaaala Elliton!! No geral os modelos menores estilo Phi3 que tem 2 ou 3B de parâmetros!! Num celular bom vai rodar bem!! Depois diz se deu certo!! Valeuuuuuuuuuu
Geralmente quando a gente faz fine tunning os resultados são melhores com temperatura de 0.3 pra baixo na hora de fazer inferencia.
Boaaaaa Daniel!! Faz sentido!! Para deixar eles mais na risca!! Gostei!! Valeuuuuuuuuu
Fala BOb. Essa questão de a IA continuar com o texto não é problema com template?
Pode ser sim Jonata!! Mas na época quando fiz, o template foi basicamente mudar o texto do original!! Valeuuuuuuuu
Vc conseguiu resolver o Problema do EOF ?
Faaaaaala Anderson!! Alguns treinos dão certo outros não!! Tem que dar uma investida nos dados!! Valeuuuuuuuu
@@inteligenciamilgrau Eu que agradeço! Como assim investida nos dados?
@@andersonxavier83 Acredito que a investida em questão deva ser na qualidade destes dados.
Esse modelo da meta consegue interpretar imagens?
Faaala Jaelson!! A princípio ele não é multimodal!! Eu tentei enviar imagens pelo PoE e ele disse que não processa!! Oficialmente, pelo site da meta, eu procurei essa info e não encontrei!! Em sites não oficiais cada um diz uma coisa!! Aparentemente não interpreta! Valeuuuuuuuuuuu
@@inteligenciamilgrau provavelmente espero que em futuro próximo venha libera o multimodal será muito revolucionário e com certeza espero ver conteúdo seu falando desse assunto quando liberar
Irmão, você sabe me dizer se é custoso editar ou excluir uma informação que foi inserida no modelo no treinamento anterior.
Faaaaala Márcio!! Como é uma rede neural que aprende, a informação não fica em uma memória, a rede toda aprende!! Nesse caso o que ela aprendeu fica de alguma forma armazenado!! Se você tirar dos próximos treinos, ela vai "esquecendo", porém a informação está lá! Muito boa sua pergunta!! Valeuuuuuuuuu
@@inteligenciamilgrau Vlw
Talvez seja melhor pegar o LLM original e treinar tudo de novo.
Entendo, interessante, os modelos divergem de complexidade, eu usando o llama3 para roleplay é de uma categoria, de roleplays, com uma lógica de conversação fina e coerente, aqui Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix, se puder utilize o modelo de 8Q (quantização) junto ao silly tavern, compreendo agora o motivo de você dizer que os Modelos de 8b São fracos, porque nunca utilizastes um de conversação, utilize esse que recomendei e verá o que é um esplendor de conversação.
E lembrando você pode criar um bot do inteligência mil grau dentro do próprio silly tavern, acredito que terá um resultado melhor que o do video.
Mas é que na sequencia vc vai dizer que tem que conversar em inglês! Em inglês eles são nativos, foram treinados em inglês, essa que é a questão! Se fosse em inglês eu usava 8B! Mas em pt-BR fica complicado, eles são sempre prolixos e imprecisos, vivem alucinando e completando palavras estranhas! Mas a questão de ser treinado para chat tem a ver com o fine tunning, não com o modelo! Que se os dados da pessoa que vai tunar forem de conversação, ela precisa explorar sequencias de conversas ao invés de input/output
0:30 0:34 0:44
8
@@inteligenciamilgrau Me expressei errado então? deixei possível aberto demais para interpretação? No caso dá sim pra melhorar a conversação, em português, sem recorrer a um fine tuning assim, como disse o modelo que eu recomendei, é justamente o ideal junto ao silly tavern, ele teria uma contextualização melhor, e somente lá no silly tavern, você poderá dar instruções para que ele compreenda o português de maneira mais coerente, ou outras soluções como tradução em tempo real, onde traduz o imput e o output, para diversas línguas, por isso que eu recomendei o silly tavern, porque dá pra criar bots especificos para funções especificas, como o fine-tuning, ou melhor como os Bots do chat gpt personalizados.....
Oi mil grau… eu posso usar uma RTX 4090 pra acelerar o Llama? Grato!
Dependendo do tamanho do Llama sim! Mas por exemplo, o 405B esquece! Se rodar, vai rodar todo lento!! Essa iAs são bem mais pesadas do que parece! Valeuuuuuu
Se eu nao quiser usar uma rtx 3060 de 12GB daria para treinar esses modelos?
Pensa que sempre que você não tem memória suficiente para alocar tudo de uma só vez na vRAM, significa que vai precisar fazer um programa que fique carregando e descarregando os blocos de memória! E isso vai aumentar significativamente o tempo to treino!! Então a resposta é que provavelmente é possível, mas vai precisar fazer um programa específico para um treino como este!! Valeuuuuuuuuuuuu
Depôs de fazer o fine tuning , salvo o arquivo .gguf , tem como eu pegar esse modelo treinado e treinar novamente com novos dados?
Faaala Arthur, eu não cheguei a fazer isso! Mas aparentemente ele precisa encontrar o diretório com os arquivos que ele salva na pasta do guff!! Estilo essa pasta aqui: huggingface.co/unsloth/Meta-Llama-3.1-8B/tree/main
E altera essa linha do código com o direitório e o nome do modelo
model_name = "unsloth/Meta-Llama-3.1-8B",
Eu acredito que no pior cenário, caso ele não aceite o diretório no código, se vc criar um modelo seu no huggingface e subir a pasta e deve dar certo
Outra solução mais simples é ativar os "checkpoints"!! Ele em intervalos de "passos" (steps) o treino, e você consegue recomeçar destes steps!! Testa para ver se ele recomeça do ponto que vc parou!
Tem que alterar o trainer
trainer = SFTTrainer(
....
args = TrainingArguments(
....
output_dir = "outputs",
save_strategy = "steps",
save_steps = 50,
),
)
E também ativar o treino a partir dos checkpoints
trainer_stats = trainer.train(resume_from_checkpoint = True)
Valeuuuuuuuuu
@@inteligenciamilgrau Bom dia
Vou fazer um teste muito obrigado e parabens ecxelente canal.
Esse exemplo q vc deu... nao funciona mais... Na segunda etapa da um erro de CUDA no colab
Faaaaala Anderson, tenta reiniciar o colab e veja se a configuração da gpu é a mesma da que aparece no meu vídeo!! Valeuuuuuuuuuuuuuuuuu
muito bom
Valeuuuuuu Brito!!!
Por favor uma curiosidade qual a configuração da sua maquina, sei que vc edita o tempo de carregamento par ao video não ficar longo mas queria ter uma ideia de maquina para rodar essas LLMs com mais qualidade
Sei que a pergunta não foi para mim, mas eu uso para roleplays, e utilizo modelos 8B como a do vídeo, então aqui vai.
um notebook com:
Intel I5 de 10 (décima geração)
16 gigas de RAM ddr4
placa de vídeo RTX 3060
1tb de memoria interna SSD Nvme.
e é isso. Roda até que rápido os modelos de 8B.
@@ElaraArale valeu eu perguntei pra ele mas queira um norte pra saber onde investir, vou comprar essa 3060
Aqui eu uso uma Nvidia 1060, num i7 com 16GB de ram!! E é um notebook, que em geral a performance das placas de vídeo são piores!! Os modelos RTX da Nvidia, que são os mais novos, eles fazem uma multiplicação de matrizes mais top! E as gerações das placas vc vê pelo primeiro número (1)060, (2)060, (3)060, (4)060 ... são as versões 60 da geração 1, 2, 3 e 4!! Sendo a 4 a mais nova (ou pelo menos era)!! Eu acredito que ano que vem já tem placas para IA pro publico em geral que não são mais placas gamers!! Por exemplo, as RTX tem um ray tracing e umas coisas que não se usa para IA! Valeuuuuuu
@@Riderzbeta Se der compre uma RTX 4060, mas se não pelo menos uma RTX3070.
@@inteligenciamilgrau O raytracing se destaca por sua memoria VRAM, que é ideal pra rodar modelos I.A e gráficos de jogos, de fato placas focadas em I.A são ideais, mas caras, mas a RTX dá conta do recado.
Então os gpts são feitos através de rag?
Faala Matheus!! Perfeita conclusão, isso mesmo!! Rag tem um custo menor e é bem eficiente para consultar arquivos!! Valeuuuuuuuuuuu
Como usar o llama3 no Brasil? Mesmo com vpn não vai
Faala Marcio! Para mim também não consigo acessar pela meta!! Tente acessar via PoE ou pelo Groq!! Lá tem uma cota gratuita não muito grande, mas já dá para testar!! Valeuuuuuuuuuuuuuuuu
Seria massa um tutorial com o modelo mais pequeno só pra gente se habituar, com certeza modelos menores o treinamento é mais rápido mesmo que n tenha a mesma qualidade de inferência.
Em 6:39, quando eu mostro os parâmetros, tem um que chama 4bitmodels e tem o nome de vários modelos!! Copia o texto do phi3 que é um modelo de 3B!! Ele é menor!! Coloca o texto dele ali na variável um pouco mais para baixo escrita "model_name"!!! Isso vai reduzir o tempo e ajudar a testar mais!! Valeuuuuuuuuuuuuu
Slk esta a todo vapor, buguei cm esses negócios de pontos do youtube, vim comentar e du nada pediu pontos para eu hypar o vídeo dei 910
Uhuuuuuuuuuuuuu! Valeuuuu! Esse vídeo deu um trabalho! Valeuuuu o esforço!
É uma nova funcionalidade que faz você fazer o canal que você gosta ser visto por outras pessoas.
@@MersyleS7 Uhuuuuu
vi que até o Elonzito reconheceu a qualidade do Llama 3.1
O Elon é fã de liberdade e essas atitudes de liberar os modelos é a cara dele!! Uhuuuuuuuu, valeuuuuuuu
Marrapais que show 😅
Valeuuuuuuuuuuuuuu
Acho que qualquer grupo de históriadores entrariam em consenso sobre o dever de desenvolver uma IA que mereça ser chamada de "horse"😂
Kkkkkkkkk
Ser muito interessante ter atualizar de LLaMA 4 ser 8B pode ser 9B pelo fato os motivos mais antigo ser 7B
É excelente!! Também gostei!!
Pelo menos não é o vídeo de um polonês ou um indiano falando um inglês horroroso kkkk. Muito bom o video, bem didático.
Uhuuuuuuuuuu! Não entendi o "pelo menos"!! Valeuuuuuuuuuuuuuuuuuu
@@inteligenciamilgrau A maioria dos vídeos é um chines, um indiano um polonês falando um inglês HORROROSO... Seu canal é um oásis kkk, bem claro sem rodeios.
@@MarcoAAOrtiz kkkkkkkkk
Finetuning do tipo dolphin 😈
13:37 É triste, com nunca vou poder ter meus 3,14159265358979323846 centavos.
kkkkkkkkkk
Se o maritaca AI usar o llama 3.1 eu pago premium.
Aí é perfeito!