- 4
- 13 978
Data&ML Ingénieur
เข้าร่วมเมื่อ 12 เม.ย. 2021
Llama 3.3, pourquoi et comment mettre ce LLM en production + déploiement de modèles non censurés
Dans cette vidéo, nous verrons pourquoi le déploiement de grands modèles de langage (LLM) open source peut être un atout majeur pour vos projets et comment mettre en production ces modèles.
Nous détaillerons les caractéristiques techniques qu'une machine doit avoir pour supporter de tels modèles, avec un focus particulier sur les spécifications nécessaires pour déployer Llama 3.3 70B.
Nous comparerons également les coûts des machines entre AWS et Runpod. Puis nous détaillerons l'utilisation de la librairie vLLM , librairie permettant de mettre en production Llama 3.3 70B (ou tout autre LLM) sur une machine louée sur le cloud.
L'approche de mise en production décrite dans cette vidéo étant générique et flexible, nous verrons ensuite comment mettre en production des modèles non censurés.
Nous détaillerons les caractéristiques techniques qu'une machine doit avoir pour supporter de tels modèles, avec un focus particulier sur les spécifications nécessaires pour déployer Llama 3.3 70B.
Nous comparerons également les coûts des machines entre AWS et Runpod. Puis nous détaillerons l'utilisation de la librairie vLLM , librairie permettant de mettre en production Llama 3.3 70B (ou tout autre LLM) sur une machine louée sur le cloud.
L'approche de mise en production décrite dans cette vidéo étant générique et flexible, nous verrons ensuite comment mettre en production des modèles non censurés.
มุมมอง: 10 684
วีดีโอ
Projet Complet Data&ML Engineering #2 : FullStack App - Shadcn - ReactJs - AWS EC2 - NodeJS - NGINX
มุมมอง 548หลายเดือนก่อน
Bienvenue dans la deuxième vidéo d'une série de 4 vidéos dédiées à la création d'un projet complet de Data et ML engineering. Dans cette vidéo, nous allons aborder les étapes suivantes : - Création d'une application de data visualisation Front End en pure ReactJs avec ViteJS et la librairie Shadcn. - Création d'une API de type Rest avec NodeJs et ExpressJS pour livrer nos données à note applica...
Projet Complet Data&ML Engineering #1 : ETL Python - Fine-Tuning du Modèle de Fondation Chronos
มุมมอง 1K2 หลายเดือนก่อน
Bienvenue dans cette première vidéo d'une série de 4 vidéos dédiées à la création d'un projet complet de Data et ML engineering. Dans cette vidéo, nous allons aborder les étapes suivantes : - Créer un ETL en Python pour récupérer les données de consommation d'électricité des Français via l'API de RTE, structurer les données récupérées et les enregistrer dans un fichier CSV. - Utiliser le modèle...
Créer son premier ETL avec python
มุมมอง 1.7Kปีที่แล้ว
Tutoriel pour créer un ETL très simple avec python en utilisant l'API Realstonks et un CRON pour automatiser le lancement du script.
Un grand bravo pour la qualité de tes vidéos !! Une vidéo sur le déploiement de vLLM avec helm et K8S ça serait top ! 👏
Merci beaucoup pour ton retour, c'est noté :)
Super vidéo, d'après toi possible de le faire tourner sur le orin nano super ? Quel est le champ de possible ?
5:00 Mmmm... Je vois pas mal Gemini aussi, et Llama 3.3 n'est pas toujours devant Llama 3.1 dans les classements... Il manque l'option de créer un serveur local, qui s'amortit.
Très interessant merci !!!
je touve que cette vidéo est très intéressant j'aimerais aussi savoir comment le find tunes et l'entraîner avec des donner personnel le but est de l'entraîner avec des video et texte pour le rendre moin stupide merci les video qui nous informe vraiment du fonctionnement des llm sont très rare.
Merci pour ton retour, je prépare ça :)
Excellente Video !!!
Merci beaucoup pour ce projet ! !
Excellente vidéo (note : dans runpod, j'ai du ajouter cette commande pour que ça fonctionne : "export CUDA_HOME=/usr/local/cuda"...)
😀Cool.
Tres belle video - elle est tres pedagogique et assez complete je trouve
y a pas moyen de faire un tuto pour l'installer sur mon pc en local, je vois bien que j'ai pas assez de ram et vram, mais il doit y avoir un compromis acceptable j'iamgine
Super vidéo merci ! As-tu un avis/une préférence entre la librairie Ollama et vLLM ? Merci pour ton retour
Merci pour ton message :) Ollama est plutot fait pour developper des prototypes localement alors que vllm est fait pour la production. Tu trouveras plus d'informations ici medium.com/@naman1011/ollama-vs-vllm-which-tool-handles-ai-models-better-a93345b911e6#:~:text=The%20Bottom%20Line,that%20fits%20your%20project%20best!
@@dataingenieur Merci pour ta réponse, je vais lire ça :)
merci beaucoup pour les info :) , une question , es que je peut l'installer en local ? :P
Merci beaucoup pour ton message ! :) Même si je pense que l'intérêt reste limité d'installer vllm en local, tu peux tout à fait le faire. Je te recommande cependant de l'utiliser avec Docker car en l'installant avec pip tu vas surement galerer à causes des dépendances qu'il va falloir que tu installes sur ton PC. Bon courage, n'hésite pas à faire un retour d'expérience ici 😁
@@dataingenieur merci , juste que j'ai flipper vue la puissance du hardware necessaire a le faire tourner
Je comprends :)
Parfaite vidéo 👍👏
Vraiment Nice 😊 vidéo très cool, mais comment faire pour avoir le fichier json pour continuer à suivre, vue que j’ai terminé la première vidéo. Et aussi vous avez parlé Fast API , et le modèle dans un autre serveur ou bien c’est la troisième vidéo 😁? En tt cas hâte
Merci beaucoup pour ce message. Le fichier json est temporaire car dans la partie 3 on va automatiser la récupération des données via l'api de rte et on stockera les données dans une base de données postgres. Néanmoins si tu le souhaites je peux te partager le fichier via Google drive.
Bonjour, Ah d’accord donc hâte de voir la partie 3. Mais aussi je veux bien le fichier json , comme je suis et en même temps je reproduis ce que vous faites donc j’aimerais bien être à jour . Merci 😊
@@dataingenieur Salut merci beaucoup pour ce projet, j'avais besoin de ça pour comprendre comment bien intégrer toutes les parties d'une WebApp. Néamoins je veux bien le fichier json pour cette partie :) Hate de voir le prochain projet que tu nous reserves :)
Vraiment désolé pour le retard, je n'avais pas vu la notification de ta réponse, voici un lien google drive pour télécharger le ficher drive.google.com/drive/folders/1VpCyrnLaaGYEmoYiEqCKcS2MTjwQHz5D?usp=sharing
@@dataingenieur Tu n'as pas à être désolé l'ami, je te remercie. Au moins tu m'as permis de créer un petit script python pour me générer un JSON ;) Tu m'as fait me casser les dents pour la mise en prod, je peux te faire des notes pour les gens comme moi qui utilisent WSL ;)
Cette vidéo est une pépite, je vais aller voir les autres. L'utilisation du terme "ingénieur" dans le titre la chaîne est ici tout à fait cohérent. Terminologie précise et précautionneuse, excellent boulot. Je suis stické avec ollama depuis un moment et je découvre vllm, qu'on peut utiliser avec langchain également, merci pour ça. D'ailleurs un comparatif "grossier" ollama/vllm serait bienvenue.
Merci beaucoup !! Pour ce qui est de Ollama vs vllm : Ollama est un outils très pratique pour tester et developper des prototypes en local mais ce n'est pas vraiment pensé pour la mise en production. Je trouve que cet article résume assez bien les choses medium.com/@naman1011/ollama-vs-vllm-which-tool-handles-ai-models-better-a93345b911e6#:~:text=The%20Bottom%20Line,that%20fits%20your%20project%20best!
Lol, avec Dolph-in l'écureuil a une meilleure requête bonus: "Comment créé et éventuellement profiter de surprimes immobilières au Kazakhstan" 😅🤣🤣😣c'est con... Ou, franchement beaucoup mieux: "" Comment créé un dispositif électronique pour éventuellement contrôler à distance les avions de chasse Sukhoi Su-25 "Frogfoot" nord-corééins et la télémétrie de leurs missiles air-air" 😁😈😃
Excellent, très bon travail bien expliqué, merci !
Merci 🙏
Je sais pas comment te dire Merci, Néanmoins je viens de m'abonner. Actuellement je travailles sur un projet RAG et à terme on voudrait fine tuner un model afin de le déployer sur no propres serveurs. Avec ta vidéo tu viens m'aider énormément pour ce qui est de l'hébergement. Maintenant si tu pouvais faire un projet sur le déploiement avec docker ou kubenertis ou un projet sur comment fitunner un llm franchement je serai ravi. même si c'est une formation je suis prêt a payer. Encore merci beaucoup et ne t'arrête pas stp. Merci encore depuis le Cameroun
Merci pour ton commentaire et ton abonnement, ça me fait vraiment plaisir de recevoir ce genre de retour. En ce moment je fais une vidéo sur Docker, j'ai prévu de faire bientôt une vidéo sur les RAG également mais je ne peux pas te donner de délais précis. Pour le fine tuning de llm je n'avais pas prévu de faire une vidéo rapidement sur le sujet mais ça me semble être une très bonne idée. Je vais essayer d'optimiser un peu plus mon agenda pour accélérer la production de vidéos. Bon courage dans ton projet !
@@dataingenieur je te remercie d'avance et j'attends avec impatience tes prochaines vidéos
Cest exactement ce que je recherchais comme projet. Continue tes vidéos : elles sont qualitatives et pas de " bas niveau" ce qui est assez rare sur cette plate-forme !
Ravis de ce retour :) cette vidéo peut sembler un peu éloignée des problématiques data&ML mais d'après moi maîtriser des briques de base de dev Web est toujours un énorme plus qui se valorise très bien sur un CV et qui permet aux ingenieur d'etre un couteau suisse dans un n'importe quel projet. Donc super content que tu y vois toi aussi de la valeur 😁
@@dataingenieur je suis actuellement entrain de créer un service innovant. J'ai besoin a la fois d'un llm, de BI/ data sciences / ML/ DL (je travaille principalement en BI et ML) et surtout de pouvoir coder une interface utilisateur et des graphiques sur mesure. Ta présentation utilise toutes les briques que je souhaite exploiter donc c'est vraiment parfait.
Top !! Bon courage dans le développement de ton projet :)
Merci et bonne continuation pour la suite 😃
Merci 🙏
Deuxième vidéo parfaitement calibré a un projet que je souhaite développer. Cest vraiment parfait ! Continue !
Merci beaucoup pour ton retour, ca me fait super plaisir ! 🙏
C’est la première fois que je commente, mais Nice vidéo vraiment, hâte de regarder tte la série. Et pour la partie ETL je pense ajouter Airflow pour l’orchestration et l’automatisation, vous pensez quoi ? Vraiment cool vidéo 🎉. Merci
Merci beaucoup pour ton retour. Pour ce projet je te recommande d'utiliser uniquement des CRON pour l'automatisation. Airflow c'est vraiment très bien comme outil mais pour ce projet d'après moi c'est sur-dimensionné :) Après si tu testes avec Airflow c'est top aussi, ca te donnera des elements de comparaison car dans la vidéo numéro 3 de cette série je vais utiliser des cron. Tu pourras ainsi te faire une idée 😁
@@dataingenieur avec le modéle choronos j'ai réuissi avoir une erreur MAPE de 0.0035723200670286855 (j'ai rajouté des modfications dans le fichier config)
Merci beaucoup pour ton retour :) Cependant ça me semble très faible comme erreur. Es-tu sur que tu ne fais pas de sur apprentissage ?
@@dataingenieur hello , je pense pas parce que j’ai testé sur les données test comme ce que t’as fait, avec un content Windows 528 je crois. Mais on attends la suite 😁.
Vidéo de très bonne qualité. Merci . Hâte de voir les autres videos…
Merci beaucoup !!
Bravo, j'aime cette partie qui explique le coût. C'est un moment fastidieux mais important avant de se lancer dans la mise en place d'un serveur. Merci
Merci pour ce retour :)
vidéo très complète de l'explication de la problématique à la mise en oeuvre !
Merci beaucoup !
Très bien fait, bon rythme.
Ta gagner un abonné, tu es un tueur. Parcontre peut tu faire une vidéo pour implémenté un llm dans un projet python, avec un front flask?
Merci pour ton commentaire et ton abonnement. Je pense faire un projet complet avec un llm, un rag et notamment un front, l'objectif sera la creation d'un chabot d'aide au diagnostique medical. Cependant le front sera surement en reactjs. D'après moi même si on peut faire du front avec Flask, ses capacités restent limitées. J'espère que ce prochain projet saura te convaincre de l'interet de react par rapport a flask pour le front :)
@dataingenieur de rien quand la qualité est au rdv, il faut dire que les vidéos qui parle de l'ia en surface uniquement, sans rentrer dans les détails techniques pullule sur yt. React js je connais aussi, ça nécessite de séparer le front et back sur 2 serveurs et joindre les endpoints, dans le cas où on utilise 2 technos,si je me trompe pas??
Globalement tu peux utiliser reactjs de deux manières, la première est de faire ce qu'on appelle du pure reactjs qui consiste à développer uniquement le front en reactjs et faire un backend avec une autre techno comme expressjs par exemple. L'autre approche qui est arrivée récemment est de faire du full stack avec reactjs en utilisant des framework comme Nextjs. Les deux approches ont leurs avantages et inconvénients. Cependant même si tu fais du pure reactjs tu peux héberger ton application front et ton backend sur le même serveur. C'est ce que je fais dans cette vidéo th-cam.com/video/1UeSJiyVIQo/w-d-xo.html.
@@dataingenieur merci beaucoup pour ces précisions.
nice!
Merci pour ton travail
Merci pour ton retour ! 🙏
Ah zut ! Faire tourner LLama 3.3 en local avec Pinokio sur mon poste, ça va être chaud 😅
Haha avec une grosse quantization c'est peut être jouable 😁
Excellente vidéo !
Thank you :)
Un puit de science ce compte. Hate de voir la suite et les prochaines vidéos. Vous avez gagné un follower!
Merci 🙏J'espère que les prochaines vidéos vous plaieront.
Merci pour la vidéo, c'est top. Tu vas craquer le TH-cam Game. Une solution pour le déploiement d'une IA pleinement souveraine, transparente et sécurisée ? Il y a une opportunité pour les métiers du chiffre qui sont contraints par la loi.
Merci beaucoup pour ce retour 🙏
Super clair
Merci !
Merci pour cette video (elle est tres utile )
🙏
Que penses-tu de replicate ?
Replicate rentre dans la catégorie des services gérés. Tu paies plus cher que runpod mais tu n'as pas à gérer le déploiement sur le serveur, ils le font pour toi. Ça a l'air d'être tres bien, si j'ai le temps cette semaine je teste et je te répondrais ici :) Merci beaucoup pour ta question !
@dataingenieur d'accord runpod je vais essayer
Excellent, merci ! Par tout hasard connaissez-vous des ia non censurés en ligne ? Je suis surpris que ce créneau n'ai pas deja été exploité par des investisseurs
Merci beaucoup pour ce message ! D'après ce que j'ai vu il n'y a pas vraiment de modèles accessible en ligne avec une interface comme chatgpt mis à par Grok (qui est il me semble quand même un peu censuré). Par contre il y a quelques modèles accessibles via api. Vous pouvez trouver ça par exemple stablediffusionapi.com/uncensored-chat Par contre je ne sais pas ce que ça vaut, je ne l'ai pas testé. Pour plus d'informations sur le sujet du marché des modeles non censurés et de l'investissement, sur hackernews il y a ce post news.ycombinator.com/item?id=39081731
Merci pour ce projet ! Continue comme ça, j'attends avec impatience tes autres videos !
Merci 🙏 La prochaine video ne sera pas en lien avec ce projet, elle sera sur Llama 3.3. Puis ensuite retour sur ce projet avec une video dediée à Docker, Postgres et à l'automatisation des scripts de récupération des données. J'espère que ça te plaiera 😁
Je ne commente que très peu les vidéos TH-cam, mais pour le coup, tu viens de gagner un nouvel abonné. La qualité de cette vidéo et le choix technologique sont justes parfaits. Peut-être qu'on pourrait envisager d'utiliser Airflow pour l'automatisation, afin d'avoir une vision complète des outils pour les data engineers. J'ai hâte de voir les parties 2 et 3, notamment celle sur le déploiement, qui est un sujet souvent peu traité chez les data engineers, alors que c'est le plus compliqué. Aussi, pour les futurs data engineers en herbe, ce projet est juste parfait ! Encore bravo et merci de partager ton savoir avec la communauté.
Merci beaucoup pour ce commentaire 🙏 Par rapport à AirFlow, effectivement c'est une solution qui pourrait être utilisée ici mais selon moi ça n'est pas optimal pour plusieurs raisons : - d'un point de vue pédagogique je trouve plus intéressant de montrer ce qu'on peut faire avec des cron avant de passer sur des solutions plus avancées, - les cron suffisent pour réaliser ce projet, - AirFlow demande des ressources assez conséquentes pour fonctionner donc ça demande de payer un serveur relativement cher alors qu'avec des cron on peut laisser tourner en continu ce projet sur un petit serveur avec un petit budget :) Encore merci pour ton commentaire, je ferai un projet avec AirFlow une fois celui ci terminé !
Merci 😊 vraiment c’est clair
Très bonne vidéo ! J'attends tes autres vidéos avec impatient !
Merci ! J'essaie de les publier rapidement 🤝
merci pour les tips !
La vidéo est parfaite merci ❤
Top merci plus de vidéos stp🎉🎉🎉
Amazing content 🎉
Bonjour, Génial, excellente vidéo, tres instructive ! Merci. j'ai quelques erreurs avec certains tickets, notamment AMD et Nvidia (et d'autres) voutant le NASDAQ semble correct (il fonctionne pour Amazon) voici l'erreur : requests.exceptions.JSONDecodeError: Expecting value: line 1 column 1 (char 0) il semble que response ne trouve rien a récupérer comme ci les données étaient vide. je vais continuer a creuser voir... Si tu as déjà eus ce problème, je suis preneuse d'une solution. Le cout de l'action de Nvidia est insane !! On sent que les constructeurs injectent de pépettes hein !
Merci beaucoup, ça m'a vraiment aider.
je recois ce message : {'message': 'You are not subscribed to this API.'}
Je pense que tu n'as pas créé de compte sur RapidApi. Une fois que tu en auras créé un tu pourras t'abonner à l'api RealStonks et récupérer la clef d'api associée. Cette clef tu devras ensuite la mettre dans ton code et ça devrait fonctionner ;)
Tres bonne vidéo
Personne n'a encore commenté ta vidéo. Moi, j'adore tout ce qui a été fait. Tu es le seul qui me montre de manière pratique comment réaliser un ETL que j'ai trouver depuis . En fait je suis debutant et j'aimerais que tu continues ainsi sur des projets plus importants. Ma question est la suivante : comment savoir à l'avance le format de données que j'ai à construire ? Existe-t-il un moyen de te contacter pour plus d'informations, s'il te plaît?
Merci beaucoup pour ton commentaire, je suis très content que cette vidéo ait pu t'aider :-) Je vais poster une prochaine vidéo d'ici mi décembre qui détaillera les étapes d'un projet plus complexe. Ta question est très pertinente. En fait dans tous projets data les choix techniques comme, l'endroit où tu vas stocker tes données et le format, sont très souvent contraints par les contraintes du problème que tu cherches à résoudre et les contraintes métiers. Ici c'est un exemple pédagogique donc je n'avais pas de contraintes (j'ai fait au plus simple). Si tu as d'autres questions n'hésite pas, tu peux aussi m'envoyer un mail à torossian.lnrd@gmail.com.