- 73
- 341 682
Alexandre TL
France
เข้าร่วมเมื่อ 18 ม.ค. 2020
S'informer et comprendre les dernières recherches du monde de l'IA
DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement
0:00 : Introduction
0:21 : Apprentissage par renforcement : kézako ?
3:06 : Faire raisonner un LLM ?
5:06 : DeepSeek-R1-Zero : la méthode
6:07 : DeepSeek-R1-Zero : les résultats
9:34 : Difficultés avec R1-Zero
11:20 : Pourquoi que maintenant ?
11:59 : Conclusion
Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA
Me suivre :
Github : github.com/alxndrTL
Twitter : AlexandreTL2
0:21 : Apprentissage par renforcement : kézako ?
3:06 : Faire raisonner un LLM ?
5:06 : DeepSeek-R1-Zero : la méthode
6:07 : DeepSeek-R1-Zero : les résultats
9:34 : Difficultés avec R1-Zero
11:20 : Pourquoi que maintenant ?
11:59 : Conclusion
Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA
Me suivre :
Github : github.com/alxndrTL
Twitter : AlexandreTL2
มุมมอง: 14 622
วีดีโอ
Le bilan de l'IA en 2024
มุมมอง 11Kหลายเดือนก่อน
0:00 : Introduction 0:38 : LLM : le progrès 3:22 : LLM : les acteurs 6:04 : LLM : les utilisations 7:42 : LLM : la recherche 12:20 : Modèles de génération de vidéos 12:51 : Modèles monde 13:50 : L'interprétabilité 14:29 : Apprentissage par renforcement 14:58 : Comprendre les baleines 15:15 : Conception automatisée de puces 15:38 : Conclusion Scène d'intro : Westworld S1E8 Trace Decay Musique d'...
Les LLMs peuvent-ils simuler notre monde ?
มุมมอง 1.6K2 หลายเดือนก่อน
Dans cette vidéo, on étudie l'expérience OthelloGPT, qui vise à entraîner un GPT à prédire un mouvement légal dans une partie d'Othello à partir des mouvements du début de la partie. Pour réaliser cette simple tâche, comme on le voit dans la vidéo, le réseau de neurones construit un "modèle monde" du jeu Othello, c'est-à-dire une simulation. Les LLMs, entraînés sur une tâche similaire de prédic...
DiffTransformer : l'évolution naturelle du Transformer ?
มุมมอง 2.6K3 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse au DiffTransformer, une architecture dérivée du Transformer qui est paru il y a quelques jours. Cette architecture sert à résoudre un problème simple du Transformer, et son principe de fonctionnement ainsi que sa mise en place sont très simples, tout cela pour de meilleures performances. 0:00 : Introduction 0:17 : Rappel sur l'attention du Transformer 6:08 : Dif...
Quantifier l'information : de la météo au machine learning
มุมมอง 1.2K4 หลายเดือนก่อน
Dans cette vidéo, on découvre la théorie de l'information, au travers de 3 concepts : l'information, l'entropie et l'entropie croisée. En fin de vidéo, on fait le lien avec l'utilisation du coût d'entropie croisée, très utilisé en machine learning. On regarde aussi les conséquences de ce coût sur les LLMs et leur capacité à compresser du texte. 0:00 : Introduction 0:46 : Information 7:27 : Entr...
OpenAI o1 : pourquoi c'est important
มุมมอง 5K4 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse aux nouveaux modèles d'OpenAI : o1 et o1-mini. Ils marquent une certaine rupture par rapport aux précédent, car l'inverse de GPT-2, 3 et 4 et qui n'étaient "que" plus grands que leur prédécesseur, la famille o1 mise davantage sur les ressources utilisées au moment de l'inférence, c'est-à-dire dans la conversation avec l'utilisateur. Si le problème est plus compl...
2 expériences (a priori) contradictoires sur les LLMs
มุมมอง 3.4K4 หลายเดือนก่อน
Dans cette vidéo, on étudie deux séries d'expériences a priori contradictoires sur les modèles de langage géants (LLMs). La première série d'expérience nous laisse penser que les LLMs sont de simples perroquets, seulement capables de restituer leurs données d'entraînement sans pouvoir les combiner, les généraliser. La seconde série d'expérience vient nuancer cela en montrant que, dans une certa...
Mamba : bien parti pour détrôner le Transformer ? Le bilan
มุมมอง 6K5 หลายเดือนก่อน
Dans cette vidéo, on fait le bilan sur ces 7 mois de développement autour de Mamba, une nouvelle architecture qui fait face au Transformer. 0:00 : Introduction 1:53 : Les applications 4:47 : Les faiblesses 9:12 : Contres ces faiblesses Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre : Github : github.com/alxndrTL Twitter : AlexandreTL2
Générer des noms de communes françaises, en Python.
มุมมอง 7526 หลายเดือนก่อน
Dans cette vidéo, on construit pas à pas des modèles capables de générer des noms de communes françaises. De la méthode la plus simple, qui se base sur des comptages de lettres, jusqu'à des méthodes plus poussées se basant sur des réseaux de neurones. -Andrej Karpathy : th-cam.com/users/andrejkarpathy 0:00 : Introduction 0:57 : Approche statistique 8:59 : Réseaux de neurones 16:27 : Remarque su...
Comment interpréter ce qui se passe dans un réseau de neurones ?
มุมมอง 8K7 หลายเดือนก่อน
On le dit souvent, les réseaux de neurones sont des boîtes noires qu'on n'arrive pas à interpréter... Alors, surement que des modèles comme ChatGPT ou Claude 3, avec des centaines de milliards de paramètres, sont loin d'être interprétables ? Et bien non. Dans cette vidéo, on voit une technique qui permet d'interpréter "ce qui passe dans un réseau de neurones", ou plus précisément, identifier le...
Qu'est-ce que le Mixture of Experts (MoE) ?
มุมมอง 2.6K9 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse au Mixture Of Experts (MoE), une technique très utilisée dans les plus grands LLMs comme GPT-4, Mixtral 8x7B ou Mixtral 8x22B. En quelques mots, il s'agit d'associer plusieurs experts. Mais quel est l'intérêt ? Quelques ressources en lien avec le MoE: -A Review of Sparse Expert Models in Deep Learning : arxiv.org/abs/2209.01667 -Papier Mixtral 8x7B : arxiv.org/a...
Mamba, le remplaçant du Transformer ?
มุมมอง 1.6K11 หลายเดือนก่อน
Mamba, le remplaçant du Transformer ?
Guide PyTorch : la représentation des tenseurs en mémoire
มุมมอง 1.3K11 หลายเดือนก่อน
Guide PyTorch : la représentation des tenseurs en mémoire
Ces IA qui s'entraînent dans leur imagination
มุมมอง 4.7Kปีที่แล้ว
Ces IA qui s'entraînent dans leur imagination
J'ai testé DALLE 3 : quelles nouveautés ?
มุมมอง 1.8Kปีที่แล้ว
J'ai testé DALLE 3 : quelles nouveautés ?
Pourquoi ChatGPT connait vos attentes et préférences
มุมมอง 1.4Kปีที่แล้ว
Pourquoi ChatGPT connait vos attentes et préférences
Architecture encodeur-décodeur du Transformer
มุมมอง 1.8Kปีที่แล้ว
Architecture encodeur-décodeur du Transformer
Les champions du monde de drones battus par une IA
มุมมอง 103Kปีที่แล้ว
Les champions du monde de drones battus par une IA
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
มุมมอง 2.8Kปีที่แล้ว
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
Visualiser la fonction coût d'un réseau de neurones
มุมมอง 1.9Kปีที่แล้ว
Visualiser la fonction coût d'un réseau de neurones
Algorithme d'apprentissage SARSA | Intro RL II - 4
มุมมอง 607ปีที่แล้ว
Algorithme d'apprentissage SARSA | Intro RL II - 4
Qu'est-ce qui se passe dans un réseau de neurones ?
มุมมอง 3.8Kปีที่แล้ว
Qu'est-ce qui se passe dans un réseau de neurones ?
Transformers : têtes d'attention et couches
มุมมอง 2.1Kปีที่แล้ว
Transformers : têtes d'attention et couches
Comprendre les Transformers en 10 minutes
มุมมอง 13Kปีที่แล้ว
Comprendre les Transformers en 10 minutes
Les réseaux de neurones récurrents illustrés
มุมมอง 3.3Kปีที่แล้ว
Les réseaux de neurones récurrents illustrés
Donc tu es en train de me dire qu on est en train dz creer un logiciel qui pense à ta place.
Superbe vidéo. Merci pour l'explication ❤❤❤
Encore une très bonne vidéo. J'ai encore du mal à comprendre comment la rétrogradation du gradient pour renforcer les poids s'effectue dans le réseau, elle n'a lieu que lorsque la réponse est bonne ? On pourrait pas imaginer un système intermédiaire qui vient aussi pondérer la longueur de la chaîne de pensée dans la fonction de perte ? L'extracteur de réponse doit aussi augmenter le temps d'entraînement non si à chaque chaîne de pensée générée il faut extraire la réponse donnée.
Top !
Merci, à lundi :)
Cristal clear, Thank you !
L'apprentissage par renforcement c'est ce qu'on appelle le dressage. C'est exactement comme cela que l'on procède pour dresser des animaux. Ce que j'ai fait pendant des années avec les chiens et les chevaux. D'ailleurs, les humains aussi apprennent comme cela. Comme toujours dans la tech et l'informatique lorsque l'humain crée quelque chose il se base sur ce qu'il connaît déjà et sur son propre fonctionnement.
Oui, dans Reinforcement Learning, An introduction de Sutton et Barto (le must-have pour apprendre le RL), la première moitié traite du technique, la seconde moitié parle du lien entre le RL et l'apprentissage animal/humain
et maintenant Qwen
Intéressant et innovant bravo aux chinois.
Merci, beaucoup d'innovation dans le R1
Merci pour cette video. Connait on la fiabilité en terme de sécurité des données (data privacy) pendant l'utilisation de DeepSeek en local ? A t on une idée globale du nombre et intensité des tests à ce sujet effectués par la communauté open source quand un nouveau modèle débarque ? Moi j'avoue que je reste réticent à utiliser DeepSeek R1 pour l'instant, meme en local..
@pierrew1532 pourquoi ca? Deja c'est opensource alors laisse le tzmps aux gens d'éplucher, mais ca serait osé de balancer un teuc backdooré en open (apres bon ca s'est deja vu), mais surtout en le faisant tourner sur du ollama dans un docker franchement le risque semble ridiculement faible... et si ta vraiment peur, dans une vm!
En local, par définition, aucun problème de sécurité de données. Il ne peut pas y avoir du code caché qui secrètement fait des choses louches, puisque DeepSeek publie tout sur HuggingFace en mode "ouvert" (ce n'est pas un logiciel sombre etc) Après, pour l'instant, faire tourner R1 en local en entier c'est un peu compliqué il faut du bon matos, mais d'ici peu ça devrait être plus abordable (notamment aussi avec les distillations possibles de ce modèle).
Gros Scam chinois et t'es tombé dedans à pieds joints, comme tous les mecs qui ont retiré leur thune en bourse Faut se poser 3 secondes et comprendre les enjeux à plusieurs centaines de milliards N'oublions pas que tous les Chinois sont soumis directement à leur gouvernement Ils ont tout intérêt à faire croire que c'est les meilleurs en dépensant que 6 millions 😂 Faire chuter Nvidia, TSMC et donc Taiwan, récupérer le monopole des puces électroniques, et bien sûr toutes nos data
(Ma réponse dans un autre commentaire)
Ta vidéo a vieillie tellement vite 😂😂 mdrr les Chinois ont juste volé les données d'OpenAI
@@steveblack2420 c'est pas vraiment sur...dur de savoir qui a raison dans cette affaire, openai a tout interet a calomnier aussi, et j'ai trouvé que cette citation faisais réfléchir dans le fond: « Ils peuvent voler des choses à tout le monde et engloutir toutes les ressources. Mais personne ne peut leur appliquer le même remède », a ironisé sur X l’ex-ingénieure de Google Timnit Gebru
En 2 mots : 1) le fond de ma vidéo n'était pas DeepSeek 2) je maintiens le fait que DeepSeek-V3 est une prouesse. Le buzz autour de DeepSeek est assez surprenant (et pas très justifié, comme tous les buzzs finalement) étant donné que V3/R1 ont été annoncé en décembre. J'ai couvert dans d'anciennes vidéos plusieurs papiers proposés par DeepSeek, je t'invite à les regarder. Tu verras que DeepSeek est une équipe très dynamique et qui propose des idées très intéressantes. De plus, finalement je ne sais pas si tu l'as regardé, mais ma vidéo n'est pas sur DeepSeek, il se trouve que c'est DeepSeek en premier qui a publié ce type de recherches de manière ouverte, c'est juste ça. Le message de la vidéo ce n'est pas du tout DeepSeek, mais plutôt le RL (cf. le titre). Concernant ton commentaire, oui bien sûr. Mais comme tu as un avis extrêmement tranché, je me dis que tu dois être très au courant de ce qui se passe dans la recherche, donc tu n'es pas sans savoir que la distillation est une technique *scientifiquement* très intéressante. Mais ça n'empêche pas que oui, DeepSeek a fait une prouesse. Et légalement, oui DeepSeek marche sur une ligne rouge, tout comme OpenAI depuis quelques années (et encore récemment avec TH-cam). Au plaisir de discuter avec toi.
Pour kw l A n es pas connecté au caméra pour apprendre rapidement
Je me faisais la reflexion en m'endormant lautre jour, existe il des models qui reflechissent sans s'arreter, qui parlent "quand ils ont envie" (je veux dire pas forcement le shema CoT -> reponse mais qqch genre Cot -> reponse -> Cot reponse, etc etc) , et ou les interventions humaines seraient comme des "interruption" que le modele peut prendre en compte..... ou pas? Bon pour entrainer ca bonjour... mais le rendu pourrait etre tres naturel, si le but est de simuler une réelle interaction "humaine" et non pas une interaction "homme machine" Puis des CoT avec des tool dans tout les sens waaawww, rendez vous en 2025 pour cet aspect clairement!!
Oui des CoT avec utilisation d'outils ça semble une prochaine étape logique, d'ailleurs je crois que R1 peut déjà faire des recherches internent pendant sa réflexion. Mais oui ton idée est intéressante, c'est sûr que le schéma CoT->réponse c'est bien mais c'est un peu "académique" ou "scolaire" dans le sens où c'est pour donner une réponse et puis stop. Après une des limites qui va se poser c'est la longueur de contexte, c'est assez dur pour le modèle de traiter des input très longues donc pas sûr qu'il se souvienne de ce qu'il a dit il y a 50k mots en arrière.. Mais les chercheurs y travaillent
@@alexandretl top coconut😍 je suis entrain de lire un papier la dessus c'est exactement ca on dirait! Vraiment trop bien hate de voir si ca va emerger😍😍😍😍 vraiment je suis hyper entousiaste de ce genre de concepts
Ne demande jamais a un français de t'expliquer quoi que ce soi..
merci cela innove aussi sans doute un suite d'applications coopératives entre l'I.A et l'humain...
Je suis persuadé que le RL sera le meilleur domaine de l'IA dans les prochaines années avec les combina comme le Deep RL
C'est aussi mon opinion... ou en tout cas que l'apprentissage suppervisé a par nature une triste limite: il ne peut pas depasser l'humain...
Pourquoi parler de retour comme s'il s'agissait d'une techno ayant trouver un renouveau ?
J'en parle à la fin de la vidéo, il y a eu un pic en 2015-2016 après lequel beaucoup n'y ont plus cru. Oui certains ont gardé l'espoir mais le RL n'était plus du tout sur le devant de la scène.
@@alexandretl Ah d'accord, j’avais pas fait gaffe ! Mais c’est quand même surprenant que cette méthode ait été écartée à un moment, parce qu’elle propose clairement le mécanisme le plus intéressant. C’est ce qui se rapproche le plus de l’apprentissage réel, et en plus, c’est la seule qui permet une vraie créativité, donc des raisonnements innovants pour résoudre des problèmes.
@@Bananeflambee-qh1xc Oui entièrement d'accord
Merci pour le taff👌🏾
Merci l'algorithme ! C'était génial continue
Merci pour l'encouragement!
l'Occident compense son manque d'intelligence avec des milliards et de sanctions. le projet de Trump de 500 milliards coûterait maximum 5 milliards. les IA occidentales sont aussi censurées dans plusieurs domaines mais comme c'est occidental on a parle pas. les IA occidentales stockent les données aux USA et en Occident mais pourquoi la chine ne doit pas stocker ses données chez elle?? l'Occident est pire que la chine en matière d'espionnage grâce à ses réseaux sociaux,ses logiciels et ses appareils.
C’était honteux la couverture médiatique chez nous de cette révolution venant de Chine. Certains médias parlent de la Chine qui vole la technologie de l’occident alors que cette même Chine vient d’offrir à l’Europe un code source encore meilleur et moins coûteux que celui des américains et de ses géants de la tech qui ont tout fait et font tout pour en priver l’Europe.
Dans la plupart de ses interviews, Yann LeCun répète en boucle que le Reinforcement lEarning n'est pas la solution pour améliorer les IA. Il semble que ce soit plus complexe que ça et qu'un mixte d'algorithmes soit plus pertinent.
Bonne réflexion !🤟🏾
Oui lui il développe toute une série de modèles (la famille JEPA). J'ai l'impression qu'il mise plus sur la "compréhension des données" . Mais il est un peu isolé dans cette position quand même, il faut le dire.
@@alexandretl Tout à fait. Quand on lit les papiers sur JEPA, c'est une sorte de moelle "monde" de ce que je comprends et tout le monde converge vers des modèles "monde" non ?
@@JohanEQUIXOR en effet j'allais faire la meme reflexion.... dautant que a mon maigre niveau, il me semble evident que l'apprentissage supervisé est par nature condamnée a ne jamais pouvoir depasser l'homme... (en considerant rlhf comme du pseudo rl en effet) Apres concernant l'apprentissage non supervisé VS par renforcement .... les deux ont sûrement un interet conjointement ? En tout cas je vois mal comment un jours on pourrait finir par sortir le fantasme de l'iag seulement en supervisé..... la facon de presenter les choses ici me semble ultra interessante, l'apprentissage supervise pourrait etre une sorte de tremplin pour la suite!
le travail qu'a été fais par l'équipe de Deepseek est abhérant, je vous invite a voir l'article de Tom's Hardware: "DeepSeek's AI breakthrough bypasses industry-standard CUDA for some functions, uses Nvidia's assembly-like PTX programming instead". Je ne crois pas au CEO de Stable AI affirmant qu'ils aient 50K H100 sous le manteau avec cette article. Aller jusqu'à réécrire en assembleur la manière dont les GPU calcul pour avoir une efficience de calcul aussi élevée. 😯😯
Merci beaucoup cette très bonne vidéo
Juste trop fort en fait, une vidéo claire, efficace, sortie rapidement ... merci
Merci!!
Trop rapidement ;-) c'était juste de la propa de la Chine pour faire chuter Nvidia et par conséquent TSMC et de facto Taiwan
"AGI at home" le model a quand même 600B (donc ça fait 600Go en mémoire ...). Les modèle distillés (llama qwen) sont plus appropriés pour le local avec un bon GPU.
Oui bien sûr, j'ai vu une estimation passer de $6000 de hardware pour le faire tourner en Q8. Mais oui, le plus intéressant ça va être les versions distillées de R1 (Qwen-2.5-1.5B-R1 bat GPT-4o sur quelques benchmarks de maths). Et puis vu la tendance ces dernières années, ça ne va que aller dans le bon sens.
J'attendais avec impatience ta vidéo sur ce modèle 🎉
Merci ! Ce serait peut-être intéressant de parler un peu plus du projet Stargate, le budget est assez vertigineux
Yes pourquoi pas! Après on n'en sait pas beaucoup, mais oui une vidéo "spéculation" peut-être intéressante, pour comparer ces 500 milliards avec le budget actuel et en déduire qu'est-ce qu'ils peuvent faire avec un tel budget.
Merci.
Excellente vidéo. J'ai ici mieux compris pourquoi DeepSeek V3/R1 est sympa à étudier. Mieux que dans la vidéo de la chaine computerphile...
D'après le rapport technique, ils utilisent une double fonction de gain, l'une pour vérifier si le résultat produit est le bon et l'autre pour forcer le modèle à développer son raisonnement entre les balises <think>..</think>. Il y a un youtubeur qui a fait un test intéressant. Il a donné le même problème à R1 et à Claude. R1 a réussi là où Claude a échoué. Il a alors repris l'ensemble du raisonnement développé par R1 et il l'a donné à Claude tel quel. Et là Claude a trouvé la solution...
Oui ça ne m'étonne pas, c'est ce que je dis à 4:00 : une fois le raisonnement fait, produire la réponse est beaucoup plus probable.
Je pensais que l'apprentissage par renforcement restait du domaine expérimentale uniquement dans les laboratoires. Mais fotce est de constater le contraire.
DeepMind en fait un usage dans pratiquement tous leurs produits.
excellent
Comme ça vous en saurez un peu plus quand quelqu'un vous parlera de DeepSeek :) Un papier sorti il y a quelques jours qui compare le SFT et le RL : arxiv.org/abs/2501.17161
AHLALALA J'ETAIS SUR! J'attendais votre video avec impatience depuis la la sortie de deepseekR1!!! Je verifiais tout les jours😂
superbe vidéo merci pour le travail !
Merci à toi pour le retour :)
Excellente vidéo, comme les autres
Bien expliqué ❤
Merci! :)
masterclass
Merci :))
Excellente vidéo !
juste pour le bras de la fusée space x je ne pense pas que cela est de l’ia mais plus de l’optimisation convexe mais pas certain
Oui bien sûr! à la fin c'était un peu un élargissement à la technologie en général (et ce que l'IA pourra nous apporter)
C'est tout bête comme question mais a-t-on des garanties de la part de openAI que ce nouveau "contrôle de maths pour les IA" ne fasse pas plus partie des données d'entraînement entre o1 et o3? Ou alors les mathématiciens écrivent-ils de nouveaux exercices pour chaque nouvel essai?
Oui le test est privé et OpenAI n'a aucun moyen d'y accéder. Les problèmes ont été crée spécialement pour l'occasion, et sont gérés par une entité complètement indépendante d'OpenAI (EpochAI). Très très très peu probable qu'il y ait tricherie (ce qui desservirait OpenAI sur le long terme en plus)
@alexandretl oah super merci de votre reponse! Mega impresionnant alors si le test est fiable j'ai les etoiles dans les yeux😍
@@crocodil.13 yes moi aussi! et encore il faut dire que les IA actuelles ne vont faire que s'améliorer!
Merci pour la vidéo ! Il y a pas mal d'informations a digérer, mais cela clarifie pas mal de chose sur l'avenir des LLM. Par contre je me demandais si ces modèles d'attentions linéaires étaient adaptables aux modèles multimodaux. En soi je pense que oui, car il me semble que les modèles multimodaux encodent les embeddings, les portions d'images et les portion d'audio pour les représenter dans un espace latent. Non ?
Oui peut-être que je ferais un petit live récap sur les choses importantes. Oui totalement! Pour l'instant on s'en sert essentiellement pour du texte, mais c'est juste parce que ce n'est pas encore très utilisé. Mamba a été très utilisé dans le domaine de la vision notamment. Partout où il y a de l'attention, on peut remplacer ça par de l'attention linéaire.