Ces IA qui s'entraînent dans leur imagination

Alexandre TL

มุมมอง 4 684

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 30 ม.ค. 2025

ความคิดเห็น • 40

@alexandretl ปีที่แล้ว ⁺⁵
J'espère que la vidéo vous a plu! N'hésitez pas à aimer ou à réagir dans les commentaires.
Quelques précisions plus techniques non abordées :
-ces méthodes, appliquées à l'apprentissage par renforcement, sont relativement récentes, et ont été introduites en 2018, voir : worldmodels.github.io/ (dont la vidéo s'inspire)
-GAIA-1, comme sous-entendu dans la vidéo, n'a pas effectué d'entraînement de politique à partir du modèle monde, contrairement à DreamerV3. En fait, en imitant les actions des humains, la politique est déjà "optimale" (si on considère que l'humain conduit de façon optimale...). Le but de GAIA-1 est de produire, en masse et de façon peu chère, des vidéos de conduite, pour plus tard entraîner des voitures autonomes. Il n'est pas clair s'ils vont réellement se servir du modèle monde autre que pour cette génération de vidéo, donc.
-Toujours pour GAIA-1, la partie "décodeur" qui produit les vidéos vues dans la vidéo est plus complexe que celle d'une simple autoencodeur, est fait intervenir un algorithme de diffusion (même principe que les modèles comme DALLE, StableDiffusion, Midjourney, ...)
-L'exploit qu'a fait DeepMind avec DreamerV3 sur Minecraft est d'autant plus impressionnant qu'ils n'ont eu pas eu besoin de relancer plusieurs fois l'entraînement pour sélectionner les paramètres de l'algorithme qui fait que tout va bien. C'est une des grandes faiblesses de l'apprentissage par renforcement : il faut souvent trouver la combinaison parfaite de paramètres, et si on l'a pas, l'entraînement est instable voir impossible. DreamerV3 est robuste à cela.
@crocodil.13 6 หลายเดือนก่อน
Salut, si tu lis ce commentaire, je ne comprends pas tres bien comment le modele determine si une récompense doit etre donnée dans son "imagination". Dans une interaction réelle avec le jeu, c'est ce dernier qui fournit l'info, mais dans son imagination? Je ne sais pas si c'est clair... autrement dit, comment determiner une "bonne action " dans un espace qui reste abstrait?
Si je comprends bien, le model est capable de lui meme de determiner une bonne action via son propre "vecu" dans la simulation? C'est fou
@crocodil.13 6 หลายเดือนก่อน
Et encore une chose, a quel moment le robot "immagine"? Il lance une sequence entre chaque decision réelle? Ca rends le nombre de recurence pour chaque action réelle enome non?
@crocodil.13 6 หลายเดือนก่อน
Je comprends que mes questions sont peut etre un peu simpletes pour moi qui n'est pas expert, je n'arrive pas a trouver le papier qui explique bien cela si vous pouvez m'aiguiller !
@alexandretl 6 หลายเดือนก่อน ⁺¹
@@crocodil.13 oui en fait on entraîne le modèle "monde" à reproduire les récompenses vues dans la réalité (en plus des autres choses qu'on lui demande, comme prédire le prochain état compressé). Cela lui permet donc comme tu le dis de savoir quelle "bonne action" prendre.
@alexandretl 6 หลายเดือนก่อน ⁺¹
@@crocodil.13 Oui c'est comme ça que l'algorithme de Dreamer est présenté : à chaque décision réelle observée, on lance une imagination à partir de celle-ci. En pratique ce qui est fait c'est 1) une période de récolte dans la réalité (une séquence d'un coup) 2) pour chaque état rencontré dans la réalité, lancer une imagination
Donc oui ça fait beaucoup mais le modèle monde est assez gourmand en données
@quiche1936 ปีที่แล้ว ⁺¹⁰
Ça m'a toujours rendu fou le nombre de petits youtubeurs très quali mais que personne ne connait
@crocodil.13 11 หลายเดือนก่อน ⁺²
Ils sont durs à trouver mais quand on en trouve un on ne le lâche plus
@skeeder228 23 ชั่วโมงที่ผ่านมา
je l'ai decouvert aujoudh'ui, je compte bien regarder toutes ces videos. je regarde celle la pour comprendre la nouvelle video sur les LLM mondes :)
@skeeder228 23 ชั่วโมงที่ผ่านมา
@@crocodil.13 tu en connais d'autres en francais ?
@JetyWorld ปีที่แล้ว ⁺²
Vidéo super intéressante, j'espère que tu en feras d'autres sur ce sujet passionnant. Continue comme ça
@alexandretl ปีที่แล้ว ⁺¹
Merci beaucoup
@Albericbaboin 26 วันที่ผ่านมา
Super vidéo! J’ai enfin compris ce qu’était un autoencodeur, merci!
@alexandretl 25 วันที่ผ่านมา ⁺¹
Ravi d'avoir aidé!
@LatelierdArmand ปีที่แล้ว ⁺¹
banger :)
@HerosPlaying ปีที่แล้ว ⁺¹
Vidéo intérêssante, bonne élocution mais manque de musique de fond pour que ce soir plus agréable je trouve. Continues !
@alexandretl ปีที่แล้ว
Merci beaucoup ! Ok c'est noté pour le retour
@TheRemiRODRIGUES ปีที่แล้ว
Super intéressant !
Merci pour la vidéo !
@Aminoquiz 4 หลายเดือนก่อน
Super vidéo. J'ai été surpris en découvrant ta chaîne, c'est quali et clair (en tout cas pour qqun dans le domaine) bravo.
À la fin de la video tu dis que tu compte faire d'autres vidéos avec l'implémentation. Tu parles de l'implémentation d'un algo avec modèle de monde etc ou pas ? Si oui, est-ce que tu en as fais la vidéo ?
@alexandretl 4 หลายเดือนก่อน
Merci pour ton retour ça fait très plaisir! Oui je parlais des algo avec modèle monde, là je suis en train de reprendre la série sur le RL (partie III, deep RL), je pense qu'après ça je pourrais revenir sur les modèles monde
@Aminoquiz 4 หลายเดือนก่อน
@@alexandretl Okie, j'ai rien loupé alors!
Keep up, c'est du bon travail ça se voit
@tetuaoro ปีที่แล้ว
Merci pour cette vidéo.
@jgcb0071 ปีที่แล้ว
Très très intéressant merci !
@Redro_ ปีที่แล้ว ⁺¹
Incroyable vidéo ! (quelle est ta chaine YT plus technique ?)
@alexandretl ปีที่แล้ว ⁺¹
Merci! C'est celle-ci (il y a déjà 3 séries de vidéos techniques, d'autres arrivent)
@crocodil.13 6 หลายเดือนก่อน
Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot
@shaihalimi9102 ปีที่แล้ว
Fascinant
@zozodejante8350 ปีที่แล้ว
Super video incroyable où est ce que tu apprends tout ça ?
@alexandretl ปีที่แล้ว
Un grand merci! Tout vient d'internet, surtout des blog posts (anglais)
@bause6182 11 หลายเดือนก่อน
Pourquoi on utilise pas ce principe pour faire un générateur de vidéos ?
@alexandretl 11 หลายเดือนก่อน ⁺¹
pour générer des vidéos on n'a très rarement accès aux "actions" prises lorsque la vidéo a été tournée, le cas de Wayve est très particulier puisque c'était des véhicules équipés de capteurs. on ne peut pas déterminer automatiquement les actions prises (en fait, il y a une semaine, un papier est sorti qui faisait justement ça, déterminer les actions automatiquement, ça s'appelle Genie par DeepMind c'est assez pointu et encore limité)
@bause6182 10 หลายเดือนก่อน
@@alexandretlMerci pour l'explication , c'était interessant je vais consulter le papier de deepmind
@blabla199498 ปีที่แล้ว
hello cette ia pourrait jouer avec d'autres joueurs?
@alexandretl ปีที่แล้ว ⁺¹
Pas telle quelle puisqu'elle n'a jamais vu d'autres joueurs dans le jeu, mais si on lui fournissait du gameplay où d'autres joueurs se trouvent, alors oui.
@virolengin1841 ปีที่แล้ว
Whaou

ต่อไป

เล่นอัตโนมัติ

DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement