Alexandre TL
Alexandre TL
  • 64
  • 257 217
2 expériences (a priori) contradictoires sur les LLMs
Dans cette vidéo, on étudie deux séries d'expériences a priori contradictoires sur les modèles de langage géants (LLMs). La première série d'expérience nous laisse penser que les LLMs sont de simples perroquets, seulement capables de restituer leurs données d'entraînement sans pouvoir les combiner, les généraliser. La seconde série d'expérience vient nuancer cela en montrant que, dans une certaine mesure, les LLMs sont capables de combiner les données d'entraînement et d'en tirer des conclusions non triviales. Ces expériences nous permettent de tirer des "modèles mentaux" de ces LLMs, qui nous permettent d'expliquer, de façon très large, le comportement de ces modèles de langage géants.
0:00 : Introduction
2:05 : LLMs = perroquets
3:31 : Malédiction du renversement
6:13 : Connecting the dots
8:52 : Interprétation : la compression
11:21 : Conclusion
Bibliographie :
-Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve : arxiv.org/abs/2309.13638
-The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" : arxiv.org/abs/2309.12288
-Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data : arxiv.org/abs/2406.14546
Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA
Me suivre :
Github : github.com/alxndrTL
Twitter : AlexandreTL2
มุมมอง: 2 829

วีดีโอ

Mamba : bien parti pour détrôner le Transformer ? Le bilan
มุมมอง 5Kหลายเดือนก่อน
Dans cette vidéo, on fait le bilan sur ces 7 mois de développement autour de Mamba, une nouvelle architecture qui fait face au Transformer. 0:00 : Introduction 1:53 : Les applications 4:47 : Les faiblesses 9:12 : Contres ces faiblesses Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre : Github : github.com/alxndrTL Twitter : AlexandreTL2
Générer des noms de communes françaises, en Python.
มุมมอง 547หลายเดือนก่อน
Dans cette vidéo, on construit pas à pas des modèles capables de générer des noms de communes françaises. De la méthode la plus simple, qui se base sur des comptages de lettres, jusqu'à des méthodes plus poussées se basant sur des réseaux de neurones. -Andrej Karpathy : th-cam.com/users/andrejkarpathy 0:00 : Introduction 0:57 : Approche statistique 8:59 : Réseaux de neurones 16:27 : Remarque su...
Comment interpréter ce qui se passe dans un réseau de neurones ?
มุมมอง 6K2 หลายเดือนก่อน
On le dit souvent, les réseaux de neurones sont des boîtes noires qu'on n'arrive pas à interpréter... Alors, surement que des modèles comme ChatGPT ou Claude 3, avec des centaines de milliards de paramètres, sont loin d'être interprétables ? Et bien non. Dans cette vidéo, on voit une technique qui permet d'interpréter "ce qui passe dans un réseau de neurones", ou plus précisément, identifier le...
Qu'est-ce que le Mixture of Experts (MoE) ?
มุมมอง 2.4K4 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse au Mixture Of Experts (MoE), une technique très utilisée dans les plus grands LLMs comme GPT-4, Mixtral 8x7B ou Mixtral 8x22B. En quelques mots, il s'agit d'associer plusieurs experts. Mais quel est l'intérêt ? Quelques ressources en lien avec le MoE: -A Review of Sparse Expert Models in Deep Learning : arxiv.org/abs/2209.01667 -Papier Mixtral 8x7B : arxiv.org/a...
SARSA vs Q-learning | Intro RL 7
มุมมอง 4406 หลายเดือนก่อน
Dans cette vidéo, on compare les algorithmes de SARSA et de Q-learning sur deux environnements classiques du RL : FrozenLake et CliffWalking. On étudie rapidement le comportement de ces deux algorithmes face à différents choix de alpha et epsilon. Sur CliffWalking, on voit en pratique la différence fondamentale entre ces deux algorithmes : l'un tient compte de l'exploration dans sa politique, l...
Mamba, le remplaçant du Transformer ?
มุมมอง 1.3K6 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse à Mamba, une nouvelle architecture qui pourrait remplacer le Transformer. Mamba est une architecture qui traite des séquences de données, comme du texte, qui est une séquence de mots. 0:00 : Introduction 0:38 : Mamba = RNN ? 1:26 : 1) RNN 4:15 : 2) Sélection 7:58 : 3) Delta et SSM 12:05 : Architecture complète 14:38 : Avantages de Mamba 16:22 : Inconvénients de ...
Guide PyTorch : la représentation des tenseurs en mémoire
มุมมอง 1.1K7 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse à la manière qu'a PyTorch de manipuler en mémoire les tenseurs : représentation d'un tenseur (taille, stride, ...) et l'utilisation de ces meta-données dans des opérations comme la transposition ou le redimensionnement. 0:00 : Introduction 0:33 : Le vecteur 1:48 : Les matrices 6:14 : Transposition 8:21 : Autres opérations 10:12 : Notes Rejoindre la communauté Ma...
IA 2023 : Ce qu'il faut retenir
มุมมอง 9378 หลายเดือนก่อน
Dans cette vidéo, on récapitule les tendances majeures observées dans le monde de la recherche en IA pendant l'année 2023. Evidemment, une seule vidéo ne peut résumer tout ce qui a été produit en une année, mais comprendre les tendances globales permet d'avoir un meilleur recul sur ce qui se passe. Le site labs.perplexity.ai a été utilisé pour l'inférence avec Mistral et Mixtral. GPT-4 : openai...
Q-learning | Intro RL II - 6
มุมมอง 4899 หลายเดือนก่อน
Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA (ainsi que n-step TD), on s'attaque maintenant au fameux Q-learning ! Il est très différent de MC et TD, puisqu'il s'agit d'un algorithme off-policy. On voit ce que ça veut dire dans la vidéo, ainsi que les origines de cette différence. 0:00 : Ce qui a été vu 1:06 : On-policy / off-policy 3:16 : Lien partie I et II 5:02 : Q-learn...
Algorithme n-step TD | Intro RL II - 5
มุมมอง 34710 หลายเดือนก่อน
Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA dans le cadre du model-free, on introduit un nouvel algorithme, n-step TD, qui réunit en un seul algorithme MC et SARSA. Concrètement, MC correspond au cas où n vaut l'infini, et SARSA au cas n=1. NOTE : L'algorithme dénommé "n-step SARSA" dans la vidéo doit plutôt s'appeler n-step TD Contrôle, c'est une erreur de ma part. Si on ...
Ces IA qui s'entraînent dans leur imagination
มุมมอง 4.5K10 หลายเดือนก่อน
Dans cette vidéo, on s'intéresse à une famille d'algorithmes qui possèdent une modélisation, une simulation du monde qui les entoure : que ce soit sur Minecraft ou sur la route, l'algorithme arrive à recréer l'environnement dans lequel il évolue. Cette reproduction s'effectue dans un état "compressé" : par exemple pour Minecraft, au lieu de recréer des images, il travaille avec des états qui dé...
J'ai testé DALLE 3 : quelles nouveautés ?
มุมมอง 1.8K11 หลายเดือนก่อน
Dans cette vidéo, on parle de la nouvelle version de DALLE, le modèle d'OpenAI qui permet de générer des images à partir d'une simple description. Trois nouveautés au menu : une meilleure écoute du prompt, la possibilité de générer du texte dans l'image, l'intégration avec ChatGPT. 0:00 : Introduction 0:16 : de meilleures images 0:30 : meilleure écoute 1:42 : générer du texte 2:14 : intégré ave...
Pourquoi ChatGPT connait vos attentes et préférences
มุมมอง 1.3K11 หลายเดือนก่อน
Dans cette vidéo, on explique ce qui a permis de passer de GPT à ChatGPT. Ce passage est très important, puisqu'il explique comment GPT a su s'adapter à répondre aux attentes des humains, en devenant ChatGPT. 0:00 : Introduction 0:23 : Les modèles de langage 1:28 : Adapter GPT 2:17 : L'alignement 5:43 : Prise de recul Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre...
Architecture encodeur-décodeur du Transformer
มุมมอง 1.3K11 หลายเดือนก่อน
On poursuit notre exploration de l'architecture du Transformer. Plus précisément, on voit comment utiliser ce qu'on a vu pour l'appliquer à des tâches classiques de manipulation de texte, comme la génération de texte, la classification ou encore la traduction. 0:00 : Introduction 0:25 : Génération de texte 3:04 : Classification de texte 5:52 : Encodeur et décodeur 7:24 : Encodeur-décodeur 12:52...
Les champions du monde de drones battus par une IA
มุมมอง 102Kปีที่แล้ว
Les champions du monde de drones battus par une IA
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
มุมมอง 2.6Kปีที่แล้ว
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
Visualiser la fonction coût d'un réseau de neurones
มุมมอง 1.7Kปีที่แล้ว
Visualiser la fonction coût d'un réseau de neurones
Biais, variance et sur-apprentissage
มุมมอง 943ปีที่แล้ว
Biais, variance et sur-apprentissage
Algorithme d'apprentissage SARSA | Intro RL II - 4
มุมมอง 401ปีที่แล้ว
Algorithme d'apprentissage SARSA | Intro RL II - 4
Qu'est-ce qui se passe dans un réseau de neurones ?
มุมมอง 3.1Kปีที่แล้ว
Qu'est-ce qui se passe dans un réseau de neurones ?
Transformers : têtes d'attention et couches
มุมมอง 1.5Kปีที่แล้ว
Transformers : têtes d'attention et couches
Comprendre les Transformers en 10 minutes
มุมมอง 8Kปีที่แล้ว
Comprendre les Transformers en 10 minutes
Les réseaux de neurones récurrents illustrés
มุมมอง 2.1Kปีที่แล้ว
Les réseaux de neurones récurrents illustrés
Régression linéaire en Python
มุมมอง 1.5Kปีที่แล้ว
Régression linéaire en Python
Se former au ML : quelle stratégie ? quelles ressources ?
มุมมอง 713ปีที่แล้ว
Se former au ML : quelle stratégie ? quelles ressources ?
Conclusion de la série
มุมมอง 932ปีที่แล้ว
Conclusion de la série
Classification multi-classes avec un réseau de neurones
มุมมอง 2.7Kปีที่แล้ว
Classification multi-classes avec un réseau de neurones
Les maths des réseaux de neurones
มุมมอง 4.8Kปีที่แล้ว
Les maths des réseaux de neurones
Comprendre les réseaux de neurones
มุมมอง 22Kปีที่แล้ว
Comprendre les réseaux de neurones

ความคิดเห็น

  • @chrisder1814
    @chrisder1814 3 วันที่ผ่านมา

    est ce que je peux faire un rag ou fine tunning très simplement ? je ne connais que dale au code

    • @alexandretl
      @alexandretl 2 วันที่ผ่านมา

      C'est en partie possible, pour faire du fine tuning je te conseille de regarder Cohere : docs.cohere.com/docs/fine-tuning-with-the-cohere-dashboard (là ce sera la méthode la plus simple mais sûrement aussi la plus chère). Sinon, en alternatives "ouvertes" il y a unsloth (github.com/unslothai/unsloth) les instructions sont assez claires (tout sera en anglais par contre)

    • @chrisder1814
      @chrisder1814 2 วันที่ผ่านมา

      @@alexandretl c'est quoi la différence entre le rag, le fine tuning et un custom gpt? j'ai cru comprendre qu'il y en a un ou plusieurs qui permettent qu'une IA n'alucine pas ?

    • @alexandretl
      @alexandretl วันที่ผ่านมา

      @@chrisder1814 oui je dirais que c'est le RAG qui permet de limiter au max les hallucinations. -le RAG permet de donner les connaissances nécessaires pour répondre à la question de l'utilisateur "en live". dès que tu poses la question, le système RAG va accoler au contexte du LLM des bouts d'une base de connaissance en lien avec ta question. -le fine-tuning c'est "juste" de modifier le comportement des LLMs (au sens des paramètres). donc on peut aussi leur faire apprendre de nouvelles choses. -les custom GPTs c'est juste des GPT normaux auquel on donne (il me semble) un "prompt système" particulier (c'est à dire des consignes) et pourquoi pas des actions

    • @chrisder1814
      @chrisder1814 วันที่ผ่านมา

      @@alexandretl ok bah merci de ces précisions, est-ce que je pourrais t'écrire

    • @alexandretl
      @alexandretl วันที่ผ่านมา

      @@chrisder1814 yes tu peux me trouver sur discord (nom d'user procuste)

  • @chrisder1814
    @chrisder1814 4 วันที่ผ่านมา

    trop fort, est-ce qu'un custom GPT c'est du fine tuning? moi qui ne connais que dalle au code est-ce qu'il y a une façon simple de faire un rag ou du fine tuning parce que les réponses que j'obtiens quand je lui dis que c'est un expert dans un sujet il me fait des tutos complètement claqué

  • @chrisder1814
    @chrisder1814 4 วันที่ผ่านมา

    salut moi qui n'y connais rien au code est-ce qu'il y a moyen que je fasse du fine tuning ou un rag très facilement je veux dire les réponses que j'obtiens , les tutos sont carrément HS est-ce qu'un custom GPT c'est du fine tuning ?

  • @yayasy1362
    @yayasy1362 5 วันที่ผ่านมา

    Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.

    • @alexandretl
      @alexandretl 4 วันที่ผ่านมา

      Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet

  • @jean-micheltorres6925
    @jean-micheltorres6925 5 วันที่ผ่านมา

    Excellente vidéo, comme d'habitude ! MERCI !

  • @automatescellulaires8543
    @automatescellulaires8543 6 วันที่ผ่านมา

    du coup la réduction de dimensionnalité 13:13 utilise quel algorithme ?

    • @alexandretl
      @alexandretl 5 วันที่ผ่านมา

      J'ai utilisé PCA (j'avais aussi testé tSNE mais les résultats étaient moins clairs que ceux visualisés)

    • @automatescellulaires8543
      @automatescellulaires8543 5 วันที่ผ่านมา

      @@alexandretl umap est plus flexible de ce que j'ai entendu dire (et aussi plus rapide je crois). Sinon dernièrement j'ai vu passer le sigle PaCMAP (je connaissais pas). th-cam.com/video/sD-uDZ8zXkc/w-d-xo.html

    • @alexandretl
      @alexandretl 4 วันที่ผ่านมา

      @@automatescellulaires8543 Merci je ne connaissais pas PaCMAP

  • @Sabrarch
    @Sabrarch 6 วันที่ผ่านมา

    Super vidéo bravo

  • @CarpeMC
    @CarpeMC 7 วันที่ผ่านมา

    Merci pour cette vidéo très intéressante

  • @jgcb0071
    @jgcb0071 7 วันที่ผ่านมา

    toujours très intéressant bravo !

    • @alexandretl
      @alexandretl 7 วันที่ผ่านมา

      Merci bien!

  • @valerykyungu
    @valerykyungu 7 วันที่ผ่านมา

    6:57 Kinshasa ✨ je m'y attendais pas du tout ❤

  • @ced1401
    @ced1401 7 วันที่ผ่านมา

    Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...". Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant <3

    • @alexandretl
      @alexandretl 7 วันที่ผ่านมา

      Yes finalement ce sera surement une mini série, ça s'annonce pas mal!

  • @bause6182
    @bause6182 8 วันที่ผ่านมา

    Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...

    • @alexandretl
      @alexandretl 7 วันที่ผ่านมา

      Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie. Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!

    • @bacrima6382
      @bacrima6382 วันที่ผ่านมา

      C'est une bonne chose du coups si ça ralentit la recherche.

  • @bossgd100
    @bossgd100 8 วันที่ผ่านมา

    Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?

    • @alexandretl
      @alexandretl 7 วันที่ผ่านมา

      Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas

    • @bossgd100
      @bossgd100 7 วันที่ผ่านมา

      @@alexandretl dac je vois, j'espère que tu te trompe ^^

    • @bacrima6382
      @bacrima6382 วันที่ผ่านมา

      Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent. Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.

    • @alexandretl
      @alexandretl วันที่ผ่านมา

      @@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?

    • @bacrima6382
      @bacrima6382 วันที่ผ่านมา

      @@alexandretl je crois que c'est ça oui

  • @Algneo
    @Algneo 8 วันที่ผ่านมา

    Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension. Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.

    • @alexandretl
      @alexandretl 8 วันที่ผ่านมา

      Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots. J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo. Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.

    • @lesfreresdelaquote1176
      @lesfreresdelaquote1176 7 วันที่ผ่านมา

      ​@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN. Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...

  • @krimod
    @krimod 8 วันที่ผ่านมา

    Très bonne vidéo, merci à toi ! Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?

    • @alexandretl
      @alexandretl 8 วันที่ผ่านมา

      Merci! Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).

  • @alexandretl
    @alexandretl 8 วันที่ผ่านมา

    J’espère que la vidéo vous a plu ! Quelques notes et ressources dont je n’ai pas parlé dans la vidéo : -ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515 -une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue. -dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ». -récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089

  • @CelianBaudet
    @CelianBaudet 12 วันที่ผ่านมา

    Hello l'explication est top, via quel logiciel tu fais ton motion pour expliquer les concepts ?

    • @alexandretl
      @alexandretl 12 วันที่ผ่านมา

      Merci! J'utilise manim, donc je scripte les animations en Python

  • @chrisder1814
    @chrisder1814 13 วันที่ผ่านมา

    trop fort

  • @capitainehaddock9989
    @capitainehaddock9989 13 วันที่ผ่านมา

    Merci beaucoup pour votre travail, et s'il vous plait continuer le plus longtemps possible Merci !!

    • @alexandretl
      @alexandretl 12 วันที่ผ่านมา

      C'est très encourageant merci, oui les vidéos sur le RL reprendront

  • @capitainehaddock9989
    @capitainehaddock9989 18 วันที่ผ่านมา

    HEY merci pour ton travail.

  • @eliottvalette2453
    @eliottvalette2453 หลายเดือนก่อน

    Très clair merci

  • @guillaumedesurville2760
    @guillaumedesurville2760 หลายเดือนก่อน

    Super video, le travail est de vraiment qualité ! PS: Y a-t-il une raison particulière dans le code d'utiliser : for (c, i) in zip(vocabulaire, range(len(vocabulaire))): Au lieu de : for i,c in enumerate(vocabulaire):

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Je t'ai répondu sur github

  • @maloukemallouke9735
    @maloukemallouke9735 หลายเดือนก่อน

    Merci pour les vidéos, je voulais te demander de faire une vidéo spéciale sur le traitement du facteur de temps dans les transformer comment il garde ne mémoire les informatisations par rapport a une série temporelle de valeur numérique comme la météo par exemple?

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Si c'est une vidéo sur les positional embeddings c'est prévu que je la fasse. C'est ce qui permet au transformer de prendre en compte l'ordre des valeurs d'une séquence

    • @maloukemallouke9735
      @maloukemallouke9735 หลายเดือนก่อน

      @@alexandretl mille mercis mais le facteur que je ne visualise pas dans les Transformer c est le "Temps" l évolution ce n est pas claire pour moi (peut être pour d'autres aussi) et la question de mémoire mais je veux être spécifique pour des traitement de données pas de texte (comme les régression pour donner une image)

  • @MsBowner
    @MsBowner หลายเดือนก่อน

    Tu as la même voix que dirty biology ....

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      C'est la deuxième fois que je reçois ce commentaire ahah

    • @MsBowner
      @MsBowner หลายเดือนก่อน

      @@alexandretl Non, mais c'est fou, tu as la même intonation, la même voix, etc Bon, avoue-nous que c'est toi Léo derrière cette chaine XD

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      @@MsBowner non je te l'assure x)

  • @cainabel2553
    @cainabel2553 หลายเดือนก่อน

    Pq sphère? C'est cylindre hi hi hi

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Les deux sont possibles, même si le cylindre est plus simple :)

  • @christiantheophanegasore3786
    @christiantheophanegasore3786 หลายเดือนก่อน

    Numba la combinaison de numba et Numpy c'est cool pour la vision par ordinateur!

  • @nicolasdevaux734
    @nicolasdevaux734 หลายเดือนก่อน

    vidéo très intéressante. t'as oublié le xlstm qui est une bonne alternative aussi ^^.

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Oui en effet j'ai oublié de le mettre à la fin

  • @noahsarcana
    @noahsarcana หลายเดือนก่อน

    Un dictionnaire qui parle, je veux dire un réseau de neurone c'est comme un dictionnaire qui parle. Il fait pas encore le café..

  • @noahsarcana
    @noahsarcana หลายเดือนก่อน

    Il y a quand même certains signes qui ne trompent pas.. Je ne vais peut être pas acheter la dernière Nviva tout compte fait

  • @Zoragna
    @Zoragna หลายเดือนก่อน

    Ils ont sérieusement appelé un truc de ML "vim" ? sans réfléchir ? Vraiment les notebooks jupyter ça ravage le cerveau

  • @eliefrossard
    @eliefrossard หลายเดือนก่อน

    Combiner les deux, c'est souvent un principe de base ! C'est ouf que l'attention ne serve plus qu'à 8% des parametres sur le modèle hybride d'ailleurs. Ca ma rappelle comment les modèles comme midjourney sont apparus, en combinant les LLM avec les modèles de traitement de l'image pour aboutir à un prompt qui génère des images qui existent pas :D

  • @raiden631
    @raiden631 หลายเดือนก่อน

    Vidéo très visuelle et super intéressante, merci!

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci!

  • @Nox-gu9cj
    @Nox-gu9cj หลายเดือนก่อน

    Explication très claire, merci ! C'est un contenu d'une grande qualité car 1) On ne brade pas sur la "complexité" du modèle à travers des explications par analogie ou métaphores, on rentre dans les maths et 2) Malgré ça tu donnes des explications claires avec un montage simple comme il faut qui transmet de bonnes représentations pour aider à la compréhension.

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci pour ton retour!

    • @Nox-gu9cj
      @Nox-gu9cj หลายเดือนก่อน

      @@alexandretl C'est moi qui te remercie pour le contenu de qualité que tu mets gratuitement à disposition 👏

  • @patdesse6693
    @patdesse6693 หลายเดือนก่อน

    Il faut beaucoup d'intelligence humaine pour créer un peu d'intelligence artificielle 😅

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Et oui, et des centaines de millions de $$ aussi (pour l'instant)

  • @dofeeeeee
    @dofeeeeee หลายเดือนก่อน

    Merci beaucoup pour toutes tes vidéo !! Ta 1ere m'a déjà était super utile pour mon implémentation sur Burn, maintenant je vais faire la maj et j'ai quelques nouvelles idées X,)

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Ravi d''avoir pu aidé!

  • @crocodil.13
    @crocodil.13 หลายเดือนก่อน

    Je serais ravis d'une petite video qui fait un tour d'horizon des differentes autres architechtures dont vous parlez! J'avoue a avoir du mal a imaginer autant de facon de faire, comme votre petit shema le laisser deviner😍 Pour la petite histoire, ya quelques annés j'avais tenté un truc farfelu a souhait, un espece de bouillit de neurone (avec des boucles l'infinit), et une methode de récompense assez foireuse basée sur la frequence d'activation, l'activation la plus récente, la distance par rapport a la sortie et une petite memorisation des chemins empruntés... je voulais que le modele puisse continuer tourner dans le vide en produisant ou non des sorties qu'il y ai entrée ou non, un peu comme si il reflechissait le temps que il le souhaite avant de repondre .... eh bien je me suis rendu compte que j'aurais du faire des etudes dans le sujet a la place de réinventer la roue, au final ca a donné un generateur de nombre aléatoires infernal xD Evidament j'etait plus jeune et je ne me rendais pas compte que c'etait pas si simple, mais je serais curieux de savoir si ce principe a vaguement ete exploré, j'avoue ne pas avoir trouvé grand chose sur le sujet, la faute probablement a mon vocabulaire technique inexistant

    • @diabolo19x
      @diabolo19x หลายเดือนก่อน

      @@crocodil.13 l'idée de "laisser le temps de réfléchir à son modèle" est notamment une idee pronee par Yann Lecun. Tu es donc un précurseur malgré toi :p

    • @diabolo19x
      @diabolo19x หลายเดือนก่อน

      @@crocodil.13 je rebondis sur les propositions d'architecture, j'étais à ICML la semaine dernière, ça parlait pas mal de xLSTM (notamment car l'auteur était là aussi hein)

    • @dofeeeeee
      @dofeeeeee หลายเดือนก่อน

      @@diabolo19x Le créateur original du LSTM en plus X,). J'en ai pas mal entendu parler, mais j'ai pas lu le papier pour l'instant, c'est vraiment si bon que ça ? De souvenir il y a qu'un des deux modèles qui est paralélisable, je me trompe ?

    • @crocodil.13
      @crocodil.13 หลายเดือนก่อน

      @@diabolo19x pardonne mon amateurisme, si je comprends bien, cela ressemble un peu aux ssm, mais avec une gestion differente de la memoire? (Qui ne s'appel pas comme ca dans les ssm). Par contre l'entrainement doit etre atroce 😂 surtout cette fonction de "suppression".

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      @@diabolo19x woaw, ICML !

  • @diabolo19x
    @diabolo19x หลายเดือนก่อน

    Super vidéo! Et merci d'aborder les faiblesses de Mamba, curieux de voir si cette archi peut être largement supérieure aux transformer sur des cas très spécifiques

    • @crocodil.13
      @crocodil.13 หลายเดือนก่อน

      Il en parlait rapidement dans sa premiere video, je sais pas si ca sera un jour envisageable, mais pour l'analyse d'adn ca serait fou! Bon en nombre de token on est a des années lumieres, mais imagine pouvoir faire de la prediction de maladies, de caracteristiques physiologiques donc par exemple pour de l'optimisation therapeutique , etc.... ca serait magnifique, d'autant que la banque de données sur le sujet ne cesse de grandir ! Ou encore mieux des propositions de modifications a effectuées pour avoir tel ou tel caracteristiques (je parles ici plus de bacteries pour la production de biomedicaments que d'eugenisme hein)

    • @diabolo19x
      @diabolo19x หลายเดือนก่อน

      @@crocodil.13 carrément d'accord sur les cas en bio, d'ailleurs j'ai l'impression que les très longues séquences comme l'ADN sont les rares cas où Mamba prend un peu.

    • @crocodil.13
      @crocodil.13 หลายเดือนก่อน

      @@diabolo19x de toute maniere on est au debut de "l'ia qui marche vraiment", donc les applications vont fleurie dans tout les sens dans les années a venir! Rien a voir mais exemple vraiment sympa, le chef de service de radio de mon CHU nous expliquait que de nouvelles generations de scanners, moins irradiants et avec une resolution de 50 ou 100 microns etaient en développement. A ce niveau ca deviens presque de l'histologie, de l'anapathologie radiologique, alors analyser ca ca mettrais super super longtemps a un humain. L'idée derrière tout ca etait aussi la reponse a "l'ia va remplacer les radiologues", lui etait plus en mode "mais heureusement que l'ia de developpe, sinon on ne pourrait pas utiliser ces technologie la"

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Oui comme le dit @crocodil.13 c'est surtout surtout la longueur du contexte qu'il peut se démarquer. J'avais aussi vu dans une étude une expérience où Mamba est bien meilleur que le Transforme lorsqu'on le perturbe avec des entrées "bidons" (on lui fait faire du in-context learning mais en plus des exemples utiles à comprendre la tâche, on ajoute des exemples totalement inutiles). Je viens de retrouve l'article si jamais : arxiv.org/abs/2402.04248 (page 8/9)

    • @crocodil.13
      @crocodil.13 หลายเดือนก่อน

      @@alexandretl top merci! Je me lis ca ce soir apres le travail. En effet dans ce contexte ca paraît avantageux car comme vous le savez surement une tres tres large majorité de l'adn ne sert a "rien" (en réalité pas a rien mais pas directement la production de proteines). Pour étoffer ce que je disais plus haut, l'adn humain c'est 3 000 milliards de paire de bases donc au pif je dirais au minimum 500 milliards de token (ca parrait pas aberant en tout cas)

  • @diabolo19x
    @diabolo19x หลายเดือนก่อน

    Et hop un petit coup de pouce pour l'algorithme

  • @Gustavoooooooo
    @Gustavoooooooo หลายเดือนก่อน

    9:09 🇧🇷

  • @samueldeom
    @samueldeom หลายเดือนก่อน

    Merci pour cette vidéo

  • @GalthUbu
    @GalthUbu หลายเดือนก่อน

    merci pour cette vidéo très intéressante :)

  • @Clement_Samp
    @Clement_Samp หลายเดือนก่อน

    Super vidéo. Enfin du détail en français

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Oui c'est assez pauvre en français sur YT et internet (à part les tutos classiques genre MNIST ou désuets comme tensorflow)

  • @crocodil.13
    @crocodil.13 หลายเดือนก่อน

    Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot

  • @clementp772
    @clementp772 หลายเดือนก่อน

    Merci c'est tellement plus clair. Je ne trouve pas la vidéo annoncée à la fin sur le positional encoding ? (en passant : un gros +1 sur la demande sur les ViT !)

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Oui je ne l'ai pas encore sortie, mais c'est dans la liste des prochaines vidéos! Aussi ViT ahah (celle-là sortira surement un peu plus tard)

  • @Yukiche368
    @Yukiche368 หลายเดือนก่อน

    Vraiment super vidéo! Très intéressant, très bien tourné et très clair! J'attends les prochaines vidéos avec impatience!

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Ca fait super plaisir merci !

  • @PierreCizer
    @PierreCizer หลายเดือนก่อน

    Super interessant !

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci Pierre-C !

  • @redone7696
    @redone7696 หลายเดือนก่อน

    Super vidéo, très intéressante. Est-ce que tu as prévu de faire un jour, une vidéo explicative sur la méthode PEFT LoRa j’ai remarqué qu’il n’y avait aucune vidéo francophone qui parlait de ça alors que c’est pourtant une avancée majeure est très utilisée actuellement.

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Oui j'avais commencé à travailler dessus, c'est prévu

  • @FredEric-w2k
    @FredEric-w2k หลายเดือนก่อน

    Je n'ai jamais laissé un commentaire sous une vidéo mais la je le fais car c'est un p***** de travail de vulgarisation!!! J'espère que tu vas continuer encore longtemps car tu réussi AVEC BRIO à bien expliquer les concepts pour des novices comme moi; Gros pouce bleu et j'ai vraiment hâte d'en apprendre encore et encore.

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci beaucoup pour ton commentaire ça fait plaisir et c'est très encourageant!

  • @arkazix4304
    @arkazix4304 หลายเดือนก่อน

    Excellente vulgarisation ! Et juste par curiosité, avec quoi sont faites les animations/éléments présents dans la vidéo ?

    • @alexandretl
      @alexandretl หลายเดือนก่อน

      Merci! Tout a été fait avec Keynote

  • @alexandretl
    @alexandretl หลายเดือนก่อน

    Alors, arrivez-vous à discerner en vrai et faux nom de commune ? >> alxndrtl.github.io/communes/