DiffTransformer : l'évolution naturelle du Transformer ?

แชร์
ฝัง
  • เผยแพร่เมื่อ 18 ธ.ค. 2024

ความคิดเห็น • 42

  • @alexandretl
    @alexandretl  2 หลายเดือนก่อน +2

    Comme d’habitude, j’espère que la vidéo vous a plu! N'hésitez pas si vous avez des idées pour de futures vidéos.
    En savoir plus :
    -le papier qui a introduit le DiffTransformer : arxiv.org/abs/2410.05258
    -les Talking-Heads Attention (2020), qui a proposé une idée similaire : arxiv.org/abs/2003.02436
    -le test d’aiguilles dans une botte de foin (Multi-Need Retrieval) : th-cam.com/video/UlmyyYQGhzc/w-d-xo.html

  • @Tatane
    @Tatane 2 หลายเดือนก่อน +4

    Vidéo de grande qualité !
    Merci

  • @jgcb0071
    @jgcb0071 2 หลายเดือนก่อน +1

    Toujours passionnant et des résultats très intéressant ! Merci beaucoup !

  • @Deepia-ls2fo
    @Deepia-ls2fo หลายเดือนก่อน

    Vidéo super claire, la présentation des figures de résultats était très bien faite. :)

    • @alexandretl
      @alexandretl  หลายเดือนก่อน

      Merci beaucoup ça fait très plaisir

  • @epctrade
    @epctrade หลายเดือนก่อน

    Wao quelle pertinence !! Une justesse et une qualité remarquables merci beaucoup

    • @alexandretl
      @alexandretl  หลายเดือนก่อน

      Ca fait très plaisir merci 💪

  • @bozu1206
    @bozu1206 2 หลายเดือนก่อน

    Une des meilleures videos que j'ai pu voir sur le sujet. Bravo!

  • @patdesse6693
    @patdesse6693 2 หลายเดือนก่อน

    Vos vidéos sont réellement excellentes! Merci beaucoup

  • @GoelWCS
    @GoelWCS 2 หลายเดือนก่อน +3

    Contenu extraordinaire ! Quelle qualité ! Quel didactisme! Waouw !

    • @alexandretl
      @alexandretl  2 หลายเดือนก่อน +1

      Un grand merci c'est très encourageant 🙏

  • @jenesaispasquoichoisir9512
    @jenesaispasquoichoisir9512 2 หลายเดือนก่อน

    merci beaucoup pour le contenu d'excellente qualité !

  • @Algneo
    @Algneo 2 หลายเดือนก่อน

    Toujours très bon. J'aime bien ce truc de review un papier, y en a pas mal de très intéressant qui sortent régulièrement. Après vu la qualité de la vidéo ça doit prendre un certains temps

    • @alexandretl
      @alexandretl  หลายเดือนก่อน

      Merci beaucoup. Oui j'aime bien ce concept aussi, je pense en faire de plus en plus (ça a l'air de pas mal plaire au niveau des comms/vues en plus)

  • @delec9665
    @delec9665 2 หลายเดือนก่อน +1

    Masterclass habituelle !
    A quand la vidéo sur la compression des llm ?

    • @alexandretl
      @alexandretl  หลายเดือนก่อน +1

      Merci! Yes c'est toujours prévu, j'essaie de voir quand je vais pouvoir caler ça

    • @delec9665
      @delec9665 หลายเดือนก่อน

      Très cool ça

  • @exnihilo1227
    @exnihilo1227 หลายเดือนก่อน

    Video tout bonnement excellente

  • @philtoa334
    @philtoa334 2 หลายเดือนก่อน

    Super 👍, merci.

  • @AryFireZOfficiel
    @AryFireZOfficiel 2 หลายเดือนก่อน

    Superbe vidéo ! C'est génial de produire ce type de vidéo, j'ai adoré. Vous dites avoir entraîné un modèle utilisant le Difftransformer sur la tache HashHop : Est ce que votre code est accessible publiquement ? J'aimerai beaucoup en apprendre plus à ce sujet :-)

    • @alexandretl
      @alexandretl  2 หลายเดือนก่อน

      Merci beaucoup ça fait très plaisir! Oui le voici : github.com/alxndrTL/hash-hop-hub. Si jamais, voici aussi le blog qui a introduit la tâche début septembre : magic.dev/blog/100m-token-context-windows (un peu frustrant car ils parlent d'une nouvelle architecture "miracle" sans donner de détails...)

  • @MrNoipe
    @MrNoipe หลายเดือนก่อน

    Great overview, do you ever plan on making English videos?

  • @tens8534
    @tens8534 2 หลายเดือนก่อน

    Ma question est peut être bête mais il est possible que la tête d'attention s'intéresse aux mots qui suivent ? C'est un choix d'architecture en fonction de la tache que l'on souhaite réaliser ? Sinon merci pour ton contenu qui vulgarise super bien tout en gardant les concepts mathématiques sous jacent.

    • @janisaiad9505
      @janisaiad9505 2 หลายเดือนก่อน

      oui cela dépend de ce que l'on fait, on ajoute des masques (causal mask pour ne pas prendre les mots qui suivent)

    • @alexandretl
      @alexandretl  หลายเดือนก่อน +1

      Merci ! Oui en effet comme le dit @janisaiad9505 c'est possible (par exemple il y a le PrefixLM qui le fait, ce blog résume pas mal de possibilités : pytorch.org/blog/flexattention/). Aussi pour les images par exemple ça n'a aucun intérêt de limiter l'attention, donc on ne met pas de masque

  • @Bencurlis
    @Bencurlis หลายเดือนก่อน

    Excellente vidéo, c'est très clair, merci! Une idée d'où provient le bruit corrélé qui est donc retiré par cette procédure?
    Perso je me dis que peut être que c'est le fait que la matrice V n'est plus multipliée par une matrice de valeurs normalisées qui aide.

    • @alexandretl
      @alexandretl  หลายเดือนก่อน

      Merci beaucoup !
      Et bien en fait la multiplication par V intervient après cette histoire de bruit, non ? Ou alors tu parles de la couche d'avant ?
      Pour la provenance du bruit, ça peut venir d'une sorte de """mauvaise calibration""" entre les produits scalaires qk ? Ce que je veux dire c'est que chaque qk est calculé indépendamment, donc un qk calculé pour un mot qui n'est pas intéressant doit être attribué comme petit, et un qk intéressant grand. Mais le modèle ne sait pas à quel point le qk grand est, donc il ne sait pas à quel point le qk petit doit être mis (puisque derrière il y a softmax qui tient compte des écarts relatifs). Je ne sais pas si c'est compréhensible ahah, et je ne sais pas non plus si c'est vrai, mais c'est comment je le vois

    • @Bencurlis
      @Bencurlis หลายเดือนก่อน

      @@alexandretl V est multipliée à une matrice produite par un softmax en temps normal, donc la matrice softmax a des valeurs strictement positive en espérance. Avec la différence de softmax, l'espérance est de 0 logiquement, ce qui doit aider à avoir des gradients sparse et rendre l'apprentissage plus stable je pense.
      Je crois que je vois ce que tu veux dire pour le bruit, effectivement c'est une façon intéressante de voir le truc.

    • @alexandretl
      @alexandretl  หลายเดือนก่อน

      @@Bencurlis Ok ouais d'accord je vois ton explication. J'avais mal compris à la première lecture.

  • @ciaopeople9664
    @ciaopeople9664 2 หลายเดือนก่อน

    L'important c'est que, toi, tu te comprennes !
    On ne sait pas de quoi tu parles, comme si tout le monde connaissait les transformers depuis sa plus tendre enfance !!!

    • @TheRemiRODRIGUES
      @TheRemiRODRIGUES 2 หลายเดือนก่อน +1

      Il a réalisé une vidéo sur les transformers :
      th-cam.com/video/46XbjplgwOw/w-d-xo.html
      En gros c'est une architecture de réseau de neurones adaptée pour analyser du texte (même si ils peuvent traiter d'autres type de données).
      Cette architecture a aussi l'avantage de pouvoir aisément être entrainer à l'aide de carte graphique (GPU), et donc de rendre l'entrainement des réseaux de neurones plus rapide.
      Pour finir cette architecture utilise des mécanismes d'attention, ce sont des mécanismes qui aide à contextualiser un mot au sein d'un texte.
      Les transformers sont à la base de la majorité des modèles de LLM qu'on utilise aujourd'hui, comme ChatGPT, Gemini, Claude, ...

    • @ciaopeople9664
      @ciaopeople9664 หลายเดือนก่อน

      @@TheRemiRODRIGUES
      J'ai bien compris, mais pas grâce à ses explications, ce qui pose problème quand on fait une vidéo pédagogique !

    • @alexandretl
      @alexandretl  หลายเดือนก่อน +1

      ​@@ciaopeople9664 Je comprends ta frustration, mais comprends aussi la mienne : c'est assez compliqué pour moi de donner une explication de tout ce qui permet de la comprendre. Certaines personnes pensent que c'est trivial, la vidéo durerais 20 minutes, il y aurait beaucoup de répétition entre les vidéos etc.. Surtout quand j'ai déjà fait des vidéos spécialisées, voir des séries spécialisées, sur le sujet (en l'occurence le Transformer). Des chaînes comme ScienceEtonnantes n'ont pas ce problème car chaque vidéo traite d'un sujet presque totalement différent à chaque fois, donc là pourquoi pas. Mais moi il faudrait que je fasse des rappels de la même chose à chaque fois..
      Aussi, par curiosité, j'ai quand même fait un gros rappel sur le mécanisme d'attention. Même sans savoir précisément ce qu'est un Transformer, avec ce rappel, on n'arrive quand même pas à comprendre la vidéo ?
      J'ai quand même fait en sorte que ce soit plus compréhensible possible, l'attention c'est là où le modèle regarde, et on veut débruiter ça. Oui biensûr connaître le contexte Transformer aide, mais ce n'est pas le coeur de la vidéo non plus.

    • @ciaopeople9664
      @ciaopeople9664 หลายเดือนก่อน

      @@alexandretl
      Désolé de te faire de la peine, mais tes vidéos sont incompréhensibles pour qui ne connait déjà pas un minimum le sujet ...
      Et même quand c'est le cas, il y a beaucoup trop de sous-entendus implicites !
      Si tu veux vraiment faire ces vidéos, très bien ! Mais tu ne dois pas le faire sans un minimum d'explications ou de renvois aux vidéos précédentes !
      La règle d'or en pédagogie, on doit supposer que l'auditeur ne connait "rien" au sujet !
      Et sans faire un cours complet, l'auditeur ne doit pas à avoir à combler trop de trous par lui-même !
      Sans compter que contrairement à ScienceEtonnante, scienceClic, 3browns1blue, Pbs et Veritasium qui parlent de sujets très conceptuels, tout le monde a vu des transformers au cinéma ! 🤣
      Je plaisante, bien sûr !
      😊😊😊

    • @delec9665
      @delec9665 หลายเดือนก่อน +1

      @AlexandreTL En effet tes vidéos s’adressent à un public sensibilisé aux maths et avec une curiosité pour l’IA. C’est une tranche du public et c’est effectivement pas accessible aux néophytes, et trivial pour un expert. On peut pas s’adresser au monde entier et je trouve que tu gères très bien ton créneau pédagogique : les prémisses sont parfaitement claires et les conclusions sont éclairantes. Ça doit être frustrant de recevoir des commentaires comme le précédent mais je ne pense pas que cela veut dire que tu n’est pas didactique et pédagogue