Comme d’habitude, j’espère que la vidéo vous a plu! N'hésitez pas si vous avez des idées pour de futures vidéos. En savoir plus : -le papier qui a introduit le DiffTransformer : arxiv.org/abs/2410.05258 -les Talking-Heads Attention (2020), qui a proposé une idée similaire : arxiv.org/abs/2003.02436 -le test d’aiguilles dans une botte de foin (Multi-Need Retrieval) : th-cam.com/video/UlmyyYQGhzc/w-d-xo.html
Toujours très bon. J'aime bien ce truc de review un papier, y en a pas mal de très intéressant qui sortent régulièrement. Après vu la qualité de la vidéo ça doit prendre un certains temps
Superbe vidéo ! C'est génial de produire ce type de vidéo, j'ai adoré. Vous dites avoir entraîné un modèle utilisant le Difftransformer sur la tache HashHop : Est ce que votre code est accessible publiquement ? J'aimerai beaucoup en apprendre plus à ce sujet :-)
Merci beaucoup ça fait très plaisir! Oui le voici : github.com/alxndrTL/hash-hop-hub. Si jamais, voici aussi le blog qui a introduit la tâche début septembre : magic.dev/blog/100m-token-context-windows (un peu frustrant car ils parlent d'une nouvelle architecture "miracle" sans donner de détails...)
Ma question est peut être bête mais il est possible que la tête d'attention s'intéresse aux mots qui suivent ? C'est un choix d'architecture en fonction de la tache que l'on souhaite réaliser ? Sinon merci pour ton contenu qui vulgarise super bien tout en gardant les concepts mathématiques sous jacent.
Merci ! Oui en effet comme le dit @janisaiad9505 c'est possible (par exemple il y a le PrefixLM qui le fait, ce blog résume pas mal de possibilités : pytorch.org/blog/flexattention/). Aussi pour les images par exemple ça n'a aucun intérêt de limiter l'attention, donc on ne met pas de masque
Excellente vidéo, c'est très clair, merci! Une idée d'où provient le bruit corrélé qui est donc retiré par cette procédure? Perso je me dis que peut être que c'est le fait que la matrice V n'est plus multipliée par une matrice de valeurs normalisées qui aide.
Merci beaucoup ! Et bien en fait la multiplication par V intervient après cette histoire de bruit, non ? Ou alors tu parles de la couche d'avant ? Pour la provenance du bruit, ça peut venir d'une sorte de """mauvaise calibration""" entre les produits scalaires qk ? Ce que je veux dire c'est que chaque qk est calculé indépendamment, donc un qk calculé pour un mot qui n'est pas intéressant doit être attribué comme petit, et un qk intéressant grand. Mais le modèle ne sait pas à quel point le qk grand est, donc il ne sait pas à quel point le qk petit doit être mis (puisque derrière il y a softmax qui tient compte des écarts relatifs). Je ne sais pas si c'est compréhensible ahah, et je ne sais pas non plus si c'est vrai, mais c'est comment je le vois
@@alexandretl V est multipliée à une matrice produite par un softmax en temps normal, donc la matrice softmax a des valeurs strictement positive en espérance. Avec la différence de softmax, l'espérance est de 0 logiquement, ce qui doit aider à avoir des gradients sparse et rendre l'apprentissage plus stable je pense. Je crois que je vois ce que tu veux dire pour le bruit, effectivement c'est une façon intéressante de voir le truc.
L'important c'est que, toi, tu te comprennes ! On ne sait pas de quoi tu parles, comme si tout le monde connaissait les transformers depuis sa plus tendre enfance !!!
Il a réalisé une vidéo sur les transformers : th-cam.com/video/46XbjplgwOw/w-d-xo.html En gros c'est une architecture de réseau de neurones adaptée pour analyser du texte (même si ils peuvent traiter d'autres type de données). Cette architecture a aussi l'avantage de pouvoir aisément être entrainer à l'aide de carte graphique (GPU), et donc de rendre l'entrainement des réseaux de neurones plus rapide. Pour finir cette architecture utilise des mécanismes d'attention, ce sont des mécanismes qui aide à contextualiser un mot au sein d'un texte. Les transformers sont à la base de la majorité des modèles de LLM qu'on utilise aujourd'hui, comme ChatGPT, Gemini, Claude, ...
@@ciaopeople9664 Je comprends ta frustration, mais comprends aussi la mienne : c'est assez compliqué pour moi de donner une explication de tout ce qui permet de la comprendre. Certaines personnes pensent que c'est trivial, la vidéo durerais 20 minutes, il y aurait beaucoup de répétition entre les vidéos etc.. Surtout quand j'ai déjà fait des vidéos spécialisées, voir des séries spécialisées, sur le sujet (en l'occurence le Transformer). Des chaînes comme ScienceEtonnantes n'ont pas ce problème car chaque vidéo traite d'un sujet presque totalement différent à chaque fois, donc là pourquoi pas. Mais moi il faudrait que je fasse des rappels de la même chose à chaque fois.. Aussi, par curiosité, j'ai quand même fait un gros rappel sur le mécanisme d'attention. Même sans savoir précisément ce qu'est un Transformer, avec ce rappel, on n'arrive quand même pas à comprendre la vidéo ? J'ai quand même fait en sorte que ce soit plus compréhensible possible, l'attention c'est là où le modèle regarde, et on veut débruiter ça. Oui biensûr connaître le contexte Transformer aide, mais ce n'est pas le coeur de la vidéo non plus.
@@alexandretl Désolé de te faire de la peine, mais tes vidéos sont incompréhensibles pour qui ne connait déjà pas un minimum le sujet ... Et même quand c'est le cas, il y a beaucoup trop de sous-entendus implicites ! Si tu veux vraiment faire ces vidéos, très bien ! Mais tu ne dois pas le faire sans un minimum d'explications ou de renvois aux vidéos précédentes ! La règle d'or en pédagogie, on doit supposer que l'auditeur ne connait "rien" au sujet ! Et sans faire un cours complet, l'auditeur ne doit pas à avoir à combler trop de trous par lui-même ! Sans compter que contrairement à ScienceEtonnante, scienceClic, 3browns1blue, Pbs et Veritasium qui parlent de sujets très conceptuels, tout le monde a vu des transformers au cinéma ! 🤣 Je plaisante, bien sûr ! 😊😊😊
@AlexandreTL En effet tes vidéos s’adressent à un public sensibilisé aux maths et avec une curiosité pour l’IA. C’est une tranche du public et c’est effectivement pas accessible aux néophytes, et trivial pour un expert. On peut pas s’adresser au monde entier et je trouve que tu gères très bien ton créneau pédagogique : les prémisses sont parfaitement claires et les conclusions sont éclairantes. Ça doit être frustrant de recevoir des commentaires comme le précédent mais je ne pense pas que cela veut dire que tu n’est pas didactique et pédagogue
Comme d’habitude, j’espère que la vidéo vous a plu! N'hésitez pas si vous avez des idées pour de futures vidéos.
En savoir plus :
-le papier qui a introduit le DiffTransformer : arxiv.org/abs/2410.05258
-les Talking-Heads Attention (2020), qui a proposé une idée similaire : arxiv.org/abs/2003.02436
-le test d’aiguilles dans une botte de foin (Multi-Need Retrieval) : th-cam.com/video/UlmyyYQGhzc/w-d-xo.html
Vidéo de grande qualité !
Merci
Toujours passionnant et des résultats très intéressant ! Merci beaucoup !
Vidéo super claire, la présentation des figures de résultats était très bien faite. :)
Merci beaucoup ça fait très plaisir
Wao quelle pertinence !! Une justesse et une qualité remarquables merci beaucoup
Ca fait très plaisir merci 💪
Une des meilleures videos que j'ai pu voir sur le sujet. Bravo!
Merci !
Vos vidéos sont réellement excellentes! Merci beaucoup
Contenu extraordinaire ! Quelle qualité ! Quel didactisme! Waouw !
Un grand merci c'est très encourageant 🙏
merci beaucoup pour le contenu d'excellente qualité !
Toujours très bon. J'aime bien ce truc de review un papier, y en a pas mal de très intéressant qui sortent régulièrement. Après vu la qualité de la vidéo ça doit prendre un certains temps
Merci beaucoup. Oui j'aime bien ce concept aussi, je pense en faire de plus en plus (ça a l'air de pas mal plaire au niveau des comms/vues en plus)
Masterclass habituelle !
A quand la vidéo sur la compression des llm ?
Merci! Yes c'est toujours prévu, j'essaie de voir quand je vais pouvoir caler ça
Très cool ça
Video tout bonnement excellente
Super 👍, merci.
Superbe vidéo ! C'est génial de produire ce type de vidéo, j'ai adoré. Vous dites avoir entraîné un modèle utilisant le Difftransformer sur la tache HashHop : Est ce que votre code est accessible publiquement ? J'aimerai beaucoup en apprendre plus à ce sujet :-)
Merci beaucoup ça fait très plaisir! Oui le voici : github.com/alxndrTL/hash-hop-hub. Si jamais, voici aussi le blog qui a introduit la tâche début septembre : magic.dev/blog/100m-token-context-windows (un peu frustrant car ils parlent d'une nouvelle architecture "miracle" sans donner de détails...)
Great overview, do you ever plan on making English videos?
Ma question est peut être bête mais il est possible que la tête d'attention s'intéresse aux mots qui suivent ? C'est un choix d'architecture en fonction de la tache que l'on souhaite réaliser ? Sinon merci pour ton contenu qui vulgarise super bien tout en gardant les concepts mathématiques sous jacent.
oui cela dépend de ce que l'on fait, on ajoute des masques (causal mask pour ne pas prendre les mots qui suivent)
Merci ! Oui en effet comme le dit @janisaiad9505 c'est possible (par exemple il y a le PrefixLM qui le fait, ce blog résume pas mal de possibilités : pytorch.org/blog/flexattention/). Aussi pour les images par exemple ça n'a aucun intérêt de limiter l'attention, donc on ne met pas de masque
Excellente vidéo, c'est très clair, merci! Une idée d'où provient le bruit corrélé qui est donc retiré par cette procédure?
Perso je me dis que peut être que c'est le fait que la matrice V n'est plus multipliée par une matrice de valeurs normalisées qui aide.
Merci beaucoup !
Et bien en fait la multiplication par V intervient après cette histoire de bruit, non ? Ou alors tu parles de la couche d'avant ?
Pour la provenance du bruit, ça peut venir d'une sorte de """mauvaise calibration""" entre les produits scalaires qk ? Ce que je veux dire c'est que chaque qk est calculé indépendamment, donc un qk calculé pour un mot qui n'est pas intéressant doit être attribué comme petit, et un qk intéressant grand. Mais le modèle ne sait pas à quel point le qk grand est, donc il ne sait pas à quel point le qk petit doit être mis (puisque derrière il y a softmax qui tient compte des écarts relatifs). Je ne sais pas si c'est compréhensible ahah, et je ne sais pas non plus si c'est vrai, mais c'est comment je le vois
@@alexandretl V est multipliée à une matrice produite par un softmax en temps normal, donc la matrice softmax a des valeurs strictement positive en espérance. Avec la différence de softmax, l'espérance est de 0 logiquement, ce qui doit aider à avoir des gradients sparse et rendre l'apprentissage plus stable je pense.
Je crois que je vois ce que tu veux dire pour le bruit, effectivement c'est une façon intéressante de voir le truc.
@@Bencurlis Ok ouais d'accord je vois ton explication. J'avais mal compris à la première lecture.
L'important c'est que, toi, tu te comprennes !
On ne sait pas de quoi tu parles, comme si tout le monde connaissait les transformers depuis sa plus tendre enfance !!!
Il a réalisé une vidéo sur les transformers :
th-cam.com/video/46XbjplgwOw/w-d-xo.html
En gros c'est une architecture de réseau de neurones adaptée pour analyser du texte (même si ils peuvent traiter d'autres type de données).
Cette architecture a aussi l'avantage de pouvoir aisément être entrainer à l'aide de carte graphique (GPU), et donc de rendre l'entrainement des réseaux de neurones plus rapide.
Pour finir cette architecture utilise des mécanismes d'attention, ce sont des mécanismes qui aide à contextualiser un mot au sein d'un texte.
Les transformers sont à la base de la majorité des modèles de LLM qu'on utilise aujourd'hui, comme ChatGPT, Gemini, Claude, ...
@@TheRemiRODRIGUES
J'ai bien compris, mais pas grâce à ses explications, ce qui pose problème quand on fait une vidéo pédagogique !
@@ciaopeople9664 Je comprends ta frustration, mais comprends aussi la mienne : c'est assez compliqué pour moi de donner une explication de tout ce qui permet de la comprendre. Certaines personnes pensent que c'est trivial, la vidéo durerais 20 minutes, il y aurait beaucoup de répétition entre les vidéos etc.. Surtout quand j'ai déjà fait des vidéos spécialisées, voir des séries spécialisées, sur le sujet (en l'occurence le Transformer). Des chaînes comme ScienceEtonnantes n'ont pas ce problème car chaque vidéo traite d'un sujet presque totalement différent à chaque fois, donc là pourquoi pas. Mais moi il faudrait que je fasse des rappels de la même chose à chaque fois..
Aussi, par curiosité, j'ai quand même fait un gros rappel sur le mécanisme d'attention. Même sans savoir précisément ce qu'est un Transformer, avec ce rappel, on n'arrive quand même pas à comprendre la vidéo ?
J'ai quand même fait en sorte que ce soit plus compréhensible possible, l'attention c'est là où le modèle regarde, et on veut débruiter ça. Oui biensûr connaître le contexte Transformer aide, mais ce n'est pas le coeur de la vidéo non plus.
@@alexandretl
Désolé de te faire de la peine, mais tes vidéos sont incompréhensibles pour qui ne connait déjà pas un minimum le sujet ...
Et même quand c'est le cas, il y a beaucoup trop de sous-entendus implicites !
Si tu veux vraiment faire ces vidéos, très bien ! Mais tu ne dois pas le faire sans un minimum d'explications ou de renvois aux vidéos précédentes !
La règle d'or en pédagogie, on doit supposer que l'auditeur ne connait "rien" au sujet !
Et sans faire un cours complet, l'auditeur ne doit pas à avoir à combler trop de trous par lui-même !
Sans compter que contrairement à ScienceEtonnante, scienceClic, 3browns1blue, Pbs et Veritasium qui parlent de sujets très conceptuels, tout le monde a vu des transformers au cinéma ! 🤣
Je plaisante, bien sûr !
😊😊😊
@AlexandreTL En effet tes vidéos s’adressent à un public sensibilisé aux maths et avec une curiosité pour l’IA. C’est une tranche du public et c’est effectivement pas accessible aux néophytes, et trivial pour un expert. On peut pas s’adresser au monde entier et je trouve que tu gères très bien ton créneau pédagogique : les prémisses sont parfaitement claires et les conclusions sont éclairantes. Ça doit être frustrant de recevoir des commentaires comme le précédent mais je ne pense pas que cela veut dire que tu n’est pas didactique et pédagogue