Cette vidéo fait partie d'une série de vidéos : th-cam.com/play/PLO5NqTx3Y6W6KkZHSzlvAQbJGQxrHErhx.html C'est un peu de temps à investir, mais si vous voulez avoir une bonne intuition ainsi qu'une bonne compréhension de ce que sont les réseaux de neurones, je vous conseille de vous accrocher
Vidéo passionnante. J'ai découvert ta chaine récemment et tu as également fait beaucoup de progrès en qualité et clarté d'expression orale, c'est flagrant par rapport aux vidéos d'il y a plusieurs années, bravo à toi.
De nouveau merci pour cette vidéo ! Une question pour vérifier si je comprends bien le principe Les fonctions f[k] (les fonctions d'une même couche) sont identiques ? c'est à dire que a une couche "k" est associe une fonction d'activation non linéaire et donc que les neuurones Zi[k] renvoient exactement la même chose si tous les wi,j sont identiques (prennons le pour tout i,j, winj = 1 ? ) Donc au final, ce qui différentie les "features calculés par les neuronnes" sont les wij initialement définis aléatoirement ? D'où la question suivante : La descente de gradiant , s'effectue pour retrouver les coefficients wi,j initiaux ? donc si j'ai 2 features et une première couche avec 2 unités/neur, on va au final optimiser les coefficients w1,1 , w1,2 , w2,1 et w2,2 quelque soit le nombre de couches jusqu'à la sortie ? Et à chaque individus " à prédire " on fait une forward propagation sur le réseaux qui n'est rien d'autre qu'une "composée de graphe de calculs" , avec une condiiton sur la valeur finale ? (j'imagine qu'on renvoie le résultats sous forme de proba pour décider avec >0.5? dans un cas à cible binaire )
Oui on applique la même fonction d'activation sur toute la couche. Donc effectivement si les w_i,j sont les mêmes les calculs de chaque neurones seront les mêmes. Je ne vois pas très bien ce que tu entends par "La descente de gradient , s'effectue pour retrouver les coefficients wi,j initiaux" mais non on n'essaie pas de retrouver les paramètres initiaux qui sont définis aléatoirement, mais plutôt de chercher les paramètres optimaux. "on va au final optimiser les coefficients w1,1 , w1,2 , w2,1 et w2,2 quelque soit le nombre de couches jusqu'à la sortie ?" oui chaque paramètre est optimisé indépendamment des autres pour la cible binaire on compare la probabilité de sortie du modèle avec 0 ou 1 en fonction de la vraie classe de la donnée. si la vraie classe est 1 et que le modèle donne une proba de 0.8, c'est pas mal, mais si il donne 0.1, c'est moins bien. c'est cette différence qui est le coût et dont on va prendre la dérivée par rapport à nos paramètres pour les optimiser et réduire cette différence. (note : le calcul du coût est un peu plus subtil que juste faire la différence mais dans l'esprit c'est ça, j'ai aussi fait une vidéo qui en parle)
@@alexandretl merci pour ta réponse ! Ma question sur les paramètres était très mal posée ! ( désolé ) Je voulais savoir si on ne cherchais qu’à optimiser les paramètres de la première couche mais en fait j’ai compris que non c’est tous . :)
Incroyable mais pour les néophytes comme moi qui débute en IA c'est pas une véritable vidéo d'introduction comme je m'y attendais mais je vais checker les autres vidéos mais par ou commencer
Cette vidéo fait partie d'une série de vidéos : th-cam.com/play/PLO5NqTx3Y6W6KkZHSzlvAQbJGQxrHErhx.html
C'est un peu de temps à investir, mais si vous voulez avoir une bonne intuition ainsi qu'une bonne compréhension de ce que sont les réseaux de neurones, je vous conseille de vous accrocher
Vidéo passionnante. J'ai découvert ta chaine récemment et tu as également fait beaucoup de progrès en qualité et clarté d'expression orale, c'est flagrant par rapport aux vidéos d'il y a plusieurs années, bravo à toi.
Merci beaucoup pour ton commentaire !
Vidéo très claire sur les réseaux de neurones, merci
Merci infiniment pour cette présentation
passionnant merci
Super maître merci beaucoup
La vidéo est super claire merci, tu peux mettre le lien de l'article dont tu parles stp ?
Merci! Le voici : www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
je suis tombé sur la vidéo au hasard mdrrrrrr, bravo Alex
Ahah merci
Super propre la vidéo ! Tu as utilisé Manim ?
Merci! Ouais 👍
Bonjour Monsieur
Je voulais savoir si c'est possible de faire le réseau de neurone avec le logiciel R
Si oui, comment procéder?
Bonjour, oui sûrement. Je ne connais pas R donc je ne pourrais pas vous aider, mais il doit y avoir des ressources sur internet.
De nouveau merci pour cette vidéo !
Une question pour vérifier si je comprends bien le principe
Les fonctions f[k] (les fonctions d'une même couche) sont identiques ? c'est à dire que a une couche "k" est associe une fonction d'activation non linéaire et donc que les neuurones Zi[k] renvoient exactement la même chose si tous les wi,j sont identiques (prennons le pour tout i,j, winj = 1 ? )
Donc au final, ce qui différentie les "features calculés par les neuronnes" sont les wij initialement définis aléatoirement ?
D'où la question suivante :
La descente de gradiant , s'effectue pour retrouver les coefficients wi,j initiaux ?
donc si j'ai 2 features et une première couche avec 2 unités/neur, on va au final optimiser les coefficients w1,1 , w1,2 , w2,1 et w2,2 quelque soit le nombre de couches jusqu'à la sortie ?
Et à chaque individus " à prédire " on fait une forward propagation sur le réseaux qui n'est rien d'autre qu'une "composée de graphe de calculs" , avec une condiiton sur la valeur finale ? (j'imagine qu'on renvoie le résultats sous forme de proba pour décider avec >0.5? dans un cas à cible binaire )
Oui on applique la même fonction d'activation sur toute la couche. Donc effectivement si les w_i,j sont les mêmes les calculs de chaque neurones seront les mêmes.
Je ne vois pas très bien ce que tu entends par "La descente de gradient , s'effectue pour retrouver les coefficients wi,j initiaux" mais non on n'essaie pas de retrouver les paramètres initiaux qui sont définis aléatoirement, mais plutôt de chercher les paramètres optimaux.
"on va au final optimiser les coefficients w1,1 , w1,2 , w2,1 et w2,2 quelque soit le nombre de couches jusqu'à la sortie ?" oui chaque paramètre est optimisé indépendamment des autres
pour la cible binaire on compare la probabilité de sortie du modèle avec 0 ou 1 en fonction de la vraie classe de la donnée. si la vraie classe est 1 et que le modèle donne une proba de 0.8, c'est pas mal, mais si il donne 0.1, c'est moins bien. c'est cette différence qui est le coût et dont on va prendre la dérivée par rapport à nos paramètres pour les optimiser et réduire cette différence. (note : le calcul du coût est un peu plus subtil que juste faire la différence mais dans l'esprit c'est ça, j'ai aussi fait une vidéo qui en parle)
@@alexandretl merci pour ta réponse !
Ma question sur les paramètres était très mal posée ! ( désolé )
Je voulais savoir si on ne cherchais qu’à optimiser les paramètres de la première couche mais en fait j’ai compris que non c’est tous . :)
Incroyable mais pour les néophytes comme moi qui débute en IA c'est pas une véritable vidéo d'introduction comme je m'y attendais mais je vais checker les autres vidéos mais par ou commencer
Oui en effet, cette vidéo fait partie de la série que tu peux retrouver ici : th-cam.com/play/PLO5NqTx3Y6W6KkZHSzlvAQbJGQxrHErhx.html
Tu peux commencer par la vidéo "L'apprentissage supervisé, c'est quoi ?"
cool
Hello l'explication est top, via quel logiciel tu fais ton motion pour expliquer les concepts ?
Merci! J'utilise manim, donc je scripte les animations en Python