Les papiers de recherche publics qui sont (sûrement) en rapport avec l'entraînement suivi par o1: sur le côté entraînement : -ReFT: Reasoning with Reinforced Fine-Tuning (arxiv.org/abs/2401.08967) -Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning (arxiv.org/abs/2402.05808) sur le côté "inference scaling" : -Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org/abs/2407.21787v1) -Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org/abs/2408.03314) Petite précision aussi, c'est AlphaGo Zero qui s'entraîne à joueur contre lui-même, et non AlphaGo. Enfin, un retour d'expérience de quelqu'un qui a eu accès à o1 depuis quelques semaines : www.oneusefulthing.org/p/something-new-on-openais-strawberry
@@crocodil.13 non c'est pire en fait il appelait Claude en backend pour traiter les réponses, et les résultats annoncés (notamment sur GSM8K) était bidonnés
ah les c**.... mais quel interet?? C'est pas comercial ... juste le buzz? En attendant sur huggingface on peut se consoller avec PuLID-flux XD qui est en open source LUI🤣
Merci pour cette vidéo très intéressante! PS: j'ai passé 10 minutes en pause sur le message caché mais je n'ai rien trouvé. Je pensais que gpt nous donnerait la réponse (et j'étais décidée à me mesurer à lui!). Il y a un message caché finalement ? ;-)
Merci! Ahah oui il y en bien un, il faut regarder la première lettre des deuxièmes mots de chaque phrase (en fait je viens de me rendre compte que pour la première phrase c'est le 3e et non 2nd ça a pas du l'aidé). Mais j'ai gardé l'exemple car on le voit réfléchir pendant longtemps et à la fin il nous montre tout ce qu'il a essayé c'est pas mal
C'est vrai j'aurais pu en parler, après j'ai fait la vidéo en une aprem et ce qui m'a paru le plus important dans une courte vidéo c'était de parler des travaux d'AlphaGo
Grosse grosse question ça, qui en divise plus d'un. Ca dépend de ta définition de "raisonner". Certains disent déjà que finalement, il s'est juste entraîné à recopier les raisonnements humains vus pendant l'entraînement. Personnellement, je dirais que oui il raisonne, MAIS il arrive à le faire dans un cadre bien précis, sur des tâches bien précises aussi (par exemple, sur les puzzles visuels ARC, il n'est pas vraiment meilleurs que les autres LLMs)
J'aime beaucoup l'énigme du médecin, comment en voulant corriger des "biais" dans un LLM, on en incorpore de nouveaux qui les poussent à échouer à des tâches simples.
Ouais je l'ai mis pour ça, j'en avais un autre similaire. Sur X j'ai vu des exemples en anglais où il était convaincu que le médecin était trans pour absolument pas que ce soit un homme...
Les papiers de recherche publics qui sont (sûrement) en rapport avec l'entraînement suivi par o1:
sur le côté entraînement :
-ReFT: Reasoning with Reinforced Fine-Tuning (arxiv.org/abs/2401.08967)
-Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning (arxiv.org/abs/2402.05808)
sur le côté "inference scaling" :
-Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org/abs/2407.21787v1)
-Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org/abs/2408.03314)
Petite précision aussi, c'est AlphaGo Zero qui s'entraîne à joueur contre lui-même, et non AlphaGo.
Enfin, un retour d'expérience de quelqu'un qui a eu accès à o1 depuis quelques semaines : www.oneusefulthing.org/p/something-new-on-openais-strawberry
Merci beaucoup ! Toujours très clair et intéressant !
Il y a un petit problème de son (rien dans le canal de droite).
Oui problème avec Audacity..
@@alexandre-hallaine ah oui c'est vrai ça je vais essayer merci
Bonne présentation merci 👌
Hâte de voir un équivalent open weigts/source et pourquoi pas multi modal. À voir les applications que la communauté trouvera
Ik existe avec llama3 70b va sur hugging face! Ya meme 3 space avec!
yes! il y a quelques jours il y a eu Reflection 70B qui avait été entraîné à faire plus ou moins cela, mais c'était un scam...
@@alexandretl mais non??? C'est a dire? Ca avait l'aire de marcher un peu... préprompt caché? Je suis trop decuuu
@@crocodil.13 non c'est pire en fait il appelait Claude en backend pour traiter les réponses, et les résultats annoncés (notamment sur GSM8K) était bidonnés
ah les c**.... mais quel interet?? C'est pas comercial ... juste le buzz?
En attendant sur huggingface on peut se consoller avec PuLID-flux XD qui est en open source LUI🤣
Super ! Merci !
Super vidéo
Merci pour cette vidéo très intéressante!
PS: j'ai passé 10 minutes en pause sur le message caché mais je n'ai rien trouvé. Je pensais que gpt nous donnerait la réponse (et j'étais décidée à me mesurer à lui!). Il y a un message caché finalement ? ;-)
Merci! Ahah oui il y en bien un, il faut regarder la première lettre des deuxièmes mots de chaque phrase (en fait je viens de me rendre compte que pour la première phrase c'est le 3e et non 2nd ça a pas du l'aidé). Mais j'ai gardé l'exemple car on le voit réfléchir pendant longtemps et à la fin il nous montre tout ce qu'il a essayé c'est pas mal
un peu dommage de ne pas avoir abordé l'aspect système 1 vs système 2 dans la video, je pense que c'est le but de o1
C'est vrai j'aurais pu en parler, après j'ai fait la vidéo en une aprem et ce qui m'a paru le plus important dans une courte vidéo c'était de parler des travaux d'AlphaGo
Est ce qu'il raisone vraiment ou fait semblant?
Grosse grosse question ça, qui en divise plus d'un. Ca dépend de ta définition de "raisonner". Certains disent déjà que finalement, il s'est juste entraîné à recopier les raisonnements humains vus pendant l'entraînement. Personnellement, je dirais que oui il raisonne, MAIS il arrive à le faire dans un cadre bien précis, sur des tâches bien précises aussi (par exemple, sur les puzzles visuels ARC, il n'est pas vraiment meilleurs que les autres LLMs)
J'aime beaucoup l'énigme du médecin, comment en voulant corriger des "biais" dans un LLM, on en incorpore de nouveaux qui les poussent à échouer à des tâches simples.
Ouais je l'ai mis pour ça, j'en avais un autre similaire. Sur X j'ai vu des exemples en anglais où il était convaincu que le médecin était trans pour absolument pas que ce soit un homme...
Le son chef :(
pas de son !
On l’a copain
tu as pas l'air emballé :/
ahah si je le suis pourtant
Mec le son est à régler j'ai crus que c'était mes écouteurs
Oui je sais problème de config dans Audacity je m'en suis pas rendu compte