OpenAI o1 : pourquoi c'est important

แชร์
ฝัง
  • เผยแพร่เมื่อ 6 ก.พ. 2025

ความคิดเห็น • 29

  • @alexandretl
    @alexandretl  4 หลายเดือนก่อน +4

    Les papiers de recherche publics qui sont (sûrement) en rapport avec l'entraînement suivi par o1:
    sur le côté entraînement :
    -ReFT: Reasoning with Reinforced Fine-Tuning (arxiv.org/abs/2401.08967)
    -Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning (arxiv.org/abs/2402.05808)
    sur le côté "inference scaling" :
    -Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org/abs/2407.21787v1)
    -Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org/abs/2408.03314)
    Petite précision aussi, c'est AlphaGo Zero qui s'entraîne à joueur contre lui-même, et non AlphaGo.
    Enfin, un retour d'expérience de quelqu'un qui a eu accès à o1 depuis quelques semaines : www.oneusefulthing.org/p/something-new-on-openais-strawberry

  • @jgcb0071
    @jgcb0071 4 หลายเดือนก่อน +1

    Merci beaucoup ! Toujours très clair et intéressant !

  • @stephaneduhamel7706
    @stephaneduhamel7706 4 หลายเดือนก่อน +20

    Il y a un petit problème de son (rien dans le canal de droite).

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +3

      Oui problème avec Audacity..

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน

      @@alexandre-hallaine ah oui c'est vrai ça je vais essayer merci

  • @delec9665
    @delec9665 4 หลายเดือนก่อน

    Bonne présentation merci 👌

  • @bause6182
    @bause6182 4 หลายเดือนก่อน +2

    Hâte de voir un équivalent open weigts/source et pourquoi pas multi modal. À voir les applications que la communauté trouvera

    • @crocodil.13
      @crocodil.13 4 หลายเดือนก่อน

      Ik existe avec llama3 70b va sur hugging face! Ya meme 3 space avec!

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +2

      yes! il y a quelques jours il y a eu Reflection 70B qui avait été entraîné à faire plus ou moins cela, mais c'était un scam...

    • @crocodil.13
      @crocodil.13 4 หลายเดือนก่อน +1

      @@alexandretl mais non??? C'est a dire? Ca avait l'aire de marcher un peu... préprompt caché? Je suis trop decuuu

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +1

      @@crocodil.13 non c'est pire en fait il appelait Claude en backend pour traiter les réponses, et les résultats annoncés (notamment sur GSM8K) était bidonnés

    • @crocodil.13
      @crocodil.13 4 หลายเดือนก่อน

      ah les c**.... mais quel interet?? C'est pas comercial ... juste le buzz?
      En attendant sur huggingface on peut se consoller avec PuLID-flux XD qui est en open source LUI🤣

  • @許樂山-q5d
    @許樂山-q5d 4 หลายเดือนก่อน

    Super ! Merci !

  • @atha5469
    @atha5469 4 หลายเดือนก่อน

    Super vidéo

  • @Fanny10000
    @Fanny10000 4 หลายเดือนก่อน

    Merci pour cette vidéo très intéressante!
    PS: j'ai passé 10 minutes en pause sur le message caché mais je n'ai rien trouvé. Je pensais que gpt nous donnerait la réponse (et j'étais décidée à me mesurer à lui!). Il y a un message caché finalement ? ;-)

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +1

      Merci! Ahah oui il y en bien un, il faut regarder la première lettre des deuxièmes mots de chaque phrase (en fait je viens de me rendre compte que pour la première phrase c'est le 3e et non 2nd ça a pas du l'aidé). Mais j'ai gardé l'exemple car on le voit réfléchir pendant longtemps et à la fin il nous montre tout ce qu'il a essayé c'est pas mal

  • @AurL_69
    @AurL_69 4 หลายเดือนก่อน +1

    un peu dommage de ne pas avoir abordé l'aspect système 1 vs système 2 dans la video, je pense que c'est le but de o1

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +1

      C'est vrai j'aurais pu en parler, après j'ai fait la vidéo en une aprem et ce qui m'a paru le plus important dans une courte vidéo c'était de parler des travaux d'AlphaGo

  • @IronZk
    @IronZk 4 หลายเดือนก่อน

    Est ce qu'il raisone vraiment ou fait semblant?

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน

      Grosse grosse question ça, qui en divise plus d'un. Ca dépend de ta définition de "raisonner". Certains disent déjà que finalement, il s'est juste entraîné à recopier les raisonnements humains vus pendant l'entraînement. Personnellement, je dirais que oui il raisonne, MAIS il arrive à le faire dans un cadre bien précis, sur des tâches bien précises aussi (par exemple, sur les puzzles visuels ARC, il n'est pas vraiment meilleurs que les autres LLMs)

  • @H6c6PlpM
    @H6c6PlpM 4 หลายเดือนก่อน

    J'aime beaucoup l'énigme du médecin, comment en voulant corriger des "biais" dans un LLM, on en incorpore de nouveaux qui les poussent à échouer à des tâches simples.

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน +1

      Ouais je l'ai mis pour ça, j'en avais un autre similaire. Sur X j'ai vu des exemples en anglais où il était convaincu que le médecin était trans pour absolument pas que ce soit un homme...

  • @Mak-Henry
    @Mak-Henry 4 หลายเดือนก่อน

    Le son chef :(

  • @lelouch1722
    @lelouch1722 4 หลายเดือนก่อน

    pas de son !

    • @MoiFust
      @MoiFust 4 หลายเดือนก่อน

      On l’a copain

  • @bossgd100
    @bossgd100 4 หลายเดือนก่อน

    tu as pas l'air emballé :/

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน

      ahah si je le suis pourtant

  • @alainfocom
    @alainfocom 4 หลายเดือนก่อน

    Mec le son est à régler j'ai crus que c'était mes écouteurs

    • @alexandretl
      @alexandretl  4 หลายเดือนก่อน

      Oui je sais problème de config dans Audacity je m'en suis pas rendu compte