DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement

Qu'est-ce que le Mixture of Experts (MoE) ?

Tableaux HTML - Partie 2

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

ผู้หญิงแต่งงานกับขอทาน แต่กลับถูกดูหมิ่น ในที่สุดชายขเทานก็เผยตัวตย#ละครหวานๆ#ชอบ

ทัวร์สตรีมเมอร์ ROV ชิงเงินรางวัลรวม 25,000 บาท 8 ทีม : รอบ 8 ทีม

OpenAI o1 : pourquoi c'est important

Alexandre TL

มุมมอง 5 098

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 6 ก.พ. 2025

ความคิดเห็น • 29

@alexandretl 4 หลายเดือนก่อน ⁺⁴
Les papiers de recherche publics qui sont (sûrement) en rapport avec l'entraînement suivi par o1:
sur le côté entraînement :
-ReFT: Reasoning with Reinforced Fine-Tuning (arxiv.org/abs/2401.08967)
-Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning (arxiv.org/abs/2402.05808)
sur le côté "inference scaling" :
-Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org/abs/2407.21787v1)
-Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org/abs/2408.03314)
Petite précision aussi, c'est AlphaGo Zero qui s'entraîne à joueur contre lui-même, et non AlphaGo.
Enfin, un retour d'expérience de quelqu'un qui a eu accès à o1 depuis quelques semaines : www.oneusefulthing.org/p/something-new-on-openais-strawberry
@jgcb0071 4 หลายเดือนก่อน ⁺¹
Merci beaucoup ! Toujours très clair et intéressant !
@stephaneduhamel7706 4 หลายเดือนก่อน ⁺²⁰
Il y a un petit problème de son (rien dans le canal de droite).
@alexandretl 4 หลายเดือนก่อน ⁺³
Oui problème avec Audacity..
@alexandretl 4 หลายเดือนก่อน
@@alexandre-hallaine ah oui c'est vrai ça je vais essayer merci
@delec9665 4 หลายเดือนก่อน
Bonne présentation merci 👌
@bause6182 4 หลายเดือนก่อน ⁺²
Hâte de voir un équivalent open weigts/source et pourquoi pas multi modal. À voir les applications que la communauté trouvera
@crocodil.13 4 หลายเดือนก่อน
Ik existe avec llama3 70b va sur hugging face! Ya meme 3 space avec!
@alexandretl 4 หลายเดือนก่อน ⁺²
yes! il y a quelques jours il y a eu Reflection 70B qui avait été entraîné à faire plus ou moins cela, mais c'était un scam...
@crocodil.13 4 หลายเดือนก่อน ⁺¹
@@alexandretl mais non??? C'est a dire? Ca avait l'aire de marcher un peu... préprompt caché? Je suis trop decuuu
@alexandretl 4 หลายเดือนก่อน ⁺¹
@@crocodil.13 non c'est pire en fait il appelait Claude en backend pour traiter les réponses, et les résultats annoncés (notamment sur GSM8K) était bidonnés
@crocodil.13 4 หลายเดือนก่อน
ah les c**.... mais quel interet?? C'est pas comercial ... juste le buzz?
En attendant sur huggingface on peut se consoller avec PuLID-flux XD qui est en open source LUI🤣
@許樂山-q5d 4 หลายเดือนก่อน
Super ! Merci !
@atha5469 4 หลายเดือนก่อน
Super vidéo
@Fanny10000 4 หลายเดือนก่อน
Merci pour cette vidéo très intéressante!
PS: j'ai passé 10 minutes en pause sur le message caché mais je n'ai rien trouvé. Je pensais que gpt nous donnerait la réponse (et j'étais décidée à me mesurer à lui!). Il y a un message caché finalement ? ;-)
@alexandretl 4 หลายเดือนก่อน ⁺¹
Merci! Ahah oui il y en bien un, il faut regarder la première lettre des deuxièmes mots de chaque phrase (en fait je viens de me rendre compte que pour la première phrase c'est le 3e et non 2nd ça a pas du l'aidé). Mais j'ai gardé l'exemple car on le voit réfléchir pendant longtemps et à la fin il nous montre tout ce qu'il a essayé c'est pas mal
@AurL_69 4 หลายเดือนก่อน ⁺¹
un peu dommage de ne pas avoir abordé l'aspect système 1 vs système 2 dans la video, je pense que c'est le but de o1
@alexandretl 4 หลายเดือนก่อน ⁺¹
C'est vrai j'aurais pu en parler, après j'ai fait la vidéo en une aprem et ce qui m'a paru le plus important dans une courte vidéo c'était de parler des travaux d'AlphaGo
@IronZk 4 หลายเดือนก่อน
Est ce qu'il raisone vraiment ou fait semblant?
@alexandretl 4 หลายเดือนก่อน
Grosse grosse question ça, qui en divise plus d'un. Ca dépend de ta définition de "raisonner". Certains disent déjà que finalement, il s'est juste entraîné à recopier les raisonnements humains vus pendant l'entraînement. Personnellement, je dirais que oui il raisonne, MAIS il arrive à le faire dans un cadre bien précis, sur des tâches bien précises aussi (par exemple, sur les puzzles visuels ARC, il n'est pas vraiment meilleurs que les autres LLMs)
@H6c6PlpM 4 หลายเดือนก่อน
J'aime beaucoup l'énigme du médecin, comment en voulant corriger des "biais" dans un LLM, on en incorpore de nouveaux qui les poussent à échouer à des tâches simples.
@alexandretl 4 หลายเดือนก่อน ⁺¹
Ouais je l'ai mis pour ça, j'en avais un autre similaire. Sur X j'ai vu des exemples en anglais où il était convaincu que le médecin était trans pour absolument pas que ce soit un homme...
@Mak-Henry 4 หลายเดือนก่อน
Le son chef :(
@lelouch1722 4 หลายเดือนก่อน
pas de son !
@MoiFust 4 หลายเดือนก่อน
On l’a copain
@bossgd100 4 หลายเดือนก่อน
tu as pas l'air emballé :/
@alexandretl 4 หลายเดือนก่อน
ahah si je le suis pourtant
@alainfocom 4 หลายเดือนก่อน
Mec le son est à régler j'ai crus que c'était mes écouteurs
@alexandretl 4 หลายเดือนก่อน
Oui je sais problème de config dans Audacity je m'en suis pas rendu compte

ต่อไป

เล่นอัตโนมัติ

DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement

DeepSeek-R1 🐳 : le retour de l'apprentissage par renforcement

Qu'est-ce que le Mixture of Experts (MoE) ?

Qu'est-ce que le Mixture of Experts (MoE) ?

Tableaux HTML - Partie 2

Tableaux HTML - Partie 2

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

ผู้หญิงแต่งงานกับขอทาน แต่กลับถูกดูหมิ่น ในที่สุดชายขเทานก็เผยตัวตย#ละครหวานๆ#ชอบ

ผู้หญิงแต่งงานกับขอทาน แต่กลับถูกดูหมิ่น ในที่สุดชายขเทานก็เผยตัวตย#ละครหวานๆ#ชอบ

ทัวร์สตรีมเมอร์ ROV ชิงเงินรางวัลรวม 25,000 บาท 8 ทีม : รอบ 8 ทีม

ทัวร์สตรีมเมอร์ ROV ชิงเงินรางวัลรวม 25,000 บาท 8 ทีม : รอบ 8 ทีม

คุณอยากเรียนเวลาไหนทุกวันไปตลอดชีวิต? เลือกเลย!

คุณอยากเรียนเวลาไหนทุกวันไปตลอดชีวิต? เลือกเลย!

Faire de l’argent en tant que développeur : la réalité

Faire de l’argent en tant que développeur : la réalité

Le bilan de l'IA en 2024

Le bilan de l'IA en 2024

Comprendre comment fine tune un LLM en 30 minutes!

Comprendre comment fine tune un LLM en 30 minutes!

Vous devriez changer de navigateur internet

Vous devriez changer de navigateur internet

Ex-Google CEOs Statement on 2025 AI Is Stunning...

Ex-Google CEOs Statement on 2025 AI Is Stunning...

OpenAI dévoile ORION : "L'IA la plus dangereuse jamais créée..."

OpenAI dévoile ORION : "L'IA la plus dangereuse jamais créée..."

Pourquoi Apple et Tesla ont peur de ce génie?

Pourquoi Apple et Tesla ont peur de ce génie?

2 expériences (a priori) contradictoires sur les LLMs

2 expériences (a priori) contradictoires sur les LLMs

J'ai débridé le nouveau ChatGPT o1 - c'est une TUERIE !

J'ai débridé le nouveau ChatGPT o1 — c'est une TUERIE !

Mache leckere Lutscher mit diesem PRO-Gadget! 🚽🍭

Mache leckere Lutscher mit diesem PRO-Gadget! 🚽🍭

ช้างศึกโดนก่อน ไล่ยิงคืนสิงคโปร์ ทะลุน็อคเอาท์

ช้างศึกโดนก่อน ไล่ยิงคืนสิงคโปร์ ทะลุน็อคเอาท์

Highlight : นายใหญ่ฉุนใคร?

Highlight : นายใหญ่ฉุนใคร?

ไทยพลิกแซงสิงคโปร์ 2-4! อาเซียนยกเป็นแมตช์สุดมันส์!! เหงียนชมดูไทยเล่นสนุกจริง!

ไทยพลิกแซงสิงคโปร์ 2-4! อาเซียนยกเป็นแมตช์สุดมันส์!! เหงียนชมดูไทยเล่นสนุกจริง!

คุณอยากเรียนเวลาไหนทุกวันไปตลอดชีวิต? เลือกเลย!

คุณอยากเรียนเวลาไหนทุกวันไปตลอดชีวิต? เลือกเลย!

แมนยู Corner : คุยหลังเกม แมนฯซิตี้ 1-2 แมนฯยู ชัยชนะมาจากอโมริมกล้าตัด แรชฟอร์ด , การ์นาโช

แมนยู Corner : คุยหลังเกม แมนฯซิตี้ 1-2 แมนฯยู ชัยชนะมาจากอโมริมกล้าตัด แรชฟอร์ด , การ์นาโช

BABYMONSTER - 'Love In My Heart' M/V

BABYMONSTER - 'Love In My Heart' M/V

Live! ถ่ายทอดสดหวย ถ่ายทอดสดการออกรางวัลสลากกินแบ่งรัฐบาล งวดวันที่ 16 ธันวาคม 2567

Live! ถ่ายทอดสดหวย ถ่ายทอดสดการออกรางวัลสลากกินแบ่งรัฐบาล งวดวันที่ 16 ธันวาคม 2567