Llama 3.1: разбор статьи. Часть 6. Post-training data

Llama 3.1: разбор статьи. Часть 8. Multilinguality & Reasoning

Llama 3.1: разбор статьи. Часть 3. Pre-training

HIGHLIGHTS : Singapore 2-4 Thailand | ASEAN Championship 2024 | 17.12.24

ทัวร์สตรีมเมอร์ ROV รอบชิงชนะเลิศ | ชิงเงินรางวัลรวม 25,000 บาท

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

Llama 3.1: разбор статьи. Часть 5. DPO.

Евгений Разинков

มุมมอง 461

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 18 ธ.ค. 2024

ความคิดเห็น • 8

@sergejskorohodov9201 3 หลายเดือนก่อน
Евгений, спасибо за разбор.
Взяло время несколько раз пересмотреть. Не всё ложится сходу. Но в результате всё стало понятно.
Тобою проделана большая работа. Это очень полезно.
Ждём продолжения.
Хорошего дня.
@razinkov 3 หลายเดือนก่อน
Спасибо, Сергей!
@irinakrivichenko7824 3 หลายเดือนก่อน
Евгений, благодарю!
Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO?
P.S. курсор на ютубе виден ;)
@razinkov 3 หลายเดือนก่อน
Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос?
P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)
@irinakrivichenko7824 3 หลายเดือนก่อน
@@razinkov
RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми.
В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку.
P.s. да , соответствует
@razinkov 3 หลายเดือนก่อน
@@irinakrivichenko7824 DPO эту же проблему решает, как я понимаю. Модель наград там ведь тоже есть, просто неявная.
@irinakrivichenko7824 3 หลายเดือนก่อน ⁺¹
Кажется я разобралась.
Обозначения:
x - это входной запрос(инструкция), на который модель должна ответить.
y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ.
π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса.
θ - индекс для обучаемой модели
ref - индекс для рефересной модели
В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели.
DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели.
Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.

ต่อไป

เล่นอัตโนมัติ

Llama 3.1: разбор статьи. Часть 6. Post-training data

Llama 3.1: разбор статьи. Часть 6. Post-training data

Llama 3.1: разбор статьи. Часть 8. Multilinguality & Reasoning

Llama 3.1: разбор статьи. Часть 8. Multilinguality & Reasoning

Llama 3.1: разбор статьи. Часть 3. Pre-training

Llama 3.1: разбор статьи. Часть 3. Pre-training

HIGHLIGHTS : Singapore 2-4 Thailand | ASEAN Championship 2024 | 17.12.24

HIGHLIGHTS : Singapore 2-4 Thailand | ASEAN Championship 2024 | 17.12.24

ทัวร์สตรีมเมอร์ ROV รอบชิงชนะเลิศ | ชิงเงินรางวัลรวม 25,000 บาท

ทัวร์สตรีมเมอร์ ROV รอบชิงชนะเลิศ | ชิงเงินรางวัลรวม 25,000 บาท

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

ถ้าม้าโดนแกล้งที่โรงเรียน ม้าจะฟ้องครูว่าอะไร #แต้มเซน #การ์ตูน #tamzen #ตลก #shortvideo #การ์ตูน

Uyurken Kendimi Kurtçukların Arasında Buldum🤯😬🪱

Uyurken Kendimi Kurtçukların Arasında Buldum🤯😬🪱

Llama 3.1: разбор статьи. Часть 9. Long context & Tool use

Llama 3.1: разбор статьи. Часть 9. Long context & Tool use

почему нулевой фосфор в окислительно восстановительных реакциях даёт степень окисления плюс три ?

почему нулевой фосфор в окислительно восстановительных реакциях даёт степень окисления плюс три ?

Llama 3.1: разбор статьи. Часть 7. Capabilities: code generation

Llama 3.1: разбор статьи. Часть 7. Capabilities: code generation

Llama 3.1: разбор статьи. Часть 4. Reward modeling & SFT

Llama 3.1: разбор статьи. Часть 4. Reward modeling & SFT

Llama 3.1: разбор статьи. Часть 10. Factuality & Steerability

Llama 3.1: разбор статьи. Часть 10. Factuality & Steerability

Вода - что это? Базовое, углублённое и профильное объяснения

Вода - что это? Базовое, углублённое и профильное объяснения

Llama 3.1: разбор статьи. Часть 1.Intro & Data mix

Llama 3.1: разбор статьи. Часть 1.Intro & Data mix

Llama 3.1: разбор статьи. Часть 2. Architecture & Scaling laws.

Llama 3.1: разбор статьи. Часть 2. Architecture & Scaling laws.

LLM. Лекция 28.

LLM. Лекция 28.

แพนด้าจะไม่ทน #cartoon #cartoonnetwork #short

แพนด้าจะไม่ทน #cartoon #cartoonnetwork #short

วาทะลูกหนังขอเสนอ"แมนเชสเตอร์ ซิตี้ VS แมนเชสเตอร์ ยูไนเต็ด หลังเกม เรือใบสีฟ้าแพ้ปีศาจแดงคาบ้าน"

วาทะลูกหนังขอเสนอ"แมนเชสเตอร์ ซิตี้ VS แมนเชสเตอร์ ยูไนเต็ด หลังเกม เรือใบสีฟ้าแพ้ปีศาจแดงคาบ้าน"

กินขนมมั้ยจ้ะน้อง หนมน้า😝

กินขนมมั้ยจ้ะน้อง หนมน้า😝

#อึ้ง!เหลือจะเชื่อ!ไทยพลิกนรกดับสิงคโปร์คาบ้าน ทะลุเข้ารอบรองชนะเลิศ! คารวะอิชิอิโคตรการเปลี่ยนแปลง!

#อึ้ง!เหลือจะเชื่อ!ไทยพลิกนรกดับสิงคโปร์คาบ้าน ทะลุเข้ารอบรองชนะเลิศ! คารวะอิชิอิโคตรการเปลี่ยนแปลง!

总算是用上情侣手机壳了 #玩一种很新的东西 #手机壳 #情侣

总算是用上情侣手机壳了 #玩一种很新的东西 #手机壳 #情侣

ใครคือฆาตกรตัวจริง ?! EP.11 (ver. คืนคริสมาสต์ สุดสยอง !!!

ใครคือฆาตกรตัวจริง ?! EP.11 (ver. คืนคริสมาสต์ สุดสยอง !!!

#โด่งดัง!ญี่ปุ่นซูฮก บอลอาเซียนเร้าใจ!! โค๊ชสิงคโปร์พูดแบบนี้ถึงไทย!! มาเลย์ขอบคุณไทยที่ให้ชีวิต..?

#โด่งดัง!ญี่ปุ่นซูฮก บอลอาเซียนเร้าใจ!! โค๊ชสิงคโปร์พูดแบบนี้ถึงไทย!! มาเลย์ขอบคุณไทยที่ให้ชีวิต..?

Highlight : นายใหญ่ฉุนใคร?

Highlight : นายใหญ่ฉุนใคร?