Евгений, спасибо за разбор. Взяло время несколько раз пересмотреть. Не всё ложится сходу. Но в результате всё стало понятно. Тобою проделана большая работа. Это очень полезно. Ждём продолжения. Хорошего дня.
Евгений, благодарю! Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO? P.S. курсор на ютубе виден ;)
Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос? P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)
@@razinkov RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми. В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку. P.s. да , соответствует
Кажется я разобралась. Обозначения: x - это входной запрос(инструкция), на который модель должна ответить. y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ. π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса. θ - индекс для обучаемой модели ref - индекс для рефересной модели В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели. DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели. Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.
Евгений, спасибо за разбор.
Взяло время несколько раз пересмотреть. Не всё ложится сходу. Но в результате всё стало понятно.
Тобою проделана большая работа. Это очень полезно.
Ждём продолжения.
Хорошего дня.
Спасибо, Сергей!
Евгений, благодарю!
Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO?
P.S. курсор на ютубе виден ;)
Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос?
P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)
@@razinkov
RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми.
В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку.
P.s. да , соответствует
@@irinakrivichenko7824 DPO эту же проблему решает, как я понимаю. Модель наград там ведь тоже есть, просто неявная.
Кажется я разобралась.
Обозначения:
x - это входной запрос(инструкция), на который модель должна ответить.
y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ.
π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса.
θ - индекс для обучаемой модели
ref - индекс для рефересной модели
В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели.
DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели.
Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.