Llama 3.1: разбор статьи. Часть 5. DPO.

แชร์
ฝัง
  • เผยแพร่เมื่อ 15 ก.ย. 2024

ความคิดเห็น • 5

  • @irinakrivichenko7824
    @irinakrivichenko7824 11 วันที่ผ่านมา

    Евгений, благодарю!
    Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO?
    P.S. курсор на ютубе виден ;)

    • @razinkov
      @razinkov  9 วันที่ผ่านมา

      Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос?
      P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)

    • @irinakrivichenko7824
      @irinakrivichenko7824 9 วันที่ผ่านมา

      ​@@razinkov
      RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми.
      В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку.
      P.s. да , соответствует

    • @razinkov
      @razinkov  9 วันที่ผ่านมา

      @@irinakrivichenko7824 DPO эту же проблему решает, как я понимаю. Модель наград там ведь тоже есть, просто неявная.

    • @irinakrivichenko7824
      @irinakrivichenko7824 8 วันที่ผ่านมา

      ​Кажется я разобралась.
      Обозначения:
      x - это входной запрос(инструкция), на который модель должна ответить.
      y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ.
      π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса.
      θ - индекс для обучаемой модели
      ref - индекс для рефересной модели
      В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели.
      DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели.
      Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.