Llama 3.1: разбор статьи. Часть 6. Post-training data

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ธ.ค. 2024

ความคิดเห็น • 8

  • @irinakrivichenko7824
    @irinakrivichenko7824 3 หลายเดือนก่อน

    Евгений, благодарю за лекцию!
    P.s. курсор один, он виден и находится там, где надо

    • @razinkov
      @razinkov  3 หลายเดือนก่อน +1

      Спасибо, что смотрите) И за помощь с локализацией курсора :)

  • @alkenkurmanov9339
    @alkenkurmanov9339 3 หลายเดือนก่อน

    Отличная лекция. Очень информативно

  • @ИванЖарский-к9э
    @ИванЖарский-к9э 2 หลายเดือนก่อน +1

    Semantic deduplication напомнил NMS в object detection, только сравниваем не по IoU, а по CosSim

    • @razinkov
      @razinkov  2 หลายเดือนก่อน

      Нравится Ваша ассоциация)

  • @alexm6879
    @alexm6879 2 หลายเดือนก่อน +1

    RoBERTa обучалась вроде только на MLM и CLS специально не использовался, так что он не обучен на получение вектора всего предложения. Так что скорее они получали общий вектор не через CLS.

    • @razinkov
      @razinkov  2 หลายเดือนก่อน

      Вы правы, спасибо. Тогда возможный вариант: усреднение полученных из RoBERTa векторных представлений для всех токенов предложения.

  • @ИванЖарский-к9э
    @ИванЖарский-к9э 2 หลายเดือนก่อน

    Курсор там, где нужно)