Llama 3.1: разбор статьи. Часть 3. Pre-training

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ธ.ค. 2024

ความคิดเห็น • 4

  • @sergejskorohodov9201
    @sergejskorohodov9201 3 หลายเดือนก่อน +1

    Евгений, огромное спасибо за обзор статьи. Было очень полезно.
    Хорошего дня. Удачи во всём.

    • @razinkov
      @razinkov  3 หลายเดือนก่อน +1

      Спасибо, Сергей! Всегда рад видеть ваш комментарий

  • @ДмитрийЯковлев-у6ц
    @ДмитрийЯковлев-у6ц 3 หลายเดือนก่อน

    К вопросу о РЭНДОМ ФОРЕСТ: м. Б. Коллега имел в виду сам принцип? Из одинаковых линейных моделей нельзя создать ансамбль. Они схлопываются обратно в одну модель в ансамбле. Трансформер состоит из иатриц. И усреднение аутпутов не будет равно усреднению чекпоинтов?

    • @razinkov
      @razinkov  3 หลายเดือนก่อน

      Нет, не будет равно, потому что функция не линейная от весов