Doctorando te explica el origen de la capa de atención en los LLM

แชร์
ฝัง
  • เผยแพร่เมื่อ 30 พ.ย. 2024

ความคิดเห็น • 1

  • @learnwithaali
    @learnwithaali  3 หลายเดือนก่อน +1

    Capa de Atención: La capa de atención procesa la entrada y produce una salida que representa la información ponderada de diferentes partes de la secuencia de entrada.
    MLP: La salida de la capa de atención se alimenta a un MLP, que es una red neuronal simple con al menos una capa oculta. El MLP aplica transformaciones no lineales a la salida de la atención.
    Concatenación: La salida del MLP se concatena con la salida original de la capa de atención. Esto permite que la red combine la información ponderada de la atención con las características aprendidas por el MLP.
    Normalización y Capa Residual: La concatenación se normaliza y luego se suma a la entrada original de la capa de atención a través de una conexión residual. Esto ayuda a estabilizar el entrenamiento y permite que la red aprenda características más complejas.