Explicando o Multi-head Attention no modelo Transformer | Deep Learning e NLP | Leonardo Ribeiro

แชร์
ฝัง
  • เผยแพร่เมื่อ 31 ต.ค. 2024

ความคิดเห็น • 9

  • @rennan4403
    @rennan4403 ปีที่แล้ว

    Muito obrigado, Leo. trazendo muita luz á "caixa preta" dos transformers.

  • @bonadio60
    @bonadio60 ปีที่แล้ว

    Excelente explicação!!!

  •  4 ปีที่แล้ว +3

    Obrigado por contribuir em tirar o pó mágico dos Transformers.

    • @AprendizdoFuturo
      @AprendizdoFuturo  4 ปีที่แล้ว +1

      Olá Matheus, obrigado pelo seu comentário! Estou tentando tirar um pouco da magia dos modelos neurais. Espero que eu esteja conseguindo explicá-los de uma forma clara. Um grande abraço! 🚀🚀

  • @DiogodeFreitasRibeiro
    @DiogodeFreitasRibeiro 3 ปีที่แล้ว +2

    Acho q um multi-head attention pode ser entendido como um ensemble de self-attentions, ou seja, um cômite de vários self-attentions, cada um com sua interpretação sobre as palavras na sentença.

  • @manodorgas
    @manodorgas 4 ปีที่แล้ว +1

    Não aparece o link pro primeiro video

    • @AprendizdoFuturo
      @AprendizdoFuturo  4 ปีที่แล้ว

      Olá Douglas, obrigado pelo feedback! Aqui está o link do primeiro vídeo: th-cam.com/video/9pEUkg_VHqg/w-d-xo.html . Também atualizei a descrição deste vídeo com o link. Um grande abraço!! 🚀🚀

  • @Kevin-fp6gk
    @Kevin-fp6gk 3 ปีที่แล้ว +1

    Nunca consigo entender isso de Q,K V. São matrizes fixas ?

    • @AprendizdoFuturo
      @AprendizdoFuturo  3 ปีที่แล้ว

      Olá Kevin! Q, K e V são matrizes de parâmetros, que são aprendidos durante o treinamento. Você terá essas 3 matrizes para cada head de cada self-attention de cada camada do Encoder. Similarmente, você terá essas 3 matrizes para cada head de cada self- and -cross attention de cada camada do Decoder! São muitos parâmetros! Um abraço! 🚀🚀