【BERTによる自然言語処理入門#4】Seq2SeqとAttention

แชร์
ฝัง
  • เผยแพร่เมื่อ 11 พ.ย. 2024

ความคิดเห็น • 13

  • @kineo68
    @kineo68 ปีที่แล้ว +1

    この動画を見て、Attentionの仕組みがようやくわかりました。
    ありがとうございます

  • @ぴっぴ-d9i
    @ぴっぴ-d9i ปีที่แล้ว +1

    4:49 当たりで質問です。
    Iを出力するときにはLSTM(h5,emb("eos")) = h6 → (線形変換とソフトマックス) → "I" という流れなのはわかりました。
    しかしloveを出力するときが微妙にもやもやしていて、LSTM(h6,emb("I")) =h7 → (線形変換とソフトマックス) → "love" とするとのことですが、
    h6 = emb("I")というわけではないのですか?一度h6を"I"に直して再度埋め込みをしてLSTMの引数に入れたほうが関数が再帰的になって楽というのはわかりましたが、ぶっちゃけh6だけで推論できそうで、Iを再度埋め込みする必要ないのでは?と思いました。
    それともh6とemb("I")は別物なのでしょうか?

    • @dken
      @dken  ปีที่แล้ว

      h6とemb("I")は別物です!
      h6は、日本語+eosの情報を持ったベクトルであり、emb("I")はIを持ったベクトルです!

    • @ぴっぴ-d9i
      @ぴっぴ-d9i ปีที่แล้ว +1

      @@dkenなるほど!はっきり分かったので助かります!
      行間少なくてとても分かりやすいのでいい動画ですね!

  • @わかさぎフォーティン
    @わかさぎフォーティン 9 หลายเดือนก่อน +1

    7:53
    Attentionが各層独立に計算できることは分かりましたが、予測時はその入力となる~h0, ... ~h5を直前のLSTM層から出力するのに、前のtokenが出力されるのを待たないといけないと思うのですがどうでしょうか?

    • @dken
      @dken  8 หลายเดือนก่อน

      そうですね、LSTMの層は待たないといけなくなりますね。
      ゆえに、transformerではLSTMの層を排除してattention層のみを利用したのだと思います!

  • @ねこじぞう-i6v
    @ねこじぞう-i6v 9 หลายเดือนก่อน +1

    出力であるはずのI love you so much が入力とされているのはなぜですか?
    出力されるものがDecoderに入れる前からわかっているというのはどういうことですか?

    • @dken
      @dken  9 หลายเดือนก่อน

      デコーダーでは、一文字前のtokenを入力にして次のtokenを出力しているので、入れる前からわかっているわけではありません!

    • @ねこじぞう-i6v
      @ねこじぞう-i6v 9 หลายเดือนก่อน +2

      @@dken 解説ありがとうございます!
      一文字前の出力が決まってから次の文字の処理が始まるって言うことですか?

    • @dken
      @dken  9 หลายเดือนก่อน

      @user-or2mr6cx7d
      予測時はそうだと思います!
      学習時は答えがあり全部一気にできるので

    • @ねこじぞう-i6v
      @ねこじぞう-i6v 9 หลายเดือนก่อน

      @@dken 丁寧に解説ありがとうございます!

  • @aoyudai-6236
    @aoyudai-6236 ปีที่แล้ว +1

    大学院では何の研究をしてらっしゃるんですか?

    • @dken
      @dken  ปีที่แล้ว

      画像生成に関する研究を行っています!