ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
この動画を見て、Attentionの仕組みがようやくわかりました。ありがとうございます
4:49 当たりで質問です。Iを出力するときにはLSTM(h5,emb("eos")) = h6 → (線形変換とソフトマックス) → "I" という流れなのはわかりました。しかしloveを出力するときが微妙にもやもやしていて、LSTM(h6,emb("I")) =h7 → (線形変換とソフトマックス) → "love" とするとのことですが、h6 = emb("I")というわけではないのですか?一度h6を"I"に直して再度埋め込みをしてLSTMの引数に入れたほうが関数が再帰的になって楽というのはわかりましたが、ぶっちゃけh6だけで推論できそうで、Iを再度埋め込みする必要ないのでは?と思いました。それともh6とemb("I")は別物なのでしょうか?
h6とemb("I")は別物です!h6は、日本語+eosの情報を持ったベクトルであり、emb("I")はIを持ったベクトルです!
@@dkenなるほど!はっきり分かったので助かります!行間少なくてとても分かりやすいのでいい動画ですね!
7:53Attentionが各層独立に計算できることは分かりましたが、予測時はその入力となる~h0, ... ~h5を直前のLSTM層から出力するのに、前のtokenが出力されるのを待たないといけないと思うのですがどうでしょうか?
そうですね、LSTMの層は待たないといけなくなりますね。ゆえに、transformerではLSTMの層を排除してattention層のみを利用したのだと思います!
出力であるはずのI love you so much が入力とされているのはなぜですか?出力されるものがDecoderに入れる前からわかっているというのはどういうことですか?
デコーダーでは、一文字前のtokenを入力にして次のtokenを出力しているので、入れる前からわかっているわけではありません!
@@dken 解説ありがとうございます!一文字前の出力が決まってから次の文字の処理が始まるって言うことですか?
@user-or2mr6cx7d 予測時はそうだと思います!学習時は答えがあり全部一気にできるので
@@dken 丁寧に解説ありがとうございます!
大学院では何の研究をしてらっしゃるんですか?
画像生成に関する研究を行っています!
この動画を見て、Attentionの仕組みがようやくわかりました。
ありがとうございます
4:49 当たりで質問です。
Iを出力するときにはLSTM(h5,emb("eos")) = h6 → (線形変換とソフトマックス) → "I" という流れなのはわかりました。
しかしloveを出力するときが微妙にもやもやしていて、LSTM(h6,emb("I")) =h7 → (線形変換とソフトマックス) → "love" とするとのことですが、
h6 = emb("I")というわけではないのですか?一度h6を"I"に直して再度埋め込みをしてLSTMの引数に入れたほうが関数が再帰的になって楽というのはわかりましたが、ぶっちゃけh6だけで推論できそうで、Iを再度埋め込みする必要ないのでは?と思いました。
それともh6とemb("I")は別物なのでしょうか?
h6とemb("I")は別物です!
h6は、日本語+eosの情報を持ったベクトルであり、emb("I")はIを持ったベクトルです!
@@dkenなるほど!はっきり分かったので助かります!
行間少なくてとても分かりやすいのでいい動画ですね!
7:53
Attentionが各層独立に計算できることは分かりましたが、予測時はその入力となる~h0, ... ~h5を直前のLSTM層から出力するのに、前のtokenが出力されるのを待たないといけないと思うのですがどうでしょうか?
そうですね、LSTMの層は待たないといけなくなりますね。
ゆえに、transformerではLSTMの層を排除してattention層のみを利用したのだと思います!
出力であるはずのI love you so much が入力とされているのはなぜですか?
出力されるものがDecoderに入れる前からわかっているというのはどういうことですか?
デコーダーでは、一文字前のtokenを入力にして次のtokenを出力しているので、入れる前からわかっているわけではありません!
@@dken 解説ありがとうございます!
一文字前の出力が決まってから次の文字の処理が始まるって言うことですか?
@user-or2mr6cx7d
予測時はそうだと思います!
学習時は答えがあり全部一気にできるので
@@dken 丁寧に解説ありがとうございます!
大学院では何の研究をしてらっしゃるんですか?
画像生成に関する研究を行っています!