GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

3Blue1BrownJapan

มุมมอง 71 980

1 600

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 7 ก.พ. 2025
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
/ 3b1bjp
元チャンネル（英語）
/ 3blue1brown
元動画（英語）
• Attention in transform...
訂正
冒頭でAttention機構は2017年の論文ではじめて登場したと紹介していましたが、正しくは2014年にBahdanauらによって初めて導入されていました。もちろんそれ以前にも、人々がこのアイディアについて実験していたのではないかと思います。コメントのご指摘、ありがとうございます！
Attention Is All You Needは従来のシーケンス処理モデルに使われていた回帰型ニューラルネットワークに対して、文字通りAttentionのみでシーケンス処理を可能にし、また多くのアテンションブロックを使用することでモデルの性能を向上させるアプローチが広く受け入れられるきっかけを作ったと言えるのではないでしょうか。
新チャンネルUfolium
• 【ガザ地区】イスラエル・パレスチナ対立の歴史
• アメリカ大統領選挙の仕組み
資料
Andrej Karpathy
• Let's build GPT: from ...
vcubingx
• What does it mean for ...
Anthropic
transformer-ci...
www.gptandchil...
LLMの歴史 Brit Cruise
• The Making of ChatGPT ...
arxiv.org/pdf/...
訳注
「シングルヘッドのアテンション」と訳されている部分は、英語では"Single head of attention"、"Single-headed attention"、"single-head attention"などと表現されています。意味としては「アテンションのヘッド１つ分」という使い方もあれば、「シングルヘッド」という「ある種の特徴や仕様を表現する言葉」として使っている場合もあります。日本語訳では前者のように受け取れる部分でもいくつかは後者で訳していて、これはMulti-head Attentionとの対比をより明確にするためにこのように訳しています。
----------------------------------------
英語版翻訳元チャンネルの支援
/ 3blue1brown
アニメーションはmanimで作られています
github.com/3b1...
英語版公式ソーシャルメディア
Webサイト: www.3blue1brow...
Twitter: / 3blue1brown
Facebook: / 3blue1brown
Reddit: / 3blue1brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
vincerubinetti...
Stream the music on Spotify:
open.spotify.c...

ความคิดเห็น • 64

@端-d1y 8 หลายเดือนก่อน ⁺¹⁶
初心者すぎて、12:00あたりの説明がわからない……
1文を区切ることで、入力された文章自体を学習の材料に出来ちゃうというのは分かった。
でも、今回の例は形容詞は後に続く名詞を説明しているから大丈夫だけど、後置修飾の場合だったら、後ろのトークンが前に影響を及ぼせるようにしないといけないのでは？
後置修飾の情報は、どうやって反映されるんだ？
@3Blue1BrownJapan 8 หลายเดือนก่อน ⁺¹⁹
例えば後置修飾の場合、前の名詞が逆に後ろの形容詞の意味を深めることができます。
重要なのは、モデルは必ずしも我々人間と同じ方法で処理しているとは限りません。実際、形容詞と名詞の説明は想像上の例の一つで、実際の処理は人間にはずっと解釈しづらいものになっているでしょう。
例えば文章の意味が文末の「!」や「?」に焼き付けられるのではないかという示唆もあります。
@ワトソン-s1s 8 หลายเดือนก่อน ⁺¹⁰
投稿主も書いているように、人間は後ろ単語から前の単語に修飾してると考えるけど、transformerせよ他の機械学習モデルにせよ人間のように後ろから予測するようなことはしてません。その上で人間が見て自然に思えるような文章を出力してます。
人間の感覚に惑わされないように。
@端-d1y 8 หลายเดือนก่อน ⁺²
@@3Blue1BrownJapan
@user-st1lh8bg7f
お二人共返信有り難うございます！
例えば23:20で、後のトークンから前のトークンにも線が伸びて干渉しているような演出がなされているので、後ろから前にも影響を及ぼすのかと勘違いしてしまいました
演出のことは気にしないことにします！
@ワトソン-s1s 8 หลายเดือนก่อน ⁺³
@@端-d1yあ、そこは予測と学習の違いですね。
予測して文字列を生成する際には上の説明で正しいのですが、学習段階ではすでに後ろに来る文字が分かっているので、文脈に応じて単語ベクトルを調節しています。
説明不足でした
@端-d1y 8 หลายเดือนก่อน ⁺¹
@@ワトソン-s1s
すみません、よく分かりません……
maskingというのは予測をするために行う行為で、一方で23:20の演出は事前の学習段階を示している、ということなのでしょうか？
@まさぽこP 8 หลายเดือนก่อน ⁺⁴⁸
長い間コンテキストを共有してきた家族は単語に対する結びつきの解釈がすでにパラメータとして調整されているので、少ない会話でコミュニケーションが取れるってことか
@keigolf 5 หลายเดือนก่อน ⁺¹
人間のコミュニケーションの話に応用するの楽しいよね
@abcgfsyJnn 2 หลายเดือนก่อน
その解釈めっちゃ面白いな。最終的に「あい、おう、うぇーす」で意思伝わるもんな
@morchan844 8 หลายเดือนก่อน ⁺⁹
翻訳ありがとうございます！
@うりたん-n2v 8 หลายเดือนก่อน ⁺¹⁴
動けばいいだろの精神でネットに転がっているコードいじって使ってたけど、やっぱりGPT関連はえぐいぐらいむずかしいわ。
@三日月-u4q 8 หลายเดือนก่อน ⁺¹²
難しかったので、自分なりに動画の内容をまとめました。間違っている部分や補足あればコメントお願いします！
一言でいえば、Attentionは各単語（厳密にはトークン）間の関連度合いに応じて、それぞれのトークンからの意味的な更新を行列の掛け算を用いて実現する機構。ここで掛け算する行列は最初はランダムであり、学習を通してうまく機能するような数値を探すことになる。
もう少し具体的に解説すると、まず、モデルのパラメータの一部となるクエリ行列とキー行列を用いて、各トークン間の関連度合いを内積で計算する。
この関連度合いを0~1に正規化して表にしたものをAttentionパターンという。
その後、Attentionパターンで定義される関連度合いの重み比率に基づいて、モデルのパラメータの一部となるバリュー行列を使って、各トークンの埋め込みベクトルを更新する（= 各トークンに他のトークンからの意味、文脈を取り込む）。
クエリ行列、キー行列、バリュー行列は学習の初期段階においてはほぼランダムな行列だが、学習を繰り返して最適化していくことで、トークンに他のトークンからの意味を関連度合いに応じて取り込み、文脈を含んだトークンのベクトルが生成されるようになる。
ちなみに、ここまでの工程を別の96パターンのキー、クエリ、バリュー行列でも実施することでさらにモデルのパラメータを増やす（ちょうどNNを多層にして精度を上げたように）。
最終的には、もとの文章の一番最後のたった一つのトークンに全文脈が内包され、これをもとに次のトークンの存在確率ベクトルを算出することで次の単語を生成していく（前回の動画）。
@hellohello-kl1cx 8 หลายเดือนก่อน ⁺⁷
レイヤーごとのattention計算を通して、徐々に各トークンの埋め込みが別トークンの情報を重み付きで吸収していく感じだよね
バニラのtransformerの計算ではattention計算は入力トークン数の2乗オーダーになるからLinear attentionを始めとして別の計算方法だったり、GPUのメモリ割り当て効率化が行われているね
@ichimicopi_135p-SZKN 8 หลายเดือนก่อน ⁺⁵⁴
論文名“Attention is all you need“はかっこよすぎだろ
@caffe-nt 8 หลายเดือนก่อน ⁺²³
"*** is all you need" っていうフレーズはこの後に発表される色々な論文で使われるくらい人気
@ichimicopi_135p-SZKN 8 หลายเดือนก่อน ⁺⁷
@@caffe-nt はえー
@高橋玲-m5v 8 หลายเดือนก่อน ⁺¹⁴
ただし，学術論文ではタイトルだけで内容が分かるようなものが望ましいので，学者は「うーんこのタイトルでいいのか？」と思いがち．
@rorona1350 8 หลายเดือนก่อน ⁺¹⁰
Googleの広告会社としてのアイデンティティを抑えきれなかった末路
@Arin177 8 หลายเดือนก่อน ⁺⁴
このタイトル知ってるかいないかでモグリかどうかは判別できる
@hitoshiyamauchi 8 หลายเดือนก่อน ⁺¹
翻訳動画をありがとうございました！😀
@MidnightSoulEclipse 7 หลายเดือนก่อน ⁺¹
翻訳解説とてもありがたいですね。
@shinsokayborg 8 หลายเดือนก่อน ⁺²
素晴らしい！素晴らしすぎますって。
今後は強化学習の分野もやって欲しいです。
@jiroyamashita505 หลายเดือนก่อน
そもそも多次元のベクトルで世の中のすべてのことが表現できると思いついた人ってすごい
@ぶーん-v1m 8 หลายเดือนก่อน ⁺⁵
AttentionとTransformerはLLMの革命児だよなあ
@hitoshiyamauchi 8 หลายเดือนก่อน
翻訳動画をありがとうございました。😀
@KI-kr1mu 8 หลายเดือนก่อน ⁺⁴
このバリュー行列って無くてもアテンション機構としては成立しそうな気がしたけど、パラメータスペース作るために入れたら上手く行ったみたいなことなのかな
@mizuchin36 8 หลายเดือนก่อน ⁺³
すごい
@PGW90RU14 7 หลายเดือนก่อน ⁺¹
興味深い動画をありがとうございます。
２つのGPT解説動画を見て、neural networkを大量のデータ処理のために大規模化するためには、どうしても、重み係数を削減する必要があるのだなと思いました。
単純なneural networkでは一階層のnode間の接続は入力の次元Nの２乗になり重み係数もそうなりますよね。GPTの場合は約15,000次元の要素を2,000個処理するので、これをストレートに２乗すると600兆の重み係数が1階層だけでも必要になります。これをGPTのように何階層も重ねると数京のパラメタになってしまい、ベクタの要素を浮動小数点とすると数千テラバイトになりかねず、実装が難しいのだろうと思います。
それと、ふと、感じたのですが、GPT解説動画は、他の動画とちょっと違って、数学の美しさ（？）ではなく、如何に実装するかの話をしているので、ちょっと不思議な気がしました。
@z4q.mictlan 4 หลายเดือนก่อน ⁺¹
Wk,Wq,Wvがどうやってトレーニングされてるのか気になる👀
@ameiro-n3r 8 หลายเดือนก่อน
すごいわかりやすかったです
LLMの文脈で言えば、transformerはWord2vecの次元が一つ上がったものという感じなんでしょうか
@Ryotaro-bu8lu 8 หลายเดือนก่อน ⁺⁴
続編きた～～～!!!
@user-ml4qd8kh4l 6 หลายเดือนก่อน
Multi-Head Attentionにする意味がわからない...
20:50で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、
6:20のqueryの質問を96パターン考えることで、多角的にその単語の意味を理解してるってことなのか？
でもどうやって96パターンの異なるqueryを生成するんだ？
ニューラルネットワークの初期値を確率的に変えることでqueryが分散するのか？
@makkochnote 4 หลายเดือนก่อน
どうしても納得がいかないところがあります。入力されたトークンの埋め込みをEとすると、アテンションによって周りの単語の情報からdEが計算され、このEが E_new = E + dE と修正されることによって意味が詳しくなっていくという説明だったと思います。しかし、GPTの数式を追うと、アテンションはdEではなく、直接 E_new を計算しているように思えるのです。そして、このE_new の空間は、もとの埋め込み空間の意味の割り当てとは関連のない、ただ同じ次元の新しい空間なのだと思います。アテンションはdEを計算して意味を付加しているという考え方は非常にわかりやすいのですが、E + dE が計算されているという箇所が説明でも計算式でもわかりませんでした。うーん、みなさんどのようにお考えでしょうか。。
@chellyblossoms7883 หลายเดือนก่อน ⁺¹
人工知能分野の革命の1つ
@いあ-u1o5q 3 หลายเดือนก่อน
10:29あたりの行列計算（内積）、この書き方だとK^T Qにすべきじゃない？そんなことない？
@aocchi1638 2 หลายเดือนก่อน
すごい動画な気がするけど、分かる人がどれくらいいるんだろう
@relocatable_a 4 หลายเดือนก่อน
12:39 コンテキストウィンドウについて
@wswsan 8 หลายเดือนก่อน ⁺²
こんだけ行列, しかもかなり高次元な行列を何十回も何万回も計算して単語を出すのに数秒くらいしかかかってないの化け物すぎる
やっぱGPUの並列計算(?)がつよいからなのか?
@hotohara 5 หลายเดือนก่อน
開始何秒かでびっくりしてAttentionの登場時期について指摘しようとしたら既に概要欄で訂正されていた。元の動画から間違っていたのかな。
@TU-od3rh 7 หลายเดือนก่อน ⁺¹
Attention機構が「Attention is all you need」で初めて登場しましたってのは間違いですね。Attention層自体は2015年あたりにすでに登場しています
@3Blue1BrownJapan 7 หลายเดือนก่อน ⁺²
ご指摘ありがとうございます！まったくその通りですね。概要欄で訂正させていただきます。
@underscoress 8 หลายเดือนก่อน ⁺¹⁰
今回の内容難しくないか？俺がアホになっただけ？
@SSS-100M 8 หลายเดือนก่อน ⁺¹
逆に言えば、人間はこれより複雑な会話ができるってことか。ある意味、ChatGPTのような明快で論理的な回答の方が、複雑な思考ではない気がする。
@ゲン-m4b 7 หลายเดือนก่อน
１＋１＝１と認識している
私には理解できない世界。
でも、GPTを知りたいと
思っていたので助かります
@supermariio2326 7 หลายเดือนก่อน
これどうやってその単語らが「関連がある」って学習するの？セルフアテンションなので入力は自分自身でラベルはないと思いましたが、そこがいまいち不明でした。人間がそれ関連してるよって言ってるのであれば理解できるのですが。。どなたか教えてください。
@hshioijp22 3 หลายเดือนก่อน
他の機械学習と同様の方法を取っていると思います。すなわち、順伝播から損失を求め、それを逆伝播した上で、勾配降下法を用いて損失を徐々に最小化していく方法です。
@435imetron 7 หลายเดือนก่อน
32bitcpuと同じ人かと思ったけど違った
@morchan844 6 หลายเดือนก่อน
ひたすら行列の計算をしてるね。
CUDAで囲ったNVIDIAのGPUが必要になるわけだ…
@ぱんだpanda 6 หลายเดือนก่อน
寝落ちするぐらいには理解できない
@Jaggedjk 6 หลายเดือนก่อน
www
@コーチャン-KOCHAN 8 หลายเดือนก่อน ⁺¹
いちこめれれれ！

ต่อไป

เล่นอัตโนมัติ