ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
7:45 1980年代に大学生の僕はそのアプローチでのAIの勉強をしていました。LISPやPrologなどのプログラミング言語を駆使してモデルを構築しようと試みられた時代です。当時それらの言語に最適化した専用のコンピュータまで開発されましたが、結局実用的なAIはできなかった。その頃既にニューラルネットワークの基礎理論はありましたが主流ではありませんでした。昨今のAIの隆盛を見ると、新しい時代が来たことをしみじみと感じます。わかりやすい動画での解説ありがとうございます。
五世代コンピュータと呼ばれるものですね。残念ながらLISP等は一部の分野しか使われずpythonが今やAIの主流言語になりました。時代を感じます
それはすごい❤Attention機構を用いたMLモデルは企業レベルのデータ収集量が無いと全然,学習結果は収束しないですよね😢最近では多層パーセプトロン単体なんかでもデータの量さえあればそれなりの性能を発揮するなんて論文も…私は違うと思いますが😂“Relating transformers to models and neural representations of the hippocampal formation”😅
ここまでわかりやすい動画と解説を日本語で見ることが出来て嬉しい日本語訳本当にありがとうございます
これを見ると全く論理的な思考はしていないのに如何にも正しそうな答えが出てくるのがすごい。chatGPTが数学苦手な理由がわかる。
わりと回答だけは分かってるときの解説はまし宿題わからん時に使ってます
使ってみた感じ、求値問題がわりと問題あると思いました。でも抽象概念の証明などは論理もあってわかりやすく解説してくれます
実は人間の脳も似たようなモノなんや…
@AkamisoFAKE 使ってみましたがパイソンを駆使して計算してましたね!脅威的です。
概念がとてもわかりやすい。CPUよりGPUのような単純大量の計算が得意なチップが必要になる理由が理解できました。翻訳ありがとうございます
「Unembedding matrix」を「掘り出し行列」と訳しているのが、なんとも数学畑な感じがして興味深いです。技術畑の人間にとって「embed」は「埋め込み」ではなく「組み込み」のイメージが強いので、原語版を観たときは勝手に「unembedding matrix」を「取り外し行列」と脳内翻訳していました(笑原語版からわずかな期間での日本語版作成、本当にお疲れ様です。これからも楽しみにしています!
日本語版早くない!?もうできたんかマジありがたし!
理解できる限界を遥かに超えてるけど、なんとなく面白い。
素晴らしいコンテンツですね。これを翻訳してくた貢献度は爆大
翻訳ありがてえ
オリジナルの方を先に見てたからある程度頭に入りやすかった, 聞き落としてる部分多くてまたさらに理解が深まった
英語の見てても理解半分だったので助かります!
わかりやすい説明ありがとうございます!トークンの確率分布デコーディングの入力は何ですか?質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
素晴らしすぎる; ;わかりやすい資料ほど英語のものが多かったので、この和訳動画は非常にありがたい; ;
最高の教材
完全に有料版レベル。いろいろな謎も解けました。ありがとうございます😊
このチャンネルがこの動画を出してくれるのはありがたい
素晴らしくわかりやすい!感動した!
わかりやすい!翻訳ありがとうございます🤗
よくこんなの思いつくな、発想がすごいと思ってたらコメにいる賢者たちのおかげで昔から研究されてきた分野なのだと知ることができた。仕組みも規模もすごすぎる。
トランスフォーマーの説明が分かりやすすぎて泣いた
ふんわりとしか理解できないけどこんなのを作り出す人間に感動するよ
素晴らしすぎる動画ですありがとうございます
わかりやすい説明ありがとうございます!トークンの確率分布デコーディングの入力は何ですか?質問の仕方がおかしかったらご指摘願います次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
まじでありがたいです次もたのむ🙏🙏🙏🙏🙏
22:21 ソフトマックス関数が量子力学の各エネルギー固有値に粒子が存在する確率を表す関数p_i=exp(-βE_i)/(Σexp(-βE_i) と完全に同じ形なのおもろい
Attension解説楽しみにしています
わかりやすすぎる
人間が言語を扱う上でどういった処理をしているかを数値化すると例えばこういう表現になるんすねこの翻訳動画も担当するヒトが何等かのアルゴリズム使って作り上げてると言い換える事もできるとかどうしても出来ない場合は近いものに置き換えるとか
15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった
わかりやすい説明ありがとうございます!トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください質問がおかしかったら無視していただいても平気です以下の理解でいいでしょうか?1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される? その場合、IDはvlookupみたいに検索して返される形式がある? または行列の掛け算で埋め込む?2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか?3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である
ときに、深い思想を表現してるって思うのは受け手側の勘違いなのかもね
ありがたい
世界一わかりやすいです
まさか内部でこんな計算をしてたとは…(慈悲)
わかりやすい動画をありがとうございます
素晴らしかった
温度のパラメータそこに意味があったのか...、
it is how random the output is, if i am not wrong they divide last output by temperature
神ですね🙏✨🦋ありがとうございます🙇♀️🙏🫧
わかりやすい説明ありがとうございます!トークナイザーについて以下の質問させてください1 文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。 なので、名刺は1、形容詞は2と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか?2 Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる(つまり同じ埋め込みになる)という理解でいいでしょうか? つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する
ベクトルの向きが同じであるほど、単語の意味に関わってくるのが面白い!内積を使って、ベクトルの向きが似ているか判断してるんだね王ーX=男ー女これをXについて求めると、女王が推測できることとか不思議だ
興味深いです!
これを、考えてないと断じていいかどうかがよく判らない脳だって分析したら、そんなの何も考えてないとしか思えない仕組みかもしれない
21:30 Unembedding matrix(アンエンべディングマトリックス)を表現行列ってどこかで言ってたのを見たような聞いたような…。忘却の彼方。
数学の部分は分からなかったけど、イメージは掴めたと思うつまりChatGPTは文章を生成する仕組みと同じアプローチで質問に答えている訳か
次トークン予測の精度向上だけで様々な自然言語処理タスクが解けるようになったのは凄いですよね
16:04 「ドイツ-日本」という地域の差に「スシ」を加えると、「ソーセージ」が得られる。面白い!わかりやすい!ベクトルで考えると似た要素同士が近い距離に集まって、要素と要素の関係性が「特徴」として類似のベクトルを作り出す、なるほどー。今回は先に国の差を取ってるから、物を入力すれば物が返ってくる。ということは日本の単語を入れればドイツ単語に翻訳されたものが出てくるんだろうな。じゃあ「スシ-日本」というご当地グルメを特徴ベクトルとして取れば、国名を入れれば世界の美味しいものが出てくるということか!ChatGPTで遊んだけど、連想ゲームが得意だけど正確さを要求するものが不得意だったという実感も、こういうことだったのかと納得。
内積を二つのベクトルがどれくらい揃っているかを表す尺度とすると、内積はベクトルの大きさにも依存するので17:33のような比較には向かないかと思うのですが、実際には正規化など行われているのでしょうか?数学には自信がなく、誤っていたらすみません。ベクトルの大きさが意味することがわかると理解できるかもしれませんし、次回も楽しみです!
内積が「2つのベクトルがどれくらい揃ってるのか」を表すのではなく、内積の公式にもあるように2つのベクトル間の角度(内積の公式で言うcosθ)が「2つのベクトルがどれくらい揃ってるのか」を表すはずです。間違ってたらすみません。
素人がアルゴリズムの仕組みを理解するのにはクオリティの高いハウツー学習モデルの作成そのものはPythonの基本的ノウハウがあれはライブラリにある学習モデルのインスタンス化一行で済むほどに作成自体は簡単パラメーターを弄る必要すらない問題は大規模学習するだけのハードとデータが無い 泣笑
AIに携わる人が人がめちゃくちゃ頭いいということだけはよぉーくわかった。
4:20ファッションモデルの機械学習モデルのような事を話す場合はGPTは混乱するのだろうかいやまあ人間も混乱する気はするが…
QueryとValueを直接比較せずに間にKeyを入れる理由がよくわかりませんでした。つまり softmax(Q 転置K)V を もっと簡単にQ 転置V みたいな感じにしたらうまくゆかないのでしょうか? ド素人の質問ですみません、誰か教えてください。
すみませんQ 転置V だと結果の次元数が変わってしまいますのでsoftmax(Q 転置V)Vとすべきでしょうか?? やっぱり難しそうですね~
わかりやすい。感謝します。
過去のデータから経験的に多かったパターンを抽出するのでは、革新的な発見は難しいような気がします。そこに人間的な知性の価値が残りそうな。
非常にいい視点だと思います。ご指摘のように、観測データ内で発見できないような新理論は、Transformerからは生まれてこないと考えるのが合理的です。例えばアインシュタインの特殊相対性理論などは観測から構築された理論ではないですよね。一方で、観測データは膨大にあるのに理論が完全に構築できていない分野は実はものすごくたくさんあります。自然科学の分野では1922のリチャードソンの気象予測から約100年ほどかけて少しずつ気象予測のモデルを開発してきましたが、完璧な予測理論は構築できていません。(天気予報がはずれるのが根拠です)ところが、2017年に生まれたTransformerのモデルが、この伝統的な気象モデルの性能を上回ってしまいました。GraphCastと検索するとその結果が見れると思います。コメント主様が提起することの復唱となりますが、データがあるけど人間が扱えきれていない分野においてTransformerの適用可能性が高い、しかしそうでない分野も同じくらい多く存在するということです。
数学的カオスとかカタストロフィーのような不連続な現象をTransformerが上手く処理できるか、気になる。
これ見てる人、教養のあるレベル高い人ばかりなんだろうなぁ。無知なので、この動画の説明にはついていけませんでした😅
@@kzrnm ありがとうございます。議論できるだけの知識を持ち合わせておりません。お恥ずかしい限りです。。
gpt-3のパラメータ数って大体判明したんですか?未知数だと思ってました
GPT-3はOpenAIがまだオープンだった時代のものなので、大体公開されています。パラメータ数がわからないのはGPT4です。【訂正】GPT-3.5はパラメータ数は公開されてました。
神動画
次の単語を生成するのにlogitsを参照して変換して使用されているのは分かったけどさらに次の単語を生成する際に直前のLogitsは再利用できるのかしらそれによって計算速度が圧倒的に変わりそうだけど
それはできないと思います。1単語生成したら、それを入力列に加えてデコーダを最初の段から再び通して別の確率分布を生成する必要があります。そのとき得られる分布の形状は直前の単語ときのものとは全く異なるものです。
それがビームサーチなんじゃないの?
Key Value Cacheのことかな?
23:55 メモ Temperature
風が吹けば桶屋が儲かるの、まだ未発見のパターン見えるやんけ。
まってました
いわゆる天才が、周りに理解されなくなるのはたぶん脳内に複数の追加の次元を持っていて、ソレは本人としては当たり前で凡人の扱ってる平面に投影しないで喋ると、聞き手は理解できないってことなのではないかと妄想した私は仕事中、中学生相手を仮想してコミュニケーションするけどわりと大事だったのでは
これは君向けの動画じゃないよ。勝手に被害者ぶるのやめてね
@@とっぽ-x8g 被害者?誰が誰の被害者?
@@とっぽ-x8g?天才を殺す凡人とかよく言うやん
ソフトマックス関数がカノニカル分布っぽいなーと思ってたら温度が出てきて興奮した
でも、それはそれで、何やら哲学的な意味がありそうな気がする
フローチャートにしたら脳の意思決定にGPTは近づいているな。
日本語の解析が難しいのは言葉の含みが深いからなのかなぁ🤔文脈によっての意味が他の言語よりも複雑とかなのかな。
日本語がハイコンテクストというのはちゃんとした研究ではあまり支持されていないようです。どちらかというと、文末だけで肯定否定がひっくり返るのが厄介そうな気がしますね
何となくだけど、、、、、これ脳じゃね?
"ニューラル"とある通り、脳の神経伝達を参考にモデル化したものです。脳の研究(マカロックピッツさんなど)を機械学習に導入したらうまく行ったので今みんな使ってるわけですね
no
@@RS-303脳だけにってなwwww頭冷やしてくる
見抜いてNN機械学習の礎を築いた甘利先生しか勝たん😤ノーベル賞選考委員はアジア人差別🤬
脳っぽいですね。巨大なプログラマブルデバイス作ってリアルタイムで回路をつなぎ変えられる仕組み作って、AIの入力と出力の関係をデバイスの入力と出力が同じになるようにAIが自ら書き換えられるような仕組みを作ったら後は計算不要になるんじゃないですかね。ある分野の処理は回路になってるからもう計算しなくて良い的な?脳みたいに回路を繋ぎ変える。重みは電流か電圧か抵抗値か電荷の蓄積量で表現する的な。
これは本当に「AI」と呼ぶにふさわしいシロモノなのだろうか?
当たり前なんだけど、アーキテクチャやトレーニングデータによってそのモデル全体が扱う言語空間がバラバラだから、なんか上手く統合できないかね
なんかこれって、言語のニュアンスとか、記憶を思い出す時の直感と同じじゃない?
へ〜聞けば聞くほど訳わかんないなつまり、ドーナツになぜ穴が空いているかってのと同じ⁉︎
おもしれえええええ
英語のテストでよく出るやつだ
th-cam.com/video/KlZ-QmPteqM/w-d-xo.html 説明の視覚化 面白い 自動変換 イステムプロンプト 背景知識 エンジニアの分担アテンション 類似 理解
こんな複雑な演算の結果が#援○とか投稿させられるインプレゾンビなのか...
だいすき
言語アルゴリズムって事だね。
なるほど全然わからん
脳は似たようなことをしているわけか
なんかそう思えてきたよね。
じゃあなんで間違ってもちゃんと理解してくれるんだろうか
人が入力するプロンプトを?
その間違え方にすら大量の前例があるからじゃないの?
いいね
小学生の読書感想文にやくだつアプリ
最初の五分だけだけど超基礎的な知識は淫夢で知ってたの恐ろしすぎる
直訳しすぎじゃね?
今日はこれでいいや
猛者
一番えぐいコメは自ずとコメ欄の底へ沈む。
@@shimesabadesudeepすぎる
パイクリーチャーかわいいよね
transformerの断面図イイよね
7:45 1980年代に大学生の僕はそのアプローチでのAIの勉強をしていました。
LISPやPrologなどのプログラミング言語を駆使してモデルを構築しようと試みられた時代です。
当時それらの言語に最適化した専用のコンピュータまで開発されましたが、結局実用的なAIはできなかった。
その頃既にニューラルネットワークの基礎理論はありましたが主流ではありませんでした。
昨今のAIの隆盛を見ると、新しい時代が来たことをしみじみと感じます。
わかりやすい動画での解説ありがとうございます。
五世代コンピュータと呼ばれるものですね。残念ながらLISP等は一部の分野しか使われずpythonが今やAIの主流言語になりました。時代を感じます
それはすごい❤
Attention機構を用いたMLモデルは企業レベルのデータ収集量が無いと全然,学習結果は収束しないですよね😢
最近では多層パーセプトロン単体なんかでもデータの量さえあればそれなりの性能を発揮するなんて論文も…
私は違うと思いますが😂
“Relating transformers to models and neural representations of the hippocampal formation”😅
ここまでわかりやすい動画と解説を日本語で見ることが出来て嬉しい
日本語訳本当にありがとうございます
これを見ると全く論理的な思考はしていないのに如何にも正しそうな答えが出てくるのがすごい。
chatGPTが数学苦手な理由がわかる。
わりと回答だけは分かってるときの解説はまし
宿題わからん時に使ってます
使ってみた感じ、求値問題がわりと問題あると思いました。でも抽象概念の証明などは論理もあってわかりやすく解説してくれます
実は人間の脳も似たようなモノなんや…
@AkamisoFAKE 使ってみましたがパイソンを駆使して計算してましたね!脅威的です。
概念がとてもわかりやすい。CPUよりGPUのような単純大量の計算が得意なチップが
必要になる理由が理解できました。翻訳ありがとうございます
「Unembedding matrix」を「掘り出し行列」と訳しているのが、なんとも数学畑な感じがして興味深いです。
技術畑の人間にとって「embed」は「埋め込み」ではなく「組み込み」のイメージが強いので、原語版を観たときは勝手に「unembedding matrix」を「取り外し行列」と脳内翻訳していました(笑
原語版からわずかな期間での日本語版作成、本当にお疲れ様です。これからも楽しみにしています!
日本語版早くない!?
もうできたんか
マジありがたし!
理解できる限界を遥かに超えてるけど、なんとなく面白い。
素晴らしいコンテンツですね。これを翻訳してくた貢献度は爆大
翻訳ありがてえ
オリジナルの方を先に見てたからある程度頭に入りやすかった, 聞き落としてる部分多くてまたさらに理解が深まった
英語の見てても理解半分だったので助かります!
わかりやすい説明ありがとうございます!
トークンの確率分布デコーディングの入力は何ですか?
質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います
次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
素晴らしすぎる; ;わかりやすい資料ほど英語のものが多かったので、この和訳動画は非常にありがたい; ;
最高の教材
完全に有料版レベル。
いろいろな謎も解けました。
ありがとうございます😊
このチャンネルがこの動画を出してくれるのはありがたい
素晴らしくわかりやすい!感動した!
わかりやすい!翻訳ありがとうございます🤗
よくこんなの思いつくな、
発想がすごいと思ってたら
コメにいる賢者たちのおかげで
昔から研究されてきた分野なのだと
知ることができた。
仕組みも規模もすごすぎる。
トランスフォーマーの説明が分かりやすすぎて泣いた
ふんわりとしか理解できないけどこんなのを作り出す人間に感動するよ
素晴らしすぎる動画です
ありがとうございます
わかりやすい説明ありがとうございます!
トークンの確率分布デコーディングの入力は何ですか?
質問の仕方がおかしかったらご指摘願います
次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています)
1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み
2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み
3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み
まじでありがたいです次もたのむ🙏🙏🙏🙏🙏
22:21 ソフトマックス関数が量子力学の各エネルギー固有値に粒子が存在する確率を表す関数p_i=exp(-βE_i)/(Σexp(-βE_i) と完全に同じ形なのおもろい
Attension解説楽しみにしています
わかりやすすぎる
人間が言語を扱う上でどういった処理をしているかを数値化すると例えばこういう表現になるんすね
この翻訳動画も担当するヒトが何等かのアルゴリズム使って作り上げてると言い換える事もできるとか
どうしても出来ない場合は近いものに置き換えるとか
15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった
わかりやすい説明ありがとうございます!
トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください
質問がおかしかったら無視していただいても平気です
以下の理解でいいでしょうか?
1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される?
その場合、IDはvlookupみたいに検索して返される形式がある?
または行列の掛け算で埋め込む?
2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか?
3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である
ときに、深い思想を表現してるって思うのは受け手側の勘違いなのかもね
ありがたい
世界一わかりやすいです
まさか内部でこんな計算をしてたとは…(慈悲)
わかりやすい動画をありがとうございます
素晴らしかった
温度のパラメータそこに意味があったのか...、
it is how random the output is, if i am not wrong they divide last output by temperature
神ですね🙏✨🦋ありがとうございます🙇♀️🙏🫧
わかりやすい説明ありがとうございます!
トークナイザーについて以下の質問させてください
1 文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。
なので、名刺は1、形容詞は2と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか?
2 Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる(つまり同じ埋め込みになる)という理解でいいでしょうか?
つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する
ベクトルの向きが同じであるほど、単語の意味に関わってくるのが面白い!
内積を使って、ベクトルの向きが似ているか判断してるんだね
王ーX=男ー女
これをXについて求めると、女王が推測できることとか不思議だ
興味深いです!
これを、考えてないと断じていいかどうかがよく判らない
脳だって分析したら、そんなの何も考えてないとしか思えない仕組みかもしれない
21:30 Unembedding matrix(アンエンべディングマトリックス)を表現行列ってどこかで言ってたのを見たような聞いたような…。忘却の彼方。
数学の部分は分からなかったけど、イメージは掴めたと思う
つまりChatGPTは文章を生成する仕組みと同じアプローチで質問に答えている訳か
次トークン予測の精度向上だけで様々な自然言語処理タスクが解けるようになったのは凄いですよね
16:04 「ドイツ-日本」という地域の差に「スシ」を加えると、「ソーセージ」が得られる。面白い!わかりやすい!
ベクトルで考えると似た要素同士が近い距離に集まって、要素と要素の関係性が「特徴」として類似のベクトルを作り出す、なるほどー。
今回は先に国の差を取ってるから、物を入力すれば物が返ってくる。ということは日本の単語を入れればドイツ単語に翻訳されたものが出てくるんだろうな。
じゃあ「スシ-日本」というご当地グルメを特徴ベクトルとして取れば、国名を入れれば世界の美味しいものが出てくるということか!
ChatGPTで遊んだけど、連想ゲームが得意だけど正確さを要求するものが不得意だったという実感も、こういうことだったのかと納得。
内積を二つのベクトルがどれくらい揃っているかを表す尺度とすると、内積はベクトルの大きさにも依存するので17:33のような比較には向かないかと思うのですが、実際には正規化など行われているのでしょうか?
数学には自信がなく、誤っていたらすみません。ベクトルの大きさが意味することがわかると理解できるかもしれませんし、次回も楽しみです!
内積が「2つのベクトルがどれくらい揃ってるのか」を表すのではなく、内積の公式にもあるように2つのベクトル間の角度(内積の公式で言うcosθ)が「2つのベクトルがどれくらい揃ってるのか」を表すはずです。
間違ってたらすみません。
素人がアルゴリズムの仕組みを理解するのにはクオリティの高いハウツー
学習モデルの作成そのものは
Pythonの基本的ノウハウがあれは
ライブラリにある学習モデルのインスタンス化一行で済むほどに作成自体は簡単
パラメーターを弄る必要すらない
問題は大規模学習するだけのハードとデータが無い 泣笑
AIに携わる人が人がめちゃくちゃ頭いいということだけはよぉーくわかった。
4:20
ファッションモデルの機械学習モデルのような事を話す場合はGPTは混乱するのだろうか
いやまあ人間も混乱する気はするが…
QueryとValueを直接比較せずに間にKeyを入れる理由がよくわかりませんでした。つまり softmax(Q 転置K)V を もっと簡単にQ 転置V みたいな感じにしたらうまくゆかないのでしょうか? ド素人の質問ですみません、誰か教えてください。
すみませんQ 転置V だと結果の次元数が変わってしまいますのでsoftmax(Q 転置V)Vとすべきでしょうか?? やっぱり難しそうですね~
わかりやすい。感謝します。
過去のデータから経験的に多かったパターンを抽出するのでは、革新的な発見は難しいような気がします。そこに人間的な知性の価値が残りそうな。
非常にいい視点だと思います。ご指摘のように、観測データ内で発見できないような新理論は、Transformerからは生まれてこないと考えるのが合理的です。例えばアインシュタインの特殊相対性理論などは観測から構築された理論ではないですよね。
一方で、観測データは膨大にあるのに理論が完全に構築できていない分野は実はものすごくたくさんあります。
自然科学の分野では1922のリチャードソンの気象予測から約100年ほどかけて少しずつ気象予測のモデルを開発してきましたが、完璧な予測理論は構築できていません。(天気予報がはずれるのが根拠です)ところが、2017年に生まれたTransformerのモデルが、この伝統的な気象モデルの性能を上回ってしまいました。GraphCastと検索するとその結果が見れると思います。コメント主様が提起することの復唱となりますが、データがあるけど人間が扱えきれていない分野においてTransformerの適用可能性が高い、しかしそうでない分野も同じくらい多く存在するということです。
数学的カオスとかカタストロフィーのような不連続な現象をTransformerが上手く処理できるか、気になる。
これ見てる人、教養のあるレベル高い人ばかりなんだろうなぁ。
無知なので、この動画の説明にはついていけませんでした😅
@@kzrnm ありがとうございます。議論できるだけの知識を持ち合わせておりません。お恥ずかしい限りです。。
gpt-3のパラメータ数って大体判明したんですか?未知数だと思ってました
GPT-3はOpenAIがまだオープンだった時代のものなので、大体公開されています。
パラメータ数がわからないのはGPT4です。
【訂正】GPT-3.5はパラメータ数は公開されてました。
神動画
次の単語を生成するのにlogitsを参照して変換して使用されているのは分かったけど
さらに次の単語を生成する際に直前のLogitsは再利用できるのかしら
それによって計算速度が圧倒的に変わりそうだけど
それはできないと思います。1単語生成したら、それを入力列に加えてデコーダを最初の段から再び通して別の確率分布を生成する必要があります。そのとき得られる分布の形状は直前の単語ときのものとは全く異なるものです。
それがビームサーチなんじゃないの?
Key Value Cacheのことかな?
23:55 メモ Temperature
風が吹けば桶屋が儲かるの、まだ未発見のパターン見えるやんけ。
まってました
いわゆる天才が、周りに理解されなくなるのは
たぶん脳内に複数の追加の次元を持っていて、ソレは本人としては当たり前で
凡人の扱ってる平面に投影しないで喋ると、聞き手は理解できない
ってことなのではないかと妄想した
私は仕事中、中学生相手を仮想してコミュニケーションするけど
わりと大事だったのでは
これは君向けの動画じゃないよ。勝手に被害者ぶるのやめてね
@@とっぽ-x8g 被害者?誰が誰の被害者?
@@とっぽ-x8g?天才を殺す凡人とかよく言うやん
ソフトマックス関数がカノニカル分布っぽいなーと思ってたら温度が出てきて興奮した
でも、それはそれで、何やら哲学的な意味がありそうな気がする
フローチャートにしたら脳の意思決定にGPTは近づいているな。
日本語の解析が難しいのは言葉の含みが深いからなのかなぁ🤔
文脈によっての意味が他の言語よりも複雑とかなのかな。
日本語がハイコンテクストというのはちゃんとした研究ではあまり支持されていないようです。
どちらかというと、文末だけで肯定否定がひっくり返るのが厄介そうな気がしますね
何となくだけど、、、、、これ脳じゃね?
"ニューラル"とある通り、脳の神経伝達を参考にモデル化したものです。脳の研究(マカロックピッツさんなど)を機械学習に導入したらうまく行ったので今みんな使ってるわけですね
no
@@RS-303脳だけにってなwwww
頭冷やしてくる
見抜いてNN機械学習の礎を築いた甘利先生しか勝たん😤
ノーベル賞選考委員はアジア人差別🤬
脳っぽいですね。
巨大なプログラマブルデバイス作ってリアルタイムで回路をつなぎ変えられる仕組み作って、AIの入力と出力の関係をデバイスの入力と出力が同じになるようにAIが自ら書き換えられるような仕組みを作ったら後は計算不要になるんじゃないですかね。ある分野の処理は回路になってるからもう計算しなくて良い的な?
脳みたいに回路を繋ぎ変える。重みは電流か電圧か抵抗値か電荷の蓄積量で表現する的な。
これは本当に「AI」と呼ぶにふさわしいシロモノなのだろうか?
当たり前なんだけど、アーキテクチャやトレーニングデータによってそのモデル全体が扱う言語空間がバラバラだから、なんか上手く統合できないかね
なんかこれって、言語のニュアンスとか、記憶を思い出す時の直感と同じじゃない?
へ〜聞けば聞くほど訳わかんないな
つまり、ドーナツになぜ穴が空いているかってのと同じ⁉︎
おもしれえええええ
英語のテストでよく出るやつだ
th-cam.com/video/KlZ-QmPteqM/w-d-xo.html
説明の視覚化 面白い 自動変換 イステムプロンプト 背景知識 エンジニアの分担
アテンション 類似 理解
こんな複雑な演算の結果が#援○とか投稿させられるインプレゾンビなのか...
だいすき
言語アルゴリズムって事だね。
なるほど全然わからん
脳は似たようなことをしているわけか
なんかそう思えてきたよね。
じゃあなんで間違ってもちゃんと理解してくれるんだろうか
人が入力するプロンプトを?
その間違え方にすら大量の前例があるからじゃないの?
いいね
小学生の読書感想文にやくだつアプリ
最初の五分だけだけど超基礎的な知識は淫夢で知ってたの恐ろしすぎる
直訳しすぎじゃね?
今日はこれでいいや
猛者
一番えぐいコメは自ずとコメ欄の底へ沈む。
@@shimesabadesudeepすぎる
パイクリーチャーかわいいよね
transformerの断面図イイよね
神動画