セーラー服で機関銃トーク:あらためてGPT-3とは何か?

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 ม.ค. 2025

ความคิดเห็น • 4

  • @植松京子
    @植松京子 2 ปีที่แล้ว

    22:50
    シンギュラリティ来ない派

  • @jagurimath
    @jagurimath 2 ปีที่แล้ว +7

    GPT-3の発表時期としては、発表時期の定義にもよりますが、スライドでは2020年7月になっていますが,arXivに論文が投稿されたのが2020年5月28日になっていますね。ツイッター上でOpenAIがOpenAI APIのリリースを発表したのが2020年6月12日になっていました。ちなみにその1週間後の6月18日にはOpenAIがツイッター上で画像版GPT(iGPT)を発表していました。
    あと、ELMoはtransformerの後に登場していますが,ELMoにはtransformerではなくてLSTMが使用されています。2013年のword2vec(CBOWとSkip-gram)が登場し、3年後にLSTM+MLPを用いているcontext2vecが発表され、それがELMoに繋がったという流れだと思います。context2vecは、LSTMを用いることで、word2vecよりもより長い文脈を考慮できるようになっており、文の単語の穴埋め問題や語義曖昧性解消など、主に単語を扱うタスクに適用されていました。その後、ELMoでは、自然言語理解タスクや固有表現抽出や感情分析など、文レベルのより難しいタスクで登場時には最高性能を達成することに成功しました。
    スライドでは、Flamingoのパラメータ数が空欄になっていますが、これは僕の理解では800億パラメータ程度だったと思います。700億パラメータの言語モデル「chinchilla」を利用していて、100億パラメータぐらいを追加していた記憶があります。
    あと、ViTは画像からキャプションを生成するモデルではないと理解しています。これは、画像をパッチに分けて入力して、クラス分類を行なうモデルだと思います。ちなみにパラメータ数は6億3200万個だったと思います。transformerのエンコーダなので,アーキテクチャとしてはほぼBERTですね。画像をパッチに分けて、画像をまるで「単語の並び」とみなしていますが、自然言語を扱っている訳ではないと思います。
    DALL-Eがインパクトのある画像を生成できたため、同時に発表されたCLIPのほうがあまり注目されませんでしたが,こっちのインパクトもかなり大きいですね。CLIPは、画像とテキストのペアを4億件ほどWebから収集して学習した、視覚と言語に関する基盤モデルです。ちなみに基盤モデル(Foundation Models)という用語は、単一のモデルでありながら多くのタスクに適用できる汎用モデルのことを指しており、2021年8月16日にスタンフォード大学の多くの研究者たちが命名したもので、現在のAI分野で起こり始めているパラダイムシフトを表した用語になっています。
    CLIPは言語と画像を結びつけて学習することで,非常に多様な概念を扱うことを可能にしました。その後、CLIPを用いた研究が大量に登場していて、例えばStyleCLIP、VQGAN+CLIP、Wav2Clip、ViLD、CLIPasso、MotionCLIPなどがあり、DALL-E2にもCLIPが利用されています。
    また視覚と言語に関する基盤モデルでは、マイクロソフトのFlorenceやグーグルのCoca(Contrastive Captioners)なども登場しており、汎用性がますます高まっています。Florenceは、分類、検索、物体検出、VQA、画像キャプション、ビデオ検索、アクション認識など、44個の代表的なベンチマークの多くで当時に最高性能を達成したと発表されました(arXivでは2021年11月22日に提出)
    その後、2022年5月4日 にCoCaが発表されましたが,これは幅広い視覚タスクや視覚言語タスクで機能する汎用的な基礎モデルで、視覚認識やクロスモーダル検索、マルチモーダル理解、画像キャプショニングを含む広範囲の下流タスクにおいて機能し、ますます汎用的になっていると報告されています。
    あと、言語モデルではマイクロソフトが発表したMT-NLGがありますね。これは5300億パラメータのモデルで、密なモデルでは2番目に大きなモデルです(PaLMが5400億パラメータで密なモデルでは1番大きい)。
    あとはグーグルが疎な汎用言語モデル(MoE)として、1兆2000億パラメータのGLaM(Generalist Language Model)を発表しています。ワンショットとゼロショットの設定で24/29タスクでGPT-3と同等以上だったそうです。
    あとはGPT-3のモデルとほぼ同等規模のJurassic-1(1780億パラメータ)のモデルが発表されています(2021年8月)。イスラエルのスタートアップ企業AI21がリリースしました。
    あと、2000万件のTH-cam動画から視覚や言語や音の関係を対照学習を利用して学習したモデルに「MERLOT Reserve」などもありますね。
    ちなみに、まだ発表されていませんが,多言語版の大規模言語モデル(1760億パラメータ)の学習が90%ほど終わっており、「BLOOM」という名前で近い将来に発表される予定だそうです。残念ながら日本語は対象言語に入っていませんが。
    記憶に残ってるものだけでもまだまだ沢山あり、本当に凄まじい勢いを感じますね。

    • @GrowHairPhoto
      @GrowHairPhoto 2 ปีที่แล้ว +1

      たいへん詳しくご説明いただきまして、ありがとうございます。
      非常に助かります。
      また、私の知識に粗っぽいところが多々あった点、どうも失礼しました。
      ご指摘いただきまして、ありがとうございます。
      当方には AI を専門に研究している者はおらず、素人グループです。
      ただ、近年の AI の進展の速さと到達レベルの高さに驚嘆し、
      いわゆるシンギュラリティの到来が、世間で言われがちなほど、
      現実味のない話ではなかろうという思いがあり、
      できれば、最近登場してきた AI 手法の中身まで理解したいという思いから、
      勉強している途上にあります。
      また、新しい手法やモデルが登場してきて、世界がざわついているときに、
      日本は情報獲得に乗り遅れがちで、どうも反応が薄い印象があり、
      AI の熱い現状を広く、一般の方々にお伝えしたい、という思いもあります。
      知識の浅さについては、現時点ではいかんともしがたく、
      これからがんばるしかないですが、間違った情報を発信してしまうのは
      極力避けたく、今後、気をつけてまいります。しかし、何か
      やらかした場合には、ご指摘いただけると助かります。
      今後ともよろしくお願いします。

    • @jagurimath
      @jagurimath 2 ปีที่แล้ว +2

      @@GrowHairPhoto 最近の発展は特に凄いですね。僕もGPTとBERTが登場したときにここから始まるSOTA競争で東ロボの性能が向上すると思い、ツイッター上で大きく取り上げたつもりですが、当時は専門家のなかにも冷ややかな人たちが結構いて、やるせない気持ちをしたことをよく覚えています。(その後,東ロボではセンター英語の試験で100点未満だった状況が、185点まで向上し、センター英語では東大合格水準まで到達し、当時の限界は突破されました)。一般の方たちに現状を伝えるチャンネルは日本語だとほとんど存在しないので、非常に貴重で、最近よく見ています。今後の動画も楽しみにしています。