OpenAIのGPT-4oの画像生成がどう変わるのかを解説してみた

แชร์
ฝัง
  • เผยแพร่เมื่อ 21 ก.ค. 2024
  • こんにちは、にゃんたです。
    今回は、先日リリースされたOpenAIのGPT-4oの画像生成機能が
    また一段と便利になりそうなのでどのように変わるのか解説してみました😆
    ■LINE公式で限定コンテンツ配布中!
    ▼登録はこちらから行えます▼
    liff.line.me/2004040861-3Jvq4bAG
    今ならキーワード「プレゼント」と入力すると
    ・ChatGPTのプロンプトまとめ
    ・Caludeのプロンプトまとめ
    ・Difyのまとめ
    を無料でお渡ししています!
    ■チャプター
    00:00 オープニング
    02:40 画像生成とは?
    08:14 できるようになること
    ■OpenAI 公式ページ
    openai.com/index/hello-gpt-4o/
    ■以前の関連動画
    OpenAI最新モデル!GPT-4oについて徹底解説してみた
    • OpenAI最新モデル!GPT-4oについて...
    OpenAI最新!動画生成AIのSoraが作った動画が凄い
    • OpenAI最新!動画生成AIのSoraが作...
    ■Udemy
    ChatGPTAPIの使い方講座も作成しているので興味があれば是非!(クーポン発行してます!)
    linktr.ee/nyanta_youtuber
    ■X, インスタグラム
    / vtuber_nyanta
    / vtuber_nyanta
    ■note
    note.com/nyanta123
    ■言語モデル関連のおすすめ書籍
    [書籍]大規模言語モデルは新たな知能か――ChatGPTが変えた世界
    amzn.to/3YhtYCk
    [紹介動画]一流研究者による大規模言語モデルの解説がわかりやすい
    • 一流研究者による大規模言語モデルの解説がわか...
    ■にゃんた愛用のガジェット達
    HHKBのキーボード(タイピングが心地よい!)
    amzn.to/3VHE4Nd
    パームレスト(外出時もタイピングの位置が安定する)
    amzn.to/3Rtcz7G
    マウス(手の負荷が下がる!)
    amzn.to/3KI72q7
    iiyamaモニター(ChatGPT用にディスプレイが必要・・・!)
    amzn.to/3VpljNd
    モニターアーム(コスパ良かった!)
    amzn.to/4bZMTaJ
    ■連絡先(全て返信できないかもしれません!)
    vtuber.nyanta@gmail.com
    ※上記製品リンクURLはAmazonアソシエイトのリンクを使用しています。
    ---------------------------------------------------------------------------
    ■楽曲提供
    フリーBGM DOVA-SYNDROME : dova-s.jp/
    効果音ラボ : soundeffect-lab.info/
    ■編集
    にゃんた妻
     一言:早く使ってみたいですね😄
    ---------------------------------------------------------------------------
    #AI #生成AI #python #プログラミング #ChatGPT

ความคิดเห็น • 35

  • @terryterr
    @terryterr 2 หลายเดือนก่อน +2

    商品説明文章作成で画像からHTMLを作成してもらったんだけど、クオリティの高さと速さにたまげたよ。
    もうここまで来てるんだなと。
    学生は学習要項を大幅に変えるレベルなのだなと。。

  • @user-bu4sg1lr6i
    @user-bu4sg1lr6i 2 หลายเดือนก่อน +8

    Gemini 1.5 Proがマイナーチェンジされて性能が上がってるみたいなんで、Gemini 1.5 Flashと一緒に取り上げて欲しいです!

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +3

      リクエストありがとうございます!
      Geminiも見てみますね😀

    • @user-bu4sg1lr6i
      @user-bu4sg1lr6i 2 หลายเดือนก่อน

      @@aivtuber2866 ありがとうございます!楽しみにしてます

  • @B0A0A
    @B0A0A 2 หลายเดือนก่อน +1

    音声と画像なら、画像のほうが高度でしょう
    だから実際には、GPT-4oの一番すごいのは画像認識から生成までが一直線にできるようになったことだと思います
    こういう仕組みであれば、AIが絵を描いていると言ってもいいですね

  • @salmon54561
    @salmon54561 2 หลายเดือนก่อน +6

    あの発表の仕方だとすぐ使えると思っちゃいますよねw
    今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +2

      ちゃんと読まないとわからないですよね笑
      > 今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?
      ですね! 入力も出力も色んなドメインのデータが扱えるようになりそうです😆

  • @AoiIZgNSTa51DhvRw
    @AoiIZgNSTa51DhvRw 2 หลายเดือนก่อน +1

    LoRAのように既存キャラクター画像を複数枚、多角的に学習できるようになれば私にとって最良のパートナーになりそうです。
    とてもいいチャンネルですね。情報をありがとうございます。

    • @AoiIZgNSTa51DhvRw
      @AoiIZgNSTa51DhvRw 2 หลายเดือนก่อน +1

      追記、『ポスター制作』のご説明にあったように複数の画像を読み取ることができるとのことなので、LoRAより自然な画像生成ができそうですね。
      期待大です。

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +1

      コメントありがとうございます!
      既存のキャラクターもいけそうな雰囲気ですよね😊

    • @AoiIZgNSTa51DhvRw
      @AoiIZgNSTa51DhvRw หลายเดือนก่อน +1

      @@aivtuber2866 さま
      お返事ありがとうございます。
      画像生成に一貫性を持たせる機能はまだ実装されていないですよね?
      Xのポストで「一貫性のテスト~」などの発信が散見されるので気になりました。
      Open AIの公式を見てもいつから開始かは載っていないので質問させていただきました。失礼しました。

    • @aivtuber2866
      @aivtuber2866  หลายเดือนก่อน +1

      @TACTICSandOIL
      公式の発表から判断すると
      まだ実装されていないはずですね!
      現状画像生成はDALLE3が使われていると思います😊
      デモでもあまり取り上げられていなかったので
      もしかしたら少し先なのかもですね・・・

  • @norimitsunaito6380
    @norimitsunaito6380 2 หลายเดือนก่อน +1

    いつも動画楽しく拝見させていただいております。PerplexityAIを使用してGPT-4oを使用するのと、オリジナルのGPT-4oだとどちらに課金した方が良いでしょうか。

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +1

      ありがとうございます!
      用途によるかと思います!🤔
      Perplexity AIは約3万文字以上になってくると、そのままモデルに入れているわけではないようなので
      長文を入力することが多い場合はあまり向いていなさそうです。
      後はGPTsとか、DALLE3、ADAなどが使用したい場合は、ChatGPTの方がおススメですかね🤔

    • @norimitsunaito6380
      @norimitsunaito6380 2 หลายเดือนก่อน +1

      @aivtuber2866
      早速の返信ありがとうございます😊
      なるほどですね。
      自分の今の用途だとGPT-4oが良さそうなので、そちらにしようと考えています。
      アドバイスありがとうございました。
      Udemyの動画も分かりやすくて、とても良かったです。

  • @shutak7157
    @shutak7157 2 หลายเดือนก่อน

    漢字が綺麗に生成できるようになって欲しいです〜

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน

      日本語がどれくらいいけるのか ってのが気になりますよね~

  • @amakusaiyeyasu3680
    @amakusaiyeyasu3680 2 หลายเดือนก่อน +5

    4oの発表はどこまで実装されてるかちょっと紛らわしかったですよね。テレビだけでなく某ai系youtuberさんも会話機能を試してみて褒めていました
    最高に優秀な研究者集団なんでしょうけど、こういう世界が注目するメディア向けの会見は慣れてなかったのかなと思いました。

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +1

      今回はSoraの時とは違って似たような機能が既にあるので
      ちょっとわかりにくかったですよね~🤔

  • @toshi68795
    @toshi68795 2 หลายเดือนก่อน +1

    なるほどまだGPT4oでは画像の生成はできないのですね。Dalle3なら作成できるのですね

    • @toshi68795
      @toshi68795 2 หลายเดือนก่อน +1

      Skypeに搭載されているCopilotで「猫の画像を作成して」と入力したら作成してくれました。そしてその画像にはPowered by Dalle3と表示されています。CopilotはGPTなんですかね。よくわからないです。

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +1

      初めて使うとよくわかりませんよね🤔
      CopilotはMicrosoftが提供していて、
      MicrosoftはOpenAIと連携しているので
      OpenAIのDALLE3のモデルを使って画像生成ができるんですよね😊

  • @shimomato
    @shimomato 2 หลายเดือนก่อน +3

    4oの画像生成とdalle3の画像生成が違うってこと?APIからだと4oの画像生成はできないですよね?

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน +1

      説明がわかりにくくてすみません🙇‍♂️
      DALLE3とGPT4oの画像生成は別もので
      GPT4oの画像生成機能はまだリリースされておらず、
      動画で紹介しているのは、OpenAIが載せているデモになります!

  • @kosetei1
    @kosetei1 2 หลายเดือนก่อน +5

    Quoraにgpt-4oと音声会話した人や画像生成した人が溢れかえってて、何か手段があるのかと必死で探し回ってたのに、、、
    間抜けしかいないじゃん...

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน

      OpenAIの発表の仕方が良くなかったかもですね・・・🥲

    • @B0A0A
      @B0A0A 2 หลายเดือนก่อน

      @@aivtuber2866
      普段から使ってる人や発表やサイトやX情報をきちんと追ってる人なら間違いようがないですね
      間違えてる人はみんなにわかです

  • @bubumoment86
    @bubumoment86 2 หลายเดือนก่อน +1

    画像とプロンプトを組み合わせて新しい画像を生成するという機能自体は、
    Stable DiffusionやMidojourneyに既にあるものなので、特別に新しいものではないけれど、
    ようするにクオリティ次第だね

    • @aivtuber2866
      @aivtuber2866  2 หลายเดือนก่อน

      ありがとうございます🙇‍♂️
      画像生成あまり手触り感がなかったのですが
      現状の画像入力の生成だとクオリティがあまり高くない感じなんですかね🤔

    • @bubumoment86
      @bubumoment86 2 หลายเดือนก่อน

      @@aivtuber2866
      あくまで主観になってしまうけれど、
      GPT4oが発表通りの性能を持っているのであれば、文字認識に関しては、GPT4oが、おそらくいちばん精度が高いように見えます
      ただ、その結果生成される画のクオリティこそが肝心なので、それだけで画像生成としてGPT4oが有利のようには思えません
      どういう画像を作りたいかにもよるけれど、
      個人的には、Midjourney > StableDiffusion > DALL E3 というクオリティ順位の認識。

    • @B0A0A
      @B0A0A 2 หลายเดือนก่อน

      いや、ぜんぜん違うよ

    • @bubumoment86
      @bubumoment86 2 หลายเดือนก่อน

      @@B0A0A
      そうなんですね
      よければどう違うのかを教えていただけるとありがたいです

    • @B0A0A
      @B0A0A 2 หลายเดือนก่อน

      ​@@bubumoment86
      キーボードのキーを押したらアルファベットの文字がディスプレイに表示される
      それと人間が文字を書くというのは違うというのは分かるだろう
      人間は文字を選んで書いているのだ
      SDは文字を元に概念を画像として具現化するただの変換器
      それと人間が絵を描くのが違うというのは分かるだろう
      人間には概念を選んでいるのだ
      4oは直接望む絵を出力できるように学習されている
      つまり従来のSDなどと人間、そのどちらに近いかというと人間に近い
      つまるところ、SDはただのツールだが、4oはその存在がイラストレーターに片足を突っ込んでいるということ
      これは全く質的に異なるし、起きうる影響は段違いのものになる