ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
商品説明文章作成で画像からHTMLを作成してもらったんだけど、クオリティの高さと速さにたまげたよ。もうここまで来てるんだなと。学生は学習要項を大幅に変えるレベルなのだなと。。
Gemini 1.5 Proがマイナーチェンジされて性能が上がってるみたいなんで、Gemini 1.5 Flashと一緒に取り上げて欲しいです!
リクエストありがとうございます!Geminiも見てみますね😀
@@aivtuber2866 ありがとうございます!楽しみにしてます
あの発表の仕方だとすぐ使えると思っちゃいますよねw今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?
ちゃんと読まないとわからないですよね笑> 今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?ですね! 入力も出力も色んなドメインのデータが扱えるようになりそうです😆
音声と画像なら、画像のほうが高度でしょうだから実際には、GPT-4oの一番すごいのは画像認識から生成までが一直線にできるようになったことだと思いますこういう仕組みであれば、AIが絵を描いていると言ってもいいですね
4oの発表はどこまで実装されてるかちょっと紛らわしかったですよね。テレビだけでなく某ai系youtuberさんも会話機能を試してみて褒めていました最高に優秀な研究者集団なんでしょうけど、こういう世界が注目するメディア向けの会見は慣れてなかったのかなと思いました。
今回はSoraの時とは違って似たような機能が既にあるのでちょっとわかりにくかったですよね~🤔
コメント失礼します。この機能いつ頃できると思いますか?
いつでしょうね・・・!一緒に発表されたvoiceモードもまだ全員に公開されていないので2~3か月後なのかなと個人的には思います🥲
漢字が綺麗に生成できるようになって欲しいです〜
日本語がどれくらいいけるのか ってのが気になりますよね~
なるほどまだGPT4oでは画像の生成はできないのですね。Dalle3なら作成できるのですね
Skypeに搭載されているCopilotで「猫の画像を作成して」と入力したら作成してくれました。そしてその画像にはPowered by Dalle3と表示されています。CopilotはGPTなんですかね。よくわからないです。
初めて使うとよくわかりませんよね🤔CopilotはMicrosoftが提供していて、MicrosoftはOpenAIと連携しているのでOpenAIのDALLE3のモデルを使って画像生成ができるんですよね😊
いつも動画楽しく拝見させていただいております。PerplexityAIを使用してGPT-4oを使用するのと、オリジナルのGPT-4oだとどちらに課金した方が良いでしょうか。
ありがとうございます!用途によるかと思います!🤔Perplexity AIは約3万文字以上になってくると、そのままモデルに入れているわけではないようなので長文を入力することが多い場合はあまり向いていなさそうです。後はGPTsとか、DALLE3、ADAなどが使用したい場合は、ChatGPTの方がおススメですかね🤔
@aivtuber2866早速の返信ありがとうございます😊なるほどですね。自分の今の用途だとGPT-4oが良さそうなので、そちらにしようと考えています。アドバイスありがとうございました。Udemyの動画も分かりやすくて、とても良かったです。
4oの画像生成とdalle3の画像生成が違うってこと?APIからだと4oの画像生成はできないですよね?
説明がわかりにくくてすみません🙇♂️DALLE3とGPT4oの画像生成は別ものでGPT4oの画像生成機能はまだリリースされておらず、動画で紹介しているのは、OpenAIが載せているデモになります!
Quoraにgpt-4oと音声会話した人や画像生成した人が溢れかえってて、何か手段があるのかと必死で探し回ってたのに、、、間抜けしかいないじゃん...
OpenAIの発表の仕方が良くなかったかもですね・・・🥲
@@aivtuber2866 普段から使ってる人や発表やサイトやX情報をきちんと追ってる人なら間違いようがないですね間違えてる人はみんなにわかです
画像とプロンプトを組み合わせて新しい画像を生成するという機能自体は、Stable DiffusionやMidojourneyに既にあるものなので、特別に新しいものではないけれど、ようするにクオリティ次第だね
ありがとうございます🙇♂️画像生成あまり手触り感がなかったのですが現状の画像入力の生成だとクオリティがあまり高くない感じなんですかね🤔
@@aivtuber2866 あくまで主観になってしまうけれど、GPT4oが発表通りの性能を持っているのであれば、文字認識に関しては、GPT4oが、おそらくいちばん精度が高いように見えますただ、その結果生成される画のクオリティこそが肝心なので、それだけで画像生成としてGPT4oが有利のようには思えませんどういう画像を作りたいかにもよるけれど、個人的には、Midjourney > StableDiffusion > DALL E3 というクオリティ順位の認識。
いや、ぜんぜん違うよ
@@B0A0A そうなんですねよければどう違うのかを教えていただけるとありがたいです
@@bubumoment86 キーボードのキーを押したらアルファベットの文字がディスプレイに表示されるそれと人間が文字を書くというのは違うというのは分かるだろう人間は文字を選んで書いているのだSDは文字を元に概念を画像として具現化するただの変換器それと人間が絵を描くのが違うというのは分かるだろう人間には概念を選んでいるのだ4oは直接望む絵を出力できるように学習されているつまり従来のSDなどと人間、そのどちらに近いかというと人間に近いつまるところ、SDはただのツールだが、4oはその存在がイラストレーターに片足を突っ込んでいるということこれは全く質的に異なるし、起きうる影響は段違いのものになる
商品説明文章作成で画像からHTMLを作成してもらったんだけど、クオリティの高さと速さにたまげたよ。
もうここまで来てるんだなと。
学生は学習要項を大幅に変えるレベルなのだなと。。
Gemini 1.5 Proがマイナーチェンジされて性能が上がってるみたいなんで、Gemini 1.5 Flashと一緒に取り上げて欲しいです!
リクエストありがとうございます!
Geminiも見てみますね😀
@@aivtuber2866 ありがとうございます!楽しみにしてます
あの発表の仕方だとすぐ使えると思っちゃいますよねw
今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?
ちゃんと読まないとわからないですよね笑
> 今までが入力{文字、画像}、出力{文字}だったのが、オムニは入力{文字、画像、音声}、出力{文字、画像、音声}になるってことなんですかね?
ですね! 入力も出力も色んなドメインのデータが扱えるようになりそうです😆
音声と画像なら、画像のほうが高度でしょう
だから実際には、GPT-4oの一番すごいのは画像認識から生成までが一直線にできるようになったことだと思います
こういう仕組みであれば、AIが絵を描いていると言ってもいいですね
4oの発表はどこまで実装されてるかちょっと紛らわしかったですよね。テレビだけでなく某ai系youtuberさんも会話機能を試してみて褒めていました
最高に優秀な研究者集団なんでしょうけど、こういう世界が注目するメディア向けの会見は慣れてなかったのかなと思いました。
今回はSoraの時とは違って似たような機能が既にあるので
ちょっとわかりにくかったですよね~🤔
コメント失礼します。この機能いつ頃できると思いますか?
いつでしょうね・・・!
一緒に発表されたvoiceモードもまだ全員に公開されていないので
2~3か月後なのかなと個人的には思います🥲
漢字が綺麗に生成できるようになって欲しいです〜
日本語がどれくらいいけるのか ってのが気になりますよね~
なるほどまだGPT4oでは画像の生成はできないのですね。Dalle3なら作成できるのですね
Skypeに搭載されているCopilotで「猫の画像を作成して」と入力したら作成してくれました。そしてその画像にはPowered by Dalle3と表示されています。CopilotはGPTなんですかね。よくわからないです。
初めて使うとよくわかりませんよね🤔
CopilotはMicrosoftが提供していて、
MicrosoftはOpenAIと連携しているので
OpenAIのDALLE3のモデルを使って画像生成ができるんですよね😊
いつも動画楽しく拝見させていただいております。PerplexityAIを使用してGPT-4oを使用するのと、オリジナルのGPT-4oだとどちらに課金した方が良いでしょうか。
ありがとうございます!
用途によるかと思います!🤔
Perplexity AIは約3万文字以上になってくると、そのままモデルに入れているわけではないようなので
長文を入力することが多い場合はあまり向いていなさそうです。
後はGPTsとか、DALLE3、ADAなどが使用したい場合は、ChatGPTの方がおススメですかね🤔
@aivtuber2866
早速の返信ありがとうございます😊
なるほどですね。
自分の今の用途だとGPT-4oが良さそうなので、そちらにしようと考えています。
アドバイスありがとうございました。
Udemyの動画も分かりやすくて、とても良かったです。
4oの画像生成とdalle3の画像生成が違うってこと?APIからだと4oの画像生成はできないですよね?
説明がわかりにくくてすみません🙇♂️
DALLE3とGPT4oの画像生成は別もので
GPT4oの画像生成機能はまだリリースされておらず、
動画で紹介しているのは、OpenAIが載せているデモになります!
Quoraにgpt-4oと音声会話した人や画像生成した人が溢れかえってて、何か手段があるのかと必死で探し回ってたのに、、、
間抜けしかいないじゃん...
OpenAIの発表の仕方が良くなかったかもですね・・・🥲
@@aivtuber2866
普段から使ってる人や発表やサイトやX情報をきちんと追ってる人なら間違いようがないですね
間違えてる人はみんなにわかです
画像とプロンプトを組み合わせて新しい画像を生成するという機能自体は、
Stable DiffusionやMidojourneyに既にあるものなので、特別に新しいものではないけれど、
ようするにクオリティ次第だね
ありがとうございます🙇♂️
画像生成あまり手触り感がなかったのですが
現状の画像入力の生成だとクオリティがあまり高くない感じなんですかね🤔
@@aivtuber2866
あくまで主観になってしまうけれど、
GPT4oが発表通りの性能を持っているのであれば、文字認識に関しては、GPT4oが、おそらくいちばん精度が高いように見えます
ただ、その結果生成される画のクオリティこそが肝心なので、それだけで画像生成としてGPT4oが有利のようには思えません
どういう画像を作りたいかにもよるけれど、
個人的には、Midjourney > StableDiffusion > DALL E3 というクオリティ順位の認識。
いや、ぜんぜん違うよ
@@B0A0A
そうなんですね
よければどう違うのかを教えていただけるとありがたいです
@@bubumoment86
キーボードのキーを押したらアルファベットの文字がディスプレイに表示される
それと人間が文字を書くというのは違うというのは分かるだろう
人間は文字を選んで書いているのだ
SDは文字を元に概念を画像として具現化するただの変換器
それと人間が絵を描くのが違うというのは分かるだろう
人間には概念を選んでいるのだ
4oは直接望む絵を出力できるように学習されている
つまり従来のSDなどと人間、そのどちらに近いかというと人間に近い
つまるところ、SDはただのツールだが、4oはその存在がイラストレーターに片足を突っ込んでいるということ
これは全く質的に異なるし、起きうる影響は段違いのものになる