キャプションってどうやって作るの?【SDXLでLoRA追加学習】

แชร์
ฝัง
  • เผยแพร่เมื่อ 30 ก.ย. 2024

ความคิดเห็น • 49

  • @edwardnigh1765
    @edwardnigh1765 หลายเดือนก่อน

    エラーになってインストールされないです。。。

  • @unako333
    @unako333 ปีที่แล้ว +4

    Zさん、解説動画ありがとうございます!いつも思うんですがバグが出てからの解決策が動画にしてるからって訳でなく、とても速いですよね。前にトライしたときに同じところで半日悩みました😰さすがです!また次回の動画も楽しみにしてますね~!

    • @SignalFlagZ
      @SignalFlagZ  ปีที่แล้ว +2

      コメントありがとう。 動画ネタにしようと思ったツールが何故かバグって動かない!

    • @unako333
      @unako333 ปีที่แล้ว +2

      @@SignalFlagZ バグが出ても解決出来た時の達成感が良いですよね!Zさん試行錯誤されてても楽しそうにやってそうです😆

    • @SignalFlagZ
      @SignalFlagZ  ปีที่แล้ว +2

      @@unako333 週一回更新を目指していますが今回油断して撮影始めたら動きませんでした😆 動いてよかった

  • @aaaa-ow3mk
    @aaaa-ow3mk หลายเดือนก่อน

    丁寧な解説動画、ありがとうございます。
    疑問なのですが、多くの方が「キャプションファイル=学習してほしくない要素を書いた学習元画像と同名のテキストファイル(先頭のみトリガーワード)で、学習元画像からキャプションファイルの内容を引いて、学習させたい要素が残る(学習させたい要素を直接単語で指定することは出来ない?)」
    と説明されていて動画の内容と逆になってしまいますが、キャプションファイル=学習させたい要素が入ったテキストファイルというのが正しいのでしょうか。

    • @SignalFlagZ
      @SignalFlagZ  หลายเดือนก่อน

      画像の説明をAIにするのがキャプションです。AIが既に知っているタグは画像から見つけて覚え直してくれます。知っているタグでカバーできない画像部分は知らないタグのことだろうと新しいタグを学習します。だからキャラの特徴を書かなければ全て新しいタグの事だろうと思い学習してくれます。
      AIが知っているタグを知らない初心者に有効です。顔と服をセットでおぼえさせたのだから着せ替えはできません。

    • @aaaa-ow3mk
      @aaaa-ow3mk หลายเดือนก่อน

      @@SignalFlagZ 早速ご回答いただきありがとうございます。
      例えば顔回りのみ学習させたい場合、キャプションファイルにblack eyes、black hair、bangs、smile等を入れ、arm、leg、white background等は消し、髪形を固定したい場合(トリガーワードと統合したい場合)はblack hair、bangsを消す、表情を固定したい場合はsmileを消すといった感じでしょうか。
      また、有効というのはどの内容を指しているのでしょうか。

    • @SignalFlagZ
      @SignalFlagZ  หลายเดือนก่อน

      @@aaaa-ow3mk 顔周りのロジックが変ですね。
      有効というのはタグを知らないのなら余計なことを書かない方がAIは混乱しないので学習が成功しやすいということです。スカートの事をシャツとかシューズと言ってる人がいたら何を言っているか理解するのに時間がかかりますよね。学習できない時はこうなっている事が多いです。

    • @aaaa-ow3mk
      @aaaa-ow3mk หลายเดือนก่อน

      @@SignalFlagZ タグを入れるという書き方が悪かったですね、タグは自動で付けられた物を取捨選択しているので自分で単語を考えて入力しているわけではないです。スカートを学習させたい場合に自動でスカートと付けられたタグを残してそのキャプションファイルで学習させるのは余計なことを書いていることにならないと思うのですが、認識が間違っているのでしょうか。

    • @SignalFlagZ
      @SignalFlagZ  หลายเดือนก่อน

      @@aaaa-ow3mk スカートというものが画像にあるとして範囲を切り抜くとしたらどうなりますか?それはAIが思っているスカートの範囲と一致するでしょうか? というのが次の段階になります。人が思っているものをAIも同じように思ってると思い込むのは人間のエゴです。では違いが起きるとしてその違いはどういう画像で起きやすいのか?AIはタグをどう思っているのか?を調査しだすとタグの選び方が変わってくるのです。
      そうこうしているうちにAIの方が賢くなって、この人間何言ってるのかわからないけど、きっとこれだろうとやってくれるようになるでしょうけど。

  • @GaoGaoHaj
    @GaoGaoHaj ปีที่แล้ว +2

    とてもわかりやすい解説ありがとうございます!LoRAの説明のなかでは一番詳しくて理解が進みました。
    まだわからないことがあったのですが、zchanにred bow, yellow shirts, emblem,を残して学習しているのに、どうして yellow shirtsだけを指定すると、red bow(yellow shirtsの前に書いてある)とemblemも出力されるのでしょうか?なんとなくYellow shirtsにred bowとemblemが合わせて学習されているように見えます。服の領域にあるから、ということでしょうか?
    また、glovesは例に挙げられていたタグ情報とは別のものを用意して別学習させているのでしょうか?
    理解が悪くて申し訳ないです。m(__)m

    • @SignalFlagZ
      @SignalFlagZ  ปีที่แล้ว +1

      AIが知っているタグはその領域を優先的に学習するようですが、他の領域を無視するわけでは無いようです。良くわからない領域はキャプションの先頭の方から優先的に全てのタグと関連付けられます。人だって初めて見る1枚の騙し絵など解釈できないのですから、服の模様とエンブレムを明確に区別するにはもっと上位の概念化が必要なのでしょう。その概念化をするには教師画像が少なすぎるという事でしょう。AIはエンブレムってどこのこと?って思ってるんじゃないでしょうか?

  • @あくと-t5z
    @あくと-t5z ปีที่แล้ว +1

    キャプションのタグ付けは学習する領域ですか。なるほど納得します。
    わかりやすい解説ありがとうございます。

  • @カズ-u4w
    @カズ-u4w 4 หลายเดือนก่อน +1

    キャプションで画像読み込ませると白紙の画像が読み込まれるのですが何故でしょうか?

    • @SignalFlagZ
      @SignalFlagZ  4 หลายเดือนก่อน

      コメントありがとう
      画像のフォーマットを意識した方が良いでしょう。カラーですか?モノクロですか?ビット深度は8bitでしょうか?16bitグレースケールですか?アルファチャンネルを含みますか?アプリ独自のフォーマットですか?など 画像と言ってもとてもたくさんの種類があるんですよ。

    • @カズ-u4w
      @カズ-u4w 4 หลายเดือนก่อน +1

      @@SignalFlagZ ご返信ありがとうございます。
      カラー.png.32ビット アルファチャンネル含みます。jpegなど他の形式も試しましたがダメでした。。。

    • @カズ-u4w
      @カズ-u4w 4 หลายเดือนก่อน +1

      追記 画像入れると自分のアイコンの写真が表示されます。

    • @SignalFlagZ
      @SignalFlagZ  4 หลายเดือนก่อน

      @@カズ-u4w 何か高級な画像編集ソフトを使っているのでしょうか?MSペイントで開いてpngで保存してみるとどうでしょうか。それでダメなら原因は良くわからないです。なんだろう。

    • @カズ-u4w
      @カズ-u4w 4 หลายเดือนก่อน +1

      @@SignalFlagZ アップデートしてからこの現象になったので、アプデの影響かもしれません。 ご丁寧に教えていただきありがとうございました。

  • @キワタロー
    @キワタロー ปีที่แล้ว +1

    不具合の対処方法も細やかに解説してくださっているのでとても助かります!
    イラスト生成AIにおいて特定のキャラクターを扱おうとすると、現状では追加学習ファイルを用いるかキャラクターイラストをi2iやControlNetに突っ込むかの2択ですが、
    いずれは3Dモデルを参照して整合性のあるイラスト(やアニメーション)を出力してくれるようになったらいいなと期待しています。
    きっとアニメや漫画などのプロの制作現場で生成AIが活発に利用されるようになるでしょうね。

    • @SignalFlagZ
      @SignalFlagZ  ปีที่แล้ว +2

      物理的構造を理解して絵を描くようになると変な絵が出てこなくなりそうですよね。でも今の悪夢のような絵をたまに出してくるのも面白いところです。

  • @numedup
    @numedup 9 หลายเดือนก่อน

    うーん……Dataset Tag Editor Standaloneは画像見ながら確認するのには使いやすいですが、
    置換に関しては結局スクリプト作ったほうが楽かも…
    UI操作でやってると手戻りがあったときにまたやり直しになるのが辛い

    • @SignalFlagZ
      @SignalFlagZ  9 หลายเดือนก่อน +1

      直感的に操作しづらい感じがしますよね。でもワード選びの試行錯誤ではこんなUIになってしまうのかも。スクリプトになるって試行錯誤が終わった段階ですよね。

    • @numedup
      @numedup 9 หลายเดือนก่อน

      @@SignalFlagZ うーん・・・まあ、使い方によるのでしょうけど、自分はある程度タグの傾向を確認したら一括置換とか一括削除しかしないだろうなーと思ってます。そうなると再現性のある方法にしておいたほうが後で画像を増やした時に結局楽になるなあ、とか思ってたりします。

  • @video-editor-cacaon
    @video-editor-cacaon 5 หลายเดือนก่อน +2

    動かね~!動かね~!ってやってましたけどエラーだったなんて・・・
    「説明しすぎない」「習うより慣れよ」「はしょりすぎない」という学習者目線の見よう見まねで試行錯誤したら進められるちょうどよい動画を作れるのは素晴らしいセンスだと思います!
    あと説明のナレーションも抑揚が効いててイイです!
    学ばせて頂きつつ動画作り応援しています✨

    • @SignalFlagZ
      @SignalFlagZ  5 หลายเดือนก่อน

      ありがとう!