- 40
- 66 914
ビジョンセンサーチャンネル
Japan
เข้าร่วมเมื่อ 6 พ.ค. 2020
マシンビジョンに関する基礎知識を解説して、画像処理の初学者を支援するチャンネルです。
技術の新しさや詳細さよりも「わかりやすさ」を重視します。だからなるべく数式を使わずに直観的に説明します。
UP主は現役の画像処理エンジニアです。個人的に興味を持った話題を不定期で配信していこうとおもいます。
技術の新しさや詳細さよりも「わかりやすさ」を重視します。だからなるべく数式を使わずに直観的に説明します。
UP主は現役の画像処理エンジニアです。個人的に興味を持った話題を不定期で配信していこうとおもいます。
SAM2 動画セグメンテーションの中身解説
SAM2の動画セグメンテーションの中身を解説します
使い方や特徴の紹介は既にたくさんありますが、
モデルの中身、特にメモリエンコーダおよびメモリアテンションの動作の解説はほかに見当たらないので作りました
<出典>
ai.meta.com/blog/segment-anything-2-video/
#ディープラーニング
#画像処理
#トランスフォーマー
#セグメンテーション
#computervision
#deeplearning
#segmentation
#transformer
#segmentanything
文字起こし
使い方や特徴の紹介は既にたくさんありますが、
モデルの中身、特にメモリエンコーダおよびメモリアテンションの動作の解説はほかに見当たらないので作りました
<出典>
ai.meta.com/blog/segment-anything-2-video/
#ディープラーニング
#画像処理
#トランスフォーマー
#セグメンテーション
#computervision
#deeplearning
#segmentation
#transformer
#segmentanything
文字起こし
มุมมอง: 297
วีดีโอ
ディープラーニング超入門【リメイク】 画像分類 CNN
มุมมอง 3413 หลายเดือนก่อน
ディープラーニングの基礎的な知識をなるだけわかりやすく説明します このチャンネルで最初に作った動画の作り直しになります。 説明資料と音質を改善しました #ディープラーニング #画像処理 #computervision #deeplearning #cnn #classification #ai
Segment Anything Modelの中身解説
มุมมอง 5894 หลายเดือนก่อน
Segment Anything Modelの中身を解説します 使い方や特徴の紹介は既にたくさんありますが、 モデルの中身、特にデコーダの動作の解説はほかに見当たらないので作りました <出典> 論文 arxiv.org/abs/2304.02643 #ディープラーニング #画像処理 #トランスフォーマー #セグメンテーション #computervision #deeplearning #segmentation #transformer #segmentanything
たった1枚の画像から3Dが!? 単眼カメラの深度推定(Monocular Depth Estimation) Depth Anything
มุมมอง 1.3K7 หลายเดือนก่อน
たった1枚の画像から、3次元の距離を推定できる技術を紹介します。 <出典> ・サーベイ www.ipol.im/pub/art/2023/459/ ・MiDaS arxiv.org/abs/1907.01341 ・DepthAnything arxiv.org/abs/2401.10891 ・多視点撮像との組み合わせ sparsenerf.github.io/ #computervision #deeplearning #imageprocessing #ディープラーニング #画像処理 #単眼デプス推定 #単眼深度推定
画像生成AIのしくみを直感的に解説 Stable Diffusion VAE 拡散モデル
มุมมอง 2.4K7 หลายเดือนก่อน
Stable Diffusionなど、ディープラーニングを使った画像生成の仕組みの話題です 技術解説コンテンツは既にたくさん出ていますが、 大抵は知っていて当たり前のように、いろいろな専門用語が出てきます (拡散モデル、ノイズ除去、潜在空間、テキストプロンプト、VAE…) これらは一体何者なのか?どのように画像生成に関係するのか? について 詳しい数学の理論はなるだけ省いて、直感的にわかるように説明します 参考:もう少し詳しく知りたい。。。という方は、以下のブログがとても分かりやすくてお勧めです hoshikat.hatenablog.com/entry/2023/03/15/221428 #ディープラーニング #画像処理 #AI画像生成 #aiimagegenerator #computervision #deeplearning #generativemodels #vae #s...
CNN vs Vision Transformer 強み弱み 比較解説
มุมมอง 2.1K7 หลายเดือนก่อน
画像処理用のニューラルネットワークの2大アーキテクチャ、CNNとVisionTransformerを比較します。最近の技術についても紹介します。 どちらが強いかの判定もします(私の独断と偏見です。詳細内容の正しさはご容赦ください) <出展> ・Masked Autoencoder: arxiv.org/abs/2111.06377 ・Swin-Transformer: arxiv.org/abs/2103.14030 ・CNNとVisionTransformerの融合(CoAtNet): arxiv.org/abs/2106.04803 ・高速なVisionTransformer(EfficientViT): arxiv.org/abs/2205.14756 #ディープラーニング #画像処理 #トランスフォーマー #CNN #transformer #vit #compute...
ディープラーニングの軽量化 枝刈り 知識蒸留
มุมมอง 83411 หลายเดือนก่อน
ディープラーニングを使った画像処理は、巨大なモデルほど高い性能を出せますが、実用上はいつでもに強力な計算機を使えるとは限りません。 そこで今回紹介するのは学習済みのモデルを、精度を保ったまま軽量化する方法です。 <出展> スケーリング則 ConvNets Match Vision Transformers at Scale arxiv.org/abs/2310.16764 枝刈り Pruning Neural Networks towardsdatascience.com/pruning-neural-networks-1bb3ab5791f9 知識蒸留 Knowledge Distillation: A Survey arxiv.org/abs/2006.05525 #computervision #deeplearning #ディープラーニング ...
画像の明るさ補正(Low-Light Enhancement)
มุมมอง 44311 หลายเดือนก่อน
窓のある室内でのように、明るさが極端に差がある場所で撮影すると、極端に真っ黒な領域ができてしまいます。そのような画像から見やすい明るさの画像を作り出す方法を紹介します <出展> Deep Retinex Decomposition for Low-Light Enhancement arxiv.org/abs/1808.04560 <参考> Retinex (無料フォトレタッチツールGIMPの機能) docs.gimp.org/2.6/ja/plug-in-retinex.html #computervision #deeplearning #imageprocessing #画像修正 #ディープラーニング #画像処理
多視点画像からの3次元復元(フォトグラメトリとNeRF)
มุมมอง 983ปีที่แล้ว
様々な方向から撮影された画像から、物体の3次元形状を復元する方法として、フォトグラメトリとNeRFの紹介です。 詳細な理論や詳しい数式は省き、直感的に説明します <参考> NeRF(speakerdeck.com/kentaitakura/nerf-3ci-yuan-xji-jie-xue-xi-ru-men-zhu-mu-no3ci-yuan-hua-ji-shu-woyasasikujie-shuo) キャリブレーション(th-cam.com/video/cyF0Mqfzhk0/w-d-xo.html) #computervision #deeplearning #nerf #photogrammetry #3dscanner #ディープラーニング #画像処理
画像のボケ修正(Deblurring)
มุมมอง 663ปีที่แล้ว
ピントがずれたり、手振れによってボケてしまった画像を修正するアルゴリズムです。 画像処理としては、かなり難しい問題になりますが、ディープラーニングを使って実現する技術を紹介します 出展: DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks(arxiv.org/abs/1711.07064) 参考: ・Deep Image Deblurring: A Survey(arxiv.org/abs/2201.10700) ・ディープラーニングによるノイズ除去(th-cam.com/video/JMdyoMqmZPE/w-d-xo.html) #imageprocessing #deeplearning #deblurring #computervision #画像修正 #ディープラーニン...
画像のノイズ除去(Denoising)
มุมมอง 846ปีที่แล้ว
画像を撮るとどうしても乗ってしまうノイズを除去する技術を紹介します <出典> 【DnCNN】"Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising"(arxiv.org/abs/1608.03981) 【Noise2Noise】"Noise2Noise: Learning Image Restoration without Clean Data"(arxiv.org/abs/1803.04189) 【拡散モデルを用いた手法】"Denoising Diffusion Restoration Models"(arxiv.org/abs/2201.11793) <参考> バイラテラルフィルタ imagingsolution.net/imaging/bilateralfilter/ ...
SegmentAnything ざっくり解説
มุมมอง 704ปีที่แล้ว
最新の画像セグメンテーション技術である「SegmentAnything」について、概念的なお話しをします。 かなり内容を端折ってありますので、情報の詳細さ・正確さについてはご容赦ください <出典> webデモ segment-anything.com/ 論文 arxiv.org/abs/2304.02643 #ディープラーニング #画像処理 #トランスフォーマー #セグメンテーション #computervision #deeplearning #segmentation #transformer #segmentanything
トランスフォーマー(ViT)の中身 ~ Multi-Head Attentionを画像処理で解説 ~
มุมมอง 7Kปีที่แล้ว
トランスフォーマー(Vision Transformer)の中心要素である、「Multi-Head Attention」について説明します 自然言語処理からの説明ならば、すでにたくさん出ていますが、 画像処理の観点からの説明は見たことがなかったので作りました。 <Vision Transformerの他の動画> th-cam.com/video/8twQDbNHI2o/w-d-xo.html <出典> An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale arxiv.org/abs/2010.11929 #ディープラーニング #画像処理 #トランスフォーマー #transformer #computervision #deeplearning #attention
トランスフォーマー(ViT)による物体検出 ざっくり解説
มุมมอง 1.9Kปีที่แล้ว
トランスフォーマー(Vision Transformer)を使った物体検出について、概念的なお話しをします。 かなり内容を端折ってありますので、情報の詳細さ・正確さについてはご容赦ください <出典> End-to-End Object Detection with Transformers arxiv.org/abs/2005.12872 #ディープラーニング #画像処理 #トランスフォーマー #物体検出 #transformer #objectdetection #computervision #deeplearning
ゼロショット学習(基盤モデルCLIP)
มุมมอง 3.2Kปีที่แล้ว
事前に学習していない分類を、追加学習することなく推測できるゼロショット学習について説明します。 画像と文章の関係性を学ぶモデル「CLIP」の話題です <出展> ・CLIP "Learning Transferable Visual Models From Natural Language Supervision" arxiv.org/abs/2103.00020 ・CLIPを使った2万クラスの物体検出 [Detic] "Detecting Twenty-thousand Classes using Image-level Supervision" arxiv.org/abs/2201.02605 ・CLIPを使ったテキストからの画像生成 [DALL-E] openai.com/research/dall-e ディープラーニング#画像処理#computervision#clip#z...
ディープラーニングによる異常検知(Anomaly Detection) AutoEncoder PatchCore
มุมมอง 3.7Kปีที่แล้ว
ディープラーニングによる異常検知(Anomaly Detection) AutoEncoder PatchCore
ディープラーニングによるインスタンスセグメンテーション(Instance Segmentation)
มุมมอง 1.8K2 ปีที่แล้ว
ディープラーニングによるインスタンスセグメンテーション(Instance Segmentation)
自己教師あり学習 (Self-supervised learning) -ラベルつきデータが足りないときの機械学習-
มุมมอง 2.2K2 ปีที่แล้ว
自己教師あり学習 (Self-supervised learning) -ラベルつきデータが足りないときの機械学習-
半教師あり学習(Semi-supervised learning) -ラベルつきデータが少ないときの機械学習-
มุมมอง 1.4K2 ปีที่แล้ว
半教師あり学習(Semi-supervised learning) -ラベルつきデータが少ないときの機械学習-
トランスフォーマー(VisionTransformer ViT) ~ディープラーニングの新しいかたち~
มุมมอง 9K2 ปีที่แล้ว
トランスフォーマー(VisionTransformer ViT) ~ディープラーニングの新しいかたち~
説明が簡潔でわかりやすかったです。ありがとうございます。
ちょうどコードをみていたところなので、この解説で理解が進みました!ありがとうございます:)
わかりやすすぎる
EfficientAD について解説をお願いしたいです..PatchCoreよりも高レイテンシー, 高スコアを出しているようですが..
うーん、10次関数とか言われてもわかんないです
説明がわかりやすいのにBGMの音が気になって聞き取れない
トレーニング時の人手のアノテーションがネックですが、このような技術が進歩することで、人手の作業は減少するでしょうね。 一方で、人がアノテーション/セグメンテーションしても判断が割れるケースや適用対象によって求める精度が異なるものもあります。 基本的には、基盤モデルとファイチューニングの世界になると思いますが、この手の技術のゴールをどこに設定するかが難しいですね。 使う人/提案する人が適切なゴール表現を選択しなければ、技術の過大評価/過少評価になります。
分かりやすいですね! とても助かります
NNでどんな関数でも近似できることは知識としては知ってましたが、どうしてそうなるのか理解できました
画像系のトランスフォーマーの教材を探していて、唯一見つかりました。大変勉強になります。本当にありがとうございます。ケーブルの事例が本当にわかりやすい
イヤホンで聞いてると、マイクのボッボッって雑音がキツいです😢
数学的な説明聞いても分かった気になるだけだったのが、この動画だと腑に落ちるような理解ができて非常にありがたいです!!
数学的な理解よりもまずは直感的な理解をしたいので、このような動画は非常にありがたいです!!
とても分かりやすい解説です。確認ですが物体検出についてはSSDのアルゴリズムというわけではなく、 物体検出のスタンダートな概念ってことでよろしいでしょうか?SSDは確かバウンディングボックスなどの概念があった気がします。
コメントありがとうございます。おっしゃる通り、この動画はSSDに特化したものではなく、物体検出の基礎概念です。
絵で解説してくれてめっちゃわかりやすい
フーリエ変換
万能な単一技術はないので、うまい組み会わせがポイントになるのですね。
ステップバイステップで解りやすいですね。以前妻に原理を聞かれて説明に苦労したのですが、これなら解ってもらえそうです。
すごくわかりやすいです。なんでクエリ キー バリューの3つが必要なのか意味がわかりました。
内容は良いんだけど音声がひどすぎるw
めちゃくちゃに分かりやすい‼️ ありがとうございます‼️
大変勉強になります!トランスフォーマーのデメリットはあまり意識していませんでしたが納得の短所ですね!自然言語処理から興味を持ってたどり着いたのですが画像を文章として置き換えたら大変わかりやすい内容でした!
人間の脳も刈り込みというプロセスがあるので最初は多量の脳細胞と結合が必要なのかもしれないですね
非常にわかりやすかったです! ありがとうございます
よく参考にさせて頂いています、わかりやすくて素晴らしいです! ただ、音声にボッ、、ボッ、、、というようなノイズが入っていてイヤホンで聴くと耳が痛いです、、、音を良くしてもらえると最高です
学習データの作り方が難しそうですね。デジカメの撮影モード見たいな分類があれば上手く行きそうですね。階調分解能以下につぶれた暗部は復調できるでしょうか?
この方法では、暗すぎて諧調以下につぶれてしまった部分の復元は難しいとおもいます。その場合はインペインティングの問題設定になるので、それを解けるモデルと学習データが要りそうです。
最近見始めました。 大学で画像処理、認識を行っているのですがマジでわかりやすくて助かっています。 ゆくゆくはなんとなく使うからなんとなくでも解って使うになれるよう学ばさせていただきます!
素晴らしい説明ありがとうございます。非常に助かります
いつも画像処理の基礎からの説明で勉強になります.人に近い感覚を模倣するというのが間接的なアプローチで工学的に非常に面白いと感じました.
いつも勉強になります。ありがとうございます。PSFに基づく方法は物理的には「復元」ですが、深層学習の方法は「復元、修正」と言うより「生成、創造、再構成」といったイメージを持ちます。目的が達成できていれば、どちらでもいい話かな😅?
コメントありがとうございます。最近は拡散モデルによる画像生成技術の進歩がすさまじいので、ボケ修正にこれらを使う研究もでてきてます。このようなやり方が今後主流になるかもしれませんね
わかりやすい…。ありがとうございます。
めちゃめちゃいい動画だな
トランスフォーマー導入検討していましたが エッジデバイスには向かないとの情報が参考になりました
勉強になりました。ありがとうございます。ノイズの特性は撮像デバイスにょって異なることを考えると、Noise2Noiseは撮像デバイスのバリエーションも多彩にしなければ汎化レベルが上がらないと考えてよいでしょうか?
Yolov8 について解説していただきたいです
レナ (画像データ)は使用しないほうが良いのでは? 結構な問題になったような・・・
大変すばらしい解説です。ありがとうございます。 ただし、下記のような基本的な事についてまだ分かっていないので、ご教授いただければ、幸いです。 Q1.CNNの場合はfilterが『局所的』だと言われたのですが、Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、結局『局所的』ではないか? Q2. CNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。 Q3. TransformerもNeuralNetworkの一種で考えて良いのでしょうか。そうであれば、バッチ単位で訓練を行うかと思いますが、訓練用のバッチ画像はみんな内容がだいたい同じの画像ですか、あるいは内容がまちまちで、例えばお互いに回転関係、移動関係のある画像同士を利用して混錬を行うのでしょうか。
A1. 局所的か大局的かは、特徴抽出時に関係性を見る範囲の違いを表します。 1層のCNNでは、コンボリューションカーネル内のみでの、画素間の関係性を見ます。 Transformerでは、パッチ間の関係性を見ますが、パッチ間の距離の制約はありません。 A2. Transformerの中身は、MLPの集まりなので、それぞれのMLPの重みが学習対象になります A3. Transformerもミニバッチで学習します。また(回転などの)変換は内部のMLPの重みで決まります。MLP一つあたりの変換方法はミニバッチ内で同じですが、MLPがたくさんあるので、いろいろな変換が組み合わされた状態になります 学習では、これらのより良い組み合わせを決めるイメージです
@@VisionSensorChannel 早速とても素晴らしいご教授本当にありがとうございます! 再度確認させていただきます。申し訳ございません。 画像関係のアプリケーションには4大種類があるかと思います: 1.Object認識・分類(人間か、車か) 2.指定したObjectの存在位置( 人間の居る場所と車の位置)特定(位置決め) 3.画像修復(inpainting, denoising) 4.訓練画像からこれまでのない画像生成ーーー人間の顔、シーン等(できればバラエティ性が富む)。 私がよく付き合ってきたのは画像修復アプリで、通常、画像トレニングする時に、CNN系の場合、訓練画像中の対象objectの位置を揃える必要あります(位置ずれに関する許容範囲に限界)。 そのための訓練画像のobject位置調整の仕事量は莫大です。 Transformerアーキテクチャーの場合、画像修復アプリのために、訓練画像においての対象objectの画像中の存在位置に関して気にならなくても宜しいでしょうか。 どんなご見解、アイディアでも宜しいです。いただければ幸いと思います。
@@inception9150 画像修復はあまり詳しくありませんが、私が知っているAutoencoderと似たものだとすると、 学習時の位置ずれに対しての敏感さは、ネットワーク構造よりも損失関数に強く依存するとおもいます。 同じ損失関数ならば、CNNを使う場合とTransformerの場合ではさほど変わらないとおもいます 一方で、Transformerは画像パターンの知識を、CNNより多様かつ詳細に記憶できることが強みと言われています。 なので大量の学習画像を使って「事前学習」することがよく行われます。 そこからのアイデアですが、 様々な種類の物体を、様々な位置・姿勢に配置した大量の画像データを人工的に使って、Transformerを事前学習しておき、 アプリに応じた少量の画像でファインチューニングすることで、多少の位置ずれに対しても頑健な復元ができるようになるかもしれません
@@VisionSensorChannel 貴重なご意見ありがとうございます。色々試したいですね。 現在の所謂『deep learning』的な方法は適切な訓練サンプルの準備作成は通常の会社にとって大きな負担ですね。 再度御礼を申し上げます。
一番分かりやすい
インスタンスセグメンテーションの各手法の特徴について、判り易くまとめていただいたていて助かりました。有り難うございます。
説明はわかりやすかったですが、音声がちょっと小さすぎですね。。
このDNNやアルゴリズムの背後にある考え方/概念が大変分かり易くて、非常に有益でした! (巷にある情報は、単なる構造の説明や浅い概念に終始しているケースが多いので) 次は、画像スタイル変換やGANについても噛み砕いて解説して頂けると嬉しいです。
ここで紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 この辺詳しい方にご説明いただければ幸いです。
4:00あたりの操作が意味不明ということですか?
@@companiontravelingkitsune ご質問ありがとうございます。 正確に5:30あたりです。 そして、CNNの場合はfilterが『局所的』だと言われたのですが、 Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、 結局『局所的』ではないかという不明な点もあります。 更にCNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。 アディアやご意見あれば議論したいと思います。
各パッチ同士の内積をとるので、大域的な特徴を捉えていると言われているのではありませんか?
@@inception9150 「同じtoken~ナンセンスだから」のところは、説明で使われているマス目(マトリクス?表?)でいうところの対角成分は意味がない、ということですか?
@@companiontravelingkitsune 言語翻訳の場合翻訳先を決めるために言語のcontextにおいて 前後のtokenの相関係数×対応の各関連tokenの後、その和を取りますが、このTH-camの中では相関係数の和を取って同一tokenをかけて結果とします。統計分野と工学分野において、このような計算方法はありえないだと思います。
この動画の資料を会社の勉強会で使用したいのですが、切り取って使ってもいいですか?
お役に立てればお使いください
@@VisionSensorChannel Transform紹介動画本当にありがとうございます! ただ、疑問または不明な点がありますので、ご解釈いただければ大変助かります。 紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 なので、無意味ではと思いますが、、、是非ご教授お願いします。
ご質問ありがとうございます。 自然言語処理と同じく、valueと重み(ここで言っているアテンションマップ)の内積をとるのが正しい手順になります。 概念的な解説を心掛けたため、詳細内容としては説明抜けや間違いがあるかもしれません。 より詳しい解説としては、以下のサイトなどを同時にご覧いただくことをお勧めします cvml-expertguide.net/terms/dl/seq2seq-translation/transformer/multi-head-attention/
@@VisionSensorChannel 早速ご返答ありがとうございます。ご案内頂いたサイトを勉強させていただきます。
横から失礼いたします. 本動画ではわかりやすさのため入力画像と同じ5x5パッチと同じサイズのフィルタを得て互いの内積をとることでattentionを行うと説明されていますが,実際には図の説明から25x25になります.これを線形変換後のValue (サイズは25xW_outとする)との内積をとり,最終的にValueと同じ25xW_outサイズを持ち,特定の領域が強調されたattentioned valueを得ます.その後は説明の通りMulti-headによるattention valueの縦結合+線形変換により最終的な出力(これはTransformer論文のモデル図のadd&Normブロックを見てもわかりますが,skip connectionを適用するため,線形変換前=25xW_inのサイズとなる)を得ます. 概念的にはこちらの動画でなにも問題なく,NLPでのTransformerと同様の説明となっていると理解しています. こちらの動画も参照されるとよいかと思います. th-cam.com/video/mMa2PmYJlCo/w-d-xo.html
大変分かりやすい解説動画を作っていただき、ありがとうございます!とても勉強になります😆
わかりやすくて勉強になります。ジグソーパズルのピースを探すようなイメージに見えます。どことも似ている所は情報量低く、どことも似ていないところは情報量高い(注目点)というイメージでよいでしょうか?
更新が続いていて嬉しいです。とても勉強になります。
画像認識機械学習初心者です アテンション機構の仕組み、動画で説明が見れることありがたいです😄 ポジションエンコーディングとMLP部分についての説明もぜひ動画で見たいです!
CNNとの比較でアテンションとトランスフォーマーを解説しているのがわかりやすかったです!
力づく感を感じます😅。言語と画像の対応付けは文化的な差が出やすいので、バイアス問題への対応がより大変ですね。それも力技でなんとかなる時代が来るのかな?
コメントありがとうございます。 たしかに力押しですね。 お金を持っているところは強いですね。
すごくわかりやすい!
ありがとうございます。励みになります。