Attention Mechanism出力を生成するときにモデルが入力の関連部分に焦点を当てることができるニューラル ネットワーク コンポーネント。視覚言語モデルでは、クロスアテンション メカニズムにより、モデルがテキストを処理するときに関連する画像領域に注意を向けたり、その逆を行うことができます。
Contrastive Learning正のペア (一致するサンプル) と負のペア (一致しないサンプル) を対比してモデルをトレーニングし、モデルが識別表現を学習するように促す自己教師あり学習アプローチ。
Embedding Spaceデータ ポイントが密な数値ベクトルとして表現される連続ベクトル空間。視覚言語モデルでは、画像とテキストが共有埋め込み空間にマッピングされ、そこでは意味論的な類似性が幾何学的近接性に対応します。
Zero-Shot Learning関連するタスクまたはデータに関するトレーニングから伝達された知識を活用することにより、明示的にトレーニングされていないタスクを実行したりカテゴリを認識したりするモデルの機能。
Fine-Tuning事前トレーニングされたモデルを取得し、それを特定の下流タスクまたはデータセットでさらにトレーニングし、その学習された表現を新しい要件に適応させるプロセス。
Encoder-Decoder ArchitectureA neural network structure consisting of an encoder that compresses input into a latent representation and a decoder that generates output from that representation.エンコーダーが画像を処理し、デコーダーがテキストを生成する画像キャプションで使用されます。
Tokenizationテキストを、ニューラル ネットワークで処理できる単語、サブワード、文字などの小さな単位 (トークン) に分割するプロセス。視覚的なトークン化でも同様に、イメージをパッチに分割します。
Cross-Modal Transferモダリティ間で共有される意味概念を活用して、1 つのモダリティ (テキストなど) で学習した知識を転送して、別のモダリティ (視覚など) のパフォーマンスを向上させる機能。
Visual Grounding特定の自然言語表現に対応する画像内の特定の領域を位置特定または識別し、テキスト参照を視覚コンテンツに結び付けるタスク。
Multimodal Fusion複数のモダリティからの情報を結合して統一された表現にするための技術。一般的なアプローチには、早期フュージョン (生の入力を結合)、後期フュージョン (高レベルの機能を結合)、およびクロスアテンション フュージョンが含まれます。
Image PatchVision Transformers の入力ユニットとして使用される画像の小さな長方形の領域。画像は重なり合わないパッチのグリッドに分割され、それぞれが NLP の単語と同様のトークンとして扱われます。
Pre-training特定のタスクを微調整する前に、大規模な一般的なデータセットでモデルをトレーニングする最初のフェーズ。視覚言語モデルは、多くの場合、インターネットから取得した何百万もの画像とテキストのペアで事前トレーニングされます。
Prompt Engineering入力を作成する練習は、モデルを望ましい出力に導くよう促します。 VLM では、慎重に設計されたテキスト プロンプトにより、ゼロショット分類やその他のタスクが大幅に改善されます。
Semantic Similarity表面レベルの表現に関係なく、2 つのコンテンツの意味がどの程度密接に関連しているかを示す尺度。 VLM では、犬の画像と「犬」というテキストは意味的に類似性が高くなります。
Feature Extraction生データから重要なパターンと特性を自動的に学習して識別するプロセス。ビジョン エンコーダは、画像からエッジ、テクスチャ、オブジェクトの形状などの視覚的特徴を抽出します。
Cosine Similarity2 つのベクトル間の角度のコサインを計算することで、2 つのベクトルがどの程度類似しているかを測定するために使用されるメトリック。 VLM では、画像とテキストの埋め込み間のコサイン類似度によって、それらが意味的にどの程度一致するかが決まります。値の範囲は -1 (反対) から 1 (同一) です。
Batch Normalizationニューラル ネットワークの各層への入力を正規化し、トレーニングを安定化および加速する手法。勾配フローを改善し、より深いネットワークのトレーニングを可能にするために、ビジョン エンコーダで広く使用されています。
Transfer Learning1 つのタスクでトレーニングされたモデルを別の関連するタスクに再利用する機械学習手法。 CLIP のような VLM は、その一般的な視覚言語表現をタスク固有のトレーニングなしで多くの下流タスクに適用できるため、転移学習に優れています。
Image Captioning画像の自然言語記述を自動的に生成するタスク。これには、モデルがオブジェクト、その属性、空間的関係、アクティビティを識別し、この情報を伝える文法的に正しい文を作成する必要があります。
Self-Supervised Learningデータ自体から派生した口実タスクを解決することで、モデルがラベルのないデータから表現を学習するトレーニング パラダイム。画像とテキストのペアに関する対照学習は、VLM にとって非常に効果的であることが証明されている自己教師あり学習の形式です。
Multimodal Embedding共有空間内の複数のモダリティ (画像やテキストなど) から情報を取得する、学習されたベクトル表現。マルチモーダル埋め込みにより、クロスモーダル検索が可能になり、テキスト クエリで関連する画像を検索したり、画像クエリで関連するテキストの説明を検索したりできます。
Diffusion Model学習された逆拡散プロセスを通じてランダム ノイズを徐々に除去することにより、データ (多くの場合画像) の作成を学習する生成モデル。 DALL-E 2 や Stable Diffusion などのモデルは、CLIP テキスト埋め込みを使用して、テキストの説明から画像を生成します。
Region of Interest (ROI)特定のタスクに関連する画像内の特定の領域。視覚言語モデルでは、質問に答えたり、画像内のローカライズされたコンテンツに関する説明を生成したりするときに、モデルが特定の関心領域に注目することがあります。
Instruction Tuning自然言語の指示に従うように言語モデルをトレーニングすることで、言語モデルをより制御しやすくなり、さまざまなタスクに役立ちます。視覚的な命令のチューニングは、これを画像とテキストの命令のペアに拡張します。
Adapter Layer軽量のニューラル ネットワーク モジュールを事前トレーニング済みモデルに挿入し、最小限のパラメーター更新で新しいタスクやモダリティに適応させ、元のモデルの知識を維持します。
Vision-Language Pre-training特定の下流タスクを微調整する前に、大規模な画像テキスト データでモデルをトレーニングして一般的なクロスモーダル表現を学習するプロセス。
Generative Pre-trained Transformer (GPT)トークンごとにテキスト トークンを生成する自己回帰言語モデルのファミリー。 GPT-4V は、ビジュアル入力も処理できるようにアーキテクチャを拡張し、強力なビジョン言語モデルを作成しました。
RLHF (Reinforcement Learning from Human Feedback)人間の好みを使用して AI モデルを微調整し、有用性と安全性を向上させるトレーニング手法。画像理解の品質を向上させるためにマルチモーダル モデルに適用されます。
Multimodal Large Language Model (MLLM)複数のタイプの入力 (テキスト、画像、オーディオ、ビデオ) を処理するために拡張された大規模な言語モデル。例としては、GPT-4V、Gemini、および Claude が挙げられます。これらは、テキストと並んでビジュアル コンテンツを理解し、推論することができます。
Few-Shot Learning大規模な再トレーニングを行わずに、ほんの少数の例から新しいタスクを学習するモデルの機能。 Flamingo のような VLM は、さまざまな視覚タスクにわたって優れた少数ショット機能を実証しました。
Visual Instruction TuningLLaVA が先駆けて開発した、「この画像を詳しく説明してください」や「この画像のどこが間違っているのですか?」などの画像に関する自然言語の指示に従うように視覚言語モデルをトレーニングします。
Cross-Attentionあるモダリティが別のモダリティに対応できるようにする変換メカニズム。 VLM では、クロスアテンションにより、テキスト応答を生成するときに言語モデルが関連する画像領域に注意を払うことができます。
DALL-EOpenAI による AI システム。CLIP 埋め込みを使用してテキストの説明から画像を生成し、生成プロセスをガイドします。視覚言語理解の逆方向を示します。
Grounding抽象的な言語概念を画像内の特定の視覚要素に結び付けるプロセス。たとえば、説明的なフレーズによって写真内のどのオブジェクトが参照されているかを識別します。
HallucinationVLM が、入力イメージに実際には存在しないオブジェクト、属性、または関係の記述を生成する場合。幻覚を軽減することは、現在進行中の主要な研究課題です。
Object Detection境界ボックスとクラス ラベルを予測することにより、画像内のオブジェクトを識別して位置を特定するタスク。最新の VLM は、これを自然言語記述を使用したオープン語彙検出に拡張します。
Image Segmentation画像をピクセルレベルで意味のある領域に分割します。セマンティック セグメンテーションでは各ピクセルにクラスのラベルが付けられますが、インスタンス セグメンテーションでは同じクラスの個々のオブジェクトが区別されます。
Caption Generation画像のコンテンツの自然言語による説明を自動的に生成するタスク。最新のキャプション システムは VLM を使用して、単純なオブジェクトのリストを超えた詳細で文脈に富んだ説明を生成します。
Multimodal Reasoning複数のモダリティからの情報を必要とする論理的推論を実行する機能。たとえば、「コップは落ちそうか?」という質問に答えます。視覚的なシーンの形状と物理的な推論の両方を理解する必要があります。
LAION大規模人工知能オープン ネットワーク - 多くの視覚言語モデルのトレーニングに使用される大規模なオープンソースの画像テキスト データセット (58 億 5,000 万ペアの LAION-5B) を作成した非営利団体。
Visual Encoder画像を処理して視覚的特徴を抽出する VLM のコンポーネント。一般的なアーキテクチャには、Vision Transformers (ViT)、ConvNeXt、CLIP のビジュアル エンコーダなどがあります。
Q-FormerBLIP-2 で使用される軽量の変換モジュール。フリーズされた画像エンコーダーとフリーズされた大規模言語モデルを橋渡しし、言語生成に最も有益な視覚的特徴を抽出する方法を学習します。
Masked Image Modeling画像の一部がマスク (非表示) され、モデルが欠落したコンテンツを予測し、その過程で豊富な視覚表現を学習する必要がある自己教師ありの事前トレーニング手法。