molmo-vision-language

これは何？

🎯 シミュレーターのヒント

📚 用語集

Attention Mechanism

出力を生成するときにモデルが入力の関連部分に焦点を当てることができるニューラルネットワークコンポーネント。視覚言語モデルでは、クロスアテンションメカニズムにより、モデルがテキストを処理するときに関連する画像領域に注意を向けたり、その逆を行うことができます。

Contrastive Learning

正のペア (一致するサンプル) と負のペア (一致しないサンプル) を対比してモデルをトレーニングし、モデルが識別表現を学習するように促す自己教師あり学習アプローチ。

Embedding Space

データポイントが密な数値ベクトルとして表現される連続ベクトル空間。視覚言語モデルでは、画像とテキストが共有埋め込み空間にマッピングされ、そこでは意味論的な類似性が幾何学的近接性に対応します。

Zero-Shot Learning

関連するタスクまたはデータに関するトレーニングから伝達された知識を活用することにより、明示的にトレーニングされていないタスクを実行したりカテゴリを認識したりするモデルの機能。

Fine-Tuning

事前トレーニングされたモデルを取得し、それを特定の下流タスクまたはデータセットでさらにトレーニングし、その学習された表現を新しい要件に適応させるプロセス。

Encoder-Decoder Architecture

A neural network structure consisting of an encoder that compresses input into a latent representation and a decoder that generates output from that representation.エンコーダーが画像を処理し、デコーダーがテキストを生成する画像キャプションで使用されます。

Tokenization

テキストを、ニューラルネットワークで処理できる単語、サブワード、文字などの小さな単位 (トークン) に分割するプロセス。視覚的なトークン化でも同様に、イメージをパッチに分割します。

Cross-Modal Transfer

モダリティ間で共有される意味概念を活用して、1 つのモダリティ (テキストなど) で学習した知識を転送して、別のモダリティ (視覚など) のパフォーマンスを向上させる機能。

Visual Grounding

特定の自然言語表現に対応する画像内の特定の領域を位置特定または識別し、テキスト参照を視覚コンテンツに結び付けるタスク。

Multimodal Fusion

複数のモダリティからの情報を結合して統一された表現にするための技術。一般的なアプローチには、早期フュージョン (生の入力を結合)、後期フュージョン (高レベルの機能を結合)、およびクロスアテンションフュージョンが含まれます。

Image Patch

Vision Transformers の入力ユニットとして使用される画像の小さな長方形の領域。画像は重なり合わないパッチのグリッドに分割され、それぞれが NLP の単語と同様のトークンとして扱われます。

Pre-training

特定のタスクを微調整する前に、大規模な一般的なデータセットでモデルをトレーニングする最初のフェーズ。視覚言語モデルは、多くの場合、インターネットから取得した何百万もの画像とテキストのペアで事前トレーニングされます。

Prompt Engineering

入力を作成する練習は、モデルを望ましい出力に導くよう促します。 VLM では、慎重に設計されたテキストプロンプトにより、ゼロショット分類やその他のタスクが大幅に改善されます。

Semantic Similarity

表面レベルの表現に関係なく、2 つのコンテンツの意味がどの程度密接に関連しているかを示す尺度。 VLM では、犬の画像と「犬」というテキストは意味的に類似性が高くなります。

Feature Extraction

生データから重要なパターンと特性を自動的に学習して識別するプロセス。ビジョンエンコーダは、画像からエッジ、テクスチャ、オブジェクトの形状などの視覚的特徴を抽出します。

Cosine Similarity

2 つのベクトル間の角度のコサインを計算することで、2 つのベクトルがどの程度類似しているかを測定するために使用されるメトリック。 VLM では、画像とテキストの埋め込み間のコサイン類似度によって、それらが意味的にどの程度一致するかが決まります。値の範囲は -1 (反対) から 1 (同一) です。

Batch Normalization

ニューラルネットワークの各層への入力を正規化し、トレーニングを安定化および加速する手法。勾配フローを改善し、より深いネットワークのトレーニングを可能にするために、ビジョンエンコーダで広く使用されています。

Transfer Learning

1 つのタスクでトレーニングされたモデルを別の関連するタスクに再利用する機械学習手法。 CLIP のような VLM は、その一般的な視覚言語表現をタスク固有のトレーニングなしで多くの下流タスクに適用できるため、転移学習に優れています。

Image Captioning

画像の自然言語記述を自動的に生成するタスク。これには、モデルがオブジェクト、その属性、空間的関係、アクティビティを識別し、この情報を伝える文法的に正しい文を作成する必要があります。

Self-Supervised Learning

データ自体から派生した口実タスクを解決することで、モデルがラベルのないデータから表現を学習するトレーニングパラダイム。画像とテキストのペアに関する対照学習は、VLM にとって非常に効果的であることが証明されている自己教師あり学習の形式です。

Multimodal Embedding

共有空間内の複数のモダリティ (画像やテキストなど) から情報を取得する、学習されたベクトル表現。マルチモーダル埋め込みにより、クロスモーダル検索が可能になり、テキストクエリで関連する画像を検索したり、画像クエリで関連するテキストの説明を検索したりできます。

Diffusion Model

学習された逆拡散プロセスを通じてランダムノイズを徐々に除去することにより、データ (多くの場合画像) の作成を学習する生成モデル。 DALL-E 2 や Stable Diffusion などのモデルは、CLIP テキスト埋め込みを使用して、テキストの説明から画像を生成します。

Region of Interest (ROI)

特定のタスクに関連する画像内の特定の領域。視覚言語モデルでは、質問に答えたり、画像内のローカライズされたコンテンツに関する説明を生成したりするときに、モデルが特定の関心領域に注目することがあります。

Instruction Tuning

自然言語の指示に従うように言語モデルをトレーニングすることで、言語モデルをより制御しやすくなり、さまざまなタスクに役立ちます。視覚的な命令のチューニングは、これを画像とテキストの命令のペアに拡張します。

Adapter Layer

軽量のニューラルネットワークモジュールを事前トレーニング済みモデルに挿入し、最小限のパラメーター更新で新しいタスクやモダリティに適応させ、元のモデルの知識を維持します。

Vision-Language Pre-training

特定の下流タスクを微調整する前に、大規模な画像テキストデータでモデルをトレーニングして一般的なクロスモーダル表現を学習するプロセス。

Generative Pre-trained Transformer (GPT)

トークンごとにテキストトークンを生成する自己回帰言語モデルのファミリー。 GPT-4V は、ビジュアル入力も処理できるようにアーキテクチャを拡張し、強力なビジョン言語モデルを作成しました。

RLHF (Reinforcement Learning from Human Feedback)

人間の好みを使用して AI モデルを微調整し、有用性と安全性を向上させるトレーニング手法。画像理解の品質を向上させるためにマルチモーダルモデルに適用されます。

Multimodal Large Language Model (MLLM)

複数のタイプの入力 (テキスト、画像、オーディオ、ビデオ) を処理するために拡張された大規模な言語モデル。例としては、GPT-4V、Gemini、および Claude が挙げられます。これらは、テキストと並んでビジュアルコンテンツを理解し、推論することができます。

Few-Shot Learning

大規模な再トレーニングを行わずに、ほんの少数の例から新しいタスクを学習するモデルの機能。 Flamingo のような VLM は、さまざまな視覚タスクにわたって優れた少数ショット機能を実証しました。

Visual Instruction Tuning

LLaVA が先駆けて開発した、「この画像を詳しく説明してください」や「この画像のどこが間違っているのですか?」などの画像に関する自然言語の指示に従うように視覚言語モデルをトレーニングします。

Cross-Attention

あるモダリティが別のモダリティに対応できるようにする変換メカニズム。 VLM では、クロスアテンションにより、テキスト応答を生成するときに言語モデルが関連する画像領域に注意を払うことができます。

DALL-E

OpenAI による AI システム。CLIP 埋め込みを使用してテキストの説明から画像を生成し、生成プロセスをガイドします。視覚言語理解の逆方向を示します。

Grounding

抽象的な言語概念を画像内の特定の視覚要素に結び付けるプロセス。たとえば、説明的なフレーズによって写真内のどのオブジェクトが参照されているかを識別します。

Hallucination

VLM が、入力イメージに実際には存在しないオブジェクト、属性、または関係の記述を生成する場合。幻覚を軽減することは、現在進行中の主要な研究課題です。

Object Detection

境界ボックスとクラスラベルを予測することにより、画像内のオブジェクトを識別して位置を特定するタスク。最新の VLM は、これを自然言語記述を使用したオープン語彙検出に拡張します。

Image Segmentation

画像をピクセルレベルで意味のある領域に分割します。セマンティックセグメンテーションでは各ピクセルにクラスのラベルが付けられますが、インスタンスセグメンテーションでは同じクラスの個々のオブジェクトが区別されます。

Caption Generation

画像のコンテンツの自然言語による説明を自動的に生成するタスク。最新のキャプションシステムは VLM を使用して、単純なオブジェクトのリストを超えた詳細で文脈に富んだ説明を生成します。

Multimodal Reasoning

複数のモダリティからの情報を必要とする論理的推論を実行する機能。たとえば、「コップは落ちそうか?」という質問に答えます。視覚的なシーンの形状と物理的な推論の両方を理解する必要があります。

LAION

大規模人工知能オープンネットワーク - 多くの視覚言語モデルのトレーニングに使用される大規模なオープンソースの画像テキストデータセット (58 億 5,000 万ペアの LAION-5B) を作成した非営利団体。

Visual Encoder

画像を処理して視覚的特徴を抽出する VLM のコンポーネント。一般的なアーキテクチャには、Vision Transformers (ViT)、ConvNeXt、CLIP のビジュアルエンコーダなどがあります。

Q-Former

BLIP-2 で使用される軽量の変換モジュール。フリーズされた画像エンコーダーとフリーズされた大規模言語モデルを橋渡しし、言語生成に最も有益な視覚的特徴を抽出する方法を学習します。

Masked Image Modeling

画像の一部がマスク (非表示) され、モデルが欠落したコンテンツを予測し、その過程で豊富な視覚表現を学習する必要がある自己教師ありの事前トレーニング手法。

🏆 主要人物

Alec Radford (2021)

OpenAI の主任研究者は、CLIP (Contrastive Language-Image Pre-training) を共同作成し、自然言語の監視から視覚表現を学習することで、優れたゼロショット機能を備えた高度に転送可能なモデルを生成できることを実証しました。

Junnan Li (2022)

Salesforce Research の主任研究員。BLIP (Bootstrapping Language-Image Pre-training) と BLIP-2 を開発し、キャプションとフィルタリングを使用してノイズの多い Web データから視覚言語の事前トレーニングをブートストラップする新しい技術を導入しました。

Jean-Baptiste Alayrac (2022)

DeepMind の研究者。Flamingo の開発を共同主導しました。Flamingo は、交差注意を介して視覚入力に基づいて凍結言語モデルを条件付けすることで、幅広いマルチモーダルタスクの少数ショット学習を可能にする視覚言語モデルです。

Alexey Dosovitskiy (2021)

Google Brain で Vision Transformer (ViT) の作成を主導し、純粋なトランスフォーマーアーキテクチャが画像分類で優れた結果を達成し、多くの VLM のビジュアルバックボーンを形成できることを実証しました。

Haotian Liu (2023)

LLaVA (Large Language and Vision Assistant) を作成し、効率的な微調整を通じて大規模言語モデルが画像を処理および推論できるようにする視覚的命令チューニングのアプローチの先駆者とした

Dario Amodei (2023)

Anthropic を共同設立し、Claude の開発に貢献し、マルチモーダル AI の安全性を推進し、ビジョン言語モデルをより有用、無害、誠実にする方法を実証しました。

🎓 学習リソース

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
基本的な CLIP 論文は、4 億の画像とテキストのペアに対する対照的な事前トレーニングにより、強力なゼロショットの視覚分類と画像とテキストの検索が可能になることを実証しています。
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP は、ノイズの多い Web データからキャプションをブートストラップし、視覚言語の理解と生成タスクに関して最先端の結果を達成するフレームワークです。
Flamingo: a Visual Language Model for Few-Shot Learning
Flamingo は、交差注意を使用して強力な事前トレーニング済みの視覚モデルと言語モデルを橋渡しし、多様なマルチモーダルタスクに対する強力な少数ショット学習を実証します。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Vision Transformer (ViT) の論文は、純粋なトランスフォーマーアーキテクチャが画像分類において優れた結果を達成し、多くの VLM ビジョンエンコーダーの基礎を形成できることを示しています。
Deep Learning for Vision Systems
コンピュータービジョンの基礎と視覚的な理解のためのディープラーニングアーキテクチャをカバーする実用的なガイドで、ビジョン言語モデルを理解するための重要な背景を提供します。
Dive into Deep Learning
VLM にとって重要なアテンションメカニズムとトランスフォーマーアーキテクチャに関する章を含む、コード、数学、ディスカッションを含むインタラクティブなディープラーニングの教科書。
Foundations of Computer Vision
マルチモーダル学習やビジョンと言語の統合など、最新のコンピュータービジョンをカバーする MIT の包括的な教科書。
CLIP: Connecting Text and Images - OpenAI Research Explanation
CLIP が対照学習を使用して画像とテキストの接続をどのように学習するのかを、ゼロショット機能の視覚的なデモンストレーションとともにわかりやすく説明します。
Stanford CS231n: Deep Learning for Computer Vision
スタンフォードの有名なコンピュータービジョンコース。ビジョン言語モデルの基礎を形成する CNN、トランスフォーマー、最新のアーキテクチャをカバーします。
Andrej Karpathy - Let's Build GPT: From Scratch
言語モデルに焦点を当てながら、トランスフォーマーアーキテクチャのこの詳細なウォークスルーは、VLM のテキスト処理コンポーネントについての重要な理解を提供します。

💬 学習者へ

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

始める

無料、登録不要

始める →