🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 今すぐ試す

これは何?

🎯 シミュレーターのヒント

📚 用語集

Attention Mechanism
出力を生成するときにモデルが入力の関連部分に焦点を当てることができるニューラル ネットワーク コンポーネント。視覚言語モデルでは、クロスアテンション メカニズムにより、モデルがテキストを処理するときに関連する画像領域に注意を向けたり、その逆を行うことができます。
Contrastive Learning
正のペア (一致するサンプル) と負のペア (一致しないサンプル) を対比してモデルをトレーニングし、モデルが識別表現を学習するように促す自己教師あり学習アプローチ。
Embedding Space
データ ポイントが密な数値ベクトルとして表現される連続ベクトル空間。視覚言語モデルでは、画像とテキストが共有埋め込み空間にマッピングされ、そこでは意味論的な類似性が幾何学的近接性に対応します。
Zero-Shot Learning
関連するタスクまたはデータに関するトレーニングから伝達された知識を活用することにより、明示的にトレーニングされていないタスクを実行したりカテゴリを認識したりするモデルの機能。
Fine-Tuning
事前トレーニングされたモデルを取得し、それを特定の下流タスクまたはデータセットでさらにトレーニングし、その学習された表現を新しい要件に適応させるプロセス。
Encoder-Decoder Architecture
A neural network structure consisting of an encoder that compresses input into a latent representation and a decoder that generates output from that representation.エンコーダーが画像を処理し、デコーダーがテキストを生成する画像キャプションで使用されます。
Tokenization
テキストを、ニューラル ネットワークで処理できる単語、サブワード、文字などの小さな単位 (トークン) に分割するプロセス。視覚的なトークン化でも同様に、イメージをパッチに分割します。
Cross-Modal Transfer
モダリティ間で共有される意味概念を活用して、1 つのモダリティ (テキストなど) で学習した知識を転送して、別のモダリティ (視覚など) のパフォーマンスを向上させる機能。
Visual Grounding
特定の自然言語表現に対応する画像内の特定の領域を位置特定または識別し、テキスト参照を視覚コンテンツに結び付けるタスク。
Multimodal Fusion
複数のモダリティからの情報を結合して統一された表現にするための技術。一般的なアプローチには、早期フュージョン (生の入力を結合)、後期フュージョン (高レベルの機能を結合)、およびクロスアテンション フュージョンが含まれます。
Image Patch
Vision Transformers の入力ユニットとして使用される画像の小さな長方形の領域。画像は重なり合わないパッチのグリッドに分割され、それぞれが NLP の単語と同様のトークンとして扱われます。
Pre-training
特定のタスクを微調整する前に、大規模な一般的なデータセットでモデルをトレーニングする最初のフェーズ。視覚言語モデルは、多くの場合、インターネットから取得した何百万もの画像とテキストのペアで事前トレーニングされます。
Prompt Engineering
入力を作成する練習は、モデルを望ましい出力に導くよう促します。 VLM では、慎重に設計されたテキスト プロンプトにより、ゼロショット分類やその他のタスクが大幅に改善されます。
Semantic Similarity
表面レベルの表現に関係なく、2 つのコンテンツの意味がどの程度密接に関連しているかを示す尺度。 VLM では、犬の画像と「犬」というテキストは意味的に類似性が高くなります。
Feature Extraction
生データから重要なパターンと特性を自動的に学習して識別するプロセス。ビジョン エンコーダは、画像からエッジ、テクスチャ、オブジェクトの形状などの視覚的特徴を抽出します。
Cosine Similarity
2 つのベクトル間の角度のコサインを計算することで、2 つのベクトルがどの程度類似しているかを測定するために使用されるメトリック。 VLM では、画像とテキストの埋め込み間のコサイン類似度によって、それらが意味的にどの程度一致するかが決まります。値の範囲は -1 (反対) から 1 (同一) です。
Batch Normalization
ニューラル ネットワークの各層への入力を正規化し、トレーニングを安定化および加速する手法。勾配フローを改善し、より深いネットワークのトレーニングを可能にするために、ビジョン エンコーダで広く使用されています。
Transfer Learning
1 つのタスクでトレーニングされたモデルを別の関連するタスクに再利用する機械学習手法。 CLIP のような VLM は、その一般的な視覚言語表現をタスク固有のトレーニングなしで多くの下流タスクに適用できるため、転移学習に優れています。
Image Captioning
画像の自然言語記述を自動的に生成するタスク。これには、モデルがオブジェクト、その属性、空間的関係、アクティビティを識別し、この情報を伝える文法的に正しい文を作成する必要があります。
Self-Supervised Learning
データ自体から派生した口実タスクを解決することで、モデルがラベルのないデータから表現を学習するトレーニング パラダイム。画像とテキストのペアに関する対照学習は、VLM にとって非常に効果的であることが証明されている自己教師あり学習の形式です。
Multimodal Embedding
共有空間内の複数のモダリティ (画像やテキストなど) から情報を取得する、学習されたベクトル表現。マルチモーダル埋め込みにより、クロスモーダル検索が可能になり、テキスト クエリで関連する画像を検索したり、画像クエリで関連するテキストの説明を検索したりできます。
Diffusion Model
学習された逆拡散プロセスを通じてランダム ノイズを徐々に除去することにより、データ (多くの場合画像) の作成を学習する生成モデル。 DALL-E 2 や Stable Diffusion などのモデルは、CLIP テキスト埋め込みを使用して、テキストの説明から画像を生成します。
Region of Interest (ROI)
特定のタスクに関連する画像内の特定の領域。視覚言語モデルでは、質問に答えたり、画像内のローカライズされたコンテンツに関する説明を生成したりするときに、モデルが特定の関心領域に注目することがあります。
Instruction Tuning
自然言語の指示に従うように言語モデルをトレーニングすることで、言語モデルをより制御しやすくなり、さまざまなタスクに役立ちます。視覚的な命令のチューニングは、これを画像とテキストの命令のペアに拡張します。
Adapter Layer
軽量のニューラル ネットワーク モジュールを事前トレーニング済みモデルに挿入し、最小限のパラメーター更新で新しいタスクやモダリティに適応させ、元のモデルの知識を維持します。
Vision-Language Pre-training
特定の下流タスクを微調整する前に、大規模な画像テキスト データでモデルをトレーニングして一般的なクロスモーダル表現を学習するプロセス。
Generative Pre-trained Transformer (GPT)
トークンごとにテキスト トークンを生成する自己回帰言語モデルのファミリー。 GPT-4V は、ビジュアル入力も処理できるようにアーキテクチャを拡張し、強力なビジョン言語モデルを作成しました。
RLHF (Reinforcement Learning from Human Feedback)
人間の好みを使用して AI モデルを微調整し、有用性と安全性を向上させるトレーニング手法。画像理解の品質を向上させるためにマルチモーダル モデルに適用されます。
Multimodal Large Language Model (MLLM)
複数のタイプの入力 (テキスト、画像、オーディオ、ビデオ) を処理するために拡張された大規模な言語モデル。例としては、GPT-4V、Gemini、および Claude が挙げられます。これらは、テキストと並んでビジュアル コンテンツを理解し、推論することができます。
Few-Shot Learning
大規模な再トレーニングを行わずに、ほんの少数の例から新しいタスクを学習するモデルの機能。 Flamingo のような VLM は、さまざまな視覚タスクにわたって優れた少数ショット機能を実証しました。
Visual Instruction Tuning
LLaVA が先駆けて開発した、「この画像を詳しく説明してください」や「この画像のどこが間違っているのですか?」などの画像に関する自然言語の指示に従うように視覚言語モデルをトレーニングします。
Cross-Attention
あるモダリティが別のモダリティに対応できるようにする変換メカニズム。 VLM では、クロスアテンションにより、テキスト応答を生成するときに言語モデルが関連する画像領域に注意を払うことができます。
DALL-E
OpenAI による AI システム。CLIP 埋め込みを使用してテキストの説明から画像を生成し、生成プロセスをガイドします。視覚言語理解の逆方向を示します。
Grounding
抽象的な言語概念を画像内の特定の視覚要素に結び付けるプロセス。たとえば、説明的なフレーズによって写真内のどのオブジェクトが参照されているかを識別します。
Hallucination
VLM が、入力イメージに実際には存在しないオブジェクト、属性、または関係の記述を生成する場合。幻覚を軽減することは、現在進行中の主要な研究課題です。
Object Detection
境界ボックスとクラス ラベルを予測することにより、画像内のオブジェクトを識別して位置を特定するタスク。最新の VLM は、これを自然言語記述を使用したオープン語彙検出に拡張します。
Image Segmentation
画像をピクセルレベルで意味のある領域に分割します。セマンティック セグメンテーションでは各ピクセルにクラスのラベルが付けられますが、インスタンス セグメンテーションでは同じクラスの個々のオブジェクトが区別されます。
Caption Generation
画像のコンテンツの自然言語による説明を自動的に生成するタスク。最新のキャプション システムは VLM を使用して、単純なオブジェクトのリストを超えた詳細で文脈に富んだ説明を生成します。
Multimodal Reasoning
複数のモダリティからの情報を必要とする論理的推論を実行する機能。たとえば、「コップは落ちそうか?」という質問に答えます。視覚的なシーンの形状と物理的な推論の両方を理解する必要があります。
LAION
大規模人工知能オープン ネットワーク - 多くの視覚言語モデルのトレーニングに使用される大規模なオープンソースの画像テキスト データセット (58 億 5,000 万ペアの LAION-5B) を作成した非営利団体。
Visual Encoder
画像を処理して視覚的特徴を抽出する VLM のコンポーネント。一般的なアーキテクチャには、Vision Transformers (ViT)、ConvNeXt、CLIP のビジュアル エンコーダなどがあります。
Q-Former
BLIP-2 で使用される軽量の変換モジュール。フリーズされた画像エンコーダーとフリーズされた大規模言語モデルを橋渡しし、言語生成に最も有益な視覚的特徴を抽出する方法を学習します。
Masked Image Modeling
画像の一部がマスク (非表示) され、モデルが欠落したコンテンツを予測し、その過程で豊富な視覚表現を学習する必要がある自己教師ありの事前トレーニング手法。

🏆 主要人物

Alec Radford (2021)

OpenAI の主任研究者は、CLIP (Contrastive Language-Image Pre-training) を共同作成し、自然言語の監視から視覚表現を学習することで、優れたゼロショット機能を備えた高度に転送可能なモデルを生成できることを実証しました。

Junnan Li (2022)

Salesforce Research の主任研究員。BLIP (Bootstrapping Language-Image Pre-training) と BLIP-2 を開発し、キャプションとフィルタリングを使用してノイズの多い Web データから視覚言語の事前トレーニングをブートストラップする新しい技術を導入しました。

Jean-Baptiste Alayrac (2022)

DeepMind の研究者。Flamingo の開発を共同主導しました。Flamingo は、交差注意を介して視覚入力に基づいて凍結言語モデルを条件付けすることで、幅広いマルチモーダル タスクの少数ショット学習を可能にする視覚言語モデルです。

Alexey Dosovitskiy (2021)

Google Brain で Vision Transformer (ViT) の作成を主導し、純粋なトランスフォーマー アーキテクチャが画像分類で優れた結果を達成し、多くの VLM のビジュアル バックボーンを形成できることを実証しました。

Haotian Liu (2023)

LLaVA (Large Language and Vision Assistant) を作成し、効率的な微調整を通じて大規模言語モデルが画像を処理および推論できるようにする視覚的命令チューニングのアプローチの先駆者とした

Dario Amodei (2023)

Anthropic を共同設立し、Claude の開発に貢献し、マルチモーダル AI の安全性を推進し、ビジョン言語モデルをより有用、無害、誠実にする方法を実証しました。

🎓 学習リソース

💬 学習者へ

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

始める

無料、登録不要

始める →