molmo-vision-language

🔬 立即试用

这是什么？

🎯 模拟器提示

📚 术语表

Attention Mechanism

一种神经网络组件，允许模型在生成输出时专注于输入的相关部分。在视觉语言模型中，交叉注意力机制使模型能够在处理文本时关注相关图像区域，反之亦然。

Contrastive Learning

一种自我监督学习方法，通过将正对（匹配样本）与负对（不匹配样本）进行对比来训练模型，鼓励模型学习判别性表示。

Embedding Space

连续向量空间，其中数据点表示为密集数值向量。在视觉语言模型中，图像和文本被映射到共享的嵌入空间，其中语义相似性对应于几何接近度。

Zero-Shot Learning

模型通过利用从相关任务或数据的训练中转移的知识来执行未明确训练的任务或识别类别的能力。

Fine-Tuning

采用预先训练的模型并在特定的下游任务或数据集上进一步训练它，使其学习的表示适应新的要求的过程。

Encoder-Decoder Architecture

一种神经网络结构，由将输入压缩为潜在表示的编码器和从该表示生成输出的解码器组成。用于图像字幕，其中编码器处理图像，解码器生成文本。

Tokenization

将文本分解为更小的单元（标记）的过程，例如可以由神经网络处理的单词、子词或字符。视觉标记化同样将图像划分为补丁。

Cross-Modal Transfer

能够转移在一种模态（例如文本）中学到的知识，以提高另一种模态（例如视觉）的性能，利用跨模态的共享语义概念。

Visual Grounding

定位或识别图像中与给定自然语言表达相对应的特定区域，将文本引用与视觉内容连接起来的任务。

Multimodal Fusion

将多种模式的信息组合成统一表示的技术。常见的方法包括早期融合（组合原始输入）、后期融合（组合高级特征）和交叉注意力融合。

Image Patch

图像的小矩形区域，用作 Vision Transformers 中的输入单元。图像被划分为不重叠的补丁网格，每个补丁都被视为类似于 NLP 中单词的标记。

Pre-training

在对特定任务进行微调之前，在大型通用数据集上训练模型的初始阶段。视觉语言模型通常是根据互联网上数百万个图像文本对进行预训练的。

Prompt Engineering

精心设计输入的实践提示引导模型获得所需的输出。在 VLM 中，精心设计的文本提示可以显着改善零样本分类和其他任务。

Semantic Similarity

衡量两个内容的含义的密切相关程度的指标，无论其表面表达如何。在 VLM 中，狗的图像和文本“狗”具有很高的语义相似度。

Feature Extraction

从原始数据中自动学习和识别重要模式和特征的过程。视觉编码器从图像中提取边缘、纹理和物体形状等视觉特征。

Cosine Similarity

用于通过计算两个向量之间角度的余弦来测量两个向量相似程度的度量。在 VLM 中，图像和文本嵌入之间的余弦相似度决定了它们在语义上的匹配程度，值范围从 -1（相反）到 1（相同）。

Batch Normalization

一种对神经网络每一层的输入进行标准化、稳定并加速训练的技术。广泛用于视觉编码器，以改善梯度流并实现更深网络的训练。

Transfer Learning

一种机器学习技术，其中针对一项任务训练的模型被重新用于另一项不同但相关的任务。像 CLIP 这样的 VLM 擅长迁移学习，因为它们的通用视觉语言表示可以应用于许多下游任务，而无需特定于任务的训练。

Image Captioning

自动生成图像的自然语言描述的任务。这需要模型识别对象、它们的属性、空间关系和活动，然后组成一个语法正确的句子来传达这些信息。

Self-Supervised Learning

一种训练范例，其中模型通过解决从数据本身派生的借口任务来从未标记的数据中学习表示。图像-文本对的对比学习是一种自我监督学习的形式，已被证明对 VLM 非常有效。

Multimodal Embedding

一种学习向量表示，可从共享空间中的多种模式（例如图像和文本）捕获信息。多模态嵌入可以实现跨模态检索，其中文本查询可以找到相关图像，或者图像查询可以找到相关文本描述。

Diffusion Model

一种生成模型，通过学习的反向扩散过程逐渐对随机噪声进行去噪，从而学习创建数据（通常是图像）。 DALL-E 2 和 Stable Diffusion 等模型使用 CLIP 文本嵌入来指导从文本描述生成图像。

Region of Interest (ROI)

图像中与特定任务相关的特定区域。在视觉语言模型中，模型在回答问题或生成有关图像内本地化内容的描述时可能会关注特定的感兴趣区域。

Instruction Tuning

训练语言模型以遵循自然语言指令，使其更加可控并且对于不同的任务更有用。视觉指令调整将其扩展到图像-文本指令对。

Adapter Layer

插入预训练模型的轻量级神经网络模块，以最少的参数更新使其适应新任务或模式，保留原始模型的知识。

Vision-Language Pre-training

在对特定下游任务进行微调之前，在大规模图像文本数据上训练模型以学习一般跨模式表示的过程。

Generative Pre-trained Transformer (GPT)

一系列自回归语言模型，可逐个生成文本标记。 GPT-4V 扩展了架构，还可以处理视觉输入，创建强大的视觉语言模型。

RLHF (Reinforcement Learning from Human Feedback)

一种利用人类偏好来微调人工智能模型的训练技术，提高其有用性和安全性。应用于多模态模型以提高图像理解质量。

Multimodal Large Language Model (MLLM)

大型语言模型扩展到处理多种类型的输入（文本、图像、音频、视频）。例子包括 GPT-4V、Gemini 和 Claude，它们可以理解和推理视觉内容以及文本。

Few-Shot Learning

模型无需进行大量再训练即可从几个示例中学习新任务的能力。像 Flamingo 这样的 VLM 在不同的视觉任务中展示了出色的小样本能力。

Visual Instruction Tuning

训练视觉语言模型以遵循有关图像的自然语言指令，例如“详细描述该图像”或“这张图片有什么问题？”，由 LLaVA 首创。

Cross-Attention

一种转换器机制，允许一种模态参与另一种模态。在 VLM 中，交叉注意力让语言模型在生成文本响应时关注相关图像区域。

DALL-E

OpenAI 的人工智能系统，可根据文本描述生成图像，并使用 CLIP 嵌入来指导生成过程。展示视觉-语言理解的相反方向。

Grounding

将抽象语言概念与图像中的特定视觉元素连接起来的过程，例如通过描述性短语识别照片中的哪个对象。

Hallucination

当 VLM 生成输入图像中实际不存在的对象、属性或关系的描述时。减少幻觉是一项正在进行的主要研究挑战。

Object Detection

通过预测边界框和类标签来识别和定位图像中的对象的任务。现代 VLM 将其扩展到使用自然语言描述的开放词汇检测。

Image Segmentation

在像素级别将图像划分为有意义的区域。语义分割用一个类来标记每个像素，而实例分割则区分同一类的各个对象。

Caption Generation

自动生成图像内容的自然语言描述的任务。现代字幕系统使用 VLM 生成详细的、上下文丰富的描述，而不仅仅是简单的对象列表。

Multimodal Reasoning

执行需要来自多种模态的信息的逻辑推理的能力。例如，回答“杯子可能会掉下来吗？”需要理解视觉场景几何和物理推理。

LAION

大规模人工智能开放网络 - 一个非营利组织，创建了大量开源图像文本数据集（包含 58.5 亿对的 LAION-5B），用于训练许多视觉语言模型。

Visual Encoder

VLM 的组件，用于处理图像并提取视觉特征。常见的架构包括 Vision Transformers (ViT)、ConvNeXt 和 CLIP 的视觉编码器。

Q-Former

BLIP-2 中使用的轻量级转换器模块连接了冻结图像编码器和冻结大语言模型，学习提取信息最丰富的视觉特征以生成语言。

Masked Image Modeling

一种自我监督的预训练技术，其中图像的某些部分被屏蔽（隐藏），并且模型必须预测丢失的内容，并在此过程中学习丰富的视觉表示。

🏆 关键人物

Alec Radford (2021)

OpenAI 的首席研究员，共同创建了 CLIP（对比语言图像预训练），证明从自然语言监督中学习视觉表示可以产生具有出色的零样本能力的高度可迁移模型。

Junnan Li (2022)

Salesforce Research 的首席研究员，开发了 BLIP（引导语言图像预训练）和 BLIP-2，引入了使用字幕和过滤从嘈杂的 Web 数据中引导视觉语言预训练的新技术。

Jean-Baptiste Alayrac (2022)

DeepMind 的研究员，共同领导了 Flamingo 的开发，Flamingo 是一种视觉语言模型，能够通过交叉注意力根据视觉输入调节冻结的语言模型，从而对各种多模态任务进行少量学习。

Alexey Dosovitskiy (2021)

在 Google Brain 领导创建了 Vision Transformer (ViT)，证明纯 Transformer 架构可以在图像分类上取得优异的结果，形成许多 VLM 的视觉主干

Haotian Liu (2023)

创建LLaVA（大语言和视觉助手），开创了视觉指令调整的方法，使大语言模型能够通过高效的微调来处理和推理图像

Dario Amodei (2023)

Anthropic 的联合创始人，为 Claude 的发展做出了贡献，推进了多模式人工智能安全性，并展示了如何使视觉语言模型变得更有帮助、无害和诚实

🎓 学习资源

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
基础 CLIP 论文证明，对 4 亿个图像-文本对进行对比预训练可以实现强大的零样本视觉分类和图像-文本检索。
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
推出 BLIP，这是一个框架，可以从嘈杂的网络数据中引导字幕，并在视觉语言理解和生成任务上取得最先进的结果。
Flamingo: a Visual Language Model for Few-Shot Learning
介绍 Flamingo，它使用交叉注意力连接强大的预训练视觉和语言模型，并在不同的多模态任务上展示了强大的小样本学习。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Vision Transformer (ViT) 论文表明，纯 Transformer 架构可以在图像分类上取得优异的结果，构成许多 VLM 视觉编码器的基础。
Deep Learning for Vision Systems
实用指南，涵盖计算机视觉基础知识和用于视觉理解的深度学习架构，为理解视觉语言模型提供必要的背景。
Dive into Deep Learning
一本交互式深度学习教科书，包含代码、数学和讨论，包括有关 VLM 至关重要的注意力机制和转换器架构的章节。
Foundations of Computer Vision
麻省理工学院的一本综合教科书，涵盖现代计算机视觉，包括多模式学习和视觉语言集成。
CLIP: Connecting Text and Images - OpenAI Research Explanation
通俗易懂地解释了 CLIP 如何使用对比学习来连接图像和文本，并通过视觉演示了其零样本功能。
Stanford CS231n: Deep Learning for Computer Vision
斯坦福大学著名的计算机视觉课程涵盖了构成视觉语言模型基础的 CNN、变压器和现代架构。
Andrej Karpathy - Let's Build GPT: From Scratch
虽然重点关注语言模型，但变压器架构的详细演练提供了对 VLM 文本处理组件的基本理解。

💬 给学习者的话

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

开始使用

免费，无需注册

开始使用 →