Attention Mechanism一种神经网络组件,允许模型在生成输出时专注于输入的相关部分。在视觉语言模型中,交叉注意力机制使模型能够在处理文本时关注相关图像区域,反之亦然。
Contrastive Learning一种自我监督学习方法,通过将正对(匹配样本)与负对(不匹配样本)进行对比来训练模型,鼓励模型学习判别性表示。
Embedding Space连续向量空间,其中数据点表示为密集数值向量。在视觉语言模型中,图像和文本被映射到共享的嵌入空间,其中语义相似性对应于几何接近度。
Zero-Shot Learning模型通过利用从相关任务或数据的训练中转移的知识来执行未明确训练的任务或识别类别的能力。
Fine-Tuning采用预先训练的模型并在特定的下游任务或数据集上进一步训练它,使其学习的表示适应新的要求的过程。
Encoder-Decoder Architecture一种神经网络结构,由将输入压缩为潜在表示的编码器和从该表示生成输出的解码器组成。用于图像字幕,其中编码器处理图像,解码器生成文本。
Tokenization将文本分解为更小的单元(标记)的过程,例如可以由神经网络处理的单词、子词或字符。视觉标记化同样将图像划分为补丁。
Cross-Modal Transfer能够转移在一种模态(例如文本)中学到的知识,以提高另一种模态(例如视觉)的性能,利用跨模态的共享语义概念。
Visual Grounding定位或识别图像中与给定自然语言表达相对应的特定区域,将文本引用与视觉内容连接起来的任务。
Multimodal Fusion将多种模式的信息组合成统一表示的技术。常见的方法包括早期融合(组合原始输入)、后期融合(组合高级特征)和交叉注意力融合。
Image Patch图像的小矩形区域,用作 Vision Transformers 中的输入单元。图像被划分为不重叠的补丁网格,每个补丁都被视为类似于 NLP 中单词的标记。
Pre-training在对特定任务进行微调之前,在大型通用数据集上训练模型的初始阶段。视觉语言模型通常是根据互联网上数百万个图像文本对进行预训练的。
Prompt Engineering精心设计输入的实践提示引导模型获得所需的输出。在 VLM 中,精心设计的文本提示可以显着改善零样本分类和其他任务。
Semantic Similarity衡量两个内容的含义的密切相关程度的指标,无论其表面表达如何。在 VLM 中,狗的图像和文本“狗”具有很高的语义相似度。
Feature Extraction从原始数据中自动学习和识别重要模式和特征的过程。视觉编码器从图像中提取边缘、纹理和物体形状等视觉特征。
Cosine Similarity用于通过计算两个向量之间角度的余弦来测量两个向量相似程度的度量。在 VLM 中,图像和文本嵌入之间的余弦相似度决定了它们在语义上的匹配程度,值范围从 -1(相反)到 1(相同)。
Batch Normalization一种对神经网络每一层的输入进行标准化、稳定并加速训练的技术。广泛用于视觉编码器,以改善梯度流并实现更深网络的训练。
Transfer Learning一种机器学习技术,其中针对一项任务训练的模型被重新用于另一项不同但相关的任务。像 CLIP 这样的 VLM 擅长迁移学习,因为它们的通用视觉语言表示可以应用于许多下游任务,而无需特定于任务的训练。
Image Captioning自动生成图像的自然语言描述的任务。这需要模型识别对象、它们的属性、空间关系和活动,然后组成一个语法正确的句子来传达这些信息。
Self-Supervised Learning一种训练范例,其中模型通过解决从数据本身派生的借口任务来从未标记的数据中学习表示。图像-文本对的对比学习是一种自我监督学习的形式,已被证明对 VLM 非常有效。
Multimodal Embedding一种学习向量表示,可从共享空间中的多种模式(例如图像和文本)捕获信息。多模态嵌入可以实现跨模态检索,其中文本查询可以找到相关图像,或者图像查询可以找到相关文本描述。
Diffusion Model一种生成模型,通过学习的反向扩散过程逐渐对随机噪声进行去噪,从而学习创建数据(通常是图像)。 DALL-E 2 和 Stable Diffusion 等模型使用 CLIP 文本嵌入来指导从文本描述生成图像。
Region of Interest (ROI)图像中与特定任务相关的特定区域。在视觉语言模型中,模型在回答问题或生成有关图像内本地化内容的描述时可能会关注特定的感兴趣区域。
Instruction Tuning训练语言模型以遵循自然语言指令,使其更加可控并且对于不同的任务更有用。视觉指令调整将其扩展到图像-文本指令对。
Adapter Layer插入预训练模型的轻量级神经网络模块,以最少的参数更新使其适应新任务或模式,保留原始模型的知识。
Vision-Language Pre-training在对特定下游任务进行微调之前,在大规模图像文本数据上训练模型以学习一般跨模式表示的过程。
Generative Pre-trained Transformer (GPT)一系列自回归语言模型,可逐个生成文本标记。 GPT-4V 扩展了架构,还可以处理视觉输入,创建强大的视觉语言模型。
RLHF (Reinforcement Learning from Human Feedback)一种利用人类偏好来微调人工智能模型的训练技术,提高其有用性和安全性。应用于多模态模型以提高图像理解质量。
Multimodal Large Language Model (MLLM)大型语言模型扩展到处理多种类型的输入(文本、图像、音频、视频)。例子包括 GPT-4V、Gemini 和 Claude,它们可以理解和推理视觉内容以及文本。
Few-Shot Learning模型无需进行大量再训练即可从几个示例中学习新任务的能力。像 Flamingo 这样的 VLM 在不同的视觉任务中展示了出色的小样本能力。
Visual Instruction Tuning训练视觉语言模型以遵循有关图像的自然语言指令,例如“详细描述该图像”或“这张图片有什么问题?”,由 LLaVA 首创。
Cross-Attention一种转换器机制,允许一种模态参与另一种模态。在 VLM 中,交叉注意力让语言模型在生成文本响应时关注相关图像区域。
DALL-EOpenAI 的人工智能系统,可根据文本描述生成图像,并使用 CLIP 嵌入来指导生成过程。展示视觉-语言理解的相反方向。
Grounding将抽象语言概念与图像中的特定视觉元素连接起来的过程,例如通过描述性短语识别照片中的哪个对象。
Hallucination当 VLM 生成输入图像中实际不存在的对象、属性或关系的描述时。减少幻觉是一项正在进行的主要研究挑战。
Object Detection通过预测边界框和类标签来识别和定位图像中的对象的任务。现代 VLM 将其扩展到使用自然语言描述的开放词汇检测。
Image Segmentation在像素级别将图像划分为有意义的区域。语义分割用一个类来标记每个像素,而实例分割则区分同一类的各个对象。
Caption Generation自动生成图像内容的自然语言描述的任务。现代字幕系统使用 VLM 生成详细的、上下文丰富的描述,而不仅仅是简单的对象列表。
Multimodal Reasoning执行需要来自多种模态的信息的逻辑推理的能力。例如,回答“杯子可能会掉下来吗?”需要理解视觉场景几何和物理推理。
LAION大规模人工智能开放网络 - 一个非营利组织,创建了大量开源图像文本数据集(包含 58.5 亿对的 LAION-5B),用于训练许多视觉语言模型。
Visual EncoderVLM 的组件,用于处理图像并提取视觉特征。常见的架构包括 Vision Transformers (ViT)、ConvNeXt 和 CLIP 的视觉编码器。
Q-FormerBLIP-2 中使用的轻量级转换器模块连接了冻结图像编码器和冻结大语言模型,学习提取信息最丰富的视觉特征以生成语言。
Masked Image Modeling一种自我监督的预训练技术,其中图像的某些部分被屏蔽(隐藏),并且模型必须预测丢失的内容,并在此过程中学习丰富的视觉表示。