Attention Mechanism一種神經網路組件,允許模型在生成輸出時專注於輸入的相關部分。在視覺語言模型中,交叉注意力機制使模型能夠在處理文字時專注於相關圖像區域,反之亦然。
Contrastive Learning一種自我監督學習方法,透過將正對(匹配樣本)與負對(不匹配樣本)進行對比來訓練模型,鼓勵模型學習判別性表示。
Embedding Space連續向量空間,其中資料點表示為密集數值向量。在視覺語言模型中,圖像和文字被映射到共享的嵌入空間,其中語義相似性對應於幾何接近度。
Zero-Shot Learning模型透過利用從相關任務或資料的訓練中轉移的知識來執行未明確訓練的任務或識別類別的能力。
Fine-Tuning採用預先訓練的模型並在特定的下游任務或資料集上進一步訓練它,使其學習的表示適應新的要求的過程。
Encoder-Decoder Architecture一種神經網路結構,由將輸入壓縮為潛在表示的編碼器和從該表示生成輸出的解碼器組成。用於圖像字幕,其中編碼器處理圖像,解碼器生成文字。
Tokenization將文字分解為較小的單元(標記)的過程,例如可以由神經網路處理的單字、子字或字元。視覺標記化同樣將影像劃分為補丁。
Cross-Modal Transfer能夠轉移在一種模態(例如文本)中學到的知識,以提高另一種模態(例如視覺)的性能,利用跨模態的共享語義概念。
Visual Grounding定位或識別圖像中與給定自然語言表達相對應的特定區域,將文字引用與視覺內容連接起來的任務。
Multimodal Fusion將多種模式的資訊組合成統一表示的技術。常見的方法包括早期融合(組合原始輸入)、後期融合(組合高級特徵)和交叉注意力融合。
Image Patch影像的小矩形區域,用作 Vision Transformers 中的輸入單元。圖像被劃分為不重疊的補丁網格,每個補丁都被視為類似於 NLP 中單字的標記。
Pre-training在對特定任務進行微調之前,在大型通用資料集上訓練模型的初始階段。視覺語言模型通常是根據網路上數百萬個圖像文字對進行預訓練的。
Prompt Engineering精心設計輸入的實踐提示引導模型獲得所需的輸出。在 VLM 中,精心設計的文字提示可以顯著改善零樣本分類和其他任務。
Semantic Similarity衡量兩個內容的含義的密切相關程度的指標,無論其表面表達如何。在 VLM 中,狗的圖像和文字「狗」具有很高的語義相似度。
Feature Extraction從原始資料中自動學習和識別重要模式和特徵的過程。視覺編碼器從影像中提取邊緣、紋理和物體形狀等視覺特徵。
Cosine Similarity用於透過計算兩個向量之間角度的餘弦來測量兩個向量相似程度的度量。在 VLM 中,圖像和文字嵌入之間的餘弦相似度決定了它們在語義上的匹配程度,值範圍從 -1(相反)到 1(相同)。
Batch Normalization一種對神經網路每一層的輸入進行標準化、穩定並加速訓練的技術。廣泛用於視覺編碼器,以改善梯度流並實現更深的網路訓練。
Transfer Learning一種機器學習技術,其中針對一項任務訓練的模型被重新用於另一項不同但相關的任務。像 CLIP 這樣的 VLM 擅長遷移學習,因為它們的通用視覺語言表示可以應用於許多下游任務,而無需特定於任務的訓練。
Image Captioning自動產生影像的自然語言描述的任務。這需要模型辨識物件、它們的屬性、空間關係和活動,然後組成一個語法正確的句子來傳達這些訊息。
Self-Supervised Learning一種訓練範例,其中模型透過解決從資料本身派生的藉口任務來從未標記的資料中學習表示。圖像-文字對的對比學習是一種自我監督學習的形式,已被證明對 VLM 非常有效。
Multimodal Embedding一種學習向量表示,可從共享空間中的多種模式(例如圖像和文字)擷取資訊。多模態嵌入可以實現跨模態檢索,其中文字查詢可以找到相關圖像,或者圖像查詢可以找到相關文字描述。
Diffusion Model一種生成模型,透過學習的反向擴散過程逐漸對隨機雜訊進行去噪,從而學習創建資料(通常是影像)。 DALL-E 2 和 Stable Diffusion 等模型使用 CLIP 文字嵌入來指導從文字描述產生圖像。
Region of Interest (ROI)影像中與特定任務相關的特定區域。在視覺語言模型中,模型在回答問題或產生有關圖像內本地化內容的描述時可能會關注特定的興趣區域。
Instruction Tuning訓練語言模型以遵循自然語言指令,使其更加可控並且對於不同的任務更有用。視覺指令調整將其擴展到圖像-文字指令對。
Adapter Layer插入預訓練模型的輕量級神經網路模組,以最少的參數更新使其適應新任務或模式,保留原始模型的知識。
Vision-Language Pre-training在對特定下游任務進行微調之前,在大規模圖像文字資料上訓練模型以學習一般跨模式表示的過程。
Generative Pre-trained Transformer (GPT)一系列自迴歸語言模型,可逐一產生文字標記。 GPT-4V 擴展了架構,還可以處理視覺輸入,創建強大的視覺語言模型。
RLHF (Reinforcement Learning from Human Feedback)一種利用人類偏好來微調人工智慧模型的訓練技術,提高其有用性和安全性。應用於多模態模型以提高影像理解品質。
Multimodal Large Language Model (MLLM)大型語言模型擴展到處理多種類型的輸入(文字、圖像、音訊、視訊)。例子包括 GPT-4V、Gemini 和 Claude,它們可以理解和推理視覺內容以及文本。
Few-Shot Learning模型無需進行大量再訓練即可從幾個範例中學習新任務的能力。像 Flamingo 這樣的 VLM 在不同的視覺任務中展現了出色的小樣本能力。
Visual Instruction Tuning訓練視覺語言模型以遵循有關圖像的自然語言指令,例如“詳細描述該圖像”或“這張圖片有什麼問題?”,由 LLaVA 首創。
Cross-Attention一種轉換器機制,允許一種模態參與另一種模態。在 VLM 中,交叉注意力讓語言模型在生成文字回應時專注於相關圖像區域。
DALL-EOpenAI 的人工智慧系統,可根據文字描述產生圖像,並使用 CLIP 嵌入來指導生成過程。展示視覺-語言理解的相反方向。
Grounding將抽象語言概念與圖像中的特定視覺元素連接起來的過程,例如透過描述性短語識別照片中的哪個物件。
Hallucination當 VLM 產生輸入影像中實際不存在的物件、屬性或關係的描述。減少幻覺是一項正在進行的主要研究挑戰。
Object Detection透過預測邊界框和類別標籤來識別和定位影像中的物件的任務。現代 VLM 將其擴展到使用自然語言描述的開放詞彙檢測。
Image Segmentation在像素層級將影像劃分為有意義的區域。語義分割用一個類別來標記每個像素,而實例分割則區分同一類別的各個物件。
Caption Generation自動產生圖像內容的自然語言描述的任務。現代字幕系統使用 VLM 產生詳細的、上下文豐富的描述,而不僅僅是簡單的物件清單。
Multimodal Reasoning執行需要來自多種模態的資訊的邏輯推理的能力。例如,回答「杯子可能會掉下來嗎?」需要理解視覺場景幾何和物理推理。
LAION大規模人工智慧開放網路 - 一個非營利組織,創建了大量開源圖像文字資料集(包含 58.5 億對的 LAION-5B),用於訓練許多視覺語言模型。
Visual EncoderVLM 的組件,用於處理影像並提取視覺特徵。常見的架構包括 Vision Transformers (ViT)、ConvNeXt 和 CLIP 的視覺編碼器。
Q-FormerBLIP-2 中使用的輕量級轉換器模組連接了凍結影像編碼器和凍結大語言模型,學習提取資訊最豐富的視覺特徵以產生語言。
Masked Image Modeling一種自我監督的預訓練技術,其中圖像的某些部分被屏蔽(隱藏),並且模型必須預測丟失的內容,並在此過程中學習豐富的視覺表示。