🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 立即試用

呢個係咩?

🎯 模擬器提示

📚 術語表

Attention Mechanism
一種神經網路組件,允許模型在生成輸出時專注於輸入的相關部分。在視覺語言模型中,交叉注意力機制使模型能夠在處理文字時專注於相關圖像區域,反之亦然。
Contrastive Learning
一種自我監督學習方法,透過將正對(匹配樣本)與負對(不匹配樣本)進行對比來訓練模型,鼓勵模型學習判別性表示。
Embedding Space
連續向量空間,其中資料點表示為密集數值向量。在視覺語言模型中,圖像和文字被映射到共享的嵌入空間,其中語義相似性對應於幾何接近度。
Zero-Shot Learning
模型透過利用從相關任務或資料的訓練中轉移的知識來執行未明確訓練的任務或識別類別的能力。
Fine-Tuning
採用預先訓練的模型並在特定的下游任務或資料集上進一步訓練它,使其學習的表示適應新的要求的過程。
Encoder-Decoder Architecture
一種神經網路結構,由將輸入壓縮為潛在表示的編碼器和從該表示生成輸出的解碼器組成。用於圖像字幕,其中編碼器處理圖像,解碼器生成文字。
Tokenization
將文字分解為較小的單元(標記)的過程,例如可以由神經網路處理的單字、子字或字元。視覺標記化同樣將影像劃分為補丁。
Cross-Modal Transfer
能夠轉移在一種模態(例如文本)中學到的知識,以提高另一種模態(例如視覺)的性能,利用跨模態的共享語義概念。
Visual Grounding
定位或識別圖像中與給定自然語言表達相對應的特定區域,將文字引用與視覺內容連接起來的任務。
Multimodal Fusion
將多種模式的資訊組合成統一表示的技術。常見的方法包括早期融合(組合原始輸入)、後期融合(組合高級特徵)和交叉注意力融合。
Image Patch
影像的小矩形區域,用作 Vision Transformers 中的輸入單元。圖像被劃分為不重疊的補丁網格,每個補丁都被視為類似於 NLP 中單字的標記。
Pre-training
在對特定任務進行微調之前,在大型通用資料集上訓練模型的初始階段。視覺語言模型通常是根據網路上數百萬個圖像文字對進行預訓練的。
Prompt Engineering
精心設計輸入的實踐提示引導模型獲得所需的輸出。在 VLM 中,精心設計的文字提示可以顯著改善零樣本分類和其他任務。
Semantic Similarity
衡量兩個內容的含義的密切相關程度的指標,無論其表面表達如何。在 VLM 中,狗的圖像和文字「狗」具有很高的語義相似度。
Feature Extraction
從原始資料中自動學習和識別重要模式和特徵的過程。視覺編碼器從影像中提取邊緣、紋理和物體形狀等視覺特徵。
Cosine Similarity
用於透過計算兩個向量之間角度的餘弦來測量兩個向量相似程度的度量。在 VLM 中,圖像和文字嵌入之間的餘弦相似度決定了它們在語義上的匹配程度,值範圍從 -1(相反)到 1(相同)。
Batch Normalization
一種對神經網路每一層的輸入進行標準化、穩定並加速訓練的技術。廣泛用於視覺編碼器,以改善梯度流並實現更深的網路訓練。
Transfer Learning
一種機器學習技術,其中針對一項任務訓練的模型被重新用於另一項不同但相關的任務。像 CLIP 這樣的 VLM 擅長遷移學習,因為它們的通用視覺語言表示可以應用於許多下游任務,而無需特定於任務的訓練。
Image Captioning
自動產生影像的自然語言描述的任務。這需要模型辨識物件、它們的屬性、空間關係和活動,然後組成一個語法正確的句子來傳達這些訊息。
Self-Supervised Learning
一種訓練範例,其中模型透過解決從資料本身派生的藉口任務來從未標記的資料中學習表示。圖像-文字對的對比學習是一種自我監督學習的形式,已被證明對 VLM 非常有效。
Multimodal Embedding
一種學習向量表示,可從共享空間中的多種模式(例如圖像和文字)擷取資訊。多模態嵌入可以實現跨模態檢索,其中文字查詢可以找到相關圖像,或者圖像查詢可以找到相關文字描述。
Diffusion Model
一種生成模型,透過學習的反向擴散過程逐漸對隨機雜訊進行去噪,從而學習創建資料(通常是影像)。 DALL-E 2 和 Stable Diffusion 等模型使用 CLIP 文字嵌入來指導從文字描述產生圖像。
Region of Interest (ROI)
影像中與特定任務相關的特定區域。在視覺語言模型中,模型在回答問題或產生有關圖像內本地化內容的描述時可能會關注特定的興趣區域。
Instruction Tuning
訓練語言模型以遵循自然語言指令,使其更加可控並且對於不同的任務更有用。視覺指令調整將其擴展到圖像-文字指令對。
Adapter Layer
插入預訓練模型的輕量級神經網路模組,以最少的參數更新使其適應新任務或模式,保留原始模型的知識。
Vision-Language Pre-training
在對特定下游任務進行微調之前,在大規模圖像文字資料上訓練模型以學習一般跨模式表示的過程。
Generative Pre-trained Transformer (GPT)
一系列自迴歸語言模型,可逐一產生文字標記。 GPT-4V 擴展了架構,還可以處理視覺輸入,創建強大的視覺語言模型。
RLHF (Reinforcement Learning from Human Feedback)
一種利用人類偏好來微調人工智慧模型的訓練技術,提高其有用性和安全性。應用於多模態模型以提高影像理解品質。
Multimodal Large Language Model (MLLM)
大型語言模型擴展到處理多種類型的輸入(文字、圖像、音訊、視訊)。例子包括 GPT-4V、Gemini 和 Claude,它們可以理解和推理視覺內容以及文本。
Few-Shot Learning
模型無需進行大量再訓練即可從幾個範例中學習新任務的能力。像 Flamingo 這樣的 VLM 在不同的視覺任務中展現了出色的小樣本能力。
Visual Instruction Tuning
訓練視覺語言模型以遵循有關圖像的自然語言指令,例如“詳細描述該圖像”或“這張圖片有什麼問題?”,由 LLaVA 首創。
Cross-Attention
一種轉換器機制,允許一種模態參與另一種模態。在 VLM 中,交叉注意力讓語言模型在生成文字回應時專注於相關圖像區域。
DALL-E
OpenAI 的人工智慧系統,可根據文字描述產生圖像,並使用 CLIP 嵌入來指導生成過程。展示視覺-語言理解的相反方向。
Grounding
將抽象語言概念與圖像中的特定視覺元素連接起來的過程,例如透過描述性短語識別照片中的哪個物件。
Hallucination
當 VLM 產生輸入影像中實際不存在的物件、屬性或關係的描述。減少幻覺是一項正在進行的主要研究挑戰。
Object Detection
透過預測邊界框和類別標籤來識別和定位影像中的物件的任務。現代 VLM 將其擴展到使用自然語言描述的開放詞彙檢測。
Image Segmentation
在像素層級將影像劃分為有意義的區域。語義分割用一個類別來標記每個像素,而實例分割則區分同一類別的各個物件。
Caption Generation
自動產生圖像內容的自然語言描述的任務。現代字幕系統使用 VLM 產生詳細的、上下文豐富的描述,而不僅僅是簡單的物件清單。
Multimodal Reasoning
執行需要來自多種模態的資訊的邏輯推理的能力。例如,回答「杯子可能會掉下來嗎?」需要理解視覺場景幾何和物理推理。
LAION
大規模人工智慧開放網路 - 一個非營利組織,創建了大量開源圖像文字資料集(包含 58.5 億對的 LAION-5B),用於訓練許多視覺語言模型。
Visual Encoder
VLM 的組件,用於處理影像並提取視覺特徵。常見的架構包括 Vision Transformers (ViT)、ConvNeXt 和 CLIP 的視覺編碼器。
Q-Former
BLIP-2 中使用的輕量級轉換器模組連接了凍結影像編碼器和凍結大語言模型,學習提取資訊最豐富的視覺特徵以產生語言。
Masked Image Modeling
一種自我監督的預訓練技術,其中圖像的某些部分被屏蔽(隱藏),並且模型必須預測丟失的內容,並在此過程中學習豐富的視覺表示。

🏆 關鍵人物

Alec Radford (2021)

OpenAI 的首席研究員,共同創建了 CLIP(對比語言圖像預訓練),證明從自然語言監督中學習視覺表示可以產生具有出色的零樣本能力的高度可遷移模型。

Junnan Li (2022)

Salesforce Research 的首席研究員,開發了 BLIP(引導語言圖像預訓練)和 BLIP-2,引入了使用字幕和過濾從嘈雜的 Web 資料中引導視覺語言預訓練的新技術。

Jean-Baptiste Alayrac (2022)

DeepMind 的研究員,共同領導了 Flamingo 的開發,Flamingo 是一種視覺語言模型,能夠透過交叉注意力根據視覺輸入調節凍結的語言模型,從而對各種多模態任務進行少量學習。

Alexey Dosovitskiy (2021)

在 Google Brain 領導者創建了 Vision Transformer (ViT),證明純 Transformer 架構可以在影像分類上取得優異的結果,形成許多 VLM 的視覺主幹

Haotian Liu (2023)

創建LLaVA(大語言和視覺助手),開創了視覺指令調整的方法,使大語言模型能夠透過高效的微調來處理和推理影像

Dario Amodei (2023)

Anthropic 的聯合創始人,為 Claude 的發展做出了貢獻,推進了多模式人工智慧安全性,並展示瞭如何使視覺語言模型更有幫助、無害和誠實

🎓 學習資源

💬 畀學習者嘅話

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

開始使用

免費,唔使註冊

開始使用 →