🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 Jetzt ausprobieren

Was ist das?

🎯 Simulator-Tipps

📚 Glossar

Attention Mechanism
Eine neuronale Netzwerkkomponente, die es dem Modell ermöglicht, sich bei der Ausgabeproduktion auf relevante Teile der Eingabe zu konzentrieren. In Vision-Sprachmodellen ermöglichen Kreuzaufmerksamkeitsmechanismen dem Modell, bei der Verarbeitung von Text auf relevante Bildbereiche zu achten und umgekehrt.
Contrastive Learning
Ein selbstüberwachter Lernansatz, der Modelle trainiert, indem er positive Paare (übereinstimmende Stichproben) mit negativen Paaren (nicht übereinstimmende Stichproben) vergleicht und so das Modell dazu ermutigt, diskriminierende Darstellungen zu lernen.
Embedding Space
Ein kontinuierlicher Vektorraum, in dem Datenpunkte als dichte numerische Vektoren dargestellt werden. In Vision-Language-Modellen werden Bilder und Text in einen gemeinsamen Einbettungsraum abgebildet, in dem semantische Ähnlichkeit geometrischer Nähe entspricht.
Zero-Shot Learning
Die Fähigkeit eines Modells, Aufgaben auszuführen oder Kategorien zu erkennen, auf die es nicht explizit trainiert wurde, indem es das aus dem Training zu verwandten Aufgaben oder Daten übertragene Wissen nutzt.
Fine-Tuning
Der Prozess, bei dem ein vorab trainiertes Modell für eine bestimmte nachgelagerte Aufgabe oder einen bestimmten Datensatz weiter trainiert wird, wobei die erlernten Darstellungen an neue Anforderungen angepasst werden.
Encoder-Decoder Architecture
Eine neuronale Netzwerkstruktur, bestehend aus einem Encoder, der Eingaben in eine latente Darstellung komprimiert, und einem Decoder, der aus dieser Darstellung eine Ausgabe generiert. Wird bei Bildunterschriften verwendet, bei denen der Encoder das Bild verarbeitet und der Decoder Text generiert.
Tokenization
Der Prozess der Aufteilung von Text in kleinere Einheiten (Tokens) wie Wörter, Unterwörter oder Zeichen, die von einem neuronalen Netzwerk verarbeitet werden können. Die visuelle Tokenisierung unterteilt Bilder auf ähnliche Weise in Patches.
Cross-Modal Transfer
Die Fähigkeit, in einer Modalität (z. B. Text) erlerntes Wissen zu übertragen, um die Leistung in einer anderen Modalität (z. B. Vision) zu verbessern, und dabei gemeinsame semantische Konzepte über Modalitäten hinweg zu nutzen.
Visual Grounding
Die Aufgabe, bestimmte Bereiche in einem Bild zu lokalisieren oder zu identifizieren, die einem bestimmten Ausdruck in natürlicher Sprache entsprechen, und Textverweise mit visuellen Inhalten zu verbinden.
Multimodal Fusion
Techniken zum Kombinieren von Informationen aus mehreren Modalitäten zu einer einheitlichen Darstellung. Zu den gängigen Ansätzen gehören Early Fusion (Kombination von Roheingaben), Late Fusion (Kombination von High-Level-Features) und Cross-Attention-Fusion.
Image Patch
Ein kleiner rechteckiger Bereich eines Bildes, der in Vision Transformers als Eingabeeinheit verwendet wird. Das Bild ist in ein Raster aus nicht überlappenden Feldern unterteilt, die jeweils als Token behandelt werden, ähnlich wie Wörter im NLP.
Pre-training
Die Anfangsphase des Trainings eines Modells anhand eines großen, allgemeinen Datensatzes vor der Feinabstimmung auf bestimmte Aufgaben. Vision-Sprachmodelle werden häufig anhand von Millionen von Bild-Text-Paaren aus dem Internet vorab trainiert.
Prompt Engineering
Die Praxis, Eingabeaufforderungen zu erstellen, um ein Modell zu den gewünschten Ergebnissen zu führen. In VLMs können sorgfältig gestaltete Textaufforderungen die Zero-Shot-Klassifizierung und andere Aufgaben erheblich verbessern.
Semantic Similarity
Ein Maß dafür, wie eng die Bedeutungen zweier Inhalte miteinander verbunden sind, unabhängig von ihrer oberflächlichen Darstellung. In VLMs hätten ein Bild eines Hundes und der Text „ein Hund“ eine hohe semantische Ähnlichkeit.
Feature Extraction
Der Prozess des automatischen Lernens und Identifizierens wichtiger Muster und Merkmale aus Rohdaten. Vision-Encoder extrahieren visuelle Merkmale wie Kanten, Texturen und Objektformen aus Bildern.
Cosine Similarity
Eine Metrik, mit der gemessen wird, wie ähnlich zwei Vektoren sind, indem der Kosinus des Winkels zwischen ihnen berechnet wird. In VLMs bestimmt die Kosinus-Ähnlichkeit zwischen Bild- und Texteinbettungen, wie gut sie semantisch übereinstimmen, wobei die Werte zwischen -1 (entgegengesetzt) ​​und 1 (identisch) liegen.
Batch Normalization
Eine Technik, die die Eingaben in jede Schicht eines neuronalen Netzwerks normalisiert und so das Training stabilisiert und beschleunigt. Wird häufig in Vision-Encodern verwendet, um den Gradientenfluss zu verbessern und das Training tieferer Netzwerke zu ermöglichen.
Transfer Learning
Eine Technik des maschinellen Lernens, bei der ein für eine Aufgabe trainiertes Modell für eine andere, aber verwandte Aufgabe umfunktioniert wird. VLMs wie CLIP zeichnen sich durch Transferlernen aus, da ihre allgemeinen visuell-sprachlichen Darstellungen ohne aufgabenspezifisches Training auf viele nachgelagerte Aufgaben angewendet werden können.
Image Captioning
Die Aufgabe, automatisch eine Beschreibung eines Bildes in natürlicher Sprache zu generieren. Dazu muss das Modell Objekte, ihre Attribute, räumlichen Beziehungen und Aktivitäten identifizieren und dann einen grammatikalisch korrekten Satz verfassen, der diese Informationen vermittelt.
Self-Supervised Learning
Ein Trainingsparadigma, bei dem das Modell Darstellungen aus unbeschrifteten Daten lernt, indem es Vorwandaufgaben löst, die aus den Daten selbst abgeleitet werden. Kontrastives Lernen an Bild-Text-Paaren ist eine Form des selbstüberwachten Lernens, die sich für VLMs als äußerst effektiv erwiesen hat.
Multimodal Embedding
Eine erlernte Vektordarstellung, die Informationen aus mehreren Modalitäten (z. B. Bild und Text) in einem gemeinsamen Raum erfasst. Multimodale Einbettungen ermöglichen einen modalübergreifenden Abruf, bei dem eine Textabfrage relevante Bilder oder eine Bildabfrage relevante Textbeschreibungen finden kann.
Diffusion Model
Ein generatives Modell, das lernt, Daten (häufig Bilder) zu erstellen, indem zufälliges Rauschen durch einen erlernten umgekehrten Diffusionsprozess schrittweise entrauscht wird. Modelle wie DALL-E 2 und Stable Diffusion verwenden CLIP-Texteinbettungen, um die Bildgenerierung aus Textbeschreibungen zu steuern.
Region of Interest (ROI)
Ein bestimmter Bereich innerhalb eines Bildes, der für eine bestimmte Aufgabe relevant ist. In Vision-Language-Modellen kann sich das Modell bei der Beantwortung von Fragen oder beim Generieren von Beschreibungen zu lokalisierten Inhalten in einem Bild um bestimmte Bereiche von Interesse kümmern.
Instruction Tuning
Trainieren Sie ein Sprachmodell, um Anweisungen in natürlicher Sprache zu befolgen, wodurch es kontrollierbarer und für verschiedene Aufgaben nützlicher wird. Die visuelle Anweisungsoptimierung erweitert dies auf Bild-Text-Anweisungspaare.
Adapter Layer
Ein leichtes neuronales Netzwerkmodul, das in ein vorab trainiertes Modell eingefügt wird, um es mit minimalen Parameteraktualisierungen an neue Aufgaben oder Modalitäten anzupassen und dabei das Wissen des ursprünglichen Modells zu bewahren.
Vision-Language Pre-training
Der Prozess des Trainierens eines Modells anhand umfangreicher Bild-Text-Daten, um allgemeine modalübergreifende Darstellungen zu erlernen, bevor eine Feinabstimmung auf bestimmte nachgelagerte Aufgaben vorgenommen wird.
Generative Pre-trained Transformer (GPT)
Eine Familie autoregressiver Sprachmodelle, die Text Token für Token generieren. GPT-4V erweiterte die Architektur, um auch visuelle Eingaben zu verarbeiten, und schuf so ein leistungsstarkes Vision-Sprachmodell.
RLHF (Reinforcement Learning from Human Feedback)
Eine Trainingstechnik, die menschliche Vorlieben nutzt, um KI-Modelle zu verfeinern und so ihre Nützlichkeit und Sicherheit zu verbessern. Wird auf multimodale Modelle angewendet, um die Qualität des Bildverständnisses zu verbessern.
Multimodal Large Language Model (MLLM)
Ein großes Sprachmodell, das erweitert wurde, um mehrere Arten von Eingaben (Text, Bilder, Audio, Video) zu verarbeiten. Beispiele hierfür sind GPT-4V, Gemini und Claude, die neben Text auch visuelle Inhalte verstehen und darüber nachdenken können.
Few-Shot Learning
Die Fähigkeit eines Modells, eine neue Aufgabe anhand weniger Beispiele zu erlernen, ohne dass eine umfangreiche Umschulung erforderlich ist. VLMs wie Flamingo zeigten bei unterschiedlichen visuellen Aufgaben bemerkenswerte Fähigkeiten bei wenigen Aufnahmen.
Visual Instruction Tuning
Trainieren eines Vision-Sprachmodells, um Anweisungen in natürlicher Sprache zu Bildern zu befolgen, z. B. „Beschreiben Sie dieses Bild im Detail“ oder „Was stimmt in diesem Bild nicht?“, entwickelt von LLaVA.
Cross-Attention
Ein Transformationsmechanismus, der es einer Modalität ermöglicht, sich um eine andere zu kümmern. In VLMs ermöglicht die Kreuzaufmerksamkeit dem Sprachmodell, bei der Generierung von Textantworten auf relevante Bildbereiche zu achten.
DALL-E
Ein KI-System von OpenAI, das Bilder aus Textbeschreibungen generiert und dabei CLIP-Einbettungen verwendet, um den Generierungsprozess zu steuern. Demonstriert die umgekehrte Richtung des visuellen Sprachverständnisses.
Grounding
Der Prozess der Verbindung abstrakter Sprachkonzepte mit bestimmten visuellen Elementen in einem Bild, beispielsweise die Identifizierung, auf welches Objekt in einem Foto sich eine beschreibende Phrase bezieht.
Hallucination
Wenn ein VLM Beschreibungen von Objekten, Attributen oder Beziehungen generiert, die im Eingabebild tatsächlich nicht vorhanden sind. Die Reduzierung von Halluzinationen ist eine große laufende Forschungsherausforderung.
Object Detection
Die Aufgabe, Objekte innerhalb eines Bildes durch Vorhersage von Begrenzungsrahmen und Klassenbezeichnungen zu identifizieren und zu lokalisieren. Moderne VLMs erweitern dies auf die Erkennung offener Vokabeln mithilfe natürlichsprachlicher Beschreibungen.
Image Segmentation
Aufteilen eines Bildes in sinnvolle Bereiche auf Pixelebene. Die semantische Segmentierung kennzeichnet jedes Pixel mit einer Klasse, während die Instanzsegmentierung einzelne Objekte derselben Klasse unterscheidet.
Caption Generation
Die Aufgabe, automatisch eine Beschreibung des Bildinhalts in natürlicher Sprache zu erstellen. Moderne Untertitelungssysteme nutzen VLMs, um detaillierte, kontextbezogene Beschreibungen zu generieren, die über die einfache Auflistung von Objekten hinausgehen.
Multimodal Reasoning
Die Fähigkeit, logische Schlussfolgerungen zu ziehen, die Informationen aus mehreren Modalitäten erfordern. Wenn Sie beispielsweise antworten: „Wird der Pokal wahrscheinlich herunterfallen?“ erfordert das Verständnis sowohl der visuellen Szenengeometrie als auch des physikalischen Denkens.
LAION
Groß angelegtes offenes Netzwerk für künstliche Intelligenz – eine gemeinnützige Organisation, die riesige Open-Source-Bild-Text-Datensätze (LAION-5B mit 5,85 Milliarden Paaren) erstellt hat, die zum Trainieren vieler Vision-Sprachmodelle verwendet werden.
Visual Encoder
Die Komponente eines VLM, die Bilder verarbeitet und visuelle Merkmale extrahiert. Zu den gängigen Architekturen gehören Vision Transformers (ViT), ConvNeXt und der visuelle Encoder von CLIP.
Q-Former
Ein leichtes Transformatormodul, das in BLIP-2 verwendet wird und einen Encoder für eingefrorene Bilder und ein eingefrorenes großes Sprachmodell verbindet und lernt, die informativsten visuellen Merkmale für die Sprachgenerierung zu extrahieren.
Masked Image Modeling
Eine selbstüberwachte Pre-Training-Technik, bei der Teile eines Bildes maskiert (versteckt) werden und das Modell den fehlenden Inhalt vorhersagen muss, um dabei reichhaltige visuelle Darstellungen zu erlernen.

🏆 Schlüsselpersonen

Alec Radford (2021)

Leitender Forscher bei OpenAI, der CLIP (Contrastive Language-Image Pre-training) mitentwickelt hat und zeigt, dass das Erlernen visueller Darstellungen durch die Überwachung natürlicher Sprache hoch übertragbare Modelle mit bemerkenswerten Zero-Shot-Fähigkeiten erzeugen kann.

Junnan Li (2022)

Leitender Forscher bei Salesforce Research, der BLIP (Bootstrapping Language-Image Pre-Training) und BLIP-2 entwickelt hat und neuartige Techniken zum Bootstrapping von Vision-Language-Pre-Training aus verrauschten Webdaten mithilfe von Untertiteln und Filtern einführt.

Jean-Baptiste Alayrac (2022)

Forscher bei DeepMind, der die Entwicklung von Flamingo mitleitete, einem visuellen Sprachmodell, das in wenigen Schritten ein breites Spektrum multimodaler Aufgaben lernen kann, indem ein eingefrorenes Sprachmodell durch Kreuzaufmerksamkeit auf visuelle Eingaben konditioniert wird.

Alexey Dosovitskiy (2021)

Leitete die Entwicklung von Vision Transformer (ViT) bei Google Brain und demonstrierte, dass reine Transformer-Architekturen hervorragende Ergebnisse bei der Bildklassifizierung erzielen können und das visuelle Rückgrat vieler VLMs bilden

Haotian Liu (2023)

Erstellte LLaVA (Large Language and Vision Assistant) und leistete Pionierarbeit bei der Optimierung visueller Anweisungen, die es großen Sprachmodellen ermöglichte, Bilder durch effiziente Feinabstimmung zu verarbeiten und darüber nachzudenken

Dario Amodei (2023)

Mitbegründer von Anthropic und Beitrag zur Entwicklung von Claude, Förderung der multimodalen KI-Sicherheit und Demonstration, wie Vision-Language-Modelle hilfreicher, harmloser und ehrlicher gemacht werden können

🎓 Lernressourcen

💬 Nachricht an Lernende

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Loslegen

Kostenlos, ohne Anmeldung

Loslegen →