molmo-vision-language

Was ist das?

🎯 Simulator-Tipps

📚 Glossar

Attention Mechanism

Eine neuronale Netzwerkkomponente, die es dem Modell ermöglicht, sich bei der Ausgabeproduktion auf relevante Teile der Eingabe zu konzentrieren. In Vision-Sprachmodellen ermöglichen Kreuzaufmerksamkeitsmechanismen dem Modell, bei der Verarbeitung von Text auf relevante Bildbereiche zu achten und umgekehrt.

Contrastive Learning

Ein selbstüberwachter Lernansatz, der Modelle trainiert, indem er positive Paare (übereinstimmende Stichproben) mit negativen Paaren (nicht übereinstimmende Stichproben) vergleicht und so das Modell dazu ermutigt, diskriminierende Darstellungen zu lernen.

Embedding Space

Ein kontinuierlicher Vektorraum, in dem Datenpunkte als dichte numerische Vektoren dargestellt werden. In Vision-Language-Modellen werden Bilder und Text in einen gemeinsamen Einbettungsraum abgebildet, in dem semantische Ähnlichkeit geometrischer Nähe entspricht.

Zero-Shot Learning

Die Fähigkeit eines Modells, Aufgaben auszuführen oder Kategorien zu erkennen, auf die es nicht explizit trainiert wurde, indem es das aus dem Training zu verwandten Aufgaben oder Daten übertragene Wissen nutzt.

Fine-Tuning

Der Prozess, bei dem ein vorab trainiertes Modell für eine bestimmte nachgelagerte Aufgabe oder einen bestimmten Datensatz weiter trainiert wird, wobei die erlernten Darstellungen an neue Anforderungen angepasst werden.

Encoder-Decoder Architecture

Eine neuronale Netzwerkstruktur, bestehend aus einem Encoder, der Eingaben in eine latente Darstellung komprimiert, und einem Decoder, der aus dieser Darstellung eine Ausgabe generiert. Wird bei Bildunterschriften verwendet, bei denen der Encoder das Bild verarbeitet und der Decoder Text generiert.

Tokenization

Der Prozess der Aufteilung von Text in kleinere Einheiten (Tokens) wie Wörter, Unterwörter oder Zeichen, die von einem neuronalen Netzwerk verarbeitet werden können. Die visuelle Tokenisierung unterteilt Bilder auf ähnliche Weise in Patches.

Cross-Modal Transfer

Die Fähigkeit, in einer Modalität (z. B. Text) erlerntes Wissen zu übertragen, um die Leistung in einer anderen Modalität (z. B. Vision) zu verbessern, und dabei gemeinsame semantische Konzepte über Modalitäten hinweg zu nutzen.

Visual Grounding

Die Aufgabe, bestimmte Bereiche in einem Bild zu lokalisieren oder zu identifizieren, die einem bestimmten Ausdruck in natürlicher Sprache entsprechen, und Textverweise mit visuellen Inhalten zu verbinden.

Multimodal Fusion

Techniken zum Kombinieren von Informationen aus mehreren Modalitäten zu einer einheitlichen Darstellung. Zu den gängigen Ansätzen gehören Early Fusion (Kombination von Roheingaben), Late Fusion (Kombination von High-Level-Features) und Cross-Attention-Fusion.

Image Patch

Ein kleiner rechteckiger Bereich eines Bildes, der in Vision Transformers als Eingabeeinheit verwendet wird. Das Bild ist in ein Raster aus nicht überlappenden Feldern unterteilt, die jeweils als Token behandelt werden, ähnlich wie Wörter im NLP.

Pre-training

Die Anfangsphase des Trainings eines Modells anhand eines großen, allgemeinen Datensatzes vor der Feinabstimmung auf bestimmte Aufgaben. Vision-Sprachmodelle werden häufig anhand von Millionen von Bild-Text-Paaren aus dem Internet vorab trainiert.

Prompt Engineering

Die Praxis, Eingabeaufforderungen zu erstellen, um ein Modell zu den gewünschten Ergebnissen zu führen. In VLMs können sorgfältig gestaltete Textaufforderungen die Zero-Shot-Klassifizierung und andere Aufgaben erheblich verbessern.

Semantic Similarity

Ein Maß dafür, wie eng die Bedeutungen zweier Inhalte miteinander verbunden sind, unabhängig von ihrer oberflächlichen Darstellung. In VLMs hätten ein Bild eines Hundes und der Text „ein Hund“ eine hohe semantische Ähnlichkeit.

Feature Extraction

Der Prozess des automatischen Lernens und Identifizierens wichtiger Muster und Merkmale aus Rohdaten. Vision-Encoder extrahieren visuelle Merkmale wie Kanten, Texturen und Objektformen aus Bildern.

Cosine Similarity

Eine Metrik, mit der gemessen wird, wie ähnlich zwei Vektoren sind, indem der Kosinus des Winkels zwischen ihnen berechnet wird. In VLMs bestimmt die Kosinus-Ähnlichkeit zwischen Bild- und Texteinbettungen, wie gut sie semantisch übereinstimmen, wobei die Werte zwischen -1 (entgegengesetzt) und 1 (identisch) liegen.

Batch Normalization

Eine Technik, die die Eingaben in jede Schicht eines neuronalen Netzwerks normalisiert und so das Training stabilisiert und beschleunigt. Wird häufig in Vision-Encodern verwendet, um den Gradientenfluss zu verbessern und das Training tieferer Netzwerke zu ermöglichen.

Transfer Learning

Eine Technik des maschinellen Lernens, bei der ein für eine Aufgabe trainiertes Modell für eine andere, aber verwandte Aufgabe umfunktioniert wird. VLMs wie CLIP zeichnen sich durch Transferlernen aus, da ihre allgemeinen visuell-sprachlichen Darstellungen ohne aufgabenspezifisches Training auf viele nachgelagerte Aufgaben angewendet werden können.

Image Captioning

Die Aufgabe, automatisch eine Beschreibung eines Bildes in natürlicher Sprache zu generieren. Dazu muss das Modell Objekte, ihre Attribute, räumlichen Beziehungen und Aktivitäten identifizieren und dann einen grammatikalisch korrekten Satz verfassen, der diese Informationen vermittelt.

Self-Supervised Learning

Ein Trainingsparadigma, bei dem das Modell Darstellungen aus unbeschrifteten Daten lernt, indem es Vorwandaufgaben löst, die aus den Daten selbst abgeleitet werden. Kontrastives Lernen an Bild-Text-Paaren ist eine Form des selbstüberwachten Lernens, die sich für VLMs als äußerst effektiv erwiesen hat.

Multimodal Embedding

Eine erlernte Vektordarstellung, die Informationen aus mehreren Modalitäten (z. B. Bild und Text) in einem gemeinsamen Raum erfasst. Multimodale Einbettungen ermöglichen einen modalübergreifenden Abruf, bei dem eine Textabfrage relevante Bilder oder eine Bildabfrage relevante Textbeschreibungen finden kann.

Diffusion Model

Ein generatives Modell, das lernt, Daten (häufig Bilder) zu erstellen, indem zufälliges Rauschen durch einen erlernten umgekehrten Diffusionsprozess schrittweise entrauscht wird. Modelle wie DALL-E 2 und Stable Diffusion verwenden CLIP-Texteinbettungen, um die Bildgenerierung aus Textbeschreibungen zu steuern.

Region of Interest (ROI)

Ein bestimmter Bereich innerhalb eines Bildes, der für eine bestimmte Aufgabe relevant ist. In Vision-Language-Modellen kann sich das Modell bei der Beantwortung von Fragen oder beim Generieren von Beschreibungen zu lokalisierten Inhalten in einem Bild um bestimmte Bereiche von Interesse kümmern.

Instruction Tuning

Trainieren Sie ein Sprachmodell, um Anweisungen in natürlicher Sprache zu befolgen, wodurch es kontrollierbarer und für verschiedene Aufgaben nützlicher wird. Die visuelle Anweisungsoptimierung erweitert dies auf Bild-Text-Anweisungspaare.

Adapter Layer

Ein leichtes neuronales Netzwerkmodul, das in ein vorab trainiertes Modell eingefügt wird, um es mit minimalen Parameteraktualisierungen an neue Aufgaben oder Modalitäten anzupassen und dabei das Wissen des ursprünglichen Modells zu bewahren.

Vision-Language Pre-training

Der Prozess des Trainierens eines Modells anhand umfangreicher Bild-Text-Daten, um allgemeine modalübergreifende Darstellungen zu erlernen, bevor eine Feinabstimmung auf bestimmte nachgelagerte Aufgaben vorgenommen wird.

Generative Pre-trained Transformer (GPT)

Eine Familie autoregressiver Sprachmodelle, die Text Token für Token generieren. GPT-4V erweiterte die Architektur, um auch visuelle Eingaben zu verarbeiten, und schuf so ein leistungsstarkes Vision-Sprachmodell.

RLHF (Reinforcement Learning from Human Feedback)

Eine Trainingstechnik, die menschliche Vorlieben nutzt, um KI-Modelle zu verfeinern und so ihre Nützlichkeit und Sicherheit zu verbessern. Wird auf multimodale Modelle angewendet, um die Qualität des Bildverständnisses zu verbessern.

Multimodal Large Language Model (MLLM)

Ein großes Sprachmodell, das erweitert wurde, um mehrere Arten von Eingaben (Text, Bilder, Audio, Video) zu verarbeiten. Beispiele hierfür sind GPT-4V, Gemini und Claude, die neben Text auch visuelle Inhalte verstehen und darüber nachdenken können.

Few-Shot Learning

Die Fähigkeit eines Modells, eine neue Aufgabe anhand weniger Beispiele zu erlernen, ohne dass eine umfangreiche Umschulung erforderlich ist. VLMs wie Flamingo zeigten bei unterschiedlichen visuellen Aufgaben bemerkenswerte Fähigkeiten bei wenigen Aufnahmen.

Visual Instruction Tuning

Trainieren eines Vision-Sprachmodells, um Anweisungen in natürlicher Sprache zu Bildern zu befolgen, z. B. „Beschreiben Sie dieses Bild im Detail“ oder „Was stimmt in diesem Bild nicht?“, entwickelt von LLaVA.

Cross-Attention

Ein Transformationsmechanismus, der es einer Modalität ermöglicht, sich um eine andere zu kümmern. In VLMs ermöglicht die Kreuzaufmerksamkeit dem Sprachmodell, bei der Generierung von Textantworten auf relevante Bildbereiche zu achten.

DALL-E

Ein KI-System von OpenAI, das Bilder aus Textbeschreibungen generiert und dabei CLIP-Einbettungen verwendet, um den Generierungsprozess zu steuern. Demonstriert die umgekehrte Richtung des visuellen Sprachverständnisses.

Grounding

Der Prozess der Verbindung abstrakter Sprachkonzepte mit bestimmten visuellen Elementen in einem Bild, beispielsweise die Identifizierung, auf welches Objekt in einem Foto sich eine beschreibende Phrase bezieht.

Hallucination

Wenn ein VLM Beschreibungen von Objekten, Attributen oder Beziehungen generiert, die im Eingabebild tatsächlich nicht vorhanden sind. Die Reduzierung von Halluzinationen ist eine große laufende Forschungsherausforderung.

Object Detection

Die Aufgabe, Objekte innerhalb eines Bildes durch Vorhersage von Begrenzungsrahmen und Klassenbezeichnungen zu identifizieren und zu lokalisieren. Moderne VLMs erweitern dies auf die Erkennung offener Vokabeln mithilfe natürlichsprachlicher Beschreibungen.

Image Segmentation

Aufteilen eines Bildes in sinnvolle Bereiche auf Pixelebene. Die semantische Segmentierung kennzeichnet jedes Pixel mit einer Klasse, während die Instanzsegmentierung einzelne Objekte derselben Klasse unterscheidet.

Caption Generation

Die Aufgabe, automatisch eine Beschreibung des Bildinhalts in natürlicher Sprache zu erstellen. Moderne Untertitelungssysteme nutzen VLMs, um detaillierte, kontextbezogene Beschreibungen zu generieren, die über die einfache Auflistung von Objekten hinausgehen.

Multimodal Reasoning

Die Fähigkeit, logische Schlussfolgerungen zu ziehen, die Informationen aus mehreren Modalitäten erfordern. Wenn Sie beispielsweise antworten: „Wird der Pokal wahrscheinlich herunterfallen?“ erfordert das Verständnis sowohl der visuellen Szenengeometrie als auch des physikalischen Denkens.

LAION

Groß angelegtes offenes Netzwerk für künstliche Intelligenz – eine gemeinnützige Organisation, die riesige Open-Source-Bild-Text-Datensätze (LAION-5B mit 5,85 Milliarden Paaren) erstellt hat, die zum Trainieren vieler Vision-Sprachmodelle verwendet werden.

Visual Encoder

Die Komponente eines VLM, die Bilder verarbeitet und visuelle Merkmale extrahiert. Zu den gängigen Architekturen gehören Vision Transformers (ViT), ConvNeXt und der visuelle Encoder von CLIP.

Q-Former

Ein leichtes Transformatormodul, das in BLIP-2 verwendet wird und einen Encoder für eingefrorene Bilder und ein eingefrorenes großes Sprachmodell verbindet und lernt, die informativsten visuellen Merkmale für die Sprachgenerierung zu extrahieren.

Masked Image Modeling

Eine selbstüberwachte Pre-Training-Technik, bei der Teile eines Bildes maskiert (versteckt) werden und das Modell den fehlenden Inhalt vorhersagen muss, um dabei reichhaltige visuelle Darstellungen zu erlernen.

🏆 Schlüsselpersonen

Alec Radford (2021)

Leitender Forscher bei OpenAI, der CLIP (Contrastive Language-Image Pre-training) mitentwickelt hat und zeigt, dass das Erlernen visueller Darstellungen durch die Überwachung natürlicher Sprache hoch übertragbare Modelle mit bemerkenswerten Zero-Shot-Fähigkeiten erzeugen kann.

Junnan Li (2022)

Leitender Forscher bei Salesforce Research, der BLIP (Bootstrapping Language-Image Pre-Training) und BLIP-2 entwickelt hat und neuartige Techniken zum Bootstrapping von Vision-Language-Pre-Training aus verrauschten Webdaten mithilfe von Untertiteln und Filtern einführt.

Jean-Baptiste Alayrac (2022)

Forscher bei DeepMind, der die Entwicklung von Flamingo mitleitete, einem visuellen Sprachmodell, das in wenigen Schritten ein breites Spektrum multimodaler Aufgaben lernen kann, indem ein eingefrorenes Sprachmodell durch Kreuzaufmerksamkeit auf visuelle Eingaben konditioniert wird.

Alexey Dosovitskiy (2021)

Leitete die Entwicklung von Vision Transformer (ViT) bei Google Brain und demonstrierte, dass reine Transformer-Architekturen hervorragende Ergebnisse bei der Bildklassifizierung erzielen können und das visuelle Rückgrat vieler VLMs bilden

Haotian Liu (2023)

Erstellte LLaVA (Large Language and Vision Assistant) und leistete Pionierarbeit bei der Optimierung visueller Anweisungen, die es großen Sprachmodellen ermöglichte, Bilder durch effiziente Feinabstimmung zu verarbeiten und darüber nachzudenken

Dario Amodei (2023)

Mitbegründer von Anthropic und Beitrag zur Entwicklung von Claude, Förderung der multimodalen KI-Sicherheit und Demonstration, wie Vision-Language-Modelle hilfreicher, harmloser und ehrlicher gemacht werden können

🎓 Lernressourcen

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
Das grundlegende CLIP-Papier zeigt, dass kontrastives Vortraining an 400 Millionen Bild-Text-Paaren eine leistungsstarke visuelle Klassifizierung ohne Aufnahme und Bild-Text-Abruf ermöglicht.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Stellt BLIP vor, ein Framework, das Untertitel aus verrauschten Webdaten erstellt und modernste Ergebnisse beim Verständnis und bei der Generierung von Vision-Sprachen erzielt.
Flamingo: a Visual Language Model for Few-Shot Learning
Präsentiert Flamingo, das leistungsstarke vorab trainierte Seh- und Sprachmodelle mithilfe von Kreuzaufmerksamkeit verbindet und starkes Wenig-Schuss-Lernen bei verschiedenen multimodalen Aufgaben demonstriert.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Das Vision Transformer (ViT)-Papier zeigt, dass reine Transformer-Architekturen hervorragende Ergebnisse bei der Bildklassifizierung erzielen können und bildet die Grundlage für viele VLM-Vision-Encoder.
Deep Learning for Vision Systems
Ein praktischer Leitfaden, der die Grundlagen des maschinellen Sehens und Deep-Learning-Architekturen für das visuelle Verständnis behandelt und grundlegende Hintergrundinformationen zum Verständnis von Vision-Sprachmodellen bietet.
Dive into Deep Learning
Ein interaktives Deep-Learning-Lehrbuch mit Code, Mathematik und Diskussionen, einschließlich Kapiteln über Aufmerksamkeitsmechanismen und Transformatorarchitekturen, die für VLMs von entscheidender Bedeutung sind.
Foundations of Computer Vision
Ein umfassendes Lehrbuch vom MIT über moderne Computer Vision, einschließlich multimodalem Lernen und Vision-Sprach-Integration.
CLIP: Connecting Text and Images - OpenAI Research Explanation
Eine verständliche Erklärung, wie CLIP durch kontrastives Lernen lernt, Bilder und Text zu verbinden, mit visuellen Demonstrationen seiner Zero-Shot-Fähigkeiten.
Stanford CS231n: Deep Learning for Computer Vision
Stanfords renommierter Computer-Vision-Kurs behandelt CNNs, Transformatoren und moderne Architekturen, die die Grundlage für Vision-Sprachmodelle bilden.
Andrej Karpathy - Let's Build GPT: From Scratch
Diese detaillierte Anleitung zur Transformatorarchitektur konzentriert sich zwar auf Sprachmodelle, vermittelt jedoch ein grundlegendes Verständnis für die Textverarbeitungskomponente von VLMs.

💬 Nachricht an Lernende

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Loslegen

Kostenlos, ohne Anmeldung

Loslegen →