Attention MechanismEine neuronale Netzwerkkomponente, die es dem Modell ermöglicht, sich bei der Ausgabeproduktion auf relevante Teile der Eingabe zu konzentrieren. In Vision-Sprachmodellen ermöglichen Kreuzaufmerksamkeitsmechanismen dem Modell, bei der Verarbeitung von Text auf relevante Bildbereiche zu achten und umgekehrt.
Contrastive LearningEin selbstüberwachter Lernansatz, der Modelle trainiert, indem er positive Paare (übereinstimmende Stichproben) mit negativen Paaren (nicht übereinstimmende Stichproben) vergleicht und so das Modell dazu ermutigt, diskriminierende Darstellungen zu lernen.
Embedding SpaceEin kontinuierlicher Vektorraum, in dem Datenpunkte als dichte numerische Vektoren dargestellt werden. In Vision-Language-Modellen werden Bilder und Text in einen gemeinsamen Einbettungsraum abgebildet, in dem semantische Ähnlichkeit geometrischer Nähe entspricht.
Zero-Shot LearningDie Fähigkeit eines Modells, Aufgaben auszuführen oder Kategorien zu erkennen, auf die es nicht explizit trainiert wurde, indem es das aus dem Training zu verwandten Aufgaben oder Daten übertragene Wissen nutzt.
Fine-TuningDer Prozess, bei dem ein vorab trainiertes Modell für eine bestimmte nachgelagerte Aufgabe oder einen bestimmten Datensatz weiter trainiert wird, wobei die erlernten Darstellungen an neue Anforderungen angepasst werden.
Encoder-Decoder ArchitectureEine neuronale Netzwerkstruktur, bestehend aus einem Encoder, der Eingaben in eine latente Darstellung komprimiert, und einem Decoder, der aus dieser Darstellung eine Ausgabe generiert. Wird bei Bildunterschriften verwendet, bei denen der Encoder das Bild verarbeitet und der Decoder Text generiert.
TokenizationDer Prozess der Aufteilung von Text in kleinere Einheiten (Tokens) wie Wörter, Unterwörter oder Zeichen, die von einem neuronalen Netzwerk verarbeitet werden können. Die visuelle Tokenisierung unterteilt Bilder auf ähnliche Weise in Patches.
Cross-Modal TransferDie Fähigkeit, in einer Modalität (z. B. Text) erlerntes Wissen zu übertragen, um die Leistung in einer anderen Modalität (z. B. Vision) zu verbessern, und dabei gemeinsame semantische Konzepte über Modalitäten hinweg zu nutzen.
Visual GroundingDie Aufgabe, bestimmte Bereiche in einem Bild zu lokalisieren oder zu identifizieren, die einem bestimmten Ausdruck in natürlicher Sprache entsprechen, und Textverweise mit visuellen Inhalten zu verbinden.
Multimodal FusionTechniken zum Kombinieren von Informationen aus mehreren Modalitäten zu einer einheitlichen Darstellung. Zu den gängigen Ansätzen gehören Early Fusion (Kombination von Roheingaben), Late Fusion (Kombination von High-Level-Features) und Cross-Attention-Fusion.
Image PatchEin kleiner rechteckiger Bereich eines Bildes, der in Vision Transformers als Eingabeeinheit verwendet wird. Das Bild ist in ein Raster aus nicht überlappenden Feldern unterteilt, die jeweils als Token behandelt werden, ähnlich wie Wörter im NLP.
Pre-trainingDie Anfangsphase des Trainings eines Modells anhand eines großen, allgemeinen Datensatzes vor der Feinabstimmung auf bestimmte Aufgaben. Vision-Sprachmodelle werden häufig anhand von Millionen von Bild-Text-Paaren aus dem Internet vorab trainiert.
Prompt EngineeringDie Praxis, Eingabeaufforderungen zu erstellen, um ein Modell zu den gewünschten Ergebnissen zu führen. In VLMs können sorgfältig gestaltete Textaufforderungen die Zero-Shot-Klassifizierung und andere Aufgaben erheblich verbessern.
Semantic SimilarityEin Maß dafür, wie eng die Bedeutungen zweier Inhalte miteinander verbunden sind, unabhängig von ihrer oberflächlichen Darstellung. In VLMs hätten ein Bild eines Hundes und der Text „ein Hund“ eine hohe semantische Ähnlichkeit.
Feature ExtractionDer Prozess des automatischen Lernens und Identifizierens wichtiger Muster und Merkmale aus Rohdaten. Vision-Encoder extrahieren visuelle Merkmale wie Kanten, Texturen und Objektformen aus Bildern.
Cosine SimilarityEine Metrik, mit der gemessen wird, wie ähnlich zwei Vektoren sind, indem der Kosinus des Winkels zwischen ihnen berechnet wird. In VLMs bestimmt die Kosinus-Ähnlichkeit zwischen Bild- und Texteinbettungen, wie gut sie semantisch übereinstimmen, wobei die Werte zwischen -1 (entgegengesetzt) und 1 (identisch) liegen.
Batch NormalizationEine Technik, die die Eingaben in jede Schicht eines neuronalen Netzwerks normalisiert und so das Training stabilisiert und beschleunigt. Wird häufig in Vision-Encodern verwendet, um den Gradientenfluss zu verbessern und das Training tieferer Netzwerke zu ermöglichen.
Transfer LearningEine Technik des maschinellen Lernens, bei der ein für eine Aufgabe trainiertes Modell für eine andere, aber verwandte Aufgabe umfunktioniert wird. VLMs wie CLIP zeichnen sich durch Transferlernen aus, da ihre allgemeinen visuell-sprachlichen Darstellungen ohne aufgabenspezifisches Training auf viele nachgelagerte Aufgaben angewendet werden können.
Image CaptioningDie Aufgabe, automatisch eine Beschreibung eines Bildes in natürlicher Sprache zu generieren. Dazu muss das Modell Objekte, ihre Attribute, räumlichen Beziehungen und Aktivitäten identifizieren und dann einen grammatikalisch korrekten Satz verfassen, der diese Informationen vermittelt.
Self-Supervised LearningEin Trainingsparadigma, bei dem das Modell Darstellungen aus unbeschrifteten Daten lernt, indem es Vorwandaufgaben löst, die aus den Daten selbst abgeleitet werden. Kontrastives Lernen an Bild-Text-Paaren ist eine Form des selbstüberwachten Lernens, die sich für VLMs als äußerst effektiv erwiesen hat.
Multimodal EmbeddingEine erlernte Vektordarstellung, die Informationen aus mehreren Modalitäten (z. B. Bild und Text) in einem gemeinsamen Raum erfasst. Multimodale Einbettungen ermöglichen einen modalübergreifenden Abruf, bei dem eine Textabfrage relevante Bilder oder eine Bildabfrage relevante Textbeschreibungen finden kann.
Diffusion ModelEin generatives Modell, das lernt, Daten (häufig Bilder) zu erstellen, indem zufälliges Rauschen durch einen erlernten umgekehrten Diffusionsprozess schrittweise entrauscht wird. Modelle wie DALL-E 2 und Stable Diffusion verwenden CLIP-Texteinbettungen, um die Bildgenerierung aus Textbeschreibungen zu steuern.
Region of Interest (ROI)Ein bestimmter Bereich innerhalb eines Bildes, der für eine bestimmte Aufgabe relevant ist. In Vision-Language-Modellen kann sich das Modell bei der Beantwortung von Fragen oder beim Generieren von Beschreibungen zu lokalisierten Inhalten in einem Bild um bestimmte Bereiche von Interesse kümmern.
Instruction TuningTrainieren Sie ein Sprachmodell, um Anweisungen in natürlicher Sprache zu befolgen, wodurch es kontrollierbarer und für verschiedene Aufgaben nützlicher wird. Die visuelle Anweisungsoptimierung erweitert dies auf Bild-Text-Anweisungspaare.
Adapter LayerEin leichtes neuronales Netzwerkmodul, das in ein vorab trainiertes Modell eingefügt wird, um es mit minimalen Parameteraktualisierungen an neue Aufgaben oder Modalitäten anzupassen und dabei das Wissen des ursprünglichen Modells zu bewahren.
Vision-Language Pre-trainingDer Prozess des Trainierens eines Modells anhand umfangreicher Bild-Text-Daten, um allgemeine modalübergreifende Darstellungen zu erlernen, bevor eine Feinabstimmung auf bestimmte nachgelagerte Aufgaben vorgenommen wird.
Generative Pre-trained Transformer (GPT)Eine Familie autoregressiver Sprachmodelle, die Text Token für Token generieren. GPT-4V erweiterte die Architektur, um auch visuelle Eingaben zu verarbeiten, und schuf so ein leistungsstarkes Vision-Sprachmodell.
RLHF (Reinforcement Learning from Human Feedback)Eine Trainingstechnik, die menschliche Vorlieben nutzt, um KI-Modelle zu verfeinern und so ihre Nützlichkeit und Sicherheit zu verbessern. Wird auf multimodale Modelle angewendet, um die Qualität des Bildverständnisses zu verbessern.
Multimodal Large Language Model (MLLM)Ein großes Sprachmodell, das erweitert wurde, um mehrere Arten von Eingaben (Text, Bilder, Audio, Video) zu verarbeiten. Beispiele hierfür sind GPT-4V, Gemini und Claude, die neben Text auch visuelle Inhalte verstehen und darüber nachdenken können.
Few-Shot LearningDie Fähigkeit eines Modells, eine neue Aufgabe anhand weniger Beispiele zu erlernen, ohne dass eine umfangreiche Umschulung erforderlich ist. VLMs wie Flamingo zeigten bei unterschiedlichen visuellen Aufgaben bemerkenswerte Fähigkeiten bei wenigen Aufnahmen.
Visual Instruction TuningTrainieren eines Vision-Sprachmodells, um Anweisungen in natürlicher Sprache zu Bildern zu befolgen, z. B. „Beschreiben Sie dieses Bild im Detail“ oder „Was stimmt in diesem Bild nicht?“, entwickelt von LLaVA.
Cross-AttentionEin Transformationsmechanismus, der es einer Modalität ermöglicht, sich um eine andere zu kümmern. In VLMs ermöglicht die Kreuzaufmerksamkeit dem Sprachmodell, bei der Generierung von Textantworten auf relevante Bildbereiche zu achten.
DALL-EEin KI-System von OpenAI, das Bilder aus Textbeschreibungen generiert und dabei CLIP-Einbettungen verwendet, um den Generierungsprozess zu steuern. Demonstriert die umgekehrte Richtung des visuellen Sprachverständnisses.
GroundingDer Prozess der Verbindung abstrakter Sprachkonzepte mit bestimmten visuellen Elementen in einem Bild, beispielsweise die Identifizierung, auf welches Objekt in einem Foto sich eine beschreibende Phrase bezieht.
HallucinationWenn ein VLM Beschreibungen von Objekten, Attributen oder Beziehungen generiert, die im Eingabebild tatsächlich nicht vorhanden sind. Die Reduzierung von Halluzinationen ist eine große laufende Forschungsherausforderung.
Object DetectionDie Aufgabe, Objekte innerhalb eines Bildes durch Vorhersage von Begrenzungsrahmen und Klassenbezeichnungen zu identifizieren und zu lokalisieren. Moderne VLMs erweitern dies auf die Erkennung offener Vokabeln mithilfe natürlichsprachlicher Beschreibungen.
Image SegmentationAufteilen eines Bildes in sinnvolle Bereiche auf Pixelebene. Die semantische Segmentierung kennzeichnet jedes Pixel mit einer Klasse, während die Instanzsegmentierung einzelne Objekte derselben Klasse unterscheidet.
Caption GenerationDie Aufgabe, automatisch eine Beschreibung des Bildinhalts in natürlicher Sprache zu erstellen. Moderne Untertitelungssysteme nutzen VLMs, um detaillierte, kontextbezogene Beschreibungen zu generieren, die über die einfache Auflistung von Objekten hinausgehen.
Multimodal ReasoningDie Fähigkeit, logische Schlussfolgerungen zu ziehen, die Informationen aus mehreren Modalitäten erfordern. Wenn Sie beispielsweise antworten: „Wird der Pokal wahrscheinlich herunterfallen?“ erfordert das Verständnis sowohl der visuellen Szenengeometrie als auch des physikalischen Denkens.
LAIONGroß angelegtes offenes Netzwerk für künstliche Intelligenz – eine gemeinnützige Organisation, die riesige Open-Source-Bild-Text-Datensätze (LAION-5B mit 5,85 Milliarden Paaren) erstellt hat, die zum Trainieren vieler Vision-Sprachmodelle verwendet werden.
Visual EncoderDie Komponente eines VLM, die Bilder verarbeitet und visuelle Merkmale extrahiert. Zu den gängigen Architekturen gehören Vision Transformers (ViT), ConvNeXt und der visuelle Encoder von CLIP.
Q-FormerEin leichtes Transformatormodul, das in BLIP-2 verwendet wird und einen Encoder für eingefrorene Bilder und ein eingefrorenes großes Sprachmodell verbindet und lernt, die informativsten visuellen Merkmale für die Sprachgenerierung zu extrahieren.
Masked Image ModelingEine selbstüberwachte Pre-Training-Technik, bei der Teile eines Bildes maskiert (versteckt) werden und das Modell den fehlenden Inhalt vorhersagen muss, um dabei reichhaltige visuelle Darstellungen zu erlernen.