Attention MechanismUn composant de réseau neuronal qui permet au modèle de se concentrer sur les parties pertinentes de l'entrée lors de la production de la sortie. Dans les modèles de langage de vision, les mécanismes d'attention croisée permettent au modèle de s'occuper des régions d'image pertinentes lors du traitement du texte et vice versa.
Contrastive LearningUne approche d'apprentissage auto-supervisée qui entraîne les modèles en comparant les paires positives (échantillons correspondants) aux paires négatives (échantillons non correspondants), encourageant le modèle à apprendre des représentations discriminantes.
Embedding SpaceUn espace vectoriel continu où les points de données sont représentés sous forme de vecteurs numériques denses. Dans les modèles de langage de vision, les images et le texte sont mappés dans un espace d'intégration partagé où la similarité sémantique correspond à la proximité géométrique.
Zero-Shot LearningCapacité d'un modèle à effectuer des tâches ou à reconnaître des catégories sur lesquelles il n'a pas été explicitement formé, en tirant parti des connaissances transférées lors de la formation sur des tâches ou des données connexes.
Fine-TuningProcessus consistant à prendre un modèle pré-entraîné et à le former davantage sur une tâche ou un ensemble de données spécifique en aval, en adaptant ses représentations apprises aux nouvelles exigences.
Encoder-Decoder ArchitectureStructure de réseau neuronal composée d'un encodeur qui compresse l'entrée dans une représentation latente et d'un décodeur qui génère la sortie de cette représentation. Utilisé dans le sous-titrage d'images où l'encodeur traite l'image et le décodeur génère du texte.
TokenizationProcessus consistant à diviser le texte en unités plus petites (jetons) telles que des mots, des sous-mots ou des caractères qui peuvent être traités par un réseau neuronal. De la même manière, la tokenisation visuelle divise les images en correctifs.
Cross-Modal TransferLa capacité de transférer les connaissances apprises dans une modalité (par exemple, le texte) pour améliorer les performances dans une autre modalité (par exemple, la vision), en tirant parti des concepts sémantiques partagés entre les modalités.
Visual GroundingLa tâche de localiser ou d'identifier des régions spécifiques dans une image qui correspondent à une expression donnée du langage naturel, reliant les références textuelles au contenu visuel.
Multimodal FusionTechniques permettant de combiner des informations provenant de plusieurs modalités dans une représentation unifiée. Les approches courantes incluent la fusion précoce (combinant des entrées brutes), la fusion tardive (combinant des fonctionnalités de haut niveau) et la fusion croisée.
Image PatchUne petite région rectangulaire d'une image utilisée comme unité d'entrée dans Vision Transformers. L'image est divisée en une grille de patchs qui ne se chevauchent pas, chacun étant traité comme un jeton similaire aux mots en PNL.
Pre-trainingLa phase initiale de formation d'un modèle sur un vaste ensemble de données générales avant d'affiner des tâches spécifiques. Les modèles vision-langage sont souvent pré-entraînés sur des millions de paires image-texte provenant d'Internet.
Prompt EngineeringLa pratique de l’élaboration des entrées incite à guider un modèle vers les résultats souhaités. Dans les VLM, des invites textuelles soigneusement conçues peuvent améliorer considérablement la classification des tirs nuls et d'autres tâches.
Semantic SimilarityUne mesure du degré de relation étroite entre les significations de deux éléments de contenu, quelle que soit leur représentation au niveau de la surface. Dans les VLM, l'image d'un chien et le texte « un chien » auraient une grande similitude sémantique.
Feature ExtractionProcessus d'apprentissage et d'identification automatique de modèles et de caractéristiques importants à partir de données brutes. Les encodeurs de vision extraient des caractéristiques visuelles telles que les bords, les textures et les formes d'objets à partir d'images.
Cosine SimilarityMétrique utilisée pour mesurer la similitude de deux vecteurs en calculant le cosinus de l'angle qui les sépare. Dans les VLM, la similarité cosinusoïdale entre les incorporations d'images et de texte détermine leur correspondance sémantique, avec des valeurs allant de -1 (opposé) à 1 (identique).
Batch NormalizationUne technique qui normalise les entrées de chaque couche d'un réseau neuronal, stabilisant et accélérant l'entraînement. Largement utilisé dans les encodeurs de vision pour améliorer le flux graduel et permettre la formation de réseaux plus profonds.
Transfer LearningUne technique d'apprentissage automatique dans laquelle un modèle formé sur une tâche est réutilisé pour une tâche différente mais connexe. Les VLM comme CLIP excellent dans l'apprentissage par transfert car leurs représentations visuo-linguistiques générales peuvent être appliquées à de nombreuses tâches en aval sans formation spécifique à la tâche.
Image CaptioningLa tâche de générer automatiquement une description en langage naturel d'une image. Cela nécessite que le modèle identifie les objets, leurs attributs, leurs relations spatiales et leurs activités, puis compose une phrase grammaticalement correcte transmettant ces informations.
Self-Supervised LearningUn paradigme de formation dans lequel le modèle apprend des représentations à partir de données non étiquetées en résolvant des tâches prétextes dérivées des données elles-mêmes. L’apprentissage contrasté sur des paires image-texte est une forme d’apprentissage auto-supervisé qui s’est avérée très efficace pour les VLM.
Multimodal EmbeddingUne représentation vectorielle apprise qui capture des informations provenant de plusieurs modalités (telles que l'image et le texte) dans un espace partagé. Les intégrations multimodales permettent une récupération multimodale, où une requête de texte peut trouver des images pertinentes ou une requête d'image peut trouver des descriptions de texte pertinentes.
Diffusion ModelUn modèle génératif qui apprend à créer des données (souvent des images) en débruitant progressivement le bruit aléatoire grâce à un processus de diffusion inverse appris. Des modèles tels que DALL-E 2 et Stable Diffusion utilisent des intégrations de texte CLIP pour guider la génération d'images à partir de descriptions de texte.
Region of Interest (ROI)Une zone spécifique dans une image qui est pertinente pour une tâche particulière. Dans les modèles de langage de vision, le modèle peut s'intéresser à des régions d'intérêt spécifiques lorsqu'il répond à des questions ou génère des descriptions sur le contenu localisé dans une image.
Instruction TuningEntraîner un modèle de langage pour suivre les instructions en langage naturel, le rendant plus contrôlable et utile pour diverses tâches. Le réglage des instructions visuelles étend cela aux paires d'instructions image-texte.
Adapter LayerUn module de réseau neuronal léger inséré dans un modèle pré-entraîné pour l'adapter à de nouvelles tâches ou modalités avec un minimum de mises à jour des paramètres, préservant ainsi les connaissances du modèle d'origine.
Vision-Language Pre-trainingLe processus de formation d'un modèle sur des données image-texte à grande échelle pour apprendre les représentations intermodales générales avant d'affiner des tâches spécifiques en aval.
Generative Pre-trained Transformer (GPT)Une famille de modèles de langage autorégressifs qui génèrent du texte jeton par jeton. GPT-4V a étendu l'architecture pour traiter également les entrées visuelles, créant ainsi un puissant modèle de langage de vision.
RLHF (Reinforcement Learning from Human Feedback)Une technique de formation qui utilise les préférences humaines pour affiner les modèles d’IA, améliorant ainsi leur utilité et leur sécurité. Appliqué aux modèles multimodaux pour améliorer la qualité de compréhension des images.
Multimodal Large Language Model (MLLM)Un grand modèle de langage étendu pour traiter plusieurs types d'entrée (texte, images, audio, vidéo). Les exemples incluent GPT-4V, Gemini et Claude, qui peuvent comprendre et raisonner sur le contenu visuel à côté du texte.
Few-Shot LearningLa capacité d'un modèle à apprendre une nouvelle tâche à partir de quelques exemples seulement, sans recyclage approfondi. Les VLM comme Flamingo ont démontré des capacités remarquables en quelques prises de vue dans diverses tâches visuelles.
Visual Instruction TuningFormation d'un modèle de langage visuel pour suivre les instructions en langage naturel sur les images, telles que « Décrivez cette image en détail » ou « Qu'est-ce qui ne va pas dans cette image ? », lancée par LLaVA.
Cross-AttentionUn mécanisme de transformation qui permet à une modalité de s'occuper d'une autre. Dans les VLM, l'attention croisée permet au modèle de langage de s'occuper des régions d'image pertinentes lors de la génération de réponses textuelles.
DALL-EUn système d'IA d'OpenAI qui génère des images à partir de descriptions textuelles, en utilisant des intégrations CLIP pour guider le processus de génération. Démontre le sens inverse de la compréhension vision-langage.
GroundingProcessus consistant à relier des concepts de langage abstraits à des éléments visuels spécifiques d'une image, par exemple en identifiant à quel objet d'une photo il est fait référence par une phrase descriptive.
HallucinationLorsqu'un VLM génère des descriptions d'objets, d'attributs ou de relations qui n'existent pas réellement dans l'image d'entrée. La réduction des hallucinations est un défi majeur de recherche en cours.
Object DetectionLa tâche d'identification et de localisation des objets dans une image en prédisant les cadres de délimitation et les étiquettes de classe. Les VLM modernes étendent cela à la détection de vocabulaire ouvert à l'aide de descriptions en langage naturel.
Image SegmentationDiviser une image en régions significatives au niveau des pixels. La segmentation sémantique attribue à chaque pixel une classe, tandis que la segmentation par instance distingue les objets individuels de la même classe.
Caption GenerationLa tâche de produire automatiquement une description en langage naturel du contenu d'une image. Les systèmes de sous-titrage modernes utilisent les VLM pour générer des descriptions détaillées et riches en contexte qui vont au-delà de la simple liste d'objets.
Multimodal ReasoningLa capacité d’effectuer une inférence logique qui nécessite des informations provenant de plusieurs modalités. Par exemple, répondre « La tasse risque-t-elle de tomber ? » nécessite de comprendre à la fois la géométrie de la scène visuelle et le raisonnement physique.
LAIONRéseau ouvert d'intelligence artificielle à grande échelle - une organisation à but non lucratif qui a créé d'énormes ensembles de données image-texte open source (LAION-5B avec 5,85 milliards de paires) utilisés pour entraîner de nombreux modèles de langage de vision.
Visual EncoderLe composant d'un VLM qui traite les images et extrait les caractéristiques visuelles. Les architectures courantes incluent Vision Transformers (ViT), ConvNeXt et l'encodeur visuel de CLIP.
Q-FormerUn module de transformation léger utilisé dans BLIP-2 qui relie un encodeur d'image figé et un grand modèle de langage figé, apprenant à extraire les fonctionnalités visuelles les plus informatives pour la génération de langage.
Masked Image ModelingUne technique de pré-formation auto-supervisée dans laquelle des parties d'une image sont masquées (cachées) et le modèle doit prédire le contenu manquant, apprenant ainsi de riches représentations visuelles.