molmo-vision-language

Qu'est-ce que c'est ?

🎯 Conseils du simulateur

📚 Glossaire

Attention Mechanism

Un composant de réseau neuronal qui permet au modèle de se concentrer sur les parties pertinentes de l'entrée lors de la production de la sortie. Dans les modèles de langage de vision, les mécanismes d'attention croisée permettent au modèle de s'occuper des régions d'image pertinentes lors du traitement du texte et vice versa.

Contrastive Learning

Une approche d'apprentissage auto-supervisée qui entraîne les modèles en comparant les paires positives (échantillons correspondants) aux paires négatives (échantillons non correspondants), encourageant le modèle à apprendre des représentations discriminantes.

Embedding Space

Un espace vectoriel continu où les points de données sont représentés sous forme de vecteurs numériques denses. Dans les modèles de langage de vision, les images et le texte sont mappés dans un espace d'intégration partagé où la similarité sémantique correspond à la proximité géométrique.

Zero-Shot Learning

Capacité d'un modèle à effectuer des tâches ou à reconnaître des catégories sur lesquelles il n'a pas été explicitement formé, en tirant parti des connaissances transférées lors de la formation sur des tâches ou des données connexes.

Fine-Tuning

Processus consistant à prendre un modèle pré-entraîné et à le former davantage sur une tâche ou un ensemble de données spécifique en aval, en adaptant ses représentations apprises aux nouvelles exigences.

Encoder-Decoder Architecture

Structure de réseau neuronal composée d'un encodeur qui compresse l'entrée dans une représentation latente et d'un décodeur qui génère la sortie de cette représentation. Utilisé dans le sous-titrage d'images où l'encodeur traite l'image et le décodeur génère du texte.

Tokenization

Processus consistant à diviser le texte en unités plus petites (jetons) telles que des mots, des sous-mots ou des caractères qui peuvent être traités par un réseau neuronal. De la même manière, la tokenisation visuelle divise les images en correctifs.

Cross-Modal Transfer

La capacité de transférer les connaissances apprises dans une modalité (par exemple, le texte) pour améliorer les performances dans une autre modalité (par exemple, la vision), en tirant parti des concepts sémantiques partagés entre les modalités.

Visual Grounding

La tâche de localiser ou d'identifier des régions spécifiques dans une image qui correspondent à une expression donnée du langage naturel, reliant les références textuelles au contenu visuel.

Multimodal Fusion

Techniques permettant de combiner des informations provenant de plusieurs modalités dans une représentation unifiée. Les approches courantes incluent la fusion précoce (combinant des entrées brutes), la fusion tardive (combinant des fonctionnalités de haut niveau) et la fusion croisée.

Image Patch

Une petite région rectangulaire d'une image utilisée comme unité d'entrée dans Vision Transformers. L'image est divisée en une grille de patchs qui ne se chevauchent pas, chacun étant traité comme un jeton similaire aux mots en PNL.

Pre-training

La phase initiale de formation d'un modèle sur un vaste ensemble de données générales avant d'affiner des tâches spécifiques. Les modèles vision-langage sont souvent pré-entraînés sur des millions de paires image-texte provenant d'Internet.

Prompt Engineering

La pratique de l’élaboration des entrées incite à guider un modèle vers les résultats souhaités. Dans les VLM, des invites textuelles soigneusement conçues peuvent améliorer considérablement la classification des tirs nuls et d'autres tâches.

Semantic Similarity

Une mesure du degré de relation étroite entre les significations de deux éléments de contenu, quelle que soit leur représentation au niveau de la surface. Dans les VLM, l'image d'un chien et le texte « un chien » auraient une grande similitude sémantique.

Feature Extraction

Processus d'apprentissage et d'identification automatique de modèles et de caractéristiques importants à partir de données brutes. Les encodeurs de vision extraient des caractéristiques visuelles telles que les bords, les textures et les formes d'objets à partir d'images.

Cosine Similarity

Métrique utilisée pour mesurer la similitude de deux vecteurs en calculant le cosinus de l'angle qui les sépare. Dans les VLM, la similarité cosinusoïdale entre les incorporations d'images et de texte détermine leur correspondance sémantique, avec des valeurs allant de -1 (opposé) à 1 (identique).

Batch Normalization

Une technique qui normalise les entrées de chaque couche d'un réseau neuronal, stabilisant et accélérant l'entraînement. Largement utilisé dans les encodeurs de vision pour améliorer le flux graduel et permettre la formation de réseaux plus profonds.

Transfer Learning

Une technique d'apprentissage automatique dans laquelle un modèle formé sur une tâche est réutilisé pour une tâche différente mais connexe. Les VLM comme CLIP excellent dans l'apprentissage par transfert car leurs représentations visuo-linguistiques générales peuvent être appliquées à de nombreuses tâches en aval sans formation spécifique à la tâche.

Image Captioning

La tâche de générer automatiquement une description en langage naturel d'une image. Cela nécessite que le modèle identifie les objets, leurs attributs, leurs relations spatiales et leurs activités, puis compose une phrase grammaticalement correcte transmettant ces informations.

Self-Supervised Learning

Un paradigme de formation dans lequel le modèle apprend des représentations à partir de données non étiquetées en résolvant des tâches prétextes dérivées des données elles-mêmes. L’apprentissage contrasté sur des paires image-texte est une forme d’apprentissage auto-supervisé qui s’est avérée très efficace pour les VLM.

Multimodal Embedding

Une représentation vectorielle apprise qui capture des informations provenant de plusieurs modalités (telles que l'image et le texte) dans un espace partagé. Les intégrations multimodales permettent une récupération multimodale, où une requête de texte peut trouver des images pertinentes ou une requête d'image peut trouver des descriptions de texte pertinentes.

Diffusion Model

Un modèle génératif qui apprend à créer des données (souvent des images) en débruitant progressivement le bruit aléatoire grâce à un processus de diffusion inverse appris. Des modèles tels que DALL-E 2 et Stable Diffusion utilisent des intégrations de texte CLIP pour guider la génération d'images à partir de descriptions de texte.

Region of Interest (ROI)

Une zone spécifique dans une image qui est pertinente pour une tâche particulière. Dans les modèles de langage de vision, le modèle peut s'intéresser à des régions d'intérêt spécifiques lorsqu'il répond à des questions ou génère des descriptions sur le contenu localisé dans une image.

Instruction Tuning

Entraîner un modèle de langage pour suivre les instructions en langage naturel, le rendant plus contrôlable et utile pour diverses tâches. Le réglage des instructions visuelles étend cela aux paires d'instructions image-texte.

Adapter Layer

Un module de réseau neuronal léger inséré dans un modèle pré-entraîné pour l'adapter à de nouvelles tâches ou modalités avec un minimum de mises à jour des paramètres, préservant ainsi les connaissances du modèle d'origine.

Vision-Language Pre-training

Le processus de formation d'un modèle sur des données image-texte à grande échelle pour apprendre les représentations intermodales générales avant d'affiner des tâches spécifiques en aval.

Generative Pre-trained Transformer (GPT)

Une famille de modèles de langage autorégressifs qui génèrent du texte jeton par jeton. GPT-4V a étendu l'architecture pour traiter également les entrées visuelles, créant ainsi un puissant modèle de langage de vision.

RLHF (Reinforcement Learning from Human Feedback)

Une technique de formation qui utilise les préférences humaines pour affiner les modèles d’IA, améliorant ainsi leur utilité et leur sécurité. Appliqué aux modèles multimodaux pour améliorer la qualité de compréhension des images.

Multimodal Large Language Model (MLLM)

Un grand modèle de langage étendu pour traiter plusieurs types d'entrée (texte, images, audio, vidéo). Les exemples incluent GPT-4V, Gemini et Claude, qui peuvent comprendre et raisonner sur le contenu visuel à côté du texte.

Few-Shot Learning

La capacité d'un modèle à apprendre une nouvelle tâche à partir de quelques exemples seulement, sans recyclage approfondi. Les VLM comme Flamingo ont démontré des capacités remarquables en quelques prises de vue dans diverses tâches visuelles.

Visual Instruction Tuning

Formation d'un modèle de langage visuel pour suivre les instructions en langage naturel sur les images, telles que « Décrivez cette image en détail » ou « Qu'est-ce qui ne va pas dans cette image ? », lancée par LLaVA.

Cross-Attention

Un mécanisme de transformation qui permet à une modalité de s'occuper d'une autre. Dans les VLM, l'attention croisée permet au modèle de langage de s'occuper des régions d'image pertinentes lors de la génération de réponses textuelles.

DALL-E

Un système d'IA d'OpenAI qui génère des images à partir de descriptions textuelles, en utilisant des intégrations CLIP pour guider le processus de génération. Démontre le sens inverse de la compréhension vision-langage.

Grounding

Processus consistant à relier des concepts de langage abstraits à des éléments visuels spécifiques d'une image, par exemple en identifiant à quel objet d'une photo il est fait référence par une phrase descriptive.

Hallucination

Lorsqu'un VLM génère des descriptions d'objets, d'attributs ou de relations qui n'existent pas réellement dans l'image d'entrée. La réduction des hallucinations est un défi majeur de recherche en cours.

Object Detection

La tâche d'identification et de localisation des objets dans une image en prédisant les cadres de délimitation et les étiquettes de classe. Les VLM modernes étendent cela à la détection de vocabulaire ouvert à l'aide de descriptions en langage naturel.

Image Segmentation

Diviser une image en régions significatives au niveau des pixels. La segmentation sémantique attribue à chaque pixel une classe, tandis que la segmentation par instance distingue les objets individuels de la même classe.

Caption Generation

La tâche de produire automatiquement une description en langage naturel du contenu d'une image. Les systèmes de sous-titrage modernes utilisent les VLM pour générer des descriptions détaillées et riches en contexte qui vont au-delà de la simple liste d'objets.

Multimodal Reasoning

La capacité d’effectuer une inférence logique qui nécessite des informations provenant de plusieurs modalités. Par exemple, répondre « La tasse risque-t-elle de tomber ? » nécessite de comprendre à la fois la géométrie de la scène visuelle et le raisonnement physique.

LAION

Réseau ouvert d'intelligence artificielle à grande échelle - une organisation à but non lucratif qui a créé d'énormes ensembles de données image-texte open source (LAION-5B avec 5,85 milliards de paires) utilisés pour entraîner de nombreux modèles de langage de vision.

Visual Encoder

Le composant d'un VLM qui traite les images et extrait les caractéristiques visuelles. Les architectures courantes incluent Vision Transformers (ViT), ConvNeXt et l'encodeur visuel de CLIP.

Q-Former

Un module de transformation léger utilisé dans BLIP-2 qui relie un encodeur d'image figé et un grand modèle de langage figé, apprenant à extraire les fonctionnalités visuelles les plus informatives pour la génération de langage.

Masked Image Modeling

Une technique de pré-formation auto-supervisée dans laquelle des parties d'une image sont masquées (cachées) et le modèle doit prédire le contenu manquant, apprenant ainsi de riches représentations visuelles.

🏆 Personnages clés

Alec Radford (2021)

Chercheur principal chez OpenAI qui a co-créé CLIP (Contrastive Language-Image Pre-training), démontrant que l'apprentissage de représentations visuelles à partir de la supervision du langage naturel pouvait produire des modèles hautement transférables dotés de remarquables capacités de tir nul.

Junnan Li (2022)

Chercheur principal chez Salesforce Research qui a développé BLIP (Bootstrapping Language-Image Pre-training) et BLIP-2, introduisant de nouvelles techniques pour amorcer la pré-formation du langage visuel à partir de données Web bruyantes à l'aide du sous-titrage et du filtrage.

Jean-Baptiste Alayrac (2022)

Chercheur chez DeepMind qui a codirigé le développement de Flamingo, un modèle de langage visuel capable d'apprendre en quelques étapes sur un large éventail de tâches multimodales en conditionnant un modèle de langage figé sur des entrées visuelles via une attention croisée.

Alexey Dosovitskiy (2021)

A dirigé la création de Vision Transformer (ViT) chez Google Brain, démontrant que les architectures de transformateurs pures peuvent obtenir d'excellents résultats en matière de classification d'images, formant ainsi l'épine dorsale visuelle de nombreux VLM.

Haotian Liu (2023)

Création de LLaVA (Large Language and Vision Assistant), pionnier de l'approche de réglage des instructions visuelles qui a permis à de grands modèles de langage de traiter et de raisonner sur les images grâce à un réglage fin efficace.

Dario Amodei (2023)

Co-fondateur d'Anthropic et contribué au développement de Claude, faisant progresser la sécurité de l'IA multimodale et démontrant comment les modèles de langage visuel peuvent être rendus plus utiles, inoffensifs et honnêtes.

🎓 Ressources d'apprentissage

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
L'article CLIP fondamental démontrant que la pré-formation contrastive sur 400 millions de paires image-texte permet une puissante classification visuelle sans plan et une récupération image-texte.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Présente BLIP, un framework qui amorce les sous-titres à partir de données Web bruyantes et obtient des résultats de pointe en matière de compréhension et de génération du langage visuel.
Flamingo: a Visual Language Model for Few-Shot Learning
Présente Flamingo, qui relie de puissants modèles de vision et de langage pré-entraînés en utilisant une attention croisée et démontre un solide apprentissage en quelques étapes sur diverses tâches multimodales.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
L'article Vision Transformer (ViT) montre que les architectures de transformateur pures peuvent obtenir d'excellents résultats en matière de classification d'images, constituant la base de nombreux encodeurs de vision VLM.
Deep Learning for Vision Systems
Un guide pratique couvrant les principes fondamentaux de la vision par ordinateur et les architectures d'apprentissage profond pour la compréhension visuelle, fournissant les bases essentielles pour comprendre les modèles de langage de vision.
Dive into Deep Learning
Un manuel interactif d'apprentissage en profondeur avec du code, des mathématiques et des discussions, comprenant des chapitres sur les mécanismes d'attention et les architectures de transformateur cruciaux pour les VLM.
Foundations of Computer Vision
Un manuel complet du MIT couvrant la vision par ordinateur moderne, y compris l'apprentissage multimodal et l'intégration vision-langage.
CLIP: Connecting Text and Images - OpenAI Research Explanation
Une explication accessible de la façon dont CLIP apprend à connecter des images et du texte à l'aide d'un apprentissage contrastif, avec des démonstrations visuelles de ses capacités zéro-shot.
Stanford CS231n: Deep Learning for Computer Vision
Cours renommé de vision par ordinateur de Stanford couvrant les CNN, les transformateurs et les architectures modernes qui constituent la base des modèles de langage de vision.
Andrej Karpathy - Let's Build GPT: From Scratch
Bien qu'elle se concentre sur les modèles de langage, cette présentation détaillée de l'architecture du transformateur fournit une compréhension essentielle du composant de traitement de texte des VLM.

💬 Message aux apprenants

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Commencer

Gratuit, sans inscription

Commencer →