🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 Pruébalo ahora

¿Qué es esto?

🎯 Consejos del simulador

📚 Glosario

Attention Mechanism
Un componente de red neuronal que permite que el modelo se centre en partes relevantes de la entrada al producir resultados. En los modelos de visión y lenguaje, los mecanismos de atención cruzada permiten que el modelo preste atención a regiones relevantes de la imagen al procesar texto y viceversa.
Contrastive Learning
Un enfoque de aprendizaje autosupervisado que entrena modelos contrastando pares positivos (muestras coincidentes) con pares negativos (muestras no coincidentes), alentando al modelo a aprender representaciones discriminativas.
Embedding Space
Un espacio vectorial continuo donde los puntos de datos se representan como vectores numéricos densos. En los modelos de visión-lenguaje, las imágenes y el texto se asignan a un espacio de incrustación compartido donde la similitud semántica corresponde a la proximidad geométrica.
Zero-Shot Learning
La capacidad de un modelo para realizar tareas o reconocer categorías en las que no fue entrenado explícitamente, aprovechando el conocimiento transferido del entrenamiento en tareas o datos relacionados.
Fine-Tuning
El proceso de tomar un modelo previamente entrenado y entrenarlo aún más en una tarea posterior o conjunto de datos específico, adaptando sus representaciones aprendidas a nuevos requisitos.
Encoder-Decoder Architecture
Una estructura de red neuronal que consta de un codificador que comprime la entrada en una representación latente y un decodificador que genera una salida a partir de esa representación. Se utiliza en subtítulos de imágenes donde el codificador procesa la imagen y el decodificador genera texto.
Tokenization
El proceso de dividir el texto en unidades más pequeñas (tokens), como palabras, subpalabras o caracteres que pueden ser procesados ​​por una red neuronal. La tokenización visual divide de manera similar las imágenes en parches.
Cross-Modal Transfer
La capacidad de transferir el conocimiento aprendido en una modalidad (p. ej., texto) para mejorar el desempeño en otra modalidad (p. ej., visión), aprovechando conceptos semánticos compartidos entre modalidades.
Visual Grounding
La tarea de localizar o identificar regiones específicas en una imagen que corresponden a una determinada expresión del lenguaje natural, conectando referencias textuales con contenido visual.
Multimodal Fusion
Técnicas para combinar información de múltiples modalidades en una representación unificada. Los enfoques comunes incluyen la fusión temprana (que combina entradas sin procesar), la fusión tardía (que combina características de alto nivel) y la fusión de atención cruzada.
Image Patch
Una pequeña región rectangular de una imagen utilizada como unidad de entrada en Vision Transformers. La imagen se divide en una cuadrícula de parches que no se superponen, cada uno de los cuales se trata como un token similar a las palabras en PNL.
Pre-training
La fase inicial de entrenamiento de un modelo en un conjunto de datos general grande antes de realizar ajustes en tareas específicas. Los modelos de visión y lenguaje a menudo se entrenan previamente con millones de pares de imágenes y texto de Internet.
Prompt Engineering
La práctica de elaborar indicaciones de entrada para guiar un modelo hacia los resultados deseados. En los VLM, las indicaciones de texto cuidadosamente diseñadas pueden mejorar significativamente la clasificación de disparo cero y otras tareas.
Semantic Similarity
Una medida de cuán estrechamente relacionados están los significados de dos contenidos, independientemente de su representación superficial. En los VLM, una imagen de un perro y el texto "un perro" tendrían una gran similitud semántica.
Feature Extraction
El proceso de aprender e identificar automáticamente patrones y características importantes a partir de datos sin procesar. Los codificadores de visión extraen características visuales como bordes, texturas y formas de objetos de las imágenes.
Cosine Similarity
Métrica utilizada para medir qué tan similares son dos vectores calculando el coseno del ángulo entre ellos. En los VLM, la similitud coseno entre las incrustaciones de imagen y texto determina qué tan bien coinciden semánticamente, con valores que van desde -1 (opuesto) a 1 (idéntico).
Batch Normalization
Una técnica que normaliza las entradas a cada capa de una red neuronal, estabilizando y acelerando el entrenamiento. Ampliamente utilizado en codificadores de visión para mejorar el flujo de gradiente y permitir el entrenamiento de redes más profundas.
Transfer Learning
Una técnica de aprendizaje automático en la que un modelo entrenado en una tarea se reutiliza para una tarea diferente pero relacionada. Los VLM como CLIP sobresalen en el aprendizaje por transferencia porque sus representaciones visuolingüísticas generales se pueden aplicar a muchas tareas posteriores sin capacitación específica para la tarea.
Image Captioning
La tarea de generar automáticamente una descripción en lenguaje natural de una imagen. Esto requiere que el modelo identifique objetos, sus atributos, relaciones espaciales y actividades, y luego componga una oración gramaticalmente correcta que transmita esta información.
Self-Supervised Learning
Un paradigma de entrenamiento donde el modelo aprende representaciones de datos sin etiquetar resolviendo tareas de pretexto derivadas de los datos mismos. El aprendizaje contrastivo en pares imagen-texto es una forma de aprendizaje autosupervisado que ha demostrado ser muy eficaz para los VLM.
Multimodal Embedding
Una representación vectorial aprendida que captura información de múltiples modalidades (como imagen y texto) en un espacio compartido. Las incrustaciones multimodales permiten la recuperación intermodal, donde una consulta de texto puede encontrar imágenes relevantes o una consulta de imágenes puede encontrar descripciones de texto relevantes.
Diffusion Model
Un modelo generativo que aprende a crear datos (a menudo imágenes) eliminando gradualmente el ruido aleatorio mediante un proceso de difusión inversa aprendido. Modelos como DALL-E 2 y Stable Diffusion utilizan incrustaciones de texto CLIP para guiar la generación de imágenes a partir de descripciones de texto.
Region of Interest (ROI)
Un área específica dentro de una imagen que es relevante para una tarea particular. En los modelos de visión-lenguaje, el modelo puede atender a regiones específicas de interés al responder preguntas o generar descripciones sobre contenido localizado dentro de una imagen.
Instruction Tuning
Entrenar un modelo de lenguaje para que siga instrucciones en lenguaje natural, haciéndolo más controlable y útil para diversas tareas. El ajuste de instrucciones visuales extiende esto a pares de instrucciones de imagen y texto.
Adapter Layer
Un módulo de red neuronal liviano insertado en un modelo previamente entrenado para adaptarlo a nuevas tareas o modalidades con actualizaciones mínimas de parámetros, preservando el conocimiento del modelo original.
Vision-Language Pre-training
El proceso de entrenar un modelo con datos de imagen y texto a gran escala para aprender representaciones intermodales generales antes de realizar ajustes en tareas posteriores específicas.
Generative Pre-trained Transformer (GPT)
Una familia de modelos de lenguaje autorregresivos que generan texto token por token. GPT-4V amplió la arquitectura para procesar también entradas visuales, creando un potente modelo de visión y lenguaje.
RLHF (Reinforcement Learning from Human Feedback)
Una técnica de entrenamiento que utiliza las preferencias humanas para ajustar los modelos de IA, mejorando su utilidad y seguridad. Aplicado a modelos multimodales para mejorar la calidad de comprensión de la imagen.
Multimodal Large Language Model (MLLM)
Un modelo de lenguaje grande extendido para procesar múltiples tipos de entrada (texto, imágenes, audio, video). Los ejemplos incluyen GPT-4V, Gemini y Claude, que pueden comprender y razonar sobre contenido visual junto con texto.
Few-Shot Learning
La capacidad de un modelo para aprender una nueva tarea a partir de unos pocos ejemplos, sin un reentrenamiento extenso. Los VLM como Flamingo demostraron capacidades notables de pocos disparos en diversas tareas visuales.
Visual Instruction Tuning
Entrenar un modelo de visión-lenguaje para que siga instrucciones en lenguaje natural sobre imágenes, como 'Describe esta imagen en detalle' o '¿Qué hay de malo en esta imagen?', iniciado por LLaVA.
Cross-Attention
Un mecanismo transformador que permite que una modalidad atienda a otra. En los VLM, la atención cruzada permite que el modelo de lenguaje preste atención a regiones relevantes de la imagen al generar respuestas de texto.
DALL-E
Un sistema de inteligencia artificial de OpenAI que genera imágenes a partir de descripciones de texto, utilizando incrustaciones CLIP para guiar el proceso de generación. Demuestra la dirección inversa de la comprensión visión-lenguaje.
Grounding
El proceso de conectar conceptos del lenguaje abstracto con elementos visuales específicos en una imagen, como identificar a qué objeto en una fotografía se hace referencia mediante una frase descriptiva.
Hallucination
Cuando un VLM genera descripciones de objetos, atributos o relaciones que en realidad no existen en la imagen de entrada. Reducir las alucinaciones es un importante desafío de investigación en curso.
Object Detection
La tarea de identificar y localizar objetos dentro de una imagen mediante la predicción de cuadros delimitadores y etiquetas de clase. Los VLM modernos amplían esto a la detección de vocabulario abierto mediante descripciones en lenguaje natural.
Image Segmentation
Dividir una imagen en regiones significativas a nivel de píxel. La segmentación semántica etiqueta cada píxel con una clase, mientras que la segmentación de instancias distingue objetos individuales de la misma clase.
Caption Generation
La tarea de producir automáticamente una descripción en lenguaje natural del contenido de una imagen. Los sistemas de subtítulos modernos utilizan VLM para generar descripciones detalladas y contextualmente ricas que van más allá de una simple lista de objetos.
Multimodal Reasoning
La capacidad de realizar inferencias lógicas que requieren información de múltiples modalidades. Por ejemplo, responder "¿Es probable que se caiga la taza?" requiere comprender tanto la geometría de la escena visual como el razonamiento físico.
LAION
Red abierta de inteligencia artificial a gran escala: una organización sin fines de lucro que creó conjuntos masivos de datos de imágenes y texto de código abierto (LAION-5B con 5,85 mil millones de pares) utilizados para entrenar muchos modelos de visión y lenguaje.
Visual Encoder
El componente de un VLM que procesa imágenes y extrae características visuales. Las arquitecturas comunes incluyen Vision Transformers (ViT), ConvNeXt y el codificador visual CLIP.
Q-Former
Un módulo transformador liviano utilizado en BLIP-2 que une un codificador de imágenes congeladas y un modelo de lenguaje grande congelado, aprendiendo a extraer las características visuales más informativas para la generación del lenguaje.
Masked Image Modeling
Una técnica de preentrenamiento autosupervisada en la que partes de una imagen se enmascaran (ocultan) y el modelo debe predecir el contenido que falta, aprendiendo representaciones visuales ricas en el proceso.

🏆 Figuras clave

Alec Radford (2021)

Investigador principal de OpenAI que cocreó CLIP (Preentrenamiento de imágenes y lenguaje contrastivo), lo que demuestra que aprender representaciones visuales a partir de la supervisión del lenguaje natural podría producir modelos altamente transferibles con notables capacidades de disparo cero.

Junnan Li (2022)

Investigador principal de Salesforce Research que desarrolló BLIP (Bootstrapping Language-Image Pre-training) y BLIP-2, introduciendo técnicas novedosas para iniciar el preentrenamiento de visión y lenguaje a partir de datos web ruidosos mediante subtítulos y filtrado.

Jean-Baptiste Alayrac (2022)

Investigador de DeepMind que codirigió el desarrollo de Flamingo, un modelo de lenguaje visual capaz de realizar un aprendizaje en pocas tomas en una amplia gama de tareas multimodales al condicionar un modelo de lenguaje congelado a entradas visuales mediante atención cruzada.

Alexey Dosovitskiy (2021)

Lideró la creación de Vision Transformer (ViT) en Google Brain, demostrando que las arquitecturas de transformadores puros pueden lograr excelentes resultados en la clasificación de imágenes, formando la columna vertebral visual de muchos VLM.

Haotian Liu (2023)

Creó LLaVA (Asistente de visión y lenguaje grande), pionero en el enfoque de ajuste de instrucción visual que permitió a modelos de lenguaje grandes procesar y razonar sobre imágenes a través de un ajuste fino eficiente.

Dario Amodei (2023)

Cofundó Anthropic y contribuyó al desarrollo de Claude, promoviendo la seguridad de la IA multimodal y demostrando cómo los modelos de visión y lenguaje pueden volverse más útiles, inofensivos y honestos.

🎓 Recursos de aprendizaje

💬 Mensaje a los estudiantes

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Comenzar

Gratis, sin registro

Comenzar →