molmo-vision-language

¿Qué es esto?

🎯 Consejos del simulador

📚 Glosario

Attention Mechanism

Un componente de red neuronal que permite que el modelo se centre en partes relevantes de la entrada al producir resultados. En los modelos de visión y lenguaje, los mecanismos de atención cruzada permiten que el modelo preste atención a regiones relevantes de la imagen al procesar texto y viceversa.

Contrastive Learning

Un enfoque de aprendizaje autosupervisado que entrena modelos contrastando pares positivos (muestras coincidentes) con pares negativos (muestras no coincidentes), alentando al modelo a aprender representaciones discriminativas.

Embedding Space

Un espacio vectorial continuo donde los puntos de datos se representan como vectores numéricos densos. En los modelos de visión-lenguaje, las imágenes y el texto se asignan a un espacio de incrustación compartido donde la similitud semántica corresponde a la proximidad geométrica.

Zero-Shot Learning

La capacidad de un modelo para realizar tareas o reconocer categorías en las que no fue entrenado explícitamente, aprovechando el conocimiento transferido del entrenamiento en tareas o datos relacionados.

Fine-Tuning

El proceso de tomar un modelo previamente entrenado y entrenarlo aún más en una tarea posterior o conjunto de datos específico, adaptando sus representaciones aprendidas a nuevos requisitos.

Encoder-Decoder Architecture

Una estructura de red neuronal que consta de un codificador que comprime la entrada en una representación latente y un decodificador que genera una salida a partir de esa representación. Se utiliza en subtítulos de imágenes donde el codificador procesa la imagen y el decodificador genera texto.

Tokenization

El proceso de dividir el texto en unidades más pequeñas (tokens), como palabras, subpalabras o caracteres que pueden ser procesados por una red neuronal. La tokenización visual divide de manera similar las imágenes en parches.

Cross-Modal Transfer

La capacidad de transferir el conocimiento aprendido en una modalidad (p. ej., texto) para mejorar el desempeño en otra modalidad (p. ej., visión), aprovechando conceptos semánticos compartidos entre modalidades.

Visual Grounding

La tarea de localizar o identificar regiones específicas en una imagen que corresponden a una determinada expresión del lenguaje natural, conectando referencias textuales con contenido visual.

Multimodal Fusion

Técnicas para combinar información de múltiples modalidades en una representación unificada. Los enfoques comunes incluyen la fusión temprana (que combina entradas sin procesar), la fusión tardía (que combina características de alto nivel) y la fusión de atención cruzada.

Image Patch

Una pequeña región rectangular de una imagen utilizada como unidad de entrada en Vision Transformers. La imagen se divide en una cuadrícula de parches que no se superponen, cada uno de los cuales se trata como un token similar a las palabras en PNL.

Pre-training

La fase inicial de entrenamiento de un modelo en un conjunto de datos general grande antes de realizar ajustes en tareas específicas. Los modelos de visión y lenguaje a menudo se entrenan previamente con millones de pares de imágenes y texto de Internet.

Prompt Engineering

La práctica de elaborar indicaciones de entrada para guiar un modelo hacia los resultados deseados. En los VLM, las indicaciones de texto cuidadosamente diseñadas pueden mejorar significativamente la clasificación de disparo cero y otras tareas.

Semantic Similarity

Una medida de cuán estrechamente relacionados están los significados de dos contenidos, independientemente de su representación superficial. En los VLM, una imagen de un perro y el texto "un perro" tendrían una gran similitud semántica.

Feature Extraction

El proceso de aprender e identificar automáticamente patrones y características importantes a partir de datos sin procesar. Los codificadores de visión extraen características visuales como bordes, texturas y formas de objetos de las imágenes.

Cosine Similarity

Métrica utilizada para medir qué tan similares son dos vectores calculando el coseno del ángulo entre ellos. En los VLM, la similitud coseno entre las incrustaciones de imagen y texto determina qué tan bien coinciden semánticamente, con valores que van desde -1 (opuesto) a 1 (idéntico).

Batch Normalization

Una técnica que normaliza las entradas a cada capa de una red neuronal, estabilizando y acelerando el entrenamiento. Ampliamente utilizado en codificadores de visión para mejorar el flujo de gradiente y permitir el entrenamiento de redes más profundas.

Transfer Learning

Una técnica de aprendizaje automático en la que un modelo entrenado en una tarea se reutiliza para una tarea diferente pero relacionada. Los VLM como CLIP sobresalen en el aprendizaje por transferencia porque sus representaciones visuolingüísticas generales se pueden aplicar a muchas tareas posteriores sin capacitación específica para la tarea.

Image Captioning

La tarea de generar automáticamente una descripción en lenguaje natural de una imagen. Esto requiere que el modelo identifique objetos, sus atributos, relaciones espaciales y actividades, y luego componga una oración gramaticalmente correcta que transmita esta información.

Self-Supervised Learning

Un paradigma de entrenamiento donde el modelo aprende representaciones de datos sin etiquetar resolviendo tareas de pretexto derivadas de los datos mismos. El aprendizaje contrastivo en pares imagen-texto es una forma de aprendizaje autosupervisado que ha demostrado ser muy eficaz para los VLM.

Multimodal Embedding

Una representación vectorial aprendida que captura información de múltiples modalidades (como imagen y texto) en un espacio compartido. Las incrustaciones multimodales permiten la recuperación intermodal, donde una consulta de texto puede encontrar imágenes relevantes o una consulta de imágenes puede encontrar descripciones de texto relevantes.

Diffusion Model

Un modelo generativo que aprende a crear datos (a menudo imágenes) eliminando gradualmente el ruido aleatorio mediante un proceso de difusión inversa aprendido. Modelos como DALL-E 2 y Stable Diffusion utilizan incrustaciones de texto CLIP para guiar la generación de imágenes a partir de descripciones de texto.

Region of Interest (ROI)

Un área específica dentro de una imagen que es relevante para una tarea particular. En los modelos de visión-lenguaje, el modelo puede atender a regiones específicas de interés al responder preguntas o generar descripciones sobre contenido localizado dentro de una imagen.

Instruction Tuning

Entrenar un modelo de lenguaje para que siga instrucciones en lenguaje natural, haciéndolo más controlable y útil para diversas tareas. El ajuste de instrucciones visuales extiende esto a pares de instrucciones de imagen y texto.

Adapter Layer

Un módulo de red neuronal liviano insertado en un modelo previamente entrenado para adaptarlo a nuevas tareas o modalidades con actualizaciones mínimas de parámetros, preservando el conocimiento del modelo original.

Vision-Language Pre-training

El proceso de entrenar un modelo con datos de imagen y texto a gran escala para aprender representaciones intermodales generales antes de realizar ajustes en tareas posteriores específicas.

Generative Pre-trained Transformer (GPT)

Una familia de modelos de lenguaje autorregresivos que generan texto token por token. GPT-4V amplió la arquitectura para procesar también entradas visuales, creando un potente modelo de visión y lenguaje.

RLHF (Reinforcement Learning from Human Feedback)

Una técnica de entrenamiento que utiliza las preferencias humanas para ajustar los modelos de IA, mejorando su utilidad y seguridad. Aplicado a modelos multimodales para mejorar la calidad de comprensión de la imagen.

Multimodal Large Language Model (MLLM)

Un modelo de lenguaje grande extendido para procesar múltiples tipos de entrada (texto, imágenes, audio, video). Los ejemplos incluyen GPT-4V, Gemini y Claude, que pueden comprender y razonar sobre contenido visual junto con texto.

Few-Shot Learning

La capacidad de un modelo para aprender una nueva tarea a partir de unos pocos ejemplos, sin un reentrenamiento extenso. Los VLM como Flamingo demostraron capacidades notables de pocos disparos en diversas tareas visuales.

Visual Instruction Tuning

Entrenar un modelo de visión-lenguaje para que siga instrucciones en lenguaje natural sobre imágenes, como 'Describe esta imagen en detalle' o '¿Qué hay de malo en esta imagen?', iniciado por LLaVA.

Cross-Attention

Un mecanismo transformador que permite que una modalidad atienda a otra. En los VLM, la atención cruzada permite que el modelo de lenguaje preste atención a regiones relevantes de la imagen al generar respuestas de texto.

DALL-E

Un sistema de inteligencia artificial de OpenAI que genera imágenes a partir de descripciones de texto, utilizando incrustaciones CLIP para guiar el proceso de generación. Demuestra la dirección inversa de la comprensión visión-lenguaje.

Grounding

El proceso de conectar conceptos del lenguaje abstracto con elementos visuales específicos en una imagen, como identificar a qué objeto en una fotografía se hace referencia mediante una frase descriptiva.

Hallucination

Cuando un VLM genera descripciones de objetos, atributos o relaciones que en realidad no existen en la imagen de entrada. Reducir las alucinaciones es un importante desafío de investigación en curso.

Object Detection

La tarea de identificar y localizar objetos dentro de una imagen mediante la predicción de cuadros delimitadores y etiquetas de clase. Los VLM modernos amplían esto a la detección de vocabulario abierto mediante descripciones en lenguaje natural.

Image Segmentation

Dividir una imagen en regiones significativas a nivel de píxel. La segmentación semántica etiqueta cada píxel con una clase, mientras que la segmentación de instancias distingue objetos individuales de la misma clase.

Caption Generation

La tarea de producir automáticamente una descripción en lenguaje natural del contenido de una imagen. Los sistemas de subtítulos modernos utilizan VLM para generar descripciones detalladas y contextualmente ricas que van más allá de una simple lista de objetos.

Multimodal Reasoning

La capacidad de realizar inferencias lógicas que requieren información de múltiples modalidades. Por ejemplo, responder "¿Es probable que se caiga la taza?" requiere comprender tanto la geometría de la escena visual como el razonamiento físico.

LAION

Red abierta de inteligencia artificial a gran escala: una organización sin fines de lucro que creó conjuntos masivos de datos de imágenes y texto de código abierto (LAION-5B con 5,85 mil millones de pares) utilizados para entrenar muchos modelos de visión y lenguaje.

Visual Encoder

El componente de un VLM que procesa imágenes y extrae características visuales. Las arquitecturas comunes incluyen Vision Transformers (ViT), ConvNeXt y el codificador visual CLIP.

Q-Former

Un módulo transformador liviano utilizado en BLIP-2 que une un codificador de imágenes congeladas y un modelo de lenguaje grande congelado, aprendiendo a extraer las características visuales más informativas para la generación del lenguaje.

Masked Image Modeling

Una técnica de preentrenamiento autosupervisada en la que partes de una imagen se enmascaran (ocultan) y el modelo debe predecir el contenido que falta, aprendiendo representaciones visuales ricas en el proceso.

🏆 Figuras clave

Alec Radford (2021)

Investigador principal de OpenAI que cocreó CLIP (Preentrenamiento de imágenes y lenguaje contrastivo), lo que demuestra que aprender representaciones visuales a partir de la supervisión del lenguaje natural podría producir modelos altamente transferibles con notables capacidades de disparo cero.

Junnan Li (2022)

Investigador principal de Salesforce Research que desarrolló BLIP (Bootstrapping Language-Image Pre-training) y BLIP-2, introduciendo técnicas novedosas para iniciar el preentrenamiento de visión y lenguaje a partir de datos web ruidosos mediante subtítulos y filtrado.

Jean-Baptiste Alayrac (2022)

Investigador de DeepMind que codirigió el desarrollo de Flamingo, un modelo de lenguaje visual capaz de realizar un aprendizaje en pocas tomas en una amplia gama de tareas multimodales al condicionar un modelo de lenguaje congelado a entradas visuales mediante atención cruzada.

Alexey Dosovitskiy (2021)

Lideró la creación de Vision Transformer (ViT) en Google Brain, demostrando que las arquitecturas de transformadores puros pueden lograr excelentes resultados en la clasificación de imágenes, formando la columna vertebral visual de muchos VLM.

Haotian Liu (2023)

Creó LLaVA (Asistente de visión y lenguaje grande), pionero en el enfoque de ajuste de instrucción visual que permitió a modelos de lenguaje grandes procesar y razonar sobre imágenes a través de un ajuste fino eficiente.

Dario Amodei (2023)

Cofundó Anthropic y contribuyó al desarrollo de Claude, promoviendo la seguridad de la IA multimodal y demostrando cómo los modelos de visión y lenguaje pueden volverse más útiles, inofensivos y honestos.

🎓 Recursos de aprendizaje

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
El artículo fundamental de CLIP que demuestra que el entrenamiento previo contrastivo en 400 millones de pares de imagen y texto permite una potente clasificación visual de disparo cero y recuperación de imagen y texto.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Presenta BLIP, un marco que arranca subtítulos a partir de datos web ruidosos y logra resultados de última generación en tareas de generación y comprensión del lenguaje visual.
Flamingo: a Visual Language Model for Few-Shot Learning
Presenta Flamingo, que une poderosos modelos de visión y lenguaje previamente entrenados utilizando atención cruzada y demuestra un sólido aprendizaje en pocas oportunidades en diversas tareas multimodales.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
El artículo Vision Transformer (ViT) muestra que las arquitecturas de transformadores puros pueden lograr excelentes resultados en la clasificación de imágenes, lo que constituye la base para muchos codificadores de visión VLM.
Deep Learning for Vision Systems
Una guía práctica que cubre los fundamentos de la visión por computadora y las arquitecturas de aprendizaje profundo para la comprensión visual, y que proporciona información básica esencial para comprender los modelos de visión y lenguaje.
Dive into Deep Learning
Un libro de texto interactivo de aprendizaje profundo con código, matemáticas y debates, que incluye capítulos sobre mecanismos de atención y arquitecturas de transformadores cruciales para los VLM.
Foundations of Computer Vision
Un libro de texto completo del MIT que cubre la visión por computadora moderna, incluido el aprendizaje multimodal y la integración visión-lenguaje.
CLIP: Connecting Text and Images - OpenAI Research Explanation
Una explicación accesible de cómo CLIP aprende a conectar imágenes y texto mediante el aprendizaje contrastivo, con demostraciones visuales de sus capacidades de disparo cero.
Stanford CS231n: Deep Learning for Computer Vision
El reconocido curso de visión por computadora de Stanford cubre CNN, transformadores y arquitecturas modernas que forman la base de los modelos de lenguaje de visión.
Andrej Karpathy - Let's Build GPT: From Scratch
Si bien se centra en los modelos de lenguaje, este tutorial detallado de la arquitectura del transformador proporciona una comprensión esencial del componente de procesamiento de texto de los VLM.

💬 Mensaje a los estudiantes

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Comenzar

Gratis, sin registro

Comenzar →