🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 Experimente agora

O que é isso?

🎯 Dicas do simulador

📚 Glossário

Attention Mechanism
Um componente de rede neural que permite que o modelo se concentre em partes relevantes da entrada ao produzir saída. Nos modelos de linguagem de visão, os mecanismos de atenção cruzada permitem que o modelo atenda a regiões relevantes da imagem ao processar texto e vice-versa.
Contrastive Learning
Uma abordagem de aprendizagem auto-supervisionada que treina modelos contrastando pares positivos (amostras correspondentes) com pares negativos (amostras não correspondentes), incentivando o modelo a aprender representações discriminativas.
Embedding Space
Um espaço vetorial contínuo onde os pontos de dados são representados como vetores numéricos densos. Nos modelos de linguagem de visão, imagens e texto são mapeados em um espaço de incorporação compartilhado onde a similaridade semântica corresponde à proximidade geométrica.
Zero-Shot Learning
A capacidade de um modelo executar tarefas ou reconhecer categorias nas quais não foi explicitamente treinado, aproveitando o conhecimento transferido do treinamento em tarefas ou dados relacionados.
Fine-Tuning
O processo de pegar um modelo pré-treinado e treiná-lo ainda mais em uma tarefa ou conjunto de dados downstream específico, adaptando suas representações aprendidas a novos requisitos.
Encoder-Decoder Architecture
Uma estrutura de rede neural que consiste em um codificador que compacta a entrada em uma representação latente e um decodificador que gera saída a partir dessa representação. Usado na legendagem de imagens onde o codificador processa a imagem e o decodificador gera texto.
Tokenization
O processo de quebrar o texto em unidades menores (tokens), como palavras, subpalavras ou caracteres, que podem ser processados ​​por uma rede neural. A tokenização visual divide de forma semelhante as imagens em patches.
Cross-Modal Transfer
A capacidade de transferir conhecimento aprendido em uma modalidade (por exemplo, texto) para melhorar o desempenho em outra modalidade (por exemplo, visão), aproveitando conceitos semânticos compartilhados entre modalidades.
Visual Grounding
A tarefa de localizar ou identificar regiões específicas de uma imagem que correspondam a uma determinada expressão da linguagem natural, conectando referências textuais ao conteúdo visual.
Multimodal Fusion
Técnicas para combinar informações de múltiplas modalidades em uma representação unificada. As abordagens comuns incluem fusão precoce (combinando entradas brutas), fusão tardia (combinando recursos de alto nível) e fusão de atenção cruzada.
Image Patch
Uma pequena região retangular de uma imagem usada como unidade de entrada em Vision Transformers. A imagem é dividida em uma grade de patches não sobrepostos, cada um tratado como um token semelhante às palavras da PNL.
Pre-training
A fase inicial de treinamento de um modelo em um grande conjunto de dados geral antes do ajuste fino em tarefas específicas. Os modelos de linguagem visual são frequentemente pré-treinados em milhões de pares imagem-texto da Internet.
Prompt Engineering
A prática de elaborar estímulos de entrada para guiar um modelo em direção aos resultados desejados. Nos VLMs, prompts de texto cuidadosamente projetados podem melhorar significativamente a classificação zero-shot e outras tarefas.
Semantic Similarity
Uma medida de quão intimamente relacionados estão os significados de duas partes do conteúdo, independentemente de sua representação no nível superficial. Nos VLMs, a imagem de um cachorro e o texto 'um cachorro' teriam alta semelhança semântica.
Feature Extraction
O processo de aprender e identificar automaticamente padrões e características importantes a partir de dados brutos. Os codificadores de visão extraem recursos visuais como bordas, texturas e formas de objetos das imagens.
Cosine Similarity
Uma métrica usada para medir a semelhança de dois vetores calculando o cosseno do ângulo entre eles. Em VLMs, a similaridade de cosseno entre incorporações de imagem e texto determina quão bem elas correspondem semanticamente, com valores variando de -1 (oposto) a 1 (idêntico).
Batch Normalization
Técnica que normaliza as entradas de cada camada de uma rede neural, estabilizando e acelerando o treinamento. Amplamente utilizado em codificadores de visão para melhorar o fluxo gradiente e permitir o treinamento de redes mais profundas.
Transfer Learning
Uma técnica de aprendizado de máquina em que um modelo treinado em uma tarefa é reaproveitado para uma tarefa diferente, mas relacionada. VLMs como o CLIP são excelentes na aprendizagem por transferência porque suas representações visuais-linguísticas gerais podem ser aplicadas a muitas tarefas posteriores sem treinamento específico da tarefa.
Image Captioning
A tarefa de gerar automaticamente uma descrição de uma imagem em linguagem natural. Isso exige que o modelo identifique objetos, seus atributos, relações espaciais e atividades e, em seguida, componha uma frase gramaticalmente correta que transmita essas informações.
Self-Supervised Learning
Um paradigma de treinamento onde o modelo aprende representações de dados não rotulados, resolvendo tarefas de pretexto derivadas dos próprios dados. A aprendizagem contrastiva em pares imagem-texto é uma forma de aprendizagem auto-supervisionada que se mostrou altamente eficaz para VLMs.
Multimodal Embedding
Uma representação vetorial aprendida que captura informações de múltiplas modalidades (como imagem e texto) em um espaço compartilhado. Os embeddings multimodais permitem a recuperação intermodal, onde uma consulta de texto pode encontrar imagens relevantes ou uma consulta de imagem pode encontrar descrições de texto relevantes.
Diffusion Model
Um modelo generativo que aprende a criar dados (geralmente imagens) eliminando gradualmente o ruído aleatório por meio de um processo de difusão reversa aprendido. Modelos como DALL-E 2 e Stable Diffusion usam embeddings de texto CLIP para orientar a geração de imagens a partir de descrições de texto.
Region of Interest (ROI)
Uma área específica dentro de uma imagem que é relevante para uma tarefa específica. Nos modelos de linguagem de visão, o modelo pode atender a regiões específicas de interesse ao responder perguntas ou gerar descrições sobre o conteúdo localizado em uma imagem.
Instruction Tuning
Treinar um modelo de linguagem para seguir instruções de linguagem natural, tornando-o mais controlável e útil para diversas tarefas. O ajuste de instruções visuais estende isso aos pares de instruções imagem-texto.
Adapter Layer
Um módulo leve de rede neural inserido em um modelo pré-treinado para adaptá-lo a novas tarefas ou modalidades com atualizações mínimas de parâmetros, preservando o conhecimento do modelo original.
Vision-Language Pre-training
O processo de treinar um modelo em dados de imagem-texto em grande escala para aprender representações intermodais gerais antes do ajuste fino em tarefas posteriores específicas.
Generative Pre-trained Transformer (GPT)
Uma família de modelos de linguagem autorregressivos que geram token de texto por token. O GPT-4V estendeu a arquitetura para processar também entradas visuais, criando um poderoso modelo de linguagem de visão.
RLHF (Reinforcement Learning from Human Feedback)
Uma técnica de treinamento que usa preferências humanas para ajustar modelos de IA, melhorando sua utilidade e segurança. Aplicado a modelos multimodais para melhorar a qualidade de compreensão da imagem.
Multimodal Large Language Model (MLLM)
Um grande modelo de linguagem estendido para processar vários tipos de entrada (texto, imagens, áudio, vídeo). Os exemplos incluem GPT-4V, Gemini e Claude, que podem compreender e raciocinar sobre conteúdo visual junto com texto.
Few-Shot Learning
A capacidade de um modelo aprender uma nova tarefa a partir de apenas alguns exemplos, sem um extenso treinamento. VLMs como o Flamingo demonstraram capacidades notáveis ​​de poucos disparos em diversas tarefas visuais.
Visual Instruction Tuning
Treinar um modelo de linguagem visual para seguir instruções de linguagem natural sobre imagens, como 'Descreva esta imagem em detalhes' ou 'O que há de errado nesta imagem?', desenvolvido pela LLaVA.
Cross-Attention
Um mecanismo transformador que permite que uma modalidade atenda a outra. Nos VLMs, a atenção cruzada permite que o modelo de linguagem atenda a regiões relevantes da imagem ao gerar respostas de texto.
DALL-E
Um sistema de IA da OpenAI que gera imagens a partir de descrições de texto, usando embeddings CLIP para orientar o processo de geração. Demonstra a direção inversa da compreensão da linguagem visual.
Grounding
O processo de conectar conceitos de linguagem abstrata a elementos visuais específicos em uma imagem, como identificar qual objeto em uma foto está sendo referido por uma frase descritiva.
Hallucination
Quando um VLM gera descrições de objetos, atributos ou relacionamentos que realmente não existem na imagem de entrada. Reduzir a alucinação é um grande desafio de pesquisa em andamento.
Object Detection
A tarefa de identificar e localizar objetos em uma imagem, prevendo caixas delimitadoras e rótulos de classe. Os VLMs modernos estendem isso à detecção de vocabulário aberto usando descrições de linguagem natural.
Image Segmentation
Dividir uma imagem em regiões significativas no nível do pixel. A segmentação semântica rotula cada pixel com uma classe, enquanto a segmentação de instância distingue objetos individuais da mesma classe.
Caption Generation
A tarefa de produzir automaticamente uma descrição em linguagem natural do conteúdo de uma imagem. Os sistemas modernos de legendagem usam VLMs para gerar descrições detalhadas e contextualmente ricas que vão além da simples listagem de objetos.
Multimodal Reasoning
A capacidade de realizar inferência lógica que requer informações de múltiplas modalidades. Por exemplo, responder 'É provável que o copo caia?' requer a compreensão da geometria visual da cena e do raciocínio físico.
LAION
Rede Aberta de Inteligência Artificial em Grande Escala - uma organização sem fins lucrativos que criou enormes conjuntos de dados de imagem-texto de código aberto (LAION-5B com 5,85 bilhões de pares) usados ​​para treinar muitos modelos de linguagem de visão.
Visual Encoder
O componente de um VLM que processa imagens e extrai recursos visuais. Arquiteturas comuns incluem Vision Transformers (ViT), ConvNeXt e o codificador visual do CLIP.
Q-Former
Um módulo transformador leve usado no BLIP-2 que une um codificador de imagem congelada e um modelo de linguagem grande congelado, aprendendo a extrair os recursos visuais mais informativos para geração de linguagem.
Masked Image Modeling
Uma técnica de pré-treinamento autossupervisionada em que partes de uma imagem são mascaradas (ocultas) e o modelo deve prever o conteúdo que falta, aprendendo representações visuais ricas no processo.

🏆 Figuras-chave

Alec Radford (2021)

Pesquisador principal da OpenAI que co-criou o CLIP (Contrastive Language-Image Pre-training), demonstrando que o aprendizado de representações visuais a partir da supervisão de linguagem natural pode produzir modelos altamente transferíveis com notáveis ​​​​capacidades de disparo zero.

Junnan Li (2022)

Pesquisador-chefe da Salesforce Research que desenvolveu BLIP (Bootstrapping Language-Image Pre-training) e BLIP-2, introduzindo novas técnicas para inicializar o pré-treinamento de linguagem de visão a partir de dados ruidosos da web usando legendas e filtragem.

Jean-Baptiste Alayrac (2022)

Pesquisador da DeepMind que co-liderou o desenvolvimento do Flamingo, um modelo de linguagem visual capaz de aprender em poucas etapas em uma ampla gama de tarefas multimodais, condicionando um modelo de linguagem congelada em entradas visuais por meio de atenção cruzada.

Alexey Dosovitskiy (2021)

Liderei a criação do Vision Transformer (ViT) no Google Brain, demonstrando que arquiteturas puras de transformadores podem alcançar excelentes resultados na classificação de imagens, formando a espinha dorsal visual de muitos VLMs

Haotian Liu (2023)

Criou o LLaVA (Large Language and Vision Assistant), pioneiro na abordagem de ajuste de instrução visual que permitiu que grandes modelos de linguagem processassem e raciocinassem sobre imagens por meio de ajuste fino eficiente

Dario Amodei (2023)

Cofundou a Anthropic e contribuiu para o desenvolvimento de Claude, promovendo a segurança da IA ​​multimodal e demonstrando como os modelos de linguagem de visão podem se tornar mais úteis, inofensivos e honestos

🎓 Recursos de aprendizagem

💬 Mensagem aos estudantes

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Começar

Grátis, sem cadastro

Começar →