Attention MechanismUm componente de rede neural que permite que o modelo se concentre em partes relevantes da entrada ao produzir saída. Nos modelos de linguagem de visão, os mecanismos de atenção cruzada permitem que o modelo atenda a regiões relevantes da imagem ao processar texto e vice-versa.
Contrastive LearningUma abordagem de aprendizagem auto-supervisionada que treina modelos contrastando pares positivos (amostras correspondentes) com pares negativos (amostras não correspondentes), incentivando o modelo a aprender representações discriminativas.
Embedding SpaceUm espaço vetorial contínuo onde os pontos de dados são representados como vetores numéricos densos. Nos modelos de linguagem de visão, imagens e texto são mapeados em um espaço de incorporação compartilhado onde a similaridade semântica corresponde à proximidade geométrica.
Zero-Shot LearningA capacidade de um modelo executar tarefas ou reconhecer categorias nas quais não foi explicitamente treinado, aproveitando o conhecimento transferido do treinamento em tarefas ou dados relacionados.
Fine-TuningO processo de pegar um modelo pré-treinado e treiná-lo ainda mais em uma tarefa ou conjunto de dados downstream específico, adaptando suas representações aprendidas a novos requisitos.
Encoder-Decoder ArchitectureUma estrutura de rede neural que consiste em um codificador que compacta a entrada em uma representação latente e um decodificador que gera saída a partir dessa representação. Usado na legendagem de imagens onde o codificador processa a imagem e o decodificador gera texto.
TokenizationO processo de quebrar o texto em unidades menores (tokens), como palavras, subpalavras ou caracteres, que podem ser processados por uma rede neural. A tokenização visual divide de forma semelhante as imagens em patches.
Cross-Modal TransferA capacidade de transferir conhecimento aprendido em uma modalidade (por exemplo, texto) para melhorar o desempenho em outra modalidade (por exemplo, visão), aproveitando conceitos semânticos compartilhados entre modalidades.
Visual GroundingA tarefa de localizar ou identificar regiões específicas de uma imagem que correspondam a uma determinada expressão da linguagem natural, conectando referências textuais ao conteúdo visual.
Multimodal FusionTécnicas para combinar informações de múltiplas modalidades em uma representação unificada. As abordagens comuns incluem fusão precoce (combinando entradas brutas), fusão tardia (combinando recursos de alto nível) e fusão de atenção cruzada.
Image PatchUma pequena região retangular de uma imagem usada como unidade de entrada em Vision Transformers. A imagem é dividida em uma grade de patches não sobrepostos, cada um tratado como um token semelhante às palavras da PNL.
Pre-trainingA fase inicial de treinamento de um modelo em um grande conjunto de dados geral antes do ajuste fino em tarefas específicas. Os modelos de linguagem visual são frequentemente pré-treinados em milhões de pares imagem-texto da Internet.
Prompt EngineeringA prática de elaborar estímulos de entrada para guiar um modelo em direção aos resultados desejados. Nos VLMs, prompts de texto cuidadosamente projetados podem melhorar significativamente a classificação zero-shot e outras tarefas.
Semantic SimilarityUma medida de quão intimamente relacionados estão os significados de duas partes do conteúdo, independentemente de sua representação no nível superficial. Nos VLMs, a imagem de um cachorro e o texto 'um cachorro' teriam alta semelhança semântica.
Feature ExtractionO processo de aprender e identificar automaticamente padrões e características importantes a partir de dados brutos. Os codificadores de visão extraem recursos visuais como bordas, texturas e formas de objetos das imagens.
Cosine SimilarityUma métrica usada para medir a semelhança de dois vetores calculando o cosseno do ângulo entre eles. Em VLMs, a similaridade de cosseno entre incorporações de imagem e texto determina quão bem elas correspondem semanticamente, com valores variando de -1 (oposto) a 1 (idêntico).
Batch NormalizationTécnica que normaliza as entradas de cada camada de uma rede neural, estabilizando e acelerando o treinamento. Amplamente utilizado em codificadores de visão para melhorar o fluxo gradiente e permitir o treinamento de redes mais profundas.
Transfer LearningUma técnica de aprendizado de máquina em que um modelo treinado em uma tarefa é reaproveitado para uma tarefa diferente, mas relacionada. VLMs como o CLIP são excelentes na aprendizagem por transferência porque suas representações visuais-linguísticas gerais podem ser aplicadas a muitas tarefas posteriores sem treinamento específico da tarefa.
Image CaptioningA tarefa de gerar automaticamente uma descrição de uma imagem em linguagem natural. Isso exige que o modelo identifique objetos, seus atributos, relações espaciais e atividades e, em seguida, componha uma frase gramaticalmente correta que transmita essas informações.
Self-Supervised LearningUm paradigma de treinamento onde o modelo aprende representações de dados não rotulados, resolvendo tarefas de pretexto derivadas dos próprios dados. A aprendizagem contrastiva em pares imagem-texto é uma forma de aprendizagem auto-supervisionada que se mostrou altamente eficaz para VLMs.
Multimodal EmbeddingUma representação vetorial aprendida que captura informações de múltiplas modalidades (como imagem e texto) em um espaço compartilhado. Os embeddings multimodais permitem a recuperação intermodal, onde uma consulta de texto pode encontrar imagens relevantes ou uma consulta de imagem pode encontrar descrições de texto relevantes.
Diffusion ModelUm modelo generativo que aprende a criar dados (geralmente imagens) eliminando gradualmente o ruído aleatório por meio de um processo de difusão reversa aprendido. Modelos como DALL-E 2 e Stable Diffusion usam embeddings de texto CLIP para orientar a geração de imagens a partir de descrições de texto.
Region of Interest (ROI)Uma área específica dentro de uma imagem que é relevante para uma tarefa específica. Nos modelos de linguagem de visão, o modelo pode atender a regiões específicas de interesse ao responder perguntas ou gerar descrições sobre o conteúdo localizado em uma imagem.
Instruction TuningTreinar um modelo de linguagem para seguir instruções de linguagem natural, tornando-o mais controlável e útil para diversas tarefas. O ajuste de instruções visuais estende isso aos pares de instruções imagem-texto.
Adapter LayerUm módulo leve de rede neural inserido em um modelo pré-treinado para adaptá-lo a novas tarefas ou modalidades com atualizações mínimas de parâmetros, preservando o conhecimento do modelo original.
Vision-Language Pre-trainingO processo de treinar um modelo em dados de imagem-texto em grande escala para aprender representações intermodais gerais antes do ajuste fino em tarefas posteriores específicas.
Generative Pre-trained Transformer (GPT)Uma família de modelos de linguagem autorregressivos que geram token de texto por token. O GPT-4V estendeu a arquitetura para processar também entradas visuais, criando um poderoso modelo de linguagem de visão.
RLHF (Reinforcement Learning from Human Feedback)Uma técnica de treinamento que usa preferências humanas para ajustar modelos de IA, melhorando sua utilidade e segurança. Aplicado a modelos multimodais para melhorar a qualidade de compreensão da imagem.
Multimodal Large Language Model (MLLM)Um grande modelo de linguagem estendido para processar vários tipos de entrada (texto, imagens, áudio, vídeo). Os exemplos incluem GPT-4V, Gemini e Claude, que podem compreender e raciocinar sobre conteúdo visual junto com texto.
Few-Shot LearningA capacidade de um modelo aprender uma nova tarefa a partir de apenas alguns exemplos, sem um extenso treinamento. VLMs como o Flamingo demonstraram capacidades notáveis de poucos disparos em diversas tarefas visuais.
Visual Instruction TuningTreinar um modelo de linguagem visual para seguir instruções de linguagem natural sobre imagens, como 'Descreva esta imagem em detalhes' ou 'O que há de errado nesta imagem?', desenvolvido pela LLaVA.
Cross-AttentionUm mecanismo transformador que permite que uma modalidade atenda a outra. Nos VLMs, a atenção cruzada permite que o modelo de linguagem atenda a regiões relevantes da imagem ao gerar respostas de texto.
DALL-EUm sistema de IA da OpenAI que gera imagens a partir de descrições de texto, usando embeddings CLIP para orientar o processo de geração. Demonstra a direção inversa da compreensão da linguagem visual.
GroundingO processo de conectar conceitos de linguagem abstrata a elementos visuais específicos em uma imagem, como identificar qual objeto em uma foto está sendo referido por uma frase descritiva.
HallucinationQuando um VLM gera descrições de objetos, atributos ou relacionamentos que realmente não existem na imagem de entrada. Reduzir a alucinação é um grande desafio de pesquisa em andamento.
Object DetectionA tarefa de identificar e localizar objetos em uma imagem, prevendo caixas delimitadoras e rótulos de classe. Os VLMs modernos estendem isso à detecção de vocabulário aberto usando descrições de linguagem natural.
Image SegmentationDividir uma imagem em regiões significativas no nível do pixel. A segmentação semântica rotula cada pixel com uma classe, enquanto a segmentação de instância distingue objetos individuais da mesma classe.
Caption GenerationA tarefa de produzir automaticamente uma descrição em linguagem natural do conteúdo de uma imagem. Os sistemas modernos de legendagem usam VLMs para gerar descrições detalhadas e contextualmente ricas que vão além da simples listagem de objetos.
Multimodal ReasoningA capacidade de realizar inferência lógica que requer informações de múltiplas modalidades. Por exemplo, responder 'É provável que o copo caia?' requer a compreensão da geometria visual da cena e do raciocínio físico.
LAIONRede Aberta de Inteligência Artificial em Grande Escala - uma organização sem fins lucrativos que criou enormes conjuntos de dados de imagem-texto de código aberto (LAION-5B com 5,85 bilhões de pares) usados para treinar muitos modelos de linguagem de visão.
Visual EncoderO componente de um VLM que processa imagens e extrai recursos visuais. Arquiteturas comuns incluem Vision Transformers (ViT), ConvNeXt e o codificador visual do CLIP.
Q-FormerUm módulo transformador leve usado no BLIP-2 que une um codificador de imagem congelada e um modelo de linguagem grande congelado, aprendendo a extrair os recursos visuais mais informativos para geração de linguagem.
Masked Image ModelingUma técnica de pré-treinamento autossupervisionada em que partes de uma imagem são mascaradas (ocultas) e o modelo deve prever o conteúdo que falta, aprendendo representações visuais ricas no processo.