🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 지금 사용하기

이것은?

🎯 시뮬레이터 팁

📚 용어집

Attention Mechanism
출력을 생성할 때 모델이 입력의 관련 부분에 집중할 수 있도록 하는 신경망 구성 요소입니다. 비전 언어 모델에서 교차 주의 메커니즘을 통해 모델은 텍스트를 처리할 때 관련 이미지 영역에 주의를 기울이고 그 반대의 경우도 가능합니다.
Contrastive Learning
양성 쌍(일치 샘플)과 음성 쌍(일치하지 않는 샘플)을 대조하여 모델을 훈련하고 모델이 차별적 표현을 학습하도록 장려하는 자기 지도 학습 접근 방식입니다.
Embedding Space
데이터 포인트가 조밀한 숫자 벡터로 표시되는 연속 벡터 공간입니다. 비전 언어 모델에서 이미지와 텍스트는 의미론적 유사성이 기하학적 근접성에 해당하는 공유 임베딩 공간에 매핑됩니다.
Zero-Shot Learning
관련 작업이나 데이터에 대한 훈련에서 전달된 지식을 활용하여 작업을 수행하거나 명시적으로 훈련되지 않은 범주를 인식하는 모델의 능력입니다.
Fine-Tuning
사전 훈련된 모델을 가져와서 특정 다운스트림 작업이나 데이터 세트에 대해 추가로 훈련하고, 학습된 표현을 새로운 요구 사항에 맞게 조정하는 프로세스입니다.
Encoder-Decoder Architecture
입력을 잠재 표현으로 압축하는 인코더와 해당 표현에서 출력을 생성하는 디코더로 구성된 신경망 구조입니다. 인코더가 이미지를 처리하고 디코더가 텍스트를 생성하는 이미지 캡션에 사용됩니다.
Tokenization
텍스트를 신경망에서 처리할 수 있는 단어, 하위 단어 또는 문자와 같은 더 작은 단위(토큰)로 나누는 프로세스입니다. 시각적 토큰화도 마찬가지로 이미지를 패치로 나눕니다.
Cross-Modal Transfer
한 양식(예: 텍스트)에서 학습한 지식을 전달하여 다른 양식(예: 비전)의 성과를 향상하고 양식 전반에 걸쳐 공유된 의미 개념을 활용하는 능력입니다.
Visual Grounding
주어진 자연어 표현에 해당하는 이미지의 특정 영역을 위치화하거나 식별하여 텍스트 참조를 시각적 콘텐츠에 연결하는 작업입니다.
Multimodal Fusion
여러 양식의 정보를 통합된 표현으로 결합하는 기술입니다. 일반적인 접근 방식에는 초기 융합(원시 입력 결합), 후기 융합(고수준 기능 결합) 및 교차 주의 융합이 포함됩니다.
Image Patch
Vision Transformers에서 입력 단위로 사용되는 이미지의 작은 직사각형 영역입니다. 이미지는 겹치지 않는 패치의 그리드로 나누어지며, 각 패치는 NLP의 단어와 유사한 토큰으로 처리됩니다.
Pre-training
특정 작업을 미세 조정하기 전에 대규모의 일반 데이터 세트에서 모델을 훈련하는 초기 단계입니다. 비전 언어 모델은 종종 인터넷의 수백만 개의 이미지-텍스트 쌍에 대해 사전 훈련됩니다.
Prompt Engineering
입력을 작성하는 연습은 원하는 출력을 향해 모델을 안내하도록 유도합니다. VLM에서 신중하게 설계된 텍스트 프롬프트는 제로샷 분류 및 기타 작업을 크게 향상시킬 수 있습니다.
Semantic Similarity
표면 수준 표현에 관계없이 두 콘텐츠의 의미가 얼마나 밀접하게 관련되어 있는지를 측정합니다. VLM에서 개 이미지와 'a dog'라는 텍스트는 의미론적 유사성이 높습니다.
Feature Extraction
원시 데이터로부터 중요한 패턴과 특성을 자동으로 학습하고 식별하는 프로세스입니다. 비전 인코더는 이미지에서 가장자리, 질감, 개체 모양과 같은 시각적 특징을 추출합니다.
Cosine Similarity
두 벡터 사이의 각도의 코사인을 계산하여 두 벡터가 얼마나 유사한지 측정하는 데 사용되는 측정항목입니다. VLM에서 이미지와 텍스트 임베딩 간의 코사인 유사성은 -1(반대)에서 1(동일) 범위의 값을 사용하여 의미론적으로 얼마나 잘 일치하는지 결정합니다.
Batch Normalization
신경망의 각 계층에 대한 입력을 정규화하여 훈련을 안정화하고 가속화하는 기술입니다. 경사 흐름을 개선하고 더 깊은 네트워크의 훈련을 가능하게 하기 위해 비전 인코더에 널리 사용됩니다.
Transfer Learning
하나의 작업에 대해 훈련된 모델을 다르지만 관련된 작업에 맞게 용도를 변경하는 기계 학습 기술입니다. CLIP과 같은 VLM은 일반적인 시각적 언어 표현을 작업별 교육 없이 많은 다운스트림 작업에 적용할 수 있기 때문에 전이 학습에 탁월합니다.
Image Captioning
이미지의 자연어 설명을 자동으로 생성하는 작업입니다. 이를 위해서는 모델이 객체, 객체의 속성, 공간 관계 및 활동을 식별한 다음 이 정보를 전달하는 문법적으로 올바른 문장을 작성해야 합니다.
Self-Supervised Learning
모델이 데이터 자체에서 파생된 프리텍스트 작업을 해결하여 레이블이 지정되지 않은 데이터로부터 표현을 학습하는 교육 패러다임입니다. 이미지-텍스트 쌍에 대한 대조 학습은 VLM에 매우 효과적인 것으로 입증된 자기 지도 학습의 한 형태입니다.
Multimodal Embedding
공유 공간의 여러 양식(예: 이미지 및 텍스트)에서 정보를 캡처하는 학습된 벡터 표현입니다. 다중 모드 임베딩을 사용하면 텍스트 쿼리로 관련 이미지를 찾거나 이미지 쿼리로 관련 텍스트 설명을 찾을 수 있는 교차 모드 검색이 가능합니다.
Diffusion Model
학습된 역확산 프로세스를 통해 무작위 노이즈를 점진적으로 제거하여 데이터(종종 이미지)를 생성하는 방법을 학습하는 생성 모델입니다. DALL-E 2 및 Stable Diffusion과 같은 모델은 CLIP 텍스트 임베딩을 사용하여 텍스트 설명에서 이미지 생성을 안내합니다.
Region of Interest (ROI)
특정 작업과 관련된 이미지 내의 특정 영역입니다. 비전 언어 모델에서 모델은 질문에 답하거나 이미지 내의 현지화된 콘텐츠에 대한 설명을 생성할 때 특정 관심 영역에 주의를 기울일 수 있습니다.
Instruction Tuning
자연어 지침을 따르도록 언어 모델을 훈련하여 다양한 작업에 더 효과적으로 제어하고 유용하게 만듭니다. 시각적 명령어 조정은 이를 이미지-텍스트 명령어 쌍으로 확장합니다.
Adapter Layer
사전 훈련된 모델에 삽입된 경량 신경망 모듈로, 원래 모델의 지식을 보존하면서 최소한의 매개변수 업데이트로 새로운 작업이나 양식에 적응합니다.
Vision-Language Pre-training
특정 다운스트림 작업을 미세 조정하기 전에 일반적인 교차 모달 표현을 학습하기 위해 대규모 이미지-텍스트 데이터에 대한 모델을 훈련하는 프로세스입니다.
Generative Pre-trained Transformer (GPT)
토큰별로 텍스트 토큰을 생성하는 자동 회귀 언어 모델 제품군입니다. GPT-4V는 시각적 입력도 처리하도록 아키텍처를 확장하여 강력한 비전 언어 모델을 만들었습니다.
RLHF (Reinforcement Learning from Human Feedback)
인간의 선호도를 사용하여 AI 모델을 미세 조정하여 유용성과 안전성을 향상시키는 훈련 기술입니다. 이미지 이해 품질을 향상시키기 위해 다중 모드 모델에 적용됩니다.
Multimodal Large Language Model (MLLM)
여러 유형의 입력(텍스트, 이미지, 오디오, 비디오)을 처리하도록 확장된 대규모 언어 모델입니다. 예를 들어 텍스트와 함께 시각적 콘텐츠를 이해하고 추론할 수 있는 GPT-4V, Gemini 및 Claude가 있습니다.
Few-Shot Learning
광범위한 재교육 없이 단지 몇 가지 예를 통해 새로운 작업을 학습할 수 있는 모델의 능력입니다. Flamingo와 같은 VLM은 다양한 시각적 작업 전반에 걸쳐 놀라운 몇 장의 샷 기능을 보여주었습니다.
Visual Instruction Tuning
LLaVA가 개척한 '이 이미지를 자세히 설명하세요' 또는 '이 그림의 문제점은 무엇인가요?'와 같은 이미지에 대한 자연어 지침을 따르도록 비전 언어 모델을 훈련합니다.
Cross-Attention
하나의 양식이 다른 양식에 참여할 수 있도록 하는 변환기 메커니즘입니다. VLM에서 교차 주의를 사용하면 텍스트 응답을 생성할 때 언어 모델이 관련 이미지 영역에 주의를 기울일 수 있습니다.
DALL-E
생성 프로세스를 안내하기 위해 CLIP 임베딩을 사용하여 텍스트 설명에서 이미지를 생성하는 OpenAI의 AI 시스템입니다. 시각-언어 이해의 반대 방향을 보여줍니다.
Grounding
설명 문구가 사진의 어떤 개체를 참조하는지 식별하는 등 추상적인 언어 개념을 이미지의 특정 시각적 요소에 연결하는 프로세스입니다.
Hallucination
VLM이 입력 이미지에 실제로 존재하지 않는 개체, 속성 또는 관계에 대한 설명을 생성하는 경우. 환각을 줄이는 것은 현재 진행 중인 주요 연구 과제입니다.
Object Detection
경계 상자와 클래스 레이블을 예측하여 이미지 내의 개체를 식별하고 위치를 파악하는 작업입니다. 최신 VLM은 이를 자연어 설명을 사용하여 개방형 어휘 감지로 확장합니다.
Image Segmentation
이미지를 픽셀 수준에서 의미 있는 영역으로 나눕니다. 의미론적 분할은 클래스로 각 픽셀에 레이블을 지정하는 반면, 인스턴스 분할은 동일한 클래스의 개별 객체를 구별합니다.
Caption Generation
이미지 내용에 대한 자연어 설명을 자동으로 생성하는 작업입니다. 최신 캡션 시스템은 VLM을 사용하여 단순한 개체 목록을 넘어서는 자세하고 상황에 맞게 풍부한 설명을 생성합니다.
Multimodal Reasoning
다양한 양식의 정보가 필요한 논리적 추론을 수행하는 능력. 예를 들어, '컵이 떨어질 것 같나요?'라고 대답하는 것입니다. 시각적 장면 기하학과 물리적 추론을 모두 이해해야 합니다.
LAION
대규모 인공 지능 개방형 네트워크 - 많은 비전 언어 모델을 훈련하는 데 사용되는 대규모 오픈 소스 이미지-텍스트 데이터 세트(58억 5천만 쌍의 LAION-5B)를 만든 비영리 단체입니다.
Visual Encoder
이미지를 처리하고 시각적 특징을 추출하는 VLM의 구성 요소입니다. 일반적인 아키텍처에는 ViT(Vision Transformers), ConvNeXt 및 CLIP의 시각적 인코더가 포함됩니다.
Q-Former
고정 이미지 인코더와 고정 대형 언어 모델을 연결하는 BLIP-2에 사용되는 경량 변환기 모듈로, 언어 생성을 위한 가장 유익한 시각적 특징을 추출하는 방법을 학습합니다.
Masked Image Modeling
이미지의 일부가 마스크(숨겨짐)되고 모델이 누락된 콘텐츠를 예측하여 프로세스에서 풍부한 시각적 표현을 학습해야 하는 자체 감독 사전 학습 기술입니다.

🏆 핵심 인물

Alec Radford (2021)

CLIP(Contrastive Language-Image Pre-training)을 공동 제작한 OpenAI 수석 연구원은 자연어 감독을 통해 시각적 표현을 학습하면 놀라운 제로샷 기능을 갖춘 전이성이 높은 모델을 생성할 수 있음을 입증했습니다.

Junnan Li (2022)

BLIP(Bootstrapping Language-Image Pre-training) 및 BLIP-2를 개발한 Salesforce Research의 수석 연구원은 캡션 및 필터링을 사용하여 시끄러운 웹 데이터에서 비전 언어 사전 훈련을 부트스트랩하는 새로운 기술을 도입했습니다.

Jean-Baptiste Alayrac (2022)

DeepMind의 연구원은 Cross-Attention을 통한 시각적 입력에 대해 고정 언어 모델을 조정하여 다양한 다중 모달 작업에 대한 소수 학습이 가능한 시각적 언어 모델인 Flamingo의 개발을 공동으로 주도했습니다.

Alexey Dosovitskiy (2021)

Google Brain에서 ViT(Vision Transformer) 생성을 주도하여 순수 변환기 아키텍처가 이미지 분류에서 탁월한 결과를 얻을 수 있음을 입증하고 많은 VLM의 시각적 백본을 형성함

Haotian Liu (2023)

LLaVA(Large Language and Vision Assistant)를 만들어 대규모 언어 모델이 효율적인 미세 조정을 통해 이미지를 처리하고 추론할 수 있도록 하는 시각적 지침 조정 접근 방식을 개척했습니다.

Dario Amodei (2023)

Anthropic을 공동 창립하고 Claude 개발에 기여하여 다중 모드 AI 안전을 발전시키고 비전 언어 모델이 어떻게 더 유용하고 무해하며 정직하게 만들 수 있는지 보여주었습니다.

🎓 학습 자료

💬 학습자에게

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

시작하기

무료, 가입 불필요

시작하기 →