molmo-vision-language

Đây là gì?

🎯 Mẹo sử dụng

📚 Thuật ngữ

Attention Mechanism

Một thành phần mạng thần kinh cho phép mô hình tập trung vào các phần có liên quan của đầu vào khi tạo đầu ra. Trong các mô hình ngôn ngữ thị giác, cơ chế chú ý chéo cho phép mô hình chú ý đến các vùng hình ảnh có liên quan khi xử lý văn bản và ngược lại.

Contrastive Learning

Một phương pháp học tập tự giám sát huấn luyện các mô hình bằng cách đối chiếu các cặp dương (mẫu khớp) với các cặp âm (mẫu không khớp), khuyến khích mô hình tìm hiểu các biểu diễn phân biệt đối xử.

Embedding Space

Một không gian vectơ liên tục trong đó các điểm dữ liệu được biểu diễn dưới dạng vectơ số dày đặc. Trong các mô hình ngôn ngữ thị giác, hình ảnh và văn bản được ánh xạ vào một không gian nhúng chung, trong đó sự tương đồng về ngữ nghĩa tương ứng với khoảng cách hình học.

Zero-Shot Learning

Khả năng của một mô hình để thực hiện các nhiệm vụ hoặc nhận ra các danh mục mà nó không được đào tạo rõ ràng bằng cách tận dụng kiến thức được chuyển giao từ quá trình đào tạo về các nhiệm vụ hoặc dữ liệu liên quan.

Fine-Tuning

Quá trình sử dụng một mô hình được đào tạo trước và đào tạo thêm về một tác vụ hoặc tập dữ liệu cụ thể ở hạ nguồn, điều chỉnh các biểu diễn đã học của nó cho phù hợp với các yêu cầu mới.

Encoder-Decoder Architecture

Cấu trúc mạng thần kinh bao gồm một bộ mã hóa nén đầu vào thành biểu diễn tiềm ẩn và bộ giải mã tạo ra đầu ra từ biểu diễn đó. Được sử dụng trong chú thích hình ảnh trong đó bộ mã hóa xử lý hình ảnh và bộ giải mã tạo ra văn bản.

Tokenization

Quá trình chia văn bản thành các đơn vị nhỏ hơn (mã thông báo) như từ, từ phụ hoặc ký tự có thể được xử lý bởi mạng lưới thần kinh. Mã thông báo trực quan tương tự chia hình ảnh thành các bản vá.

Cross-Modal Transfer

Khả năng chuyển giao kiến thức đã học theo một phương thức (ví dụ: văn bản) để cải thiện hiệu suất ở một phương thức khác (ví dụ: tầm nhìn), tận dụng các khái niệm ngữ nghĩa được chia sẻ giữa các phương thức.

Visual Grounding

Nhiệm vụ bản địa hóa hoặc xác định các vùng cụ thể trong hình ảnh tương ứng với một biểu thức ngôn ngữ tự nhiên nhất định, kết nối các tham chiếu văn bản với nội dung trực quan.

Multimodal Fusion

Kỹ thuật kết hợp thông tin từ nhiều phương thức thành một thể hiện thống nhất. Các phương pháp tiếp cận phổ biến bao gồm kết hợp sớm (kết hợp đầu vào thô), kết hợp muộn (kết hợp các tính năng cấp cao) và kết hợp chú ý chéo.

Image Patch

Một vùng hình chữ nhật nhỏ của hình ảnh được sử dụng làm đơn vị đầu vào trong Vision Transformers. Hình ảnh được chia thành một lưới gồm các miếng vá không chồng chéo, mỗi miếng được coi là một mã thông báo tương tự như các từ trong NLP.

Pre-training

Giai đoạn đầu đào tạo mô hình trên một tập dữ liệu chung, lớn trước khi tinh chỉnh các tác vụ cụ thể. Các mô hình ngôn ngữ thị giác thường được đào tạo trước trên hàng triệu cặp văn bản-hình ảnh từ internet.

Prompt Engineering

Việc thực hành tạo các lời nhắc đầu vào để hướng dẫn mô hình hướng tới kết quả đầu ra mong muốn. Trong VLM, lời nhắc văn bản được thiết kế cẩn thận có thể cải thiện đáng kể việc phân loại không bắn và các tác vụ khác.

Semantic Similarity

Thước đo mức độ liên quan chặt chẽ giữa ý nghĩa của hai phần nội dung, bất kể cách trình bày ở cấp độ bề mặt của chúng. Trong VLM, hình ảnh một con chó và văn bản 'con chó' sẽ có độ tương đồng cao về mặt ngữ nghĩa.

Feature Extraction

Quá trình tự động tìm hiểu và xác định các mẫu và đặc điểm quan trọng từ dữ liệu thô. Bộ mã hóa thị giác trích xuất các đặc điểm hình ảnh như cạnh, kết cấu và hình dạng đối tượng từ hình ảnh.

Cosine Similarity

Một thước đo dùng để đo mức độ giống nhau của hai vectơ bằng cách tính cosin của góc giữa chúng. Trong VLM, độ tương tự cosine giữa các phần nhúng hình ảnh và văn bản xác định mức độ chúng phù hợp về mặt ngữ nghĩa, với các giá trị nằm trong khoảng từ -1 (ngược lại) đến 1 (giống hệt nhau).

Batch Normalization

Một kỹ thuật chuẩn hóa đầu vào cho từng lớp của mạng lưới thần kinh, ổn định và tăng tốc quá trình đào tạo. Được sử dụng rộng rãi trong các bộ mã hóa thị giác để cải thiện luồng gradient và cho phép đào tạo các mạng sâu hơn.

Transfer Learning

Một kỹ thuật học máy trong đó một mô hình được đào tạo về một nhiệm vụ sẽ được sử dụng lại cho một nhiệm vụ khác nhưng có liên quan. Các VLM như CLIP vượt trội trong việc học chuyển giao vì cách trình bày ngôn ngữ-hình ảnh chung của chúng có thể được áp dụng cho nhiều nhiệm vụ tiếp theo mà không cần đào tạo cụ thể về nhiệm vụ.

Image Captioning

Nhiệm vụ tự động tạo mô tả ngôn ngữ tự nhiên của hình ảnh. Điều này yêu cầu mô hình xác định các đối tượng, thuộc tính, mối quan hệ không gian và hoạt động của chúng, sau đó soạn một câu đúng ngữ pháp để truyền tải thông tin này.

Self-Supervised Learning

Một mô hình đào tạo trong đó mô hình học cách biểu diễn từ dữ liệu chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ giả định xuất phát từ chính dữ liệu đó. Học tương phản trên các cặp hình ảnh-văn bản là một hình thức học tự giám sát đã được chứng minh là có hiệu quả cao đối với VLM.

Multimodal Embedding

Biểu diễn vectơ đã học để nắm bắt thông tin từ nhiều phương thức (chẳng hạn như hình ảnh và văn bản) trong một không gian chung. Việc nhúng đa phương thức cho phép truy xuất đa phương thức, trong đó truy vấn văn bản có thể tìm thấy hình ảnh có liên quan hoặc truy vấn hình ảnh có thể tìm thấy mô tả văn bản có liên quan.

Diffusion Model

Một mô hình tổng quát học cách tạo ra dữ liệu (thường là hình ảnh) bằng cách giảm dần nhiễu ngẫu nhiên thông qua quá trình khuếch tán ngược đã học. Các mô hình như DALL-E 2 và Stable Diffusion sử dụng tính năng nhúng văn bản CLIP để hướng dẫn tạo hình ảnh từ mô tả văn bản.

Region of Interest (ROI)

Một khu vực cụ thể trong hình ảnh có liên quan đến một nhiệm vụ cụ thể. Trong các mô hình ngôn ngữ thị giác, mô hình có thể tập trung vào các vùng quan tâm cụ thể khi trả lời các câu hỏi hoặc tạo mô tả về nội dung được bản địa hóa trong một hình ảnh.

Instruction Tuning

Huấn luyện mô hình ngôn ngữ để tuân theo các hướng dẫn bằng ngôn ngữ tự nhiên, giúp mô hình này dễ kiểm soát hơn và hữu ích hơn cho các nhiệm vụ đa dạng. Việc điều chỉnh lệnh trực quan mở rộng điều này sang các cặp lệnh hình ảnh-văn bản.

Adapter Layer

Một mô-đun mạng thần kinh nhẹ được chèn vào mô hình được đào tạo trước để điều chỉnh nó phù hợp với các nhiệm vụ hoặc phương thức mới với các cập nhật tham số tối thiểu, duy trì kiến thức của mô hình ban đầu.

Vision-Language Pre-training

Quá trình đào tạo một mô hình trên dữ liệu văn bản hình ảnh quy mô lớn để tìm hiểu các cách biểu diễn đa phương thức chung trước khi tinh chỉnh các tác vụ cụ thể ở phía dưới.

Generative Pre-trained Transformer (GPT)

Một nhóm các mô hình ngôn ngữ tự hồi quy tạo ra từng mã thông báo văn bản. GPT-4V đã mở rộng kiến trúc để xử lý cả đầu vào hình ảnh, tạo ra mô hình ngôn ngữ hình ảnh mạnh mẽ.

RLHF (Reinforcement Learning from Human Feedback)

Một kỹ thuật đào tạo sử dụng sở thích của con người để tinh chỉnh các mô hình AI, cải thiện tính hữu ích và an toàn của chúng. Áp dụng cho các mô hình đa phương thức để cải thiện chất lượng hiểu hình ảnh.

Multimodal Large Language Model (MLLM)

Một mô hình ngôn ngữ lớn được mở rộng để xử lý nhiều loại đầu vào (văn bản, hình ảnh, âm thanh, video). Các ví dụ bao gồm GPT-4V, Gemini và Claude, có thể hiểu và suy luận về nội dung hình ảnh cùng với văn bản.

Few-Shot Learning

Khả năng của một mô hình có thể học một nhiệm vụ mới chỉ từ một vài ví dụ mà không cần đào tạo lại nhiều. Các VLM như Flamingo đã thể hiện khả năng chụp ít ảnh đáng chú ý trong các tác vụ hình ảnh đa dạng.

Visual Instruction Tuning

Huấn luyện mô hình ngôn ngữ thị giác tuân theo các hướng dẫn bằng ngôn ngữ tự nhiên về hình ảnh, chẳng hạn như 'Mô tả chi tiết hình ảnh này' hoặc 'Có gì sai trong hình ảnh này?', do LLaVA tiên phong.

Cross-Attention

Một cơ chế biến đổi cho phép một phương thức tham gia vào một phương thức khác. Trong VLM, sự chú ý chéo cho phép mô hình ngôn ngữ chú ý đến các vùng hình ảnh có liên quan khi tạo phản hồi văn bản.

DALL-E

Một hệ thống AI của OpenAI tạo ra hình ảnh từ mô tả văn bản, sử dụng phần nhúng CLIP để hướng dẫn quá trình tạo. Thể hiện hướng ngược lại của sự hiểu biết ngôn ngữ tầm nhìn.

Grounding

Quá trình kết nối các khái niệm ngôn ngữ trừu tượng với các yếu tố hình ảnh cụ thể trong hình ảnh, chẳng hạn như xác định đối tượng nào trong ảnh đang được nhắc đến bằng cụm từ mô tả.

Hallucination

Khi VLM tạo mô tả về các đối tượng, thuộc tính hoặc mối quan hệ không thực sự tồn tại trong hình ảnh đầu vào. Giảm ảo giác là một thách thức nghiên cứu lớn đang diễn ra.

Object Detection

Nhiệm vụ xác định và định vị các đối tượng trong ảnh bằng cách dự đoán các hộp giới hạn và nhãn lớp. Các VLM hiện đại mở rộng tính năng này sang phát hiện từ vựng mở bằng cách sử dụng các mô tả ngôn ngữ tự nhiên.

Image Segmentation

Chia hình ảnh thành các vùng có ý nghĩa ở cấp độ pixel. Phân đoạn ngữ nghĩa gắn nhãn mỗi pixel bằng một lớp, trong khi phân đoạn cá thể phân biệt các đối tượng riêng lẻ của cùng một lớp.

Caption Generation

Nhiệm vụ tự động tạo mô tả bằng ngôn ngữ tự nhiên cho nội dung của hình ảnh. Các hệ thống phụ đề hiện đại sử dụng VLM để tạo ra các mô tả chi tiết, phong phú về ngữ cảnh, vượt xa việc liệt kê đối tượng đơn giản.

Multimodal Reasoning

Khả năng thực hiện suy luận logic đòi hỏi thông tin từ nhiều phương thức. Ví dụ: trả lời 'Cái cốc có khả năng rơi không?' đòi hỏi sự hiểu biết cả hình học cảnh quan và lý luận vật lý.

LAION

Mạng mở trí tuệ nhân tạo quy mô lớn - một tổ chức phi lợi nhuận tạo ra bộ dữ liệu văn bản hình ảnh nguồn mở khổng lồ (LAION-5B với 5,85 tỷ cặp) được sử dụng để đào tạo nhiều mô hình ngôn ngữ thị giác.

Visual Encoder

Thành phần của VLM xử lý hình ảnh và trích xuất các đặc điểm trực quan. Các kiến trúc phổ biến bao gồm Vision Transformers (ViT), ConvNeXt và bộ mã hóa hình ảnh của CLIP.

Q-Former

Một mô-đun biến áp nhẹ được sử dụng trong BLIP-2 kết nối bộ mã hóa hình ảnh cố định và mô hình ngôn ngữ lớn cố định, học cách trích xuất các đặc điểm hình ảnh giàu thông tin nhất để tạo ngôn ngữ.

Masked Image Modeling

Một kỹ thuật đào tạo trước tự giám sát trong đó các phần của hình ảnh được che đi (ẩn) và mô hình phải dự đoán nội dung còn thiếu, học cách biểu diễn trực quan phong phú trong quá trình này.

🏆 Nhân vật chính

Alec Radford (2021)

Trưởng nhóm nghiên cứu tại OpenAI, người đồng sáng tạo CLIP (Đào tạo trước hình ảnh-ngôn ngữ tương phản), chứng minh rằng việc học các cách trình bày trực quan từ giám sát ngôn ngữ tự nhiên có thể tạo ra các mô hình có khả năng chuyển đổi cao với khả năng chụp không ảnh đáng chú ý.

Junnan Li (2022)

Trưởng nhóm nghiên cứu tại Salesforce Research, người đã phát triển BLIP (Đào tạo trước ngôn ngữ-hình ảnh khởi động) và BLIP-2, giới thiệu các kỹ thuật mới để khởi động đào tạo trước ngôn ngữ thị giác từ dữ liệu web ồn ào bằng cách sử dụng chú thích và lọc.

Jean-Baptiste Alayrac (2022)

Nhà nghiên cứu tại DeepMind, người đồng lãnh đạo việc phát triển Flamingo, một mô hình ngôn ngữ hình ảnh có khả năng học tập nhanh chóng trên nhiều nhiệm vụ đa phương thức bằng cách điều chỉnh mô hình ngôn ngữ cố định trên đầu vào hình ảnh thông qua sự chú ý chéo.

Alexey Dosovitskiy (2021)

Dẫn đầu việc tạo ra Vision Transformer (ViT) tại Google Brain, chứng minh rằng kiến trúc máy biến áp thuần túy có thể đạt được kết quả xuất sắc về phân loại hình ảnh, tạo thành xương sống trực quan của nhiều VLM

Haotian Liu (2023)

Đã tạo LLaVA (Trợ lý thị giác và ngôn ngữ lớn), tiên phong trong phương pháp điều chỉnh hướng dẫn trực quan cho phép các mô hình ngôn ngữ lớn xử lý và suy luận về hình ảnh thông qua tinh chỉnh hiệu quả

Dario Amodei (2023)

Đồng sáng lập Anthropic và đóng góp vào sự phát triển của Claude, thúc đẩy sự an toàn của AI đa phương thức và chứng minh cách các mô hình ngôn ngữ thị giác có thể trở nên hữu ích, vô hại và trung thực hơn

🎓 Tài nguyên học tập

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
Bài báo CLIP cơ bản chứng minh rằng việc đào tạo trước tương phản trên 400 triệu cặp văn bản-hình ảnh cho phép phân loại hình ảnh không cần chụp và truy xuất văn bản hình ảnh một cách mạnh mẽ.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Giới thiệu BLIP, một khung khởi động phụ đề từ dữ liệu web ồn ào và đạt được kết quả tiên tiến về các nhiệm vụ tạo và hiểu ngôn ngữ thị giác.
Flamingo: a Visual Language Model for Few-Shot Learning
Trình bày Flamingo, kết nối các mô hình ngôn ngữ và thị giác được đào tạo trước mạnh mẽ bằng cách sử dụng sự chú ý chéo và thể hiện khả năng học tập nhanh chóng trong các nhiệm vụ đa phương thức đa dạng.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Bài báo Vision Transformer (ViT) cho thấy kiến trúc máy biến áp thuần túy có thể đạt được kết quả xuất sắc về phân loại hình ảnh, tạo cơ sở cho nhiều bộ mã hóa tầm nhìn VLM.
Deep Learning for Vision Systems
Hướng dẫn thực tế bao gồm các nguyên tắc cơ bản về thị giác máy tính và kiến trúc học sâu để hiểu bằng hình ảnh, cung cấp nền tảng cần thiết để hiểu các mô hình ngôn ngữ thị giác.
Dive into Deep Learning
Sách giáo khoa học sâu tương tác có mã, toán học và thảo luận, bao gồm các chương về cơ chế chú ý và kiến trúc biến áp quan trọng đối với VLM.
Foundations of Computer Vision
Một cuốn sách giáo khoa toàn diện của MIT bao gồm thị giác máy tính hiện đại bao gồm học tập đa phương thức và tích hợp ngôn ngữ thị giác.
CLIP: Connecting Text and Images - OpenAI Research Explanation
Phần giải thích dễ hiểu về cách CLIP học cách kết nối hình ảnh và văn bản bằng phương pháp học tương phản, kèm theo minh họa trực quan về khả năng chụp không ảnh của nó.
Stanford CS231n: Deep Learning for Computer Vision
Khóa học thị giác máy tính nổi tiếng của Stanford bao gồm CNN, máy biến áp và kiến trúc hiện đại tạo thành nền tảng của các mô hình ngôn ngữ thị giác.
Andrej Karpathy - Let's Build GPT: From Scratch
Trong khi tập trung vào các mô hình ngôn ngữ, hướng dẫn chi tiết về kiến trúc máy biến áp này cung cấp sự hiểu biết cần thiết cho thành phần xử lý văn bản của VLM.

💬 Lời nhắn cho người học

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Bắt đầu

Miễn phí, không cần đăng ký

Bắt đầu →