Attention MechanismMột thành phần mạng thần kinh cho phép mô hình tập trung vào các phần có liên quan của đầu vào khi tạo đầu ra. Trong các mô hình ngôn ngữ thị giác, cơ chế chú ý chéo cho phép mô hình chú ý đến các vùng hình ảnh có liên quan khi xử lý văn bản và ngược lại.
Contrastive LearningMột phương pháp học tập tự giám sát huấn luyện các mô hình bằng cách đối chiếu các cặp dương (mẫu khớp) với các cặp âm (mẫu không khớp), khuyến khích mô hình tìm hiểu các biểu diễn phân biệt đối xử.
Embedding SpaceMột không gian vectơ liên tục trong đó các điểm dữ liệu được biểu diễn dưới dạng vectơ số dày đặc. Trong các mô hình ngôn ngữ thị giác, hình ảnh và văn bản được ánh xạ vào một không gian nhúng chung, trong đó sự tương đồng về ngữ nghĩa tương ứng với khoảng cách hình học.
Zero-Shot LearningKhả năng của một mô hình để thực hiện các nhiệm vụ hoặc nhận ra các danh mục mà nó không được đào tạo rõ ràng bằng cách tận dụng kiến thức được chuyển giao từ quá trình đào tạo về các nhiệm vụ hoặc dữ liệu liên quan.
Fine-TuningQuá trình sử dụng một mô hình được đào tạo trước và đào tạo thêm về một tác vụ hoặc tập dữ liệu cụ thể ở hạ nguồn, điều chỉnh các biểu diễn đã học của nó cho phù hợp với các yêu cầu mới.
Encoder-Decoder ArchitectureCấu trúc mạng thần kinh bao gồm một bộ mã hóa nén đầu vào thành biểu diễn tiềm ẩn và bộ giải mã tạo ra đầu ra từ biểu diễn đó. Được sử dụng trong chú thích hình ảnh trong đó bộ mã hóa xử lý hình ảnh và bộ giải mã tạo ra văn bản.
TokenizationQuá trình chia văn bản thành các đơn vị nhỏ hơn (mã thông báo) như từ, từ phụ hoặc ký tự có thể được xử lý bởi mạng lưới thần kinh. Mã thông báo trực quan tương tự chia hình ảnh thành các bản vá.
Cross-Modal TransferKhả năng chuyển giao kiến thức đã học theo một phương thức (ví dụ: văn bản) để cải thiện hiệu suất ở một phương thức khác (ví dụ: tầm nhìn), tận dụng các khái niệm ngữ nghĩa được chia sẻ giữa các phương thức.
Visual GroundingNhiệm vụ bản địa hóa hoặc xác định các vùng cụ thể trong hình ảnh tương ứng với một biểu thức ngôn ngữ tự nhiên nhất định, kết nối các tham chiếu văn bản với nội dung trực quan.
Multimodal FusionKỹ thuật kết hợp thông tin từ nhiều phương thức thành một thể hiện thống nhất. Các phương pháp tiếp cận phổ biến bao gồm kết hợp sớm (kết hợp đầu vào thô), kết hợp muộn (kết hợp các tính năng cấp cao) và kết hợp chú ý chéo.
Image PatchMột vùng hình chữ nhật nhỏ của hình ảnh được sử dụng làm đơn vị đầu vào trong Vision Transformers. Hình ảnh được chia thành một lưới gồm các miếng vá không chồng chéo, mỗi miếng được coi là một mã thông báo tương tự như các từ trong NLP.
Pre-trainingGiai đoạn đầu đào tạo mô hình trên một tập dữ liệu chung, lớn trước khi tinh chỉnh các tác vụ cụ thể. Các mô hình ngôn ngữ thị giác thường được đào tạo trước trên hàng triệu cặp văn bản-hình ảnh từ internet.
Prompt EngineeringViệc thực hành tạo các lời nhắc đầu vào để hướng dẫn mô hình hướng tới kết quả đầu ra mong muốn. Trong VLM, lời nhắc văn bản được thiết kế cẩn thận có thể cải thiện đáng kể việc phân loại không bắn và các tác vụ khác.
Semantic SimilarityThước đo mức độ liên quan chặt chẽ giữa ý nghĩa của hai phần nội dung, bất kể cách trình bày ở cấp độ bề mặt của chúng. Trong VLM, hình ảnh một con chó và văn bản 'con chó' sẽ có độ tương đồng cao về mặt ngữ nghĩa.
Feature ExtractionQuá trình tự động tìm hiểu và xác định các mẫu và đặc điểm quan trọng từ dữ liệu thô. Bộ mã hóa thị giác trích xuất các đặc điểm hình ảnh như cạnh, kết cấu và hình dạng đối tượng từ hình ảnh.
Cosine SimilarityMột thước đo dùng để đo mức độ giống nhau của hai vectơ bằng cách tính cosin của góc giữa chúng. Trong VLM, độ tương tự cosine giữa các phần nhúng hình ảnh và văn bản xác định mức độ chúng phù hợp về mặt ngữ nghĩa, với các giá trị nằm trong khoảng từ -1 (ngược lại) đến 1 (giống hệt nhau).
Batch NormalizationMột kỹ thuật chuẩn hóa đầu vào cho từng lớp của mạng lưới thần kinh, ổn định và tăng tốc quá trình đào tạo. Được sử dụng rộng rãi trong các bộ mã hóa thị giác để cải thiện luồng gradient và cho phép đào tạo các mạng sâu hơn.
Transfer LearningMột kỹ thuật học máy trong đó một mô hình được đào tạo về một nhiệm vụ sẽ được sử dụng lại cho một nhiệm vụ khác nhưng có liên quan. Các VLM như CLIP vượt trội trong việc học chuyển giao vì cách trình bày ngôn ngữ-hình ảnh chung của chúng có thể được áp dụng cho nhiều nhiệm vụ tiếp theo mà không cần đào tạo cụ thể về nhiệm vụ.
Image CaptioningNhiệm vụ tự động tạo mô tả ngôn ngữ tự nhiên của hình ảnh. Điều này yêu cầu mô hình xác định các đối tượng, thuộc tính, mối quan hệ không gian và hoạt động của chúng, sau đó soạn một câu đúng ngữ pháp để truyền tải thông tin này.
Self-Supervised LearningMột mô hình đào tạo trong đó mô hình học cách biểu diễn từ dữ liệu chưa được gắn nhãn bằng cách giải quyết các nhiệm vụ giả định xuất phát từ chính dữ liệu đó. Học tương phản trên các cặp hình ảnh-văn bản là một hình thức học tự giám sát đã được chứng minh là có hiệu quả cao đối với VLM.
Multimodal EmbeddingBiểu diễn vectơ đã học để nắm bắt thông tin từ nhiều phương thức (chẳng hạn như hình ảnh và văn bản) trong một không gian chung. Việc nhúng đa phương thức cho phép truy xuất đa phương thức, trong đó truy vấn văn bản có thể tìm thấy hình ảnh có liên quan hoặc truy vấn hình ảnh có thể tìm thấy mô tả văn bản có liên quan.
Diffusion ModelMột mô hình tổng quát học cách tạo ra dữ liệu (thường là hình ảnh) bằng cách giảm dần nhiễu ngẫu nhiên thông qua quá trình khuếch tán ngược đã học. Các mô hình như DALL-E 2 và Stable Diffusion sử dụng tính năng nhúng văn bản CLIP để hướng dẫn tạo hình ảnh từ mô tả văn bản.
Region of Interest (ROI)Một khu vực cụ thể trong hình ảnh có liên quan đến một nhiệm vụ cụ thể. Trong các mô hình ngôn ngữ thị giác, mô hình có thể tập trung vào các vùng quan tâm cụ thể khi trả lời các câu hỏi hoặc tạo mô tả về nội dung được bản địa hóa trong một hình ảnh.
Instruction TuningHuấn luyện mô hình ngôn ngữ để tuân theo các hướng dẫn bằng ngôn ngữ tự nhiên, giúp mô hình này dễ kiểm soát hơn và hữu ích hơn cho các nhiệm vụ đa dạng. Việc điều chỉnh lệnh trực quan mở rộng điều này sang các cặp lệnh hình ảnh-văn bản.
Adapter LayerMột mô-đun mạng thần kinh nhẹ được chèn vào mô hình được đào tạo trước để điều chỉnh nó phù hợp với các nhiệm vụ hoặc phương thức mới với các cập nhật tham số tối thiểu, duy trì kiến thức của mô hình ban đầu.
Vision-Language Pre-trainingQuá trình đào tạo một mô hình trên dữ liệu văn bản hình ảnh quy mô lớn để tìm hiểu các cách biểu diễn đa phương thức chung trước khi tinh chỉnh các tác vụ cụ thể ở phía dưới.
Generative Pre-trained Transformer (GPT)Một nhóm các mô hình ngôn ngữ tự hồi quy tạo ra từng mã thông báo văn bản. GPT-4V đã mở rộng kiến trúc để xử lý cả đầu vào hình ảnh, tạo ra mô hình ngôn ngữ hình ảnh mạnh mẽ.
RLHF (Reinforcement Learning from Human Feedback)Một kỹ thuật đào tạo sử dụng sở thích của con người để tinh chỉnh các mô hình AI, cải thiện tính hữu ích và an toàn của chúng. Áp dụng cho các mô hình đa phương thức để cải thiện chất lượng hiểu hình ảnh.
Multimodal Large Language Model (MLLM)Một mô hình ngôn ngữ lớn được mở rộng để xử lý nhiều loại đầu vào (văn bản, hình ảnh, âm thanh, video). Các ví dụ bao gồm GPT-4V, Gemini và Claude, có thể hiểu và suy luận về nội dung hình ảnh cùng với văn bản.
Few-Shot LearningKhả năng của một mô hình có thể học một nhiệm vụ mới chỉ từ một vài ví dụ mà không cần đào tạo lại nhiều. Các VLM như Flamingo đã thể hiện khả năng chụp ít ảnh đáng chú ý trong các tác vụ hình ảnh đa dạng.
Visual Instruction TuningHuấn luyện mô hình ngôn ngữ thị giác tuân theo các hướng dẫn bằng ngôn ngữ tự nhiên về hình ảnh, chẳng hạn như 'Mô tả chi tiết hình ảnh này' hoặc 'Có gì sai trong hình ảnh này?', do LLaVA tiên phong.
Cross-AttentionMột cơ chế biến đổi cho phép một phương thức tham gia vào một phương thức khác. Trong VLM, sự chú ý chéo cho phép mô hình ngôn ngữ chú ý đến các vùng hình ảnh có liên quan khi tạo phản hồi văn bản.
DALL-EMột hệ thống AI của OpenAI tạo ra hình ảnh từ mô tả văn bản, sử dụng phần nhúng CLIP để hướng dẫn quá trình tạo. Thể hiện hướng ngược lại của sự hiểu biết ngôn ngữ tầm nhìn.
GroundingQuá trình kết nối các khái niệm ngôn ngữ trừu tượng với các yếu tố hình ảnh cụ thể trong hình ảnh, chẳng hạn như xác định đối tượng nào trong ảnh đang được nhắc đến bằng cụm từ mô tả.
HallucinationKhi VLM tạo mô tả về các đối tượng, thuộc tính hoặc mối quan hệ không thực sự tồn tại trong hình ảnh đầu vào. Giảm ảo giác là một thách thức nghiên cứu lớn đang diễn ra.
Object DetectionNhiệm vụ xác định và định vị các đối tượng trong ảnh bằng cách dự đoán các hộp giới hạn và nhãn lớp. Các VLM hiện đại mở rộng tính năng này sang phát hiện từ vựng mở bằng cách sử dụng các mô tả ngôn ngữ tự nhiên.
Image SegmentationChia hình ảnh thành các vùng có ý nghĩa ở cấp độ pixel. Phân đoạn ngữ nghĩa gắn nhãn mỗi pixel bằng một lớp, trong khi phân đoạn cá thể phân biệt các đối tượng riêng lẻ của cùng một lớp.
Caption GenerationNhiệm vụ tự động tạo mô tả bằng ngôn ngữ tự nhiên cho nội dung của hình ảnh. Các hệ thống phụ đề hiện đại sử dụng VLM để tạo ra các mô tả chi tiết, phong phú về ngữ cảnh, vượt xa việc liệt kê đối tượng đơn giản.
Multimodal ReasoningKhả năng thực hiện suy luận logic đòi hỏi thông tin từ nhiều phương thức. Ví dụ: trả lời 'Cái cốc có khả năng rơi không?' đòi hỏi sự hiểu biết cả hình học cảnh quan và lý luận vật lý.
LAIONMạng mở trí tuệ nhân tạo quy mô lớn - một tổ chức phi lợi nhuận tạo ra bộ dữ liệu văn bản hình ảnh nguồn mở khổng lồ (LAION-5B với 5,85 tỷ cặp) được sử dụng để đào tạo nhiều mô hình ngôn ngữ thị giác.
Visual EncoderThành phần của VLM xử lý hình ảnh và trích xuất các đặc điểm trực quan. Các kiến trúc phổ biến bao gồm Vision Transformers (ViT), ConvNeXt và bộ mã hóa hình ảnh của CLIP.
Q-FormerMột mô-đun biến áp nhẹ được sử dụng trong BLIP-2 kết nối bộ mã hóa hình ảnh cố định và mô hình ngôn ngữ lớn cố định, học cách trích xuất các đặc điểm hình ảnh giàu thông tin nhất để tạo ngôn ngữ.
Masked Image ModelingMột kỹ thuật đào tạo trước tự giám sát trong đó các phần của hình ảnh được che đi (ẩn) và mô hình phải dự đoán nội dung còn thiếu, học cách biểu diễn trực quan phong phú trong quá trình này.