Attention Mechanismएक तंत्रिका नेटवर्क घटक जो मॉडल को आउटपुट उत्पन्न करते समय इनपुट के प्रासंगिक भागों पर ध्यान केंद्रित करने की अनुमति देता है। दृष्टि-भाषा मॉडल में, क्रॉस-अटेंशन तंत्र मॉडल को पाठ संसाधित करते समय प्रासंगिक छवि क्षेत्रों में भाग लेने में सक्षम बनाता है और इसके विपरीत।
Contrastive Learningएक स्व-पर्यवेक्षित शिक्षण दृष्टिकोण जो नकारात्मक जोड़ियों (गैर-मिलान नमूनों) के खिलाफ सकारात्मक जोड़े (मिलान नमूने) के विपरीत मॉडल को प्रशिक्षित करता है, मॉडल को भेदभावपूर्ण प्रतिनिधित्व सीखने के लिए प्रोत्साहित करता है।
Embedding Spaceएक सतत सदिश स्थान जहां डेटा बिंदुओं को सघन संख्यात्मक सदिशों के रूप में दर्शाया जाता है। दृष्टि-भाषा मॉडल में, छवियों और पाठ को एक साझा एम्बेडिंग स्थान में मैप किया जाता है जहां अर्थ संबंधी समानता ज्यामितीय निकटता से मेल खाती है।
Zero-Shot Learningसंबंधित कार्यों या डेटा पर प्रशिक्षण से हस्तांतरित ज्ञान का लाभ उठाकर, कार्यों को करने या उन श्रेणियों को पहचानने की मॉडल की क्षमता जिन पर इसे स्पष्ट रूप से प्रशिक्षित नहीं किया गया था।
Fine-Tuningएक पूर्व-प्रशिक्षित मॉडल लेने और उसे एक विशिष्ट डाउनस्ट्रीम कार्य या डेटासेट पर आगे प्रशिक्षित करने, उसके सीखे गए अभ्यावेदन को नई आवश्यकताओं के अनुरूप ढालने की प्रक्रिया।
Encoder-Decoder Architectureएक तंत्रिका नेटवर्क संरचना जिसमें एक एनकोडर होता है जो इनपुट को एक अव्यक्त प्रतिनिधित्व में संपीड़ित करता है और एक डिकोडर जो उस प्रतिनिधित्व से आउटपुट उत्पन्न करता है। छवि कैप्शनिंग में उपयोग किया जाता है जहां एनकोडर छवि को संसाधित करता है और डिकोडर टेक्स्ट उत्पन्न करता है।
Tokenizationपाठ को छोटी इकाइयों (टोकन) जैसे शब्दों, उपशब्दों या वर्णों में तोड़ने की प्रक्रिया जिसे तंत्रिका नेटवर्क द्वारा संसाधित किया जा सकता है। विज़ुअल टोकननाइजेशन इसी तरह छवियों को पैच में विभाजित करता है।
Cross-Modal Transferएक पद्धति (उदाहरण के लिए, पाठ) में सीखे गए ज्ञान को दूसरे पद्धति (उदाहरण के लिए, दृष्टि) में प्रदर्शन में सुधार करने के लिए स्थानांतरित करने की क्षमता, सभी पद्धतियों में साझा अर्थ संबंधी अवधारणाओं का लाभ उठाना।
Visual Groundingकिसी छवि में विशिष्ट क्षेत्रों को स्थानीयकृत करने या पहचानने का कार्य जो किसी दी गई प्राकृतिक भाषा अभिव्यक्ति के अनुरूप है, पाठ्य संदर्भों को दृश्य सामग्री से जोड़ता है।
Multimodal Fusionएकाधिक तौर-तरीकों से जानकारी को एकीकृत प्रतिनिधित्व में संयोजित करने की तकनीकें। सामान्य दृष्टिकोणों में प्रारंभिक फ़्यूज़न (कच्चे इनपुट का संयोजन), देर से फ़्यूज़न (उच्च-स्तरीय सुविधाओं का संयोजन), और क्रॉस-अटेंशन फ़्यूज़न शामिल हैं।
Image Patchविज़न ट्रांसफ़ॉर्मर्स में इनपुट इकाई के रूप में उपयोग की जाने वाली छवि का एक छोटा आयताकार क्षेत्र। छवि को गैर-अतिव्यापी पैच के ग्रिड में विभाजित किया गया है, प्रत्येक को एनएलपी में शब्दों के समान एक टोकन के रूप में माना जाता है।
Pre-trainingविशिष्ट कार्यों पर फ़ाइन-ट्यूनिंग से पहले एक बड़े, सामान्य डेटासेट पर एक मॉडल को प्रशिक्षित करने का प्रारंभिक चरण। विज़न-भाषा मॉडल अक्सर इंटरनेट से लाखों छवि-पाठ जोड़ियों पर पूर्व-प्रशिक्षित होते हैं।
Prompt Engineeringइनपुट तैयार करने का अभ्यास एक मॉडल को वांछित आउटपुट की ओर निर्देशित करने के लिए प्रेरित करता है। वीएलएम में, सावधानीपूर्वक डिज़ाइन किए गए टेक्स्ट प्रॉम्प्ट शून्य-शॉट वर्गीकरण और अन्य कार्यों में काफी सुधार कर सकते हैं।
Semantic Similarityयह मापता है कि सामग्री के दो टुकड़ों के अर्थ उनके सतह-स्तर के प्रतिनिधित्व की परवाह किए बिना कितने निकट से संबंधित हैं। वीएलएम में, एक कुत्ते की छवि और 'एक कुत्ता' पाठ में उच्च अर्थ संबंधी समानता होगी।
Feature Extractionकच्चे डेटा से महत्वपूर्ण पैटर्न और विशेषताओं को स्वचालित रूप से सीखने और पहचानने की प्रक्रिया। विज़न एनकोडर छवियों से किनारों, बनावट और वस्तु आकार जैसी दृश्य विशेषताओं को निकालते हैं।
Cosine Similarityएक मीट्रिक जिसका उपयोग यह मापने के लिए किया जाता है कि दो सदिश उनके बीच के कोण की कोज्या की गणना करके कितने समान हैं। वीएलएम में, छवि और टेक्स्ट एम्बेडिंग के बीच कोसाइन समानता यह निर्धारित करती है कि वे शब्दार्थिक रूप से कितनी अच्छी तरह मेल खाते हैं, -1 (विपरीत) से लेकर 1 (समान) तक के मानों के साथ।
Batch Normalizationएक तकनीक जो तंत्रिका नेटवर्क की प्रत्येक परत में इनपुट को सामान्य बनाती है, प्रशिक्षण को स्थिर और तेज करती है। ग्रेडिएंट प्रवाह को बेहतर बनाने और गहरे नेटवर्क के प्रशिक्षण को सक्षम करने के लिए विज़न एनकोडर में व्यापक रूप से उपयोग किया जाता है।
Transfer Learningएक मशीन लर्निंग तकनीक जहां एक कार्य पर प्रशिक्षित मॉडल को एक अलग लेकिन संबंधित कार्य के लिए पुन: उपयोग किया जाता है। सीएलआईपी जैसे वीएलएम ट्रांसफर लर्निंग में उत्कृष्ट हैं क्योंकि उनके सामान्य दृश्य-भाषाई प्रतिनिधित्व को कार्य-विशिष्ट प्रशिक्षण के बिना कई डाउनस्ट्रीम कार्यों पर लागू किया जा सकता है।
Image Captioningकिसी छवि का प्राकृतिक भाषा विवरण स्वचालित रूप से उत्पन्न करने का कार्य। इसके लिए मॉडल को वस्तुओं, उनकी विशेषताओं, स्थानिक संबंधों और गतिविधियों की पहचान करने की आवश्यकता होती है, फिर इस जानकारी को व्यक्त करने वाले व्याकरणिक रूप से सही वाक्य की रचना करनी होती है।
Self-Supervised Learningएक प्रशिक्षण प्रतिमान जहां मॉडल डेटा से प्राप्त प्रीटेक्स्ट कार्यों को हल करके बिना लेबल वाले डेटा से अभ्यावेदन सीखता है। छवि-पाठ युग्मों पर विरोधाभासी शिक्षण स्व-पर्यवेक्षित शिक्षण का एक रूप है जो वीएलएम के लिए अत्यधिक प्रभावी साबित हुआ है।
Multimodal Embeddingएक सीखा हुआ वेक्टर प्रतिनिधित्व जो एक साझा स्थान में कई तौर-तरीकों (जैसे छवि और पाठ) से जानकारी कैप्चर करता है। मल्टीमॉडल एम्बेडिंग क्रॉस-मोडल पुनर्प्राप्ति को सक्षम करती है, जहां एक टेक्स्ट क्वेरी प्रासंगिक छवियां ढूंढ सकती है या एक छवि क्वेरी प्रासंगिक टेक्स्ट विवरण ढूंढ सकती है।
Diffusion Modelएक जेनरेटिव मॉडल जो सीखी गई रिवर्स डिफ्यूजन प्रक्रिया के माध्यम से यादृच्छिक शोर को धीरे-धीरे निरूपित करके डेटा (अक्सर छवियां) बनाना सीखता है। DALL-E 2 और स्टेबल डिफ्यूजन जैसे मॉडल टेक्स्ट विवरण से छवि निर्माण का मार्गदर्शन करने के लिए CLIP टेक्स्ट एम्बेडिंग का उपयोग करते हैं।
Region of Interest (ROI)किसी छवि के भीतर एक विशिष्ट क्षेत्र जो किसी विशेष कार्य के लिए प्रासंगिक है। दृष्टि-भाषा मॉडल में, प्रश्नों का उत्तर देते समय या किसी छवि के भीतर स्थानीयकृत सामग्री के बारे में विवरण तैयार करते समय मॉडल रुचि के विशिष्ट क्षेत्रों पर ध्यान दे सकता है।
Instruction Tuningप्राकृतिक भाषा निर्देशों का पालन करने के लिए एक भाषा मॉडल को प्रशिक्षित करना, इसे विविध कार्यों के लिए अधिक नियंत्रणीय और उपयोगी बनाता है। विज़ुअल इंस्ट्रक्शन ट्यूनिंग इसे इमेज-टेक्स्ट इंस्ट्रक्शन जोड़े तक विस्तारित करती है।
Adapter Layerमूल मॉडल के ज्ञान को संरक्षित करते हुए न्यूनतम पैरामीटर अपडेट के साथ नए कार्यों या तौर-तरीकों के लिए इसे अनुकूलित करने के लिए पूर्व-प्रशिक्षित मॉडल में एक हल्का तंत्रिका नेटवर्क मॉड्यूल डाला गया है।
Vision-Language Pre-trainingविशिष्ट डाउनस्ट्रीम कार्यों पर फ़ाइन-ट्यूनिंग से पहले सामान्य क्रॉस-मोडल अभ्यावेदन सीखने के लिए बड़े पैमाने पर छवि-पाठ डेटा पर एक मॉडल को प्रशिक्षित करने की प्रक्रिया।
Generative Pre-trained Transformer (GPT)ऑटोरेग्रेसिव भाषा मॉडल का एक परिवार जो टोकन द्वारा टेक्स्ट टोकन उत्पन्न करता है। GPT-4V ने दृश्य इनपुट को संसाधित करने के लिए आर्किटेक्चर का विस्तार किया, जिससे एक शक्तिशाली दृष्टि-भाषा मॉडल तैयार हुआ।
RLHF (Reinforcement Learning from Human Feedback)एक प्रशिक्षण तकनीक जो एआई मॉडल को बेहतर बनाने, उनकी सहायता और सुरक्षा में सुधार करने के लिए मानवीय प्राथमिकताओं का उपयोग करती है। छवि समझ की गुणवत्ता में सुधार के लिए मल्टीमॉडल मॉडल पर लागू किया गया।
Multimodal Large Language Model (MLLM)कई प्रकार के इनपुट (पाठ, चित्र, ऑडियो, वीडियो) को संसाधित करने के लिए एक बड़े भाषा मॉडल का विस्तार किया गया। उदाहरणों में GPT-4V, जेमिनी और क्लाउड शामिल हैं, जो पाठ के साथ-साथ दृश्य सामग्री को समझ सकते हैं और तर्क कर सकते हैं।
Few-Shot Learningएक मॉडल की व्यापक पुनर्प्रशिक्षण के बिना, केवल कुछ उदाहरणों से एक नया कार्य सीखने की क्षमता। फ्लेमिंगो जैसे वीएलएम ने विविध दृश्य कार्यों में उल्लेखनीय कुछ-शॉट क्षमताओं का प्रदर्शन किया।
Visual Instruction Tuningछवियों के बारे में प्राकृतिक भाषा निर्देशों का पालन करने के लिए एक दृष्टि-भाषा मॉडल का प्रशिक्षण, जैसे 'इस छवि का विस्तार से वर्णन करें' या 'इस चित्र में क्या गलत है?', एलएलएवीए द्वारा शुरू किया गया।
Cross-Attentionएक ट्रांसफार्मर तंत्र जो एक मोडैलिटी को दूसरे में भाग लेने की अनुमति देता है। वीएलएम में, क्रॉस-अटेंशन भाषा मॉडल को पाठ प्रतिक्रिया उत्पन्न करते समय प्रासंगिक छवि क्षेत्रों में शामिल होने देता है।
DALL-EOpenAI द्वारा एक AI प्रणाली जो पीढ़ी प्रक्रिया को निर्देशित करने के लिए CLIP एम्बेडिंग का उपयोग करके पाठ विवरण से छवियां उत्पन्न करती है। दृष्टि-भाषा समझ की विपरीत दिशा को प्रदर्शित करता है।
Groundingकिसी छवि में विशिष्ट दृश्य तत्वों के साथ अमूर्त भाषा अवधारणाओं को जोड़ने की प्रक्रिया, जैसे कि यह पहचानना कि फोटो में किस वस्तु को वर्णनात्मक वाक्यांश द्वारा संदर्भित किया जा रहा है।
Hallucinationजब कोई वीएलएम उन वस्तुओं, विशेषताओं या संबंधों का विवरण उत्पन्न करता है जो वास्तव में इनपुट छवि में मौजूद नहीं हैं। मतिभ्रम को कम करना एक प्रमुख अनुसंधान चुनौती है।
Object Detectionबाउंडिंग बॉक्स और क्लास लेबल की भविष्यवाणी करके एक छवि के भीतर वस्तुओं की पहचान और स्थानीयकरण करने का कार्य। आधुनिक वीएलएम इसे प्राकृतिक भाषा विवरणों का उपयोग करके खुली-शब्दावली पहचान तक विस्तारित करते हैं।
Image Segmentationकिसी छवि को पिक्सेल स्तर पर सार्थक क्षेत्रों में विभाजित करना। सिमेंटिक विभाजन प्रत्येक पिक्सेल को एक वर्ग के साथ लेबल करता है, जबकि उदाहरण विभाजन एक ही वर्ग की अलग-अलग वस्तुओं को अलग करता है।
Caption Generationकिसी छवि की सामग्री का प्राकृतिक भाषा विवरण स्वचालित रूप से तैयार करने का कार्य। आधुनिक कैप्शनिंग सिस्टम विस्तृत, प्रासंगिक रूप से समृद्ध विवरण उत्पन्न करने के लिए वीएलएम का उपयोग करते हैं जो सरल ऑब्जेक्ट लिस्टिंग से परे जाते हैं।
Multimodal Reasoningतार्किक अनुमान लगाने की क्षमता जिसके लिए कई तौर-तरीकों से जानकारी की आवश्यकता होती है। उदाहरण के लिए, 'क्या कप गिरने की संभावना है?' दृश्य दृश्य ज्यामिति और भौतिक तर्क दोनों को समझने की आवश्यकता है।
LAIONबड़े पैमाने पर आर्टिफिशियल इंटेलिजेंस ओपन नेटवर्क - एक गैर-लाभकारी संस्था जिसने कई दृष्टि-भाषा मॉडल को प्रशिक्षित करने के लिए बड़े पैमाने पर ओपन-सोर्स छवि-पाठ डेटासेट (5.85 बिलियन जोड़े के साथ LAION-5B) बनाया।
Visual Encoderवीएलएम का घटक जो छवियों को संसाधित करता है और दृश्य विशेषताओं को निकालता है। सामान्य आर्किटेक्चर में विज़न ट्रांसफ़ॉर्मर्स (ViT), ConvNeXt और CLIP का विज़ुअल एनकोडर शामिल हैं।
Q-FormerBLIP-2 में उपयोग किया जाने वाला एक हल्का ट्रांसफार्मर मॉड्यूल जो एक जमे हुए छवि एनकोडर और एक जमे हुए बड़े भाषा मॉडल को जोड़ता है, जो भाषा निर्माण के लिए सबसे अधिक जानकारीपूर्ण दृश्य सुविधाओं को निकालना सीखता है।
Masked Image Modelingएक स्व-पर्यवेक्षित पूर्व-प्रशिक्षण तकनीक जहां एक छवि के कुछ हिस्सों को छिपाया जाता है (छिपाया जाता है) और मॉडल को प्रक्रिया में समृद्ध दृश्य प्रतिनिधित्व सीखते हुए, गायब सामग्री की भविष्यवाणी करनी चाहिए।