molmo-vision-language

यह क्या है?

🎯 सिम्युलेटर टिप्स

📚 शब्दावली

Attention Mechanism

एक तंत्रिका नेटवर्क घटक जो मॉडल को आउटपुट उत्पन्न करते समय इनपुट के प्रासंगिक भागों पर ध्यान केंद्रित करने की अनुमति देता है। दृष्टि-भाषा मॉडल में, क्रॉस-अटेंशन तंत्र मॉडल को पाठ संसाधित करते समय प्रासंगिक छवि क्षेत्रों में भाग लेने में सक्षम बनाता है और इसके विपरीत।

Contrastive Learning

एक स्व-पर्यवेक्षित शिक्षण दृष्टिकोण जो नकारात्मक जोड़ियों (गैर-मिलान नमूनों) के खिलाफ सकारात्मक जोड़े (मिलान नमूने) के विपरीत मॉडल को प्रशिक्षित करता है, मॉडल को भेदभावपूर्ण प्रतिनिधित्व सीखने के लिए प्रोत्साहित करता है।

Embedding Space

एक सतत सदिश स्थान जहां डेटा बिंदुओं को सघन संख्यात्मक सदिशों के रूप में दर्शाया जाता है। दृष्टि-भाषा मॉडल में, छवियों और पाठ को एक साझा एम्बेडिंग स्थान में मैप किया जाता है जहां अर्थ संबंधी समानता ज्यामितीय निकटता से मेल खाती है।

Zero-Shot Learning

संबंधित कार्यों या डेटा पर प्रशिक्षण से हस्तांतरित ज्ञान का लाभ उठाकर, कार्यों को करने या उन श्रेणियों को पहचानने की मॉडल की क्षमता जिन पर इसे स्पष्ट रूप से प्रशिक्षित नहीं किया गया था।

Fine-Tuning

एक पूर्व-प्रशिक्षित मॉडल लेने और उसे एक विशिष्ट डाउनस्ट्रीम कार्य या डेटासेट पर आगे प्रशिक्षित करने, उसके सीखे गए अभ्यावेदन को नई आवश्यकताओं के अनुरूप ढालने की प्रक्रिया।

Encoder-Decoder Architecture

एक तंत्रिका नेटवर्क संरचना जिसमें एक एनकोडर होता है जो इनपुट को एक अव्यक्त प्रतिनिधित्व में संपीड़ित करता है और एक डिकोडर जो उस प्रतिनिधित्व से आउटपुट उत्पन्न करता है। छवि कैप्शनिंग में उपयोग किया जाता है जहां एनकोडर छवि को संसाधित करता है और डिकोडर टेक्स्ट उत्पन्न करता है।

Tokenization

पाठ को छोटी इकाइयों (टोकन) जैसे शब्दों, उपशब्दों या वर्णों में तोड़ने की प्रक्रिया जिसे तंत्रिका नेटवर्क द्वारा संसाधित किया जा सकता है। विज़ुअल टोकननाइजेशन इसी तरह छवियों को पैच में विभाजित करता है।

Cross-Modal Transfer

एक पद्धति (उदाहरण के लिए, पाठ) में सीखे गए ज्ञान को दूसरे पद्धति (उदाहरण के लिए, दृष्टि) में प्रदर्शन में सुधार करने के लिए स्थानांतरित करने की क्षमता, सभी पद्धतियों में साझा अर्थ संबंधी अवधारणाओं का लाभ उठाना।

Visual Grounding

किसी छवि में विशिष्ट क्षेत्रों को स्थानीयकृत करने या पहचानने का कार्य जो किसी दी गई प्राकृतिक भाषा अभिव्यक्ति के अनुरूप है, पाठ्य संदर्भों को दृश्य सामग्री से जोड़ता है।

Multimodal Fusion

एकाधिक तौर-तरीकों से जानकारी को एकीकृत प्रतिनिधित्व में संयोजित करने की तकनीकें। सामान्य दृष्टिकोणों में प्रारंभिक फ़्यूज़न (कच्चे इनपुट का संयोजन), देर से फ़्यूज़न (उच्च-स्तरीय सुविधाओं का संयोजन), और क्रॉस-अटेंशन फ़्यूज़न शामिल हैं।

Image Patch

विज़न ट्रांसफ़ॉर्मर्स में इनपुट इकाई के रूप में उपयोग की जाने वाली छवि का एक छोटा आयताकार क्षेत्र। छवि को गैर-अतिव्यापी पैच के ग्रिड में विभाजित किया गया है, प्रत्येक को एनएलपी में शब्दों के समान एक टोकन के रूप में माना जाता है।

Pre-training

विशिष्ट कार्यों पर फ़ाइन-ट्यूनिंग से पहले एक बड़े, सामान्य डेटासेट पर एक मॉडल को प्रशिक्षित करने का प्रारंभिक चरण। विज़न-भाषा मॉडल अक्सर इंटरनेट से लाखों छवि-पाठ जोड़ियों पर पूर्व-प्रशिक्षित होते हैं।

Prompt Engineering

इनपुट तैयार करने का अभ्यास एक मॉडल को वांछित आउटपुट की ओर निर्देशित करने के लिए प्रेरित करता है। वीएलएम में, सावधानीपूर्वक डिज़ाइन किए गए टेक्स्ट प्रॉम्प्ट शून्य-शॉट वर्गीकरण और अन्य कार्यों में काफी सुधार कर सकते हैं।

Semantic Similarity

यह मापता है कि सामग्री के दो टुकड़ों के अर्थ उनके सतह-स्तर के प्रतिनिधित्व की परवाह किए बिना कितने निकट से संबंधित हैं। वीएलएम में, एक कुत्ते की छवि और 'एक कुत्ता' पाठ में उच्च अर्थ संबंधी समानता होगी।

Feature Extraction

कच्चे डेटा से महत्वपूर्ण पैटर्न और विशेषताओं को स्वचालित रूप से सीखने और पहचानने की प्रक्रिया। विज़न एनकोडर छवियों से किनारों, बनावट और वस्तु आकार जैसी दृश्य विशेषताओं को निकालते हैं।

Cosine Similarity

एक मीट्रिक जिसका उपयोग यह मापने के लिए किया जाता है कि दो सदिश उनके बीच के कोण की कोज्या की गणना करके कितने समान हैं। वीएलएम में, छवि और टेक्स्ट एम्बेडिंग के बीच कोसाइन समानता यह निर्धारित करती है कि वे शब्दार्थिक रूप से कितनी अच्छी तरह मेल खाते हैं, -1 (विपरीत) से लेकर 1 (समान) तक के मानों के साथ।

Batch Normalization

एक तकनीक जो तंत्रिका नेटवर्क की प्रत्येक परत में इनपुट को सामान्य बनाती है, प्रशिक्षण को स्थिर और तेज करती है। ग्रेडिएंट प्रवाह को बेहतर बनाने और गहरे नेटवर्क के प्रशिक्षण को सक्षम करने के लिए विज़न एनकोडर में व्यापक रूप से उपयोग किया जाता है।

Transfer Learning

एक मशीन लर्निंग तकनीक जहां एक कार्य पर प्रशिक्षित मॉडल को एक अलग लेकिन संबंधित कार्य के लिए पुन: उपयोग किया जाता है। सीएलआईपी जैसे वीएलएम ट्रांसफर लर्निंग में उत्कृष्ट हैं क्योंकि उनके सामान्य दृश्य-भाषाई प्रतिनिधित्व को कार्य-विशिष्ट प्रशिक्षण के बिना कई डाउनस्ट्रीम कार्यों पर लागू किया जा सकता है।

Image Captioning

किसी छवि का प्राकृतिक भाषा विवरण स्वचालित रूप से उत्पन्न करने का कार्य। इसके लिए मॉडल को वस्तुओं, उनकी विशेषताओं, स्थानिक संबंधों और गतिविधियों की पहचान करने की आवश्यकता होती है, फिर इस जानकारी को व्यक्त करने वाले व्याकरणिक रूप से सही वाक्य की रचना करनी होती है।

Self-Supervised Learning

एक प्रशिक्षण प्रतिमान जहां मॉडल डेटा से प्राप्त प्रीटेक्स्ट कार्यों को हल करके बिना लेबल वाले डेटा से अभ्यावेदन सीखता है। छवि-पाठ युग्मों पर विरोधाभासी शिक्षण स्व-पर्यवेक्षित शिक्षण का एक रूप है जो वीएलएम के लिए अत्यधिक प्रभावी साबित हुआ है।

Multimodal Embedding

एक सीखा हुआ वेक्टर प्रतिनिधित्व जो एक साझा स्थान में कई तौर-तरीकों (जैसे छवि और पाठ) से जानकारी कैप्चर करता है। मल्टीमॉडल एम्बेडिंग क्रॉस-मोडल पुनर्प्राप्ति को सक्षम करती है, जहां एक टेक्स्ट क्वेरी प्रासंगिक छवियां ढूंढ सकती है या एक छवि क्वेरी प्रासंगिक टेक्स्ट विवरण ढूंढ सकती है।

Diffusion Model

एक जेनरेटिव मॉडल जो सीखी गई रिवर्स डिफ्यूजन प्रक्रिया के माध्यम से यादृच्छिक शोर को धीरे-धीरे निरूपित करके डेटा (अक्सर छवियां) बनाना सीखता है। DALL-E 2 और स्टेबल डिफ्यूजन जैसे मॉडल टेक्स्ट विवरण से छवि निर्माण का मार्गदर्शन करने के लिए CLIP टेक्स्ट एम्बेडिंग का उपयोग करते हैं।

Region of Interest (ROI)

किसी छवि के भीतर एक विशिष्ट क्षेत्र जो किसी विशेष कार्य के लिए प्रासंगिक है। दृष्टि-भाषा मॉडल में, प्रश्नों का उत्तर देते समय या किसी छवि के भीतर स्थानीयकृत सामग्री के बारे में विवरण तैयार करते समय मॉडल रुचि के विशिष्ट क्षेत्रों पर ध्यान दे सकता है।

Instruction Tuning

प्राकृतिक भाषा निर्देशों का पालन करने के लिए एक भाषा मॉडल को प्रशिक्षित करना, इसे विविध कार्यों के लिए अधिक नियंत्रणीय और उपयोगी बनाता है। विज़ुअल इंस्ट्रक्शन ट्यूनिंग इसे इमेज-टेक्स्ट इंस्ट्रक्शन जोड़े तक विस्तारित करती है।

Adapter Layer

मूल मॉडल के ज्ञान को संरक्षित करते हुए न्यूनतम पैरामीटर अपडेट के साथ नए कार्यों या तौर-तरीकों के लिए इसे अनुकूलित करने के लिए पूर्व-प्रशिक्षित मॉडल में एक हल्का तंत्रिका नेटवर्क मॉड्यूल डाला गया है।

Vision-Language Pre-training

विशिष्ट डाउनस्ट्रीम कार्यों पर फ़ाइन-ट्यूनिंग से पहले सामान्य क्रॉस-मोडल अभ्यावेदन सीखने के लिए बड़े पैमाने पर छवि-पाठ डेटा पर एक मॉडल को प्रशिक्षित करने की प्रक्रिया।

Generative Pre-trained Transformer (GPT)

ऑटोरेग्रेसिव भाषा मॉडल का एक परिवार जो टोकन द्वारा टेक्स्ट टोकन उत्पन्न करता है। GPT-4V ने दृश्य इनपुट को संसाधित करने के लिए आर्किटेक्चर का विस्तार किया, जिससे एक शक्तिशाली दृष्टि-भाषा मॉडल तैयार हुआ।

RLHF (Reinforcement Learning from Human Feedback)

एक प्रशिक्षण तकनीक जो एआई मॉडल को बेहतर बनाने, उनकी सहायता और सुरक्षा में सुधार करने के लिए मानवीय प्राथमिकताओं का उपयोग करती है। छवि समझ की गुणवत्ता में सुधार के लिए मल्टीमॉडल मॉडल पर लागू किया गया।

Multimodal Large Language Model (MLLM)

कई प्रकार के इनपुट (पाठ, चित्र, ऑडियो, वीडियो) को संसाधित करने के लिए एक बड़े भाषा मॉडल का विस्तार किया गया। उदाहरणों में GPT-4V, जेमिनी और क्लाउड शामिल हैं, जो पाठ के साथ-साथ दृश्य सामग्री को समझ सकते हैं और तर्क कर सकते हैं।

Few-Shot Learning

एक मॉडल की व्यापक पुनर्प्रशिक्षण के बिना, केवल कुछ उदाहरणों से एक नया कार्य सीखने की क्षमता। फ्लेमिंगो जैसे वीएलएम ने विविध दृश्य कार्यों में उल्लेखनीय कुछ-शॉट क्षमताओं का प्रदर्शन किया।

Visual Instruction Tuning

छवियों के बारे में प्राकृतिक भाषा निर्देशों का पालन करने के लिए एक दृष्टि-भाषा मॉडल का प्रशिक्षण, जैसे 'इस छवि का विस्तार से वर्णन करें' या 'इस चित्र में क्या गलत है?', एलएलएवीए द्वारा शुरू किया गया।

Cross-Attention

एक ट्रांसफार्मर तंत्र जो एक मोडैलिटी को दूसरे में भाग लेने की अनुमति देता है। वीएलएम में, क्रॉस-अटेंशन भाषा मॉडल को पाठ प्रतिक्रिया उत्पन्न करते समय प्रासंगिक छवि क्षेत्रों में शामिल होने देता है।

DALL-E

OpenAI द्वारा एक AI प्रणाली जो पीढ़ी प्रक्रिया को निर्देशित करने के लिए CLIP एम्बेडिंग का उपयोग करके पाठ विवरण से छवियां उत्पन्न करती है। दृष्टि-भाषा समझ की विपरीत दिशा को प्रदर्शित करता है।

Grounding

किसी छवि में विशिष्ट दृश्य तत्वों के साथ अमूर्त भाषा अवधारणाओं को जोड़ने की प्रक्रिया, जैसे कि यह पहचानना कि फोटो में किस वस्तु को वर्णनात्मक वाक्यांश द्वारा संदर्भित किया जा रहा है।

Hallucination

जब कोई वीएलएम उन वस्तुओं, विशेषताओं या संबंधों का विवरण उत्पन्न करता है जो वास्तव में इनपुट छवि में मौजूद नहीं हैं। मतिभ्रम को कम करना एक प्रमुख अनुसंधान चुनौती है।

Object Detection

बाउंडिंग बॉक्स और क्लास लेबल की भविष्यवाणी करके एक छवि के भीतर वस्तुओं की पहचान और स्थानीयकरण करने का कार्य। आधुनिक वीएलएम इसे प्राकृतिक भाषा विवरणों का उपयोग करके खुली-शब्दावली पहचान तक विस्तारित करते हैं।

Image Segmentation

किसी छवि को पिक्सेल स्तर पर सार्थक क्षेत्रों में विभाजित करना। सिमेंटिक विभाजन प्रत्येक पिक्सेल को एक वर्ग के साथ लेबल करता है, जबकि उदाहरण विभाजन एक ही वर्ग की अलग-अलग वस्तुओं को अलग करता है।

Caption Generation

किसी छवि की सामग्री का प्राकृतिक भाषा विवरण स्वचालित रूप से तैयार करने का कार्य। आधुनिक कैप्शनिंग सिस्टम विस्तृत, प्रासंगिक रूप से समृद्ध विवरण उत्पन्न करने के लिए वीएलएम का उपयोग करते हैं जो सरल ऑब्जेक्ट लिस्टिंग से परे जाते हैं।

Multimodal Reasoning

तार्किक अनुमान लगाने की क्षमता जिसके लिए कई तौर-तरीकों से जानकारी की आवश्यकता होती है। उदाहरण के लिए, 'क्या कप गिरने की संभावना है?' दृश्य दृश्य ज्यामिति और भौतिक तर्क दोनों को समझने की आवश्यकता है।

LAION

बड़े पैमाने पर आर्टिफिशियल इंटेलिजेंस ओपन नेटवर्क - एक गैर-लाभकारी संस्था जिसने कई दृष्टि-भाषा मॉडल को प्रशिक्षित करने के लिए बड़े पैमाने पर ओपन-सोर्स छवि-पाठ डेटासेट (5.85 बिलियन जोड़े के साथ LAION-5B) बनाया।

Visual Encoder

वीएलएम का घटक जो छवियों को संसाधित करता है और दृश्य विशेषताओं को निकालता है। सामान्य आर्किटेक्चर में विज़न ट्रांसफ़ॉर्मर्स (ViT), ConvNeXt और CLIP का विज़ुअल एनकोडर शामिल हैं।

Q-Former

BLIP-2 में उपयोग किया जाने वाला एक हल्का ट्रांसफार्मर मॉड्यूल जो एक जमे हुए छवि एनकोडर और एक जमे हुए बड़े भाषा मॉडल को जोड़ता है, जो भाषा निर्माण के लिए सबसे अधिक जानकारीपूर्ण दृश्य सुविधाओं को निकालना सीखता है।

Masked Image Modeling

एक स्व-पर्यवेक्षित पूर्व-प्रशिक्षण तकनीक जहां एक छवि के कुछ हिस्सों को छिपाया जाता है (छिपाया जाता है) और मॉडल को प्रक्रिया में समृद्ध दृश्य प्रतिनिधित्व सीखते हुए, गायब सामग्री की भविष्यवाणी करनी चाहिए।

🏆 प्रमुख व्यक्ति

Alec Radford (2021)

ओपनएआई के प्रमुख शोधकर्ता जिन्होंने सीएलआईपी (कॉन्ट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग) का सह-निर्माण किया, यह प्रदर्शित करते हुए कि प्राकृतिक भाषा पर्यवेक्षण से दृश्य प्रतिनिधित्व सीखना उल्लेखनीय शून्य-शॉट क्षमताओं के साथ अत्यधिक हस्तांतरणीय मॉडल का उत्पादन कर सकता है।

Junnan Li (2022)

सेल्सफोर्स रिसर्च के प्रमुख शोधकर्ता, जिन्होंने बीएलआईपी (बूटस्ट्रैपिंग लैंग्वेज-इमेज प्री-ट्रेनिंग) और बीएलआईपी-2 विकसित किया, कैप्शनिंग और फ़िल्टरिंग का उपयोग करके शोर वाले वेब डेटा से बूटस्ट्रैपिंग विज़न-लैंग्वेज प्री-ट्रेनिंग के लिए नई तकनीकों की शुरुआत की।

Jean-Baptiste Alayrac (2022)

डीपमाइंड के शोधकर्ता, जिन्होंने फ्लेमिंगो के विकास का सह-नेतृत्व किया, एक दृश्य भाषा मॉडल जो क्रॉस-अटेंशन के माध्यम से दृश्य इनपुट पर जमे हुए भाषा मॉडल को कंडीशनिंग करके मल्टीमॉडल कार्यों की एक विस्तृत श्रृंखला पर कुछ-शॉट सीखने में सक्षम है।

Alexey Dosovitskiy (2021)

Google Brain में विज़न ट्रांसफ़ॉर्मर (ViT) के निर्माण का नेतृत्व किया, जिससे पता चला कि शुद्ध ट्रांसफ़ॉर्मर आर्किटेक्चर छवि वर्गीकरण पर उत्कृष्ट परिणाम प्राप्त कर सकते हैं, जिससे कई VLM की विज़ुअल रीढ़ बनती है।

Haotian Liu (2023)

एलएलएवीए (बड़ी भाषा और दृष्टि सहायक) बनाया गया, जिसने विज़ुअल इंस्ट्रक्शन ट्यूनिंग के दृष्टिकोण को आगे बढ़ाया, जिसने बड़े भाषा मॉडल को कुशल फाइन-ट्यूनिंग के माध्यम से छवियों के बारे में प्रसंस्करण और तर्क करने में सक्षम बनाया।

Dario Amodei (2023)

एंथ्रोपिक की सह-स्थापना की और क्लाउड के विकास में योगदान दिया, मल्टीमॉडल एआई सुरक्षा को आगे बढ़ाया और प्रदर्शित किया कि कैसे दृष्टि-भाषा मॉडल को अधिक सहायक, हानिरहित और ईमानदार बनाया जा सकता है।

🎓 शिक्षण संसाधन

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
मूलभूत सीएलआईपी पेपर दर्शाता है कि 400 मिलियन छवि-पाठ जोड़े पर विरोधाभासी पूर्व-प्रशिक्षण शक्तिशाली शून्य-शॉट दृश्य वर्गीकरण और छवि-पाठ पुनर्प्राप्ति को सक्षम बनाता है।
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
बीएलआईपी का परिचय देता है, एक ऐसा ढांचा जो शोर वाले वेब डेटा से कैप्शन को बूटस्ट्रैप करता है और दृष्टि-भाषा समझ और पीढ़ी कार्यों पर अत्याधुनिक परिणाम प्राप्त करता है।
Flamingo: a Visual Language Model for Few-Shot Learning
फ्लेमिंगो प्रस्तुत करता है, जो क्रॉस-अटेंशन का उपयोग करके शक्तिशाली पूर्व-प्रशिक्षित दृष्टि और भाषा मॉडल को जोड़ता है और विविध मल्टीमॉडल कार्यों पर मजबूत कुछ-शॉट सीखने का प्रदर्शन करता है।
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
विज़न ट्रांसफ़ॉर्मर (वीआईटी) पेपर दर्शाता है कि शुद्ध ट्रांसफ़ॉर्मर आर्किटेक्चर छवि वर्गीकरण पर उत्कृष्ट परिणाम प्राप्त कर सकते हैं, जो कई वीएलएम विज़न एनकोडर के लिए आधार बनाते हैं।
Deep Learning for Vision Systems
दृश्य समझ के लिए कंप्यूटर विज़न के बुनियादी सिद्धांतों और गहन शिक्षण आर्किटेक्चर को कवर करने वाली एक व्यावहारिक मार्गदर्शिका, जो दृष्टि-भाषा मॉडल को समझने के लिए आवश्यक पृष्ठभूमि प्रदान करती है।
Dive into Deep Learning
कोड, गणित और चर्चाओं के साथ एक इंटरैक्टिव गहन शिक्षण पाठ्यपुस्तक, जिसमें वीएलएम के लिए महत्वपूर्ण ध्यान तंत्र और ट्रांसफार्मर आर्किटेक्चर पर अध्याय शामिल हैं।
Foundations of Computer Vision
मल्टीमॉडल लर्निंग और विज़न-भाषा एकीकरण सहित आधुनिक कंप्यूटर विज़न को कवर करने वाली एमआईटी की एक व्यापक पाठ्यपुस्तक।
CLIP: Connecting Text and Images - OpenAI Research Explanation
सीएलआईपी अपनी शून्य-शॉट क्षमताओं के दृश्य प्रदर्शन के साथ, विपरीत शिक्षण का उपयोग करके छवियों और पाठ को कैसे जोड़ना सीखता है, इसकी एक सुलभ व्याख्या।
Stanford CS231n: Deep Learning for Computer Vision
स्टैनफोर्ड का प्रसिद्ध कंप्यूटर विज़न पाठ्यक्रम सीएनएन, ट्रांसफार्मर और आधुनिक आर्किटेक्चर को कवर करता है जो विज़न-भाषा मॉडल की नींव बनाते हैं।
Andrej Karpathy - Let's Build GPT: From Scratch
भाषा मॉडल पर ध्यान केंद्रित करते हुए, ट्रांसफॉर्मर आर्किटेक्चर का यह विस्तृत विवरण वीएलएम के टेक्स्ट प्रोसेसिंग घटक के लिए आवश्यक समझ प्रदान करता है।

💬 शिक्षार्थियों के लिए संदेश

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

शुरू करें

मुफ़्त, साइनअप नहीं

शुरू करें →