🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 अभी आज़माएं

यह क्या है?

🎯 सिम्युलेटर टिप्स

📚 शब्दावली

Attention Mechanism
एक तंत्रिका नेटवर्क घटक जो मॉडल को आउटपुट उत्पन्न करते समय इनपुट के प्रासंगिक भागों पर ध्यान केंद्रित करने की अनुमति देता है। दृष्टि-भाषा मॉडल में, क्रॉस-अटेंशन तंत्र मॉडल को पाठ संसाधित करते समय प्रासंगिक छवि क्षेत्रों में भाग लेने में सक्षम बनाता है और इसके विपरीत।
Contrastive Learning
एक स्व-पर्यवेक्षित शिक्षण दृष्टिकोण जो नकारात्मक जोड़ियों (गैर-मिलान नमूनों) के खिलाफ सकारात्मक जोड़े (मिलान नमूने) के विपरीत मॉडल को प्रशिक्षित करता है, मॉडल को भेदभावपूर्ण प्रतिनिधित्व सीखने के लिए प्रोत्साहित करता है।
Embedding Space
एक सतत सदिश स्थान जहां डेटा बिंदुओं को सघन संख्यात्मक सदिशों के रूप में दर्शाया जाता है। दृष्टि-भाषा मॉडल में, छवियों और पाठ को एक साझा एम्बेडिंग स्थान में मैप किया जाता है जहां अर्थ संबंधी समानता ज्यामितीय निकटता से मेल खाती है।
Zero-Shot Learning
संबंधित कार्यों या डेटा पर प्रशिक्षण से हस्तांतरित ज्ञान का लाभ उठाकर, कार्यों को करने या उन श्रेणियों को पहचानने की मॉडल की क्षमता जिन पर इसे स्पष्ट रूप से प्रशिक्षित नहीं किया गया था।
Fine-Tuning
एक पूर्व-प्रशिक्षित मॉडल लेने और उसे एक विशिष्ट डाउनस्ट्रीम कार्य या डेटासेट पर आगे प्रशिक्षित करने, उसके सीखे गए अभ्यावेदन को नई आवश्यकताओं के अनुरूप ढालने की प्रक्रिया।
Encoder-Decoder Architecture
एक तंत्रिका नेटवर्क संरचना जिसमें एक एनकोडर होता है जो इनपुट को एक अव्यक्त प्रतिनिधित्व में संपीड़ित करता है और एक डिकोडर जो उस प्रतिनिधित्व से आउटपुट उत्पन्न करता है। छवि कैप्शनिंग में उपयोग किया जाता है जहां एनकोडर छवि को संसाधित करता है और डिकोडर टेक्स्ट उत्पन्न करता है।
Tokenization
पाठ को छोटी इकाइयों (टोकन) जैसे शब्दों, उपशब्दों या वर्णों में तोड़ने की प्रक्रिया जिसे तंत्रिका नेटवर्क द्वारा संसाधित किया जा सकता है। विज़ुअल टोकननाइजेशन इसी तरह छवियों को पैच में विभाजित करता है।
Cross-Modal Transfer
एक पद्धति (उदाहरण के लिए, पाठ) में सीखे गए ज्ञान को दूसरे पद्धति (उदाहरण के लिए, दृष्टि) में प्रदर्शन में सुधार करने के लिए स्थानांतरित करने की क्षमता, सभी पद्धतियों में साझा अर्थ संबंधी अवधारणाओं का लाभ उठाना।
Visual Grounding
किसी छवि में विशिष्ट क्षेत्रों को स्थानीयकृत करने या पहचानने का कार्य जो किसी दी गई प्राकृतिक भाषा अभिव्यक्ति के अनुरूप है, पाठ्य संदर्भों को दृश्य सामग्री से जोड़ता है।
Multimodal Fusion
एकाधिक तौर-तरीकों से जानकारी को एकीकृत प्रतिनिधित्व में संयोजित करने की तकनीकें। सामान्य दृष्टिकोणों में प्रारंभिक फ़्यूज़न (कच्चे इनपुट का संयोजन), देर से फ़्यूज़न (उच्च-स्तरीय सुविधाओं का संयोजन), और क्रॉस-अटेंशन फ़्यूज़न शामिल हैं।
Image Patch
विज़न ट्रांसफ़ॉर्मर्स में इनपुट इकाई के रूप में उपयोग की जाने वाली छवि का एक छोटा आयताकार क्षेत्र। छवि को गैर-अतिव्यापी पैच के ग्रिड में विभाजित किया गया है, प्रत्येक को एनएलपी में शब्दों के समान एक टोकन के रूप में माना जाता है।
Pre-training
विशिष्ट कार्यों पर फ़ाइन-ट्यूनिंग से पहले एक बड़े, सामान्य डेटासेट पर एक मॉडल को प्रशिक्षित करने का प्रारंभिक चरण। विज़न-भाषा मॉडल अक्सर इंटरनेट से लाखों छवि-पाठ जोड़ियों पर पूर्व-प्रशिक्षित होते हैं।
Prompt Engineering
इनपुट तैयार करने का अभ्यास एक मॉडल को वांछित आउटपुट की ओर निर्देशित करने के लिए प्रेरित करता है। वीएलएम में, सावधानीपूर्वक डिज़ाइन किए गए टेक्स्ट प्रॉम्प्ट शून्य-शॉट वर्गीकरण और अन्य कार्यों में काफी सुधार कर सकते हैं।
Semantic Similarity
यह मापता है कि सामग्री के दो टुकड़ों के अर्थ उनके सतह-स्तर के प्रतिनिधित्व की परवाह किए बिना कितने निकट से संबंधित हैं। वीएलएम में, एक कुत्ते की छवि और 'एक कुत्ता' पाठ में उच्च अर्थ संबंधी समानता होगी।
Feature Extraction
कच्चे डेटा से महत्वपूर्ण पैटर्न और विशेषताओं को स्वचालित रूप से सीखने और पहचानने की प्रक्रिया। विज़न एनकोडर छवियों से किनारों, बनावट और वस्तु आकार जैसी दृश्य विशेषताओं को निकालते हैं।
Cosine Similarity
एक मीट्रिक जिसका उपयोग यह मापने के लिए किया जाता है कि दो सदिश उनके बीच के कोण की कोज्या की गणना करके कितने समान हैं। वीएलएम में, छवि और टेक्स्ट एम्बेडिंग के बीच कोसाइन समानता यह निर्धारित करती है कि वे शब्दार्थिक रूप से कितनी अच्छी तरह मेल खाते हैं, -1 (विपरीत) से लेकर 1 (समान) तक के मानों के साथ।
Batch Normalization
एक तकनीक जो तंत्रिका नेटवर्क की प्रत्येक परत में इनपुट को सामान्य बनाती है, प्रशिक्षण को स्थिर और तेज करती है। ग्रेडिएंट प्रवाह को बेहतर बनाने और गहरे नेटवर्क के प्रशिक्षण को सक्षम करने के लिए विज़न एनकोडर में व्यापक रूप से उपयोग किया जाता है।
Transfer Learning
एक मशीन लर्निंग तकनीक जहां एक कार्य पर प्रशिक्षित मॉडल को एक अलग लेकिन संबंधित कार्य के लिए पुन: उपयोग किया जाता है। सीएलआईपी जैसे वीएलएम ट्रांसफर लर्निंग में उत्कृष्ट हैं क्योंकि उनके सामान्य दृश्य-भाषाई प्रतिनिधित्व को कार्य-विशिष्ट प्रशिक्षण के बिना कई डाउनस्ट्रीम कार्यों पर लागू किया जा सकता है।
Image Captioning
किसी छवि का प्राकृतिक भाषा विवरण स्वचालित रूप से उत्पन्न करने का कार्य। इसके लिए मॉडल को वस्तुओं, उनकी विशेषताओं, स्थानिक संबंधों और गतिविधियों की पहचान करने की आवश्यकता होती है, फिर इस जानकारी को व्यक्त करने वाले व्याकरणिक रूप से सही वाक्य की रचना करनी होती है।
Self-Supervised Learning
एक प्रशिक्षण प्रतिमान जहां मॉडल डेटा से प्राप्त प्रीटेक्स्ट कार्यों को हल करके बिना लेबल वाले डेटा से अभ्यावेदन सीखता है। छवि-पाठ युग्मों पर विरोधाभासी शिक्षण स्व-पर्यवेक्षित शिक्षण का एक रूप है जो वीएलएम के लिए अत्यधिक प्रभावी साबित हुआ है।
Multimodal Embedding
एक सीखा हुआ वेक्टर प्रतिनिधित्व जो एक साझा स्थान में कई तौर-तरीकों (जैसे छवि और पाठ) से जानकारी कैप्चर करता है। मल्टीमॉडल एम्बेडिंग क्रॉस-मोडल पुनर्प्राप्ति को सक्षम करती है, जहां एक टेक्स्ट क्वेरी प्रासंगिक छवियां ढूंढ सकती है या एक छवि क्वेरी प्रासंगिक टेक्स्ट विवरण ढूंढ सकती है।
Diffusion Model
एक जेनरेटिव मॉडल जो सीखी गई रिवर्स डिफ्यूजन प्रक्रिया के माध्यम से यादृच्छिक शोर को धीरे-धीरे निरूपित करके डेटा (अक्सर छवियां) बनाना सीखता है। DALL-E 2 और स्टेबल डिफ्यूजन जैसे मॉडल टेक्स्ट विवरण से छवि निर्माण का मार्गदर्शन करने के लिए CLIP टेक्स्ट एम्बेडिंग का उपयोग करते हैं।
Region of Interest (ROI)
किसी छवि के भीतर एक विशिष्ट क्षेत्र जो किसी विशेष कार्य के लिए प्रासंगिक है। दृष्टि-भाषा मॉडल में, प्रश्नों का उत्तर देते समय या किसी छवि के भीतर स्थानीयकृत सामग्री के बारे में विवरण तैयार करते समय मॉडल रुचि के विशिष्ट क्षेत्रों पर ध्यान दे सकता है।
Instruction Tuning
प्राकृतिक भाषा निर्देशों का पालन करने के लिए एक भाषा मॉडल को प्रशिक्षित करना, इसे विविध कार्यों के लिए अधिक नियंत्रणीय और उपयोगी बनाता है। विज़ुअल इंस्ट्रक्शन ट्यूनिंग इसे इमेज-टेक्स्ट इंस्ट्रक्शन जोड़े तक विस्तारित करती है।
Adapter Layer
मूल मॉडल के ज्ञान को संरक्षित करते हुए न्यूनतम पैरामीटर अपडेट के साथ नए कार्यों या तौर-तरीकों के लिए इसे अनुकूलित करने के लिए पूर्व-प्रशिक्षित मॉडल में एक हल्का तंत्रिका नेटवर्क मॉड्यूल डाला गया है।
Vision-Language Pre-training
विशिष्ट डाउनस्ट्रीम कार्यों पर फ़ाइन-ट्यूनिंग से पहले सामान्य क्रॉस-मोडल अभ्यावेदन सीखने के लिए बड़े पैमाने पर छवि-पाठ डेटा पर एक मॉडल को प्रशिक्षित करने की प्रक्रिया।
Generative Pre-trained Transformer (GPT)
ऑटोरेग्रेसिव भाषा मॉडल का एक परिवार जो टोकन द्वारा टेक्स्ट टोकन उत्पन्न करता है। GPT-4V ने दृश्य इनपुट को संसाधित करने के लिए आर्किटेक्चर का विस्तार किया, जिससे एक शक्तिशाली दृष्टि-भाषा मॉडल तैयार हुआ।
RLHF (Reinforcement Learning from Human Feedback)
एक प्रशिक्षण तकनीक जो एआई मॉडल को बेहतर बनाने, उनकी सहायता और सुरक्षा में सुधार करने के लिए मानवीय प्राथमिकताओं का उपयोग करती है। छवि समझ की गुणवत्ता में सुधार के लिए मल्टीमॉडल मॉडल पर लागू किया गया।
Multimodal Large Language Model (MLLM)
कई प्रकार के इनपुट (पाठ, चित्र, ऑडियो, वीडियो) को संसाधित करने के लिए एक बड़े भाषा मॉडल का विस्तार किया गया। उदाहरणों में GPT-4V, जेमिनी और क्लाउड शामिल हैं, जो पाठ के साथ-साथ दृश्य सामग्री को समझ सकते हैं और तर्क कर सकते हैं।
Few-Shot Learning
एक मॉडल की व्यापक पुनर्प्रशिक्षण के बिना, केवल कुछ उदाहरणों से एक नया कार्य सीखने की क्षमता। फ्लेमिंगो जैसे वीएलएम ने विविध दृश्य कार्यों में उल्लेखनीय कुछ-शॉट क्षमताओं का प्रदर्शन किया।
Visual Instruction Tuning
छवियों के बारे में प्राकृतिक भाषा निर्देशों का पालन करने के लिए एक दृष्टि-भाषा मॉडल का प्रशिक्षण, जैसे 'इस छवि का विस्तार से वर्णन करें' या 'इस चित्र में क्या गलत है?', एलएलएवीए द्वारा शुरू किया गया।
Cross-Attention
एक ट्रांसफार्मर तंत्र जो एक मोडैलिटी को दूसरे में भाग लेने की अनुमति देता है। वीएलएम में, क्रॉस-अटेंशन भाषा मॉडल को पाठ प्रतिक्रिया उत्पन्न करते समय प्रासंगिक छवि क्षेत्रों में शामिल होने देता है।
DALL-E
OpenAI द्वारा एक AI प्रणाली जो पीढ़ी प्रक्रिया को निर्देशित करने के लिए CLIP एम्बेडिंग का उपयोग करके पाठ विवरण से छवियां उत्पन्न करती है। दृष्टि-भाषा समझ की विपरीत दिशा को प्रदर्शित करता है।
Grounding
किसी छवि में विशिष्ट दृश्य तत्वों के साथ अमूर्त भाषा अवधारणाओं को जोड़ने की प्रक्रिया, जैसे कि यह पहचानना कि फोटो में किस वस्तु को वर्णनात्मक वाक्यांश द्वारा संदर्भित किया जा रहा है।
Hallucination
जब कोई वीएलएम उन वस्तुओं, विशेषताओं या संबंधों का विवरण उत्पन्न करता है जो वास्तव में इनपुट छवि में मौजूद नहीं हैं। मतिभ्रम को कम करना एक प्रमुख अनुसंधान चुनौती है।
Object Detection
बाउंडिंग बॉक्स और क्लास लेबल की भविष्यवाणी करके एक छवि के भीतर वस्तुओं की पहचान और स्थानीयकरण करने का कार्य। आधुनिक वीएलएम इसे प्राकृतिक भाषा विवरणों का उपयोग करके खुली-शब्दावली पहचान तक विस्तारित करते हैं।
Image Segmentation
किसी छवि को पिक्सेल स्तर पर सार्थक क्षेत्रों में विभाजित करना। सिमेंटिक विभाजन प्रत्येक पिक्सेल को एक वर्ग के साथ लेबल करता है, जबकि उदाहरण विभाजन एक ही वर्ग की अलग-अलग वस्तुओं को अलग करता है।
Caption Generation
किसी छवि की सामग्री का प्राकृतिक भाषा विवरण स्वचालित रूप से तैयार करने का कार्य। आधुनिक कैप्शनिंग सिस्टम विस्तृत, प्रासंगिक रूप से समृद्ध विवरण उत्पन्न करने के लिए वीएलएम का उपयोग करते हैं जो सरल ऑब्जेक्ट लिस्टिंग से परे जाते हैं।
Multimodal Reasoning
तार्किक अनुमान लगाने की क्षमता जिसके लिए कई तौर-तरीकों से जानकारी की आवश्यकता होती है। उदाहरण के लिए, 'क्या कप गिरने की संभावना है?' दृश्य दृश्य ज्यामिति और भौतिक तर्क दोनों को समझने की आवश्यकता है।
LAION
बड़े पैमाने पर आर्टिफिशियल इंटेलिजेंस ओपन नेटवर्क - एक गैर-लाभकारी संस्था जिसने कई दृष्टि-भाषा मॉडल को प्रशिक्षित करने के लिए बड़े पैमाने पर ओपन-सोर्स छवि-पाठ डेटासेट (5.85 बिलियन जोड़े के साथ LAION-5B) बनाया।
Visual Encoder
वीएलएम का घटक जो छवियों को संसाधित करता है और दृश्य विशेषताओं को निकालता है। सामान्य आर्किटेक्चर में विज़न ट्रांसफ़ॉर्मर्स (ViT), ConvNeXt और CLIP का विज़ुअल एनकोडर शामिल हैं।
Q-Former
BLIP-2 में उपयोग किया जाने वाला एक हल्का ट्रांसफार्मर मॉड्यूल जो एक जमे हुए छवि एनकोडर और एक जमे हुए बड़े भाषा मॉडल को जोड़ता है, जो भाषा निर्माण के लिए सबसे अधिक जानकारीपूर्ण दृश्य सुविधाओं को निकालना सीखता है।
Masked Image Modeling
एक स्व-पर्यवेक्षित पूर्व-प्रशिक्षण तकनीक जहां एक छवि के कुछ हिस्सों को छिपाया जाता है (छिपाया जाता है) और मॉडल को प्रक्रिया में समृद्ध दृश्य प्रतिनिधित्व सीखते हुए, गायब सामग्री की भविष्यवाणी करनी चाहिए।

🏆 प्रमुख व्यक्ति

Alec Radford (2021)

ओपनएआई के प्रमुख शोधकर्ता जिन्होंने सीएलआईपी (कॉन्ट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग) का सह-निर्माण किया, यह प्रदर्शित करते हुए कि प्राकृतिक भाषा पर्यवेक्षण से दृश्य प्रतिनिधित्व सीखना उल्लेखनीय शून्य-शॉट क्षमताओं के साथ अत्यधिक हस्तांतरणीय मॉडल का उत्पादन कर सकता है।

Junnan Li (2022)

सेल्सफोर्स रिसर्च के प्रमुख शोधकर्ता, जिन्होंने बीएलआईपी (बूटस्ट्रैपिंग लैंग्वेज-इमेज प्री-ट्रेनिंग) और बीएलआईपी-2 विकसित किया, कैप्शनिंग और फ़िल्टरिंग का उपयोग करके शोर वाले वेब डेटा से बूटस्ट्रैपिंग विज़न-लैंग्वेज प्री-ट्रेनिंग के लिए नई तकनीकों की शुरुआत की।

Jean-Baptiste Alayrac (2022)

डीपमाइंड के शोधकर्ता, जिन्होंने फ्लेमिंगो के विकास का सह-नेतृत्व किया, एक दृश्य भाषा मॉडल जो क्रॉस-अटेंशन के माध्यम से दृश्य इनपुट पर जमे हुए भाषा मॉडल को कंडीशनिंग करके मल्टीमॉडल कार्यों की एक विस्तृत श्रृंखला पर कुछ-शॉट सीखने में सक्षम है।

Alexey Dosovitskiy (2021)

Google Brain में विज़न ट्रांसफ़ॉर्मर (ViT) के निर्माण का नेतृत्व किया, जिससे पता चला कि शुद्ध ट्रांसफ़ॉर्मर आर्किटेक्चर छवि वर्गीकरण पर उत्कृष्ट परिणाम प्राप्त कर सकते हैं, जिससे कई VLM की विज़ुअल रीढ़ बनती है।

Haotian Liu (2023)

एलएलएवीए (बड़ी भाषा और दृष्टि सहायक) बनाया गया, जिसने विज़ुअल इंस्ट्रक्शन ट्यूनिंग के दृष्टिकोण को आगे बढ़ाया, जिसने बड़े भाषा मॉडल को कुशल फाइन-ट्यूनिंग के माध्यम से छवियों के बारे में प्रसंस्करण और तर्क करने में सक्षम बनाया।

Dario Amodei (2023)

एंथ्रोपिक की सह-स्थापना की और क्लाउड के विकास में योगदान दिया, मल्टीमॉडल एआई सुरक्षा को आगे बढ़ाया और प्रदर्शित किया कि कैसे दृष्टि-भाषा मॉडल को अधिक सहायक, हानिरहित और ईमानदार बनाया जा सकता है।

🎓 शिक्षण संसाधन

💬 शिक्षार्थियों के लिए संदेश

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

शुरू करें

मुफ़्त, साइनअप नहीं

शुरू करें →