molmo-vision-language

ما هذا؟

🎯 نصائح المحاكي

📚 المصطلحات

Attention Mechanism

أحد مكونات الشبكة العصبية التي تسمح للنموذج بالتركيز على الأجزاء ذات الصلة من المدخلات عند إنتاج المخرجات. في نماذج لغة الرؤية، تمكن آليات الانتباه المتبادل النموذج من الاهتمام بمناطق الصورة ذات الصلة عند معالجة النص والعكس صحيح.

Contrastive Learning

أسلوب تعليمي خاضع للإشراف الذاتي يقوم بتدريب النماذج عن طريق مقارنة الأزواج الإيجابية (العينات المتطابقة) مع الأزواج السالبة (العينات غير المتطابقة)، مما يشجع النموذج على تعلم التمثيلات التمييزية.

Embedding Space

مساحة متجهة مستمرة حيث يتم تمثيل نقاط البيانات كمتجهات رقمية كثيفة. في نماذج لغة الرؤية، يتم تعيين الصور والنصوص في مساحة تضمين مشتركة حيث يتوافق التشابه الدلالي مع القرب الهندسي.

Zero-Shot Learning

قدرة النموذج على أداء المهام أو التعرف على الفئات التي لم يتم تدريبه عليها بشكل صريح، من خلال الاستفادة من المعرفة المنقولة من التدريب على المهام أو البيانات ذات الصلة.

Fine-Tuning

عملية أخذ نموذج تم تدريبه مسبقًا ومواصلة تدريبه على مهمة أو مجموعة بيانات محددة، وتكييف تمثيلاته المكتسبة مع المتطلبات الجديدة.

Encoder-Decoder Architecture

بنية شبكة عصبية تتكون من جهاز تشفير يقوم بضغط المدخلات إلى تمثيل كامن ووحدة فك ترميز تولد مخرجات من هذا التمثيل. يُستخدم في التعليق على الصور حيث يقوم برنامج التشفير بمعالجة الصورة ويقوم برنامج فك التشفير بإنشاء نص.

Tokenization

عملية تقسيم النص إلى وحدات أصغر (رموز مميزة) مثل الكلمات أو الكلمات الفرعية أو الأحرف التي يمكن معالجتها بواسطة شبكة عصبية. يقوم الترميز المرئي بالمثل بتقسيم الصور إلى بقع.

Cross-Modal Transfer

القدرة على نقل المعرفة المستفادة بطريقة واحدة (مثل النص) لتحسين الأداء بطريقة أخرى (مثل الرؤية)، والاستفادة من المفاهيم الدلالية المشتركة عبر الطرائق.

Visual Grounding

مهمة تحديد أو تحديد مناطق معينة في الصورة التي تتوافق مع تعبير لغة طبيعية معين، وربط المراجع النصية بالمحتوى المرئي.

Multimodal Fusion

تقنيات الجمع بين المعلومات من طرائق متعددة في تمثيل موحد. تشمل الأساليب الشائعة الدمج المبكر (الجمع بين المدخلات الأولية)، والدمج المتأخر (الجمع بين الميزات عالية المستوى)، والدمج المتبادل.

Image Patch

منطقة صغيرة مستطيلة من الصورة تستخدم كوحدة إدخال في محولات الرؤية. يتم تقسيم الصورة إلى شبكة من التصحيحات غير المتداخلة، ويتم التعامل مع كل منها كرمز مشابه للكلمات في البرمجة اللغوية العصبية.

Pre-training

المرحلة الأولية لتدريب النموذج على مجموعة بيانات عامة كبيرة قبل ضبط مهام محددة. غالبًا ما يتم تدريب نماذج لغة الرؤية مسبقًا على ملايين أزواج الصور والنصوص من الإنترنت.

Prompt Engineering

تطالب ممارسة صياغة المدخلات بتوجيه النموذج نحو المخرجات المطلوبة. في VLMs، يمكن للمطالبات النصية المصممة بعناية أن تحسن بشكل كبير تصنيف اللقطة الصفرية والمهام الأخرى.

Semantic Similarity

مقياس لمدى الارتباط الوثيق بين معاني قطعتين من المحتوى، بغض النظر عن تمثيلهما على مستوى السطح. في VLMs، سيكون لصورة الكلب والنص "كلب" تشابه دلالي كبير.

Feature Extraction

عملية التعلم التلقائي وتحديد الأنماط والخصائص المهمة من البيانات الأولية. تقوم برامج تشفير الرؤية باستخراج الميزات المرئية مثل الحواف والأنسجة وأشكال الكائنات من الصور.

Cosine Similarity

مقياس يستخدم لقياس مدى تشابه متجهين عن طريق حساب جيب تمام الزاوية بينهما. في VLMs، يحدد تشابه جيب التمام بين تضمينات الصورة والنص مدى تطابقها دلاليًا، حيث تتراوح القيم من -1 (العكس) إلى 1 (متطابق).

Batch Normalization

تقنية تعمل على تطبيع المدخلات في كل طبقة من الشبكة العصبية، مما يؤدي إلى استقرار التدريب وتسريعه. يُستخدم على نطاق واسع في أجهزة تشفير الرؤية لتحسين التدفق المتدرج وتمكين تدريب الشبكات الأعمق.

Transfer Learning

إحدى تقنيات التعلم الآلي حيث يتم إعادة استخدام نموذج تم تدريبه على مهمة واحدة لمهمة مختلفة ولكن ذات صلة. تتفوق VLMs مثل CLIP في نقل التعلم لأن تمثيلاتها اللغوية المرئية العامة يمكن تطبيقها على العديد من المهام النهائية دون تدريب خاص بالمهمة.

Image Captioning

مهمة إنشاء وصف باللغة الطبيعية للصورة تلقائيًا. يتطلب ذلك من النموذج تحديد الكائنات وسماتها وعلاقاتها المكانية وأنشطتها، ثم تكوين جملة صحيحة نحويًا تنقل هذه المعلومات.

Self-Supervised Learning

نموذج تدريبي حيث يتعلم النموذج التمثيلات من البيانات غير المسماة عن طريق حل مهام الذريعة المشتقة من البيانات نفسها. يعد التعلم المتباين على أزواج الصور والنص أحد أشكال التعلم الخاضع للإشراف الذاتي والذي أثبت فعاليته العالية في أجهزة VLM.

Multimodal Embedding

تمثيل متجه مكتسب يلتقط المعلومات من طرائق متعددة (مثل الصورة والنص) في مساحة مشتركة. تعمل عمليات التضمين متعدد الوسائط على تمكين الاسترداد عبر الوسائط، حيث يمكن للاستعلام النصي العثور على الصور ذات الصلة أو يمكن لاستعلام الصور العثور على أوصاف نصية ذات صلة.

Diffusion Model

نموذج توليدي يتعلم كيفية إنشاء البيانات (غالبًا صور) عن طريق تقليل الضوضاء العشوائية تدريجيًا من خلال عملية نشر عكسي متعلمة. تستخدم نماذج مثل DALL-E 2 وStable Diffusion تضمينات نص CLIP لتوجيه عملية إنشاء الصور من أوصاف النص.

Region of Interest (ROI)

منطقة محددة داخل الصورة ذات صلة بمهمة معينة. في نماذج لغة الرؤية، قد يهتم النموذج بمناطق محددة من الاهتمام عند الإجابة على الأسئلة أو إنشاء أوصاف حول المحتوى المترجم داخل الصورة.

Instruction Tuning

تدريب نموذج اللغة على اتباع تعليمات اللغة الطبيعية، مما يجعلها أكثر قابلية للتحكم ومفيدة للمهام المتنوعة. يؤدي ضبط التعليمات المرئية إلى توسيع نطاق ذلك ليشمل أزواج تعليمات الصورة والنص.

Adapter Layer

وحدة شبكة عصبية خفيفة الوزن يتم إدخالها في نموذج تم تدريبه مسبقًا لتكييفه مع المهام أو الطرائق الجديدة مع الحد الأدنى من تحديثات المعلمات، مع الحفاظ على معرفة النموذج الأصلي.

Vision-Language Pre-training

عملية تدريب نموذج على بيانات نصية مصورة واسعة النطاق لتعلم التمثيلات العامة عبر الوسائط قبل ضبط المهام النهائية المحددة.

Generative Pre-trained Transformer (GPT)

عائلة من نماذج اللغة ذات الانحدار الذاتي التي تولد رمزًا نصيًا مميزًا. قام GPT-4V بتوسيع البنية لتشمل أيضًا المدخلات المرئية، مما أدى إلى إنشاء نموذج قوي للغة الرؤية.

RLHF (Reinforcement Learning from Human Feedback)

أسلوب تدريب يستخدم التفضيلات البشرية لضبط نماذج الذكاء الاصطناعي وتحسين فائدتها وسلامتها. يتم تطبيقه على النماذج متعددة الوسائط لتحسين جودة فهم الصورة.

Multimodal Large Language Model (MLLM)

نموذج لغة كبير ممتد لمعالجة أنواع متعددة من المدخلات (النص والصور والصوت والفيديو). تشمل الأمثلة GPT-4V، وGemini، وClaude، الذين يمكنهم فهم المحتوى المرئي إلى جانب النص والتفكير فيه.

Few-Shot Learning

قدرة النموذج على تعلم مهمة جديدة من بضعة أمثلة فقط، دون إعادة تدريب مكثفة. أظهرت VLMs مثل Flamingo قدرات رائعة في التقاط الصور القليلة عبر المهام المرئية المتنوعة.

Visual Instruction Tuning

تدريب نموذج لغة الرؤية على اتباع تعليمات اللغة الطبيعية حول الصور، مثل "وصف هذه الصورة بالتفصيل" أو "ما الخطأ في هذه الصورة؟"، الذي ابتكرته شركة LLaVA.

Cross-Attention

آلية محول تسمح لطريقة واحدة بالحضور إلى طريقة أخرى. في VLMs، يتيح الانتباه المتبادل لنموذج اللغة الاهتمام بمناطق الصورة ذات الصلة عند إنشاء استجابات نصية.

DALL-E

نظام ذكاء اصطناعي من OpenAI يقوم بإنشاء صور من أوصاف النص، باستخدام تضمينات CLIP لتوجيه عملية الإنشاء. يوضح الاتجاه العكسي لفهم لغة الرؤية.

Grounding

عملية ربط مفاهيم اللغة المجردة بعناصر مرئية محددة في صورة ما، مثل تحديد الكائن في الصورة الذي تتم الإشارة إليه بواسطة عبارة وصفية.

Hallucination

عندما يقوم VLM بإنشاء أوصاف لكائنات أو سمات أو علاقات غير موجودة بالفعل في الصورة المدخلة. يعد الحد من الهلوسة تحديًا بحثيًا كبيرًا مستمرًا.

Object Detection

مهمة تحديد وتوطين الكائنات داخل الصورة من خلال التنبؤ بالمربعات المحيطة وتسميات الفئة. توسع VLMs الحديثة هذا ليشمل اكتشاف المفردات المفتوحة باستخدام أوصاف اللغة الطبيعية.

Image Segmentation

تقسيم الصورة إلى مناطق ذات معنى على مستوى البكسل. يقوم التجزئة الدلالية بتسمية كل بكسل بفئة، بينما يميز تجزئة المثيلات الكائنات الفردية من نفس الفئة.

Caption Generation

مهمة إنتاج وصف باللغة الطبيعية لمحتوى الصورة تلقائيًا. تستخدم أنظمة التسميات التوضيحية الحديثة VLMs لإنشاء أوصاف مفصلة وغنية بالسياق تتجاوز قائمة الكائنات البسيطة.

Multimodal Reasoning

القدرة على إجراء الاستدلال المنطقي الذي يتطلب معلومات من طرائق متعددة. على سبيل المثال، الإجابة على السؤال "هل من المحتمل أن يسقط الكأس؟" يتطلب فهم كل من هندسة المشهد البصري والتفكير الجسدي.

LAION

شبكة مفتوحة واسعة النطاق للذكاء الاصطناعي - منظمة غير ربحية أنشأت مجموعات بيانات نصية وصورية ضخمة مفتوحة المصدر (LAION-5B مع 5.85 مليار زوج) تُستخدم لتدريب العديد من نماذج لغة الرؤية.

Visual Encoder

مكون VLM الذي يعالج الصور ويستخرج الميزات المرئية. تتضمن البنى الشائعة محولات الرؤية (ViT)، وConvNeXt، وجهاز التشفير المرئي لـ CLIP.

Q-Former

وحدة محول خفيفة الوزن تُستخدم في BLIP-2 والتي تربط بين برنامج تشفير الصور المجمد ونموذج اللغة الكبير المجمد، وتتعلم كيفية استخراج الميزات المرئية الأكثر إفادة لتوليد اللغة.

Masked Image Modeling

أسلوب تدريب مسبق يتم الإشراف عليه ذاتيًا حيث يتم إخفاء أجزاء من الصورة ويجب أن يتنبأ النموذج بالمحتوى المفقود، ويتعلم تمثيلات مرئية غنية في هذه العملية.

🏆 شخصيات رئيسية

Alec Radford (2021)

باحث رئيسي في OpenAI شارك في إنشاء CLIP (التدريب المسبق على اللغة المتباينة والصورة)، موضحًا أن تعلم التمثيلات المرئية من الإشراف على اللغة الطبيعية يمكن أن ينتج نماذج قابلة للتحويل بدرجة كبيرة مع إمكانات رائعة بدون إطلاق النار.

Junnan Li (2022)

باحث رئيسي في Salesforce Research الذي قام بتطوير BLIP (التدريب المسبق على اللغة والصورة) وBLIP-2، حيث قدم تقنيات جديدة لبدء التدريب المسبق على لغة الرؤية من بيانات الويب المزعجة باستخدام التسميات التوضيحية والتصفية.

Jean-Baptiste Alayrac (2022)

باحث في DeepMind الذي شارك في قيادة تطوير Flamingo، وهو نموذج لغة مرئي قادر على التعلم بعدد قليل من اللقطات في مجموعة واسعة من المهام متعددة الوسائط عن طريق تكييف نموذج لغة مجمدة على المدخلات المرئية عبر الانتباه المتبادل.

Alexey Dosovitskiy (2021)

قاد إنشاء Vision Transformer (ViT) في Google Brain، مما يوضح أن بنيات المحولات النقية يمكن أن تحقق نتائج ممتازة في تصنيف الصور، مما يشكل العمود الفقري المرئي للعديد من VLMs

Haotian Liu (2023)

تم إنشاء LLaVA (مساعد اللغة والرؤية الكبير)، الرائد في منهج ضبط التعليمات المرئية الذي مكّن نماذج اللغة الكبيرة من معالجة الصور والتفكير فيها من خلال الضبط الدقيق الفعال

Dario Amodei (2023)

شارك في تأسيس Anthropic وساهم في تطوير Claude، مما أدى إلى تعزيز سلامة الذكاء الاصطناعي متعدد الوسائط وإظهار كيف يمكن جعل نماذج لغة الرؤية أكثر فائدة وغير ضارة وصادقة

🎓 مصادر التعلم

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
توضح ورقة CLIP التأسيسية أن التدريب المسبق المتباين على 400 مليون زوج من الصور والنص يتيح تصنيفًا مرئيًا قويًا بدون لقطة واسترجاع نص الصورة.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
يقدم BLIP، وهو إطار عمل يقوم بتمهيد التسميات التوضيحية من بيانات الويب المزعجة ويحقق أحدث النتائج في فهم لغة الرؤية ومهام الإنشاء.
Flamingo: a Visual Language Model for Few-Shot Learning
يقدم Flamingo، الذي يربط بين الرؤية القوية ونماذج اللغة المدربة مسبقًا باستخدام الانتباه المتبادل ويوضح التعلم القوي في لقطات قليلة في مهام متعددة الوسائط المتنوعة.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
توضح ورقة Vision Transformer (ViT) أن بنيات المحولات النقية يمكن أن تحقق نتائج ممتازة في تصنيف الصور، مما يشكل الأساس للعديد من مشفرات الرؤية VLM.
Deep Learning for Vision Systems
دليل عملي يغطي أساسيات رؤية الكمبيوتر وبنيات التعلم العميق للفهم البصري، مما يوفر خلفية أساسية لفهم نماذج لغة الرؤية.
Dive into Deep Learning
كتاب دراسي تفاعلي للتعلم العميق يتضمن التعليمات البرمجية والرياضيات والمناقشات، بما في ذلك فصول حول آليات الانتباه وبنيات المحولات المهمة لأجهزة VLM.
Foundations of Computer Vision
كتاب دراسي شامل من معهد ماساتشوستس للتكنولوجيا يغطي الرؤية الحاسوبية الحديثة بما في ذلك التعلم متعدد الوسائط وتكامل الرؤية واللغة.
CLIP: Connecting Text and Images - OpenAI Research Explanation
شرح يسهل الوصول إليه لكيفية تعلم CLIP لربط الصور والنصوص باستخدام التعلم المتباين، مع العروض التوضيحية المرئية لقدراته بدون إطلاق النار.
Stanford CS231n: Deep Learning for Computer Vision
دورة رؤية الكمبيوتر الشهيرة في جامعة ستانفورد والتي تغطي شبكات CNN والمحولات والهندسة المعمارية الحديثة التي تشكل أساس نماذج لغة الرؤية.
Andrej Karpathy - Let's Build GPT: From Scratch
على الرغم من التركيز على نماذج اللغة، فإن هذه الإرشادات المفصلة لبنية المحولات توفر فهمًا أساسيًا لمكون معالجة النص في VLMs.

💬 رسالة للمتعلمين

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

ابدأ الآن

مجاني، بدون تسجيل

ابدأ الآن →