Attention Mechanismأحد مكونات الشبكة العصبية التي تسمح للنموذج بالتركيز على الأجزاء ذات الصلة من المدخلات عند إنتاج المخرجات. في نماذج لغة الرؤية، تمكن آليات الانتباه المتبادل النموذج من الاهتمام بمناطق الصورة ذات الصلة عند معالجة النص والعكس صحيح.
Contrastive Learningأسلوب تعليمي خاضع للإشراف الذاتي يقوم بتدريب النماذج عن طريق مقارنة الأزواج الإيجابية (العينات المتطابقة) مع الأزواج السالبة (العينات غير المتطابقة)، مما يشجع النموذج على تعلم التمثيلات التمييزية.
Embedding Spaceمساحة متجهة مستمرة حيث يتم تمثيل نقاط البيانات كمتجهات رقمية كثيفة. في نماذج لغة الرؤية، يتم تعيين الصور والنصوص في مساحة تضمين مشتركة حيث يتوافق التشابه الدلالي مع القرب الهندسي.
Zero-Shot Learningقدرة النموذج على أداء المهام أو التعرف على الفئات التي لم يتم تدريبه عليها بشكل صريح، من خلال الاستفادة من المعرفة المنقولة من التدريب على المهام أو البيانات ذات الصلة.
Fine-Tuningعملية أخذ نموذج تم تدريبه مسبقًا ومواصلة تدريبه على مهمة أو مجموعة بيانات محددة، وتكييف تمثيلاته المكتسبة مع المتطلبات الجديدة.
Encoder-Decoder Architectureبنية شبكة عصبية تتكون من جهاز تشفير يقوم بضغط المدخلات إلى تمثيل كامن ووحدة فك ترميز تولد مخرجات من هذا التمثيل. يُستخدم في التعليق على الصور حيث يقوم برنامج التشفير بمعالجة الصورة ويقوم برنامج فك التشفير بإنشاء نص.
Tokenizationعملية تقسيم النص إلى وحدات أصغر (رموز مميزة) مثل الكلمات أو الكلمات الفرعية أو الأحرف التي يمكن معالجتها بواسطة شبكة عصبية. يقوم الترميز المرئي بالمثل بتقسيم الصور إلى بقع.
Cross-Modal Transferالقدرة على نقل المعرفة المستفادة بطريقة واحدة (مثل النص) لتحسين الأداء بطريقة أخرى (مثل الرؤية)، والاستفادة من المفاهيم الدلالية المشتركة عبر الطرائق.
Visual Groundingمهمة تحديد أو تحديد مناطق معينة في الصورة التي تتوافق مع تعبير لغة طبيعية معين، وربط المراجع النصية بالمحتوى المرئي.
Multimodal Fusionتقنيات الجمع بين المعلومات من طرائق متعددة في تمثيل موحد. تشمل الأساليب الشائعة الدمج المبكر (الجمع بين المدخلات الأولية)، والدمج المتأخر (الجمع بين الميزات عالية المستوى)، والدمج المتبادل.
Image Patchمنطقة صغيرة مستطيلة من الصورة تستخدم كوحدة إدخال في محولات الرؤية. يتم تقسيم الصورة إلى شبكة من التصحيحات غير المتداخلة، ويتم التعامل مع كل منها كرمز مشابه للكلمات في البرمجة اللغوية العصبية.
Pre-trainingالمرحلة الأولية لتدريب النموذج على مجموعة بيانات عامة كبيرة قبل ضبط مهام محددة. غالبًا ما يتم تدريب نماذج لغة الرؤية مسبقًا على ملايين أزواج الصور والنصوص من الإنترنت.
Prompt Engineeringتطالب ممارسة صياغة المدخلات بتوجيه النموذج نحو المخرجات المطلوبة. في VLMs، يمكن للمطالبات النصية المصممة بعناية أن تحسن بشكل كبير تصنيف اللقطة الصفرية والمهام الأخرى.
Semantic Similarityمقياس لمدى الارتباط الوثيق بين معاني قطعتين من المحتوى، بغض النظر عن تمثيلهما على مستوى السطح. في VLMs، سيكون لصورة الكلب والنص "كلب" تشابه دلالي كبير.
Feature Extractionعملية التعلم التلقائي وتحديد الأنماط والخصائص المهمة من البيانات الأولية. تقوم برامج تشفير الرؤية باستخراج الميزات المرئية مثل الحواف والأنسجة وأشكال الكائنات من الصور.
Cosine Similarityمقياس يستخدم لقياس مدى تشابه متجهين عن طريق حساب جيب تمام الزاوية بينهما. في VLMs، يحدد تشابه جيب التمام بين تضمينات الصورة والنص مدى تطابقها دلاليًا، حيث تتراوح القيم من -1 (العكس) إلى 1 (متطابق).
Batch Normalizationتقنية تعمل على تطبيع المدخلات في كل طبقة من الشبكة العصبية، مما يؤدي إلى استقرار التدريب وتسريعه. يُستخدم على نطاق واسع في أجهزة تشفير الرؤية لتحسين التدفق المتدرج وتمكين تدريب الشبكات الأعمق.
Transfer Learningإحدى تقنيات التعلم الآلي حيث يتم إعادة استخدام نموذج تم تدريبه على مهمة واحدة لمهمة مختلفة ولكن ذات صلة. تتفوق VLMs مثل CLIP في نقل التعلم لأن تمثيلاتها اللغوية المرئية العامة يمكن تطبيقها على العديد من المهام النهائية دون تدريب خاص بالمهمة.
Image Captioningمهمة إنشاء وصف باللغة الطبيعية للصورة تلقائيًا. يتطلب ذلك من النموذج تحديد الكائنات وسماتها وعلاقاتها المكانية وأنشطتها، ثم تكوين جملة صحيحة نحويًا تنقل هذه المعلومات.
Self-Supervised Learningنموذج تدريبي حيث يتعلم النموذج التمثيلات من البيانات غير المسماة عن طريق حل مهام الذريعة المشتقة من البيانات نفسها. يعد التعلم المتباين على أزواج الصور والنص أحد أشكال التعلم الخاضع للإشراف الذاتي والذي أثبت فعاليته العالية في أجهزة VLM.
Multimodal Embeddingتمثيل متجه مكتسب يلتقط المعلومات من طرائق متعددة (مثل الصورة والنص) في مساحة مشتركة. تعمل عمليات التضمين متعدد الوسائط على تمكين الاسترداد عبر الوسائط، حيث يمكن للاستعلام النصي العثور على الصور ذات الصلة أو يمكن لاستعلام الصور العثور على أوصاف نصية ذات صلة.
Diffusion Modelنموذج توليدي يتعلم كيفية إنشاء البيانات (غالبًا صور) عن طريق تقليل الضوضاء العشوائية تدريجيًا من خلال عملية نشر عكسي متعلمة. تستخدم نماذج مثل DALL-E 2 وStable Diffusion تضمينات نص CLIP لتوجيه عملية إنشاء الصور من أوصاف النص.
Region of Interest (ROI)منطقة محددة داخل الصورة ذات صلة بمهمة معينة. في نماذج لغة الرؤية، قد يهتم النموذج بمناطق محددة من الاهتمام عند الإجابة على الأسئلة أو إنشاء أوصاف حول المحتوى المترجم داخل الصورة.
Instruction Tuningتدريب نموذج اللغة على اتباع تعليمات اللغة الطبيعية، مما يجعلها أكثر قابلية للتحكم ومفيدة للمهام المتنوعة. يؤدي ضبط التعليمات المرئية إلى توسيع نطاق ذلك ليشمل أزواج تعليمات الصورة والنص.
Adapter Layerوحدة شبكة عصبية خفيفة الوزن يتم إدخالها في نموذج تم تدريبه مسبقًا لتكييفه مع المهام أو الطرائق الجديدة مع الحد الأدنى من تحديثات المعلمات، مع الحفاظ على معرفة النموذج الأصلي.
Vision-Language Pre-trainingعملية تدريب نموذج على بيانات نصية مصورة واسعة النطاق لتعلم التمثيلات العامة عبر الوسائط قبل ضبط المهام النهائية المحددة.
Generative Pre-trained Transformer (GPT)عائلة من نماذج اللغة ذات الانحدار الذاتي التي تولد رمزًا نصيًا مميزًا. قام GPT-4V بتوسيع البنية لتشمل أيضًا المدخلات المرئية، مما أدى إلى إنشاء نموذج قوي للغة الرؤية.
RLHF (Reinforcement Learning from Human Feedback)أسلوب تدريب يستخدم التفضيلات البشرية لضبط نماذج الذكاء الاصطناعي وتحسين فائدتها وسلامتها. يتم تطبيقه على النماذج متعددة الوسائط لتحسين جودة فهم الصورة.
Multimodal Large Language Model (MLLM)نموذج لغة كبير ممتد لمعالجة أنواع متعددة من المدخلات (النص والصور والصوت والفيديو). تشمل الأمثلة GPT-4V، وGemini، وClaude، الذين يمكنهم فهم المحتوى المرئي إلى جانب النص والتفكير فيه.
Few-Shot Learningقدرة النموذج على تعلم مهمة جديدة من بضعة أمثلة فقط، دون إعادة تدريب مكثفة. أظهرت VLMs مثل Flamingo قدرات رائعة في التقاط الصور القليلة عبر المهام المرئية المتنوعة.
Visual Instruction Tuningتدريب نموذج لغة الرؤية على اتباع تعليمات اللغة الطبيعية حول الصور، مثل "وصف هذه الصورة بالتفصيل" أو "ما الخطأ في هذه الصورة؟"، الذي ابتكرته شركة LLaVA.
Cross-Attentionآلية محول تسمح لطريقة واحدة بالحضور إلى طريقة أخرى. في VLMs، يتيح الانتباه المتبادل لنموذج اللغة الاهتمام بمناطق الصورة ذات الصلة عند إنشاء استجابات نصية.
DALL-Eنظام ذكاء اصطناعي من OpenAI يقوم بإنشاء صور من أوصاف النص، باستخدام تضمينات CLIP لتوجيه عملية الإنشاء. يوضح الاتجاه العكسي لفهم لغة الرؤية.
Groundingعملية ربط مفاهيم اللغة المجردة بعناصر مرئية محددة في صورة ما، مثل تحديد الكائن في الصورة الذي تتم الإشارة إليه بواسطة عبارة وصفية.
Hallucinationعندما يقوم VLM بإنشاء أوصاف لكائنات أو سمات أو علاقات غير موجودة بالفعل في الصورة المدخلة. يعد الحد من الهلوسة تحديًا بحثيًا كبيرًا مستمرًا.
Object Detectionمهمة تحديد وتوطين الكائنات داخل الصورة من خلال التنبؤ بالمربعات المحيطة وتسميات الفئة. توسع VLMs الحديثة هذا ليشمل اكتشاف المفردات المفتوحة باستخدام أوصاف اللغة الطبيعية.
Image Segmentationتقسيم الصورة إلى مناطق ذات معنى على مستوى البكسل. يقوم التجزئة الدلالية بتسمية كل بكسل بفئة، بينما يميز تجزئة المثيلات الكائنات الفردية من نفس الفئة.
Caption Generationمهمة إنتاج وصف باللغة الطبيعية لمحتوى الصورة تلقائيًا. تستخدم أنظمة التسميات التوضيحية الحديثة VLMs لإنشاء أوصاف مفصلة وغنية بالسياق تتجاوز قائمة الكائنات البسيطة.
Multimodal Reasoningالقدرة على إجراء الاستدلال المنطقي الذي يتطلب معلومات من طرائق متعددة. على سبيل المثال، الإجابة على السؤال "هل من المحتمل أن يسقط الكأس؟" يتطلب فهم كل من هندسة المشهد البصري والتفكير الجسدي.
LAIONشبكة مفتوحة واسعة النطاق للذكاء الاصطناعي - منظمة غير ربحية أنشأت مجموعات بيانات نصية وصورية ضخمة مفتوحة المصدر (LAION-5B مع 5.85 مليار زوج) تُستخدم لتدريب العديد من نماذج لغة الرؤية.
Visual Encoderمكون VLM الذي يعالج الصور ويستخرج الميزات المرئية. تتضمن البنى الشائعة محولات الرؤية (ViT)، وConvNeXt، وجهاز التشفير المرئي لـ CLIP.
Q-Formerوحدة محول خفيفة الوزن تُستخدم في BLIP-2 والتي تربط بين برنامج تشفير الصور المجمد ونموذج اللغة الكبير المجمد، وتتعلم كيفية استخراج الميزات المرئية الأكثر إفادة لتوليد اللغة.
Masked Image Modelingأسلوب تدريب مسبق يتم الإشراف عليه ذاتيًا حيث يتم إخفاء أجزاء من الصورة ويجب أن يتنبأ النموذج بالمحتوى المفقود، ويتعلم تمثيلات مرئية غنية في هذه العملية.