Attention Mechanismএকটি নিউরাল নেটওয়ার্ক উপাদান যা মডেলটিকে আউটপুট তৈরি করার সময় ইনপুটের প্রাসঙ্গিক অংশগুলিতে ফোকাস করতে দেয়। দৃষ্টি-ভাষা মডেলগুলিতে, ক্রস-অ্যাটেনশন মেকানিজমগুলি পাঠ্য প্রক্রিয়াকরণের সময় মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলগুলিতে উপস্থিত হতে সক্ষম করে এবং এর বিপরীতে।
Contrastive Learningএকটি স্ব-তত্ত্বাবধানে শেখার পদ্ধতি যা মডেলগুলিকে বৈষম্যমূলক উপস্থাপনা শিখতে উত্সাহিত করে নেতিবাচক জোড়া (অ-ম্যাচিং নমুনা) এর বিপরীতে ইতিবাচক জোড়া (মিলন নমুনা) বিপরীত করে মডেলগুলিকে প্রশিক্ষণ দেয়।
Embedding Spaceএকটি অবিচ্ছিন্ন ভেক্টর স্থান যেখানে ডেটা পয়েন্টগুলি ঘন সংখ্যাসূচক ভেক্টর হিসাবে উপস্থাপিত হয়। দৃষ্টি-ভাষা মডেলে, ছবি এবং পাঠ্য একটি শেয়ার্ড এমবেডিং স্পেসে ম্যাপ করা হয় যেখানে শব্দার্থিক সাদৃশ্য জ্যামিতিক প্রক্সিমিটির সাথে মিলে যায়।
Zero-Shot Learningএকটি মডেলের কার্য সম্পাদন করার বা বিভাগগুলি সনাক্ত করার ক্ষমতা যা এটিকে স্পষ্টভাবে প্রশিক্ষিত করা হয়নি, সম্পর্কিত কাজ বা ডেটার প্রশিক্ষণ থেকে স্থানান্তরিত জ্ঞানের সুবিধার মাধ্যমে।
Fine-Tuningএকটি প্রাক-প্রশিক্ষিত মডেল নেওয়ার প্রক্রিয়া এবং এটিকে একটি নির্দিষ্ট ডাউনস্ট্রিম টাস্ক বা ডেটাসেটে আরও প্রশিক্ষণ দেওয়া, এর শেখা উপস্থাপনাগুলিকে নতুন প্রয়োজনীয়তার সাথে খাপ খাইয়ে নেওয়া।
Encoder-Decoder Architectureএকটি এনকোডার নিয়ে গঠিত একটি নিউরাল নেটওয়ার্ক কাঠামো যা একটি সুপ্ত উপস্থাপনায় ইনপুটকে সংকুচিত করে এবং একটি ডিকোডার যা সেই উপস্থাপনা থেকে আউটপুট তৈরি করে। চিত্র ক্যাপশনে ব্যবহৃত হয় যেখানে এনকোডার চিত্রটি প্রক্রিয়া করে এবং ডিকোডার পাঠ্য তৈরি করে।
Tokenizationটেক্সটকে ছোট ইউনিটে (টোকেন) বিভক্ত করার প্রক্রিয়া যেমন শব্দ, সাবওয়ার্ড বা অক্ষর যা একটি নিউরাল নেটওয়ার্ক দ্বারা প্রক্রিয়া করা যেতে পারে। ভিজ্যুয়াল টোকেনাইজেশন একইভাবে চিত্রগুলিকে প্যাচগুলিতে ভাগ করে।
Cross-Modal Transferএকটি পদ্ধতিতে শেখা জ্ঞান স্থানান্তর করার ক্ষমতা (যেমন, পাঠ্য) অন্য একটি পদ্ধতিতে কর্মক্ষমতা উন্নত করতে (যেমন, দৃষ্টি), পদ্ধতি জুড়ে ভাগ করা শব্দার্থিক ধারণাগুলিকে কাজে লাগানো।
Visual Groundingএকটি চিত্রে নির্দিষ্ট অঞ্চলগুলিকে স্থানীয়করণ বা চিহ্নিত করার কাজ যা একটি প্রদত্ত প্রাকৃতিক ভাষার অভিব্যক্তির সাথে সামঞ্জস্যপূর্ণ, চাক্ষুষ বিষয়বস্তুর সাথে পাঠ্য উল্লেখগুলিকে সংযুক্ত করে।
Multimodal Fusionএকটি ইউনিফাইড উপস্থাপনায় একাধিক পদ্ধতি থেকে তথ্য একত্রিত করার কৌশল। সাধারণ পদ্ধতির মধ্যে রয়েছে প্রাথমিক ফিউশন (কাঁচা ইনপুট একত্রিত করা), দেরী ফিউশন (উচ্চ-স্তরের বৈশিষ্ট্যগুলি একত্রিত করা), এবং ক্রস-অ্যাটেনশন ফিউশন।
Image Patchভিশন ট্রান্সফরমারগুলিতে ইনপুট ইউনিট হিসাবে ব্যবহৃত একটি চিত্রের একটি ছোট আয়তক্ষেত্রাকার অঞ্চল। চিত্রটিকে নন-ওভারল্যাপিং প্যাচগুলির একটি গ্রিডে বিভক্ত করা হয়েছে, প্রতিটিকে এনএলপি-তে শব্দের মতো একটি টোকেন হিসাবে বিবেচনা করা হয়েছে।
Pre-trainingনির্দিষ্ট কাজের সূক্ষ্ম সুর করার আগে একটি বড়, সাধারণ ডেটাসেটে একটি মডেলকে প্রশিক্ষণের প্রাথমিক পর্যায়ে। দৃষ্টি-ভাষা মডেলগুলি প্রায়শই ইন্টারনেট থেকে লক্ষ লক্ষ ইমেজ-টেক্সট জোড়ায় প্রাক-প্রশিক্ষিত হয়।
Prompt Engineeringইনপুট তৈরির অনুশীলনটি পছন্দসই আউটপুটগুলির দিকে একটি মডেলকে গাইড করার জন্য অনুরোধ করে। VLM-এ, সাবধানে ডিজাইন করা টেক্সট প্রম্পট শূন্য-শট শ্রেণীবিভাগ এবং অন্যান্য কাজগুলিকে উল্লেখযোগ্যভাবে উন্নত করতে পারে।
Semantic Similarityবিষয়বস্তুর দুটি অংশের অর্থ কতটা ঘনিষ্ঠভাবে সম্পর্কিত তার একটি পরিমাপ, তাদের পৃষ্ঠ-স্তরের প্রতিনিধিত্ব নির্বিশেষে। ভিএলএম-এ, একটি কুকুরের একটি চিত্র এবং 'একটি কুকুর' পাঠ্য উচ্চ শব্দার্থিক মিল থাকবে।
Feature Extractionকাঁচা ডেটা থেকে গুরুত্বপূর্ণ নিদর্শন এবং বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে শেখার এবং সনাক্ত করার প্রক্রিয়া। ভিশন এনকোডারগুলি চিত্রগুলি থেকে প্রান্ত, টেক্সচার এবং বস্তুর আকারের মতো চাক্ষুষ বৈশিষ্ট্যগুলি বের করে।
Cosine Similarityদুটি ভেক্টর কতটা একই রকম তা পরিমাপ করতে ব্যবহৃত একটি মেট্রিক তাদের মধ্যে কোণের কোসাইন গণনা করে। ভিএলএম-এ, ইমেজ এবং টেক্সট এম্বেডিংয়ের মধ্যে কোসাইন সাদৃশ্য নির্ধারণ করে যে তারা শব্দার্থগতভাবে কতটা ভাল মেলে, যার মান -1 (বিপরীত) থেকে 1 (অভিন্ন)।
Batch Normalizationএকটি কৌশল যা একটি নিউরাল নেটওয়ার্কের প্রতিটি স্তরে ইনপুটগুলিকে স্বাভাবিক করে, প্রশিক্ষণকে স্থিতিশীল করে এবং ত্বরান্বিত করে। গ্রেডিয়েন্ট প্রবাহ উন্নত করতে এবং গভীর নেটওয়ার্কগুলির প্রশিক্ষণ সক্ষম করতে দৃষ্টি এনকোডারগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।
Transfer Learningএকটি মেশিন লার্নিং কৌশল যেখানে একটি টাস্কে প্রশিক্ষিত একটি মডেল একটি ভিন্ন কিন্তু সম্পর্কিত কাজের জন্য পুনঃপ্রয়োগ করা হয়। ভিএলএম যেমন CLIP ট্রান্সফার লার্নিং-এ এক্সেল কারণ তাদের সাধারণ ভিজ্যুয়াল-ভাষাগত উপস্থাপনা টাস্ক-নির্দিষ্ট প্রশিক্ষণ ছাড়াই অনেক ডাউনস্ট্রিম কাজে প্রয়োগ করা যেতে পারে।
Image Captioningস্বয়ংক্রিয়ভাবে একটি চিত্রের একটি প্রাকৃতিক ভাষা বর্ণনা তৈরি করার কাজ। এর জন্য মডেলটিকে বস্তু, তাদের বৈশিষ্ট্য, স্থানিক সম্পর্ক এবং ক্রিয়াকলাপ সনাক্ত করতে হবে, তারপরে এই তথ্যটি বোঝাতে একটি ব্যাকরণগতভাবে সঠিক বাক্য রচনা করুন।
Self-Supervised Learningএকটি প্রশিক্ষণের দৃষ্টান্ত যেখানে মডেলটি ডেটা থেকে প্রাপ্ত অজুহাত কাজগুলি সমাধান করে লেবেলবিহীন ডেটা থেকে উপস্থাপনা শিখে। ইমেজ-টেক্সট জোড়ায় দ্বন্দ্বমূলক শিক্ষা হল স্ব-তত্ত্বাবধানে শিক্ষার একটি রূপ যা VLM-এর জন্য অত্যন্ত কার্যকর প্রমাণিত হয়েছে।
Multimodal Embeddingএকটি শেখা ভেক্টর উপস্থাপনা যা একটি ভাগ করা স্থানে একাধিক পদ্ধতি (যেমন চিত্র এবং পাঠ্য) থেকে তথ্য ক্যাপচার করে। মাল্টিমোডাল এম্বেডিং ক্রস-মোডাল পুনরুদ্ধার সক্ষম করে, যেখানে একটি পাঠ্য ক্যোয়ারী প্রাসঙ্গিক চিত্রগুলি খুঁজে পেতে পারে বা একটি চিত্র ক্যোয়ারী প্রাসঙ্গিক পাঠ্যের বিবরণ খুঁজে পেতে পারে।
Diffusion Modelএকটি জেনারেটিভ মডেল যা শেখা রিভার্স ডিফিউশন প্রক্রিয়ার মাধ্যমে ধীরে ধীরে এলোমেলো শব্দকে অস্বীকার করে ডেটা (প্রায়শই ছবি) তৈরি করতে শেখে। DALL-E 2 এবং স্টেবল ডিফিউশনের মতো মডেলগুলি পাঠ্য বিবরণ থেকে চিত্র তৈরিকে গাইড করতে CLIP পাঠ্য এম্বেডিং ব্যবহার করে।
Region of Interest (ROI)একটি ছবির মধ্যে একটি নির্দিষ্ট এলাকা যা একটি নির্দিষ্ট কাজের জন্য প্রাসঙ্গিক। দৃষ্টি-ভাষা মডেলগুলিতে, মডেলটি আগ্রহের নির্দিষ্ট অঞ্চলগুলিতে উপস্থিত হতে পারে যখন প্রশ্নের উত্তর দেয় বা কোনও চিত্রের মধ্যে স্থানীয়কৃত বিষয়বস্তু সম্পর্কে বিবরণ তৈরি করে।
Instruction Tuningপ্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি ভাষা মডেলকে প্রশিক্ষণ দেওয়া, এটিকে আরও নিয়ন্ত্রণযোগ্য এবং বিভিন্ন কাজের জন্য উপযোগী করে তোলা। ভিজ্যুয়াল ইন্সট্রাকশন টিউনিং এটিকে ইমেজ-টেক্সট ইন্সট্রাকশন পেয়ার পর্যন্ত প্রসারিত করে।
Adapter Layerএকটি লাইটওয়েট নিউরাল নেটওয়ার্ক মডিউল একটি প্রাক-প্রশিক্ষিত মডেলে ঢোকানো হয়েছে যাতে এটিকে ন্যূনতম প্যারামিটার আপডেট সহ নতুন কাজ বা পদ্ধতির সাথে মানিয়ে নেওয়া যায়, মূল মডেলের জ্ঞান সংরক্ষণ করা হয়।
Vision-Language Pre-trainingনির্দিষ্ট ডাউনস্ট্রিম টাস্কে ফাইন-টিউনিং করার আগে সাধারণ ক্রস-মডেল উপস্থাপনা শিখতে বড় আকারের ইমেজ-টেক্সট ডেটাতে একটি মডেলকে প্রশিক্ষণ দেওয়ার প্রক্রিয়া।
Generative Pre-trained Transformer (GPT)অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের একটি পরিবার যা টোকেন দ্বারা টেক্সট টোকেন তৈরি করে। GPT-4V ভিজ্যুয়াল ইনপুট প্রক্রিয়া করার জন্য আর্কিটেকচারকে প্রসারিত করেছে, একটি শক্তিশালী দৃষ্টি-ভাষা মডেল তৈরি করেছে।
RLHF (Reinforcement Learning from Human Feedback)একটি প্রশিক্ষণ কৌশল যা AI মডেলগুলিকে সূক্ষ্ম-টিউন করতে, তাদের সহায়কতা এবং সুরক্ষা উন্নত করতে মানুষের পছন্দগুলি ব্যবহার করে৷ চিত্র বোঝার মান উন্নত করতে মাল্টিমডাল মডেলগুলিতে প্রয়োগ করা হয়েছে।
Multimodal Large Language Model (MLLM)একাধিক ধরনের ইনপুট (টেক্সট, ইমেজ, অডিও, ভিডিও) প্রক্রিয়া করার জন্য বর্ধিত একটি বড় ভাষা মডেল। উদাহরণগুলির মধ্যে রয়েছে GPT-4V, Gemini এবং Claude, যা পাঠ্যের পাশাপাশি ভিজ্যুয়াল বিষয়বস্তু সম্পর্কে বুঝতে এবং যুক্তি দিতে পারে।
Few-Shot Learningব্যাপক পুনঃপ্রশিক্ষণ ছাড়াই মাত্র কয়েকটি উদাহরণ থেকে একটি নতুন কাজ শেখার মডেলের ক্ষমতা। ফ্ল্যামিঙ্গোর মত ভিএলএম বিভিন্ন ভিজ্যুয়াল টাস্ক জুড়ে অসাধারণ কিছু শট ক্ষমতা প্রদর্শন করেছে।
Visual Instruction Tuningচিত্র সম্পর্কে প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি দৃষ্টি-ভাষা মডেলের প্রশিক্ষণ, যেমন 'এই চিত্রটি বিশদভাবে বর্ণনা করুন' বা 'এই ছবিতে কী ভুল আছে?', LLaVA দ্বারা অগ্রণী৷
Cross-Attentionএকটি ট্রান্সফরমার মেকানিজম যা একটি পদ্ধতিকে অন্যটিতে উপস্থিত হতে দেয়। VLM-এ, পাঠ প্রতিক্রিয়া তৈরি করার সময় ক্রস-অ্যাটেনশন ভাষা মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলে উপস্থিত হতে দেয়।
DALL-Eওপেনএআই-এর একটি AI সিস্টেম যা প্রজন্মের প্রক্রিয়াকে গাইড করতে CLIP এম্বেডিং ব্যবহার করে পাঠ্য বিবরণ থেকে ছবি তৈরি করে। দৃষ্টি-ভাষা বোঝার বিপরীত দিক প্রদর্শন করে।
Groundingএকটি চিত্রের নির্দিষ্ট ভিজ্যুয়াল উপাদানগুলির সাথে বিমূর্ত ভাষার ধারণাগুলিকে সংযুক্ত করার প্রক্রিয়া, যেমন একটি ফটোতে কোন বস্তুটিকে একটি বর্ণনামূলক বাক্যাংশ দ্বারা উল্লেখ করা হচ্ছে তা সনাক্ত করা।
Hallucinationযখন একটি VLM বস্তু, গুণাবলী বা সম্পর্কের বর্ণনা তৈরি করে যা আসলে ইনপুট ছবিতে বিদ্যমান নেই। হ্যালুসিনেশন কমানো একটি বড় চলমান গবেষণা চ্যালেঞ্জ।
Object Detectionবাউন্ডিং বাক্স এবং ক্লাস লেবেলগুলির পূর্বাভাস দিয়ে একটি চিত্রের মধ্যে বস্তুগুলি সনাক্তকরণ এবং স্থানীয়করণের কাজ। আধুনিক ভিএলএম প্রাকৃতিক ভাষার বর্ণনা ব্যবহার করে খোলা শব্দভান্ডার সনাক্তকরণে এটিকে প্রসারিত করে।
Image Segmentationএকটি ছবিকে পিক্সেল স্তরে অর্থপূর্ণ অঞ্চলে ভাগ করা। শব্দার্থিক বিভাজন প্রতিটি পিক্সেলকে একটি শ্রেণির সাথে লেবেল করে, যখন উদাহরণ বিভাজন একই শ্রেণীর পৃথক বস্তুকে আলাদা করে।
Caption Generationস্বয়ংক্রিয়ভাবে একটি ছবির বিষয়বস্তুর একটি প্রাকৃতিক ভাষায় বর্ণনা তৈরি করার কাজ। আধুনিক ক্যাপশনিং সিস্টেমগুলি ভিএলএম ব্যবহার করে বিস্তারিত, প্রাসঙ্গিকভাবে সমৃদ্ধ বর্ণনা তৈরি করে যা সাধারণ বস্তুর তালিকার বাইরে যায়।
Multimodal Reasoningযৌক্তিক অনুমান সম্পাদন করার ক্ষমতা যার জন্য একাধিক পদ্ধতি থেকে তথ্য প্রয়োজন। উদাহরণস্বরূপ, 'কাপ পড়ে যাওয়ার সম্ভাবনা আছে?' চাক্ষুষ দৃশ্য জ্যামিতি এবং শারীরিক যুক্তি উভয় বোঝার প্রয়োজন.
LAIONবড় আকারের কৃত্রিম বুদ্ধিমত্তা ওপেন নেটওয়ার্ক - একটি অলাভজনক যা বিশাল ওপেন-সোর্স ইমেজ-টেক্সট ডেটাসেট তৈরি করে (5.85 বিলিয়ন জোড়া সহ LAION-5B) অনেকগুলি দৃষ্টি-ভাষা মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
Visual Encoderএকটি VLM এর উপাদান যা চিত্রগুলি প্রক্রিয়া করে এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করে। সাধারণ আর্কিটেকচারের মধ্যে রয়েছে ভিশন ট্রান্সফরমার (ViT), ConvNeXt এবং CLIP এর ভিজ্যুয়াল এনকোডার।
Q-FormerBLIP-2-এ ব্যবহৃত একটি লাইটওয়েট ট্রান্সফরমার মডিউল যা একটি হিমায়িত ইমেজ এনকোডার এবং একটি হিমায়িত বৃহৎ ভাষার মডেলকে সেতু করে, ভাষা তৈরির জন্য সবচেয়ে তথ্যপূর্ণ ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করতে শেখে।
Masked Image Modelingএকটি স্ব-তত্ত্বাবধান করা প্রাক-প্রশিক্ষণ কৌশল যেখানে একটি চিত্রের অংশগুলি মুখোশযুক্ত (লুকানো) এবং মডেলটিকে অবশ্যই অনুপস্থিত বিষয়বস্তুর পূর্বাভাস দিতে হবে, প্রক্রিয়াটিতে সমৃদ্ধ ভিজ্যুয়াল উপস্থাপনা শিখতে হবে।