molmo-vision-language

এটা কী?

🎯 সিমুলেটর টিপস

📚 শব্দকোষ

Attention Mechanism

একটি নিউরাল নেটওয়ার্ক উপাদান যা মডেলটিকে আউটপুট তৈরি করার সময় ইনপুটের প্রাসঙ্গিক অংশগুলিতে ফোকাস করতে দেয়। দৃষ্টি-ভাষা মডেলগুলিতে, ক্রস-অ্যাটেনশন মেকানিজমগুলি পাঠ্য প্রক্রিয়াকরণের সময় মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলগুলিতে উপস্থিত হতে সক্ষম করে এবং এর বিপরীতে।

Contrastive Learning

একটি স্ব-তত্ত্বাবধানে শেখার পদ্ধতি যা মডেলগুলিকে বৈষম্যমূলক উপস্থাপনা শিখতে উত্সাহিত করে নেতিবাচক জোড়া (অ-ম্যাচিং নমুনা) এর বিপরীতে ইতিবাচক জোড়া (মিলন নমুনা) বিপরীত করে মডেলগুলিকে প্রশিক্ষণ দেয়।

Embedding Space

একটি অবিচ্ছিন্ন ভেক্টর স্থান যেখানে ডেটা পয়েন্টগুলি ঘন সংখ্যাসূচক ভেক্টর হিসাবে উপস্থাপিত হয়। দৃষ্টি-ভাষা মডেলে, ছবি এবং পাঠ্য একটি শেয়ার্ড এমবেডিং স্পেসে ম্যাপ করা হয় যেখানে শব্দার্থিক সাদৃশ্য জ্যামিতিক প্রক্সিমিটির সাথে মিলে যায়।

Zero-Shot Learning

একটি মডেলের কার্য সম্পাদন করার বা বিভাগগুলি সনাক্ত করার ক্ষমতা যা এটিকে স্পষ্টভাবে প্রশিক্ষিত করা হয়নি, সম্পর্কিত কাজ বা ডেটার প্রশিক্ষণ থেকে স্থানান্তরিত জ্ঞানের সুবিধার মাধ্যমে।

Fine-Tuning

একটি প্রাক-প্রশিক্ষিত মডেল নেওয়ার প্রক্রিয়া এবং এটিকে একটি নির্দিষ্ট ডাউনস্ট্রিম টাস্ক বা ডেটাসেটে আরও প্রশিক্ষণ দেওয়া, এর শেখা উপস্থাপনাগুলিকে নতুন প্রয়োজনীয়তার সাথে খাপ খাইয়ে নেওয়া।

Encoder-Decoder Architecture

একটি এনকোডার নিয়ে গঠিত একটি নিউরাল নেটওয়ার্ক কাঠামো যা একটি সুপ্ত উপস্থাপনায় ইনপুটকে সংকুচিত করে এবং একটি ডিকোডার যা সেই উপস্থাপনা থেকে আউটপুট তৈরি করে। চিত্র ক্যাপশনে ব্যবহৃত হয় যেখানে এনকোডার চিত্রটি প্রক্রিয়া করে এবং ডিকোডার পাঠ্য তৈরি করে।

Tokenization

টেক্সটকে ছোট ইউনিটে (টোকেন) বিভক্ত করার প্রক্রিয়া যেমন শব্দ, সাবওয়ার্ড বা অক্ষর যা একটি নিউরাল নেটওয়ার্ক দ্বারা প্রক্রিয়া করা যেতে পারে। ভিজ্যুয়াল টোকেনাইজেশন একইভাবে চিত্রগুলিকে প্যাচগুলিতে ভাগ করে।

Cross-Modal Transfer

একটি পদ্ধতিতে শেখা জ্ঞান স্থানান্তর করার ক্ষমতা (যেমন, পাঠ্য) অন্য একটি পদ্ধতিতে কর্মক্ষমতা উন্নত করতে (যেমন, দৃষ্টি), পদ্ধতি জুড়ে ভাগ করা শব্দার্থিক ধারণাগুলিকে কাজে লাগানো।

Visual Grounding

একটি চিত্রে নির্দিষ্ট অঞ্চলগুলিকে স্থানীয়করণ বা চিহ্নিত করার কাজ যা একটি প্রদত্ত প্রাকৃতিক ভাষার অভিব্যক্তির সাথে সামঞ্জস্যপূর্ণ, চাক্ষুষ বিষয়বস্তুর সাথে পাঠ্য উল্লেখগুলিকে সংযুক্ত করে।

Multimodal Fusion

একটি ইউনিফাইড উপস্থাপনায় একাধিক পদ্ধতি থেকে তথ্য একত্রিত করার কৌশল। সাধারণ পদ্ধতির মধ্যে রয়েছে প্রাথমিক ফিউশন (কাঁচা ইনপুট একত্রিত করা), দেরী ফিউশন (উচ্চ-স্তরের বৈশিষ্ট্যগুলি একত্রিত করা), এবং ক্রস-অ্যাটেনশন ফিউশন।

Image Patch

ভিশন ট্রান্সফরমারগুলিতে ইনপুট ইউনিট হিসাবে ব্যবহৃত একটি চিত্রের একটি ছোট আয়তক্ষেত্রাকার অঞ্চল। চিত্রটিকে নন-ওভারল্যাপিং প্যাচগুলির একটি গ্রিডে বিভক্ত করা হয়েছে, প্রতিটিকে এনএলপি-তে শব্দের মতো একটি টোকেন হিসাবে বিবেচনা করা হয়েছে।

Pre-training

নির্দিষ্ট কাজের সূক্ষ্ম সুর করার আগে একটি বড়, সাধারণ ডেটাসেটে একটি মডেলকে প্রশিক্ষণের প্রাথমিক পর্যায়ে। দৃষ্টি-ভাষা মডেলগুলি প্রায়শই ইন্টারনেট থেকে লক্ষ লক্ষ ইমেজ-টেক্সট জোড়ায় প্রাক-প্রশিক্ষিত হয়।

Prompt Engineering

ইনপুট তৈরির অনুশীলনটি পছন্দসই আউটপুটগুলির দিকে একটি মডেলকে গাইড করার জন্য অনুরোধ করে। VLM-এ, সাবধানে ডিজাইন করা টেক্সট প্রম্পট শূন্য-শট শ্রেণীবিভাগ এবং অন্যান্য কাজগুলিকে উল্লেখযোগ্যভাবে উন্নত করতে পারে।

Semantic Similarity

বিষয়বস্তুর দুটি অংশের অর্থ কতটা ঘনিষ্ঠভাবে সম্পর্কিত তার একটি পরিমাপ, তাদের পৃষ্ঠ-স্তরের প্রতিনিধিত্ব নির্বিশেষে। ভিএলএম-এ, একটি কুকুরের একটি চিত্র এবং 'একটি কুকুর' পাঠ্য উচ্চ শব্দার্থিক মিল থাকবে।

Feature Extraction

কাঁচা ডেটা থেকে গুরুত্বপূর্ণ নিদর্শন এবং বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে শেখার এবং সনাক্ত করার প্রক্রিয়া। ভিশন এনকোডারগুলি চিত্রগুলি থেকে প্রান্ত, টেক্সচার এবং বস্তুর আকারের মতো চাক্ষুষ বৈশিষ্ট্যগুলি বের করে।

Cosine Similarity

দুটি ভেক্টর কতটা একই রকম তা পরিমাপ করতে ব্যবহৃত একটি মেট্রিক তাদের মধ্যে কোণের কোসাইন গণনা করে। ভিএলএম-এ, ইমেজ এবং টেক্সট এম্বেডিংয়ের মধ্যে কোসাইন সাদৃশ্য নির্ধারণ করে যে তারা শব্দার্থগতভাবে কতটা ভাল মেলে, যার মান -1 (বিপরীত) থেকে 1 (অভিন্ন)।

Batch Normalization

একটি কৌশল যা একটি নিউরাল নেটওয়ার্কের প্রতিটি স্তরে ইনপুটগুলিকে স্বাভাবিক করে, প্রশিক্ষণকে স্থিতিশীল করে এবং ত্বরান্বিত করে। গ্রেডিয়েন্ট প্রবাহ উন্নত করতে এবং গভীর নেটওয়ার্কগুলির প্রশিক্ষণ সক্ষম করতে দৃষ্টি এনকোডারগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।

Transfer Learning

একটি মেশিন লার্নিং কৌশল যেখানে একটি টাস্কে প্রশিক্ষিত একটি মডেল একটি ভিন্ন কিন্তু সম্পর্কিত কাজের জন্য পুনঃপ্রয়োগ করা হয়। ভিএলএম যেমন CLIP ট্রান্সফার লার্নিং-এ এক্সেল কারণ তাদের সাধারণ ভিজ্যুয়াল-ভাষাগত উপস্থাপনা টাস্ক-নির্দিষ্ট প্রশিক্ষণ ছাড়াই অনেক ডাউনস্ট্রিম কাজে প্রয়োগ করা যেতে পারে।

Image Captioning

স্বয়ংক্রিয়ভাবে একটি চিত্রের একটি প্রাকৃতিক ভাষা বর্ণনা তৈরি করার কাজ। এর জন্য মডেলটিকে বস্তু, তাদের বৈশিষ্ট্য, স্থানিক সম্পর্ক এবং ক্রিয়াকলাপ সনাক্ত করতে হবে, তারপরে এই তথ্যটি বোঝাতে একটি ব্যাকরণগতভাবে সঠিক বাক্য রচনা করুন।

Self-Supervised Learning

একটি প্রশিক্ষণের দৃষ্টান্ত যেখানে মডেলটি ডেটা থেকে প্রাপ্ত অজুহাত কাজগুলি সমাধান করে লেবেলবিহীন ডেটা থেকে উপস্থাপনা শিখে। ইমেজ-টেক্সট জোড়ায় দ্বন্দ্বমূলক শিক্ষা হল স্ব-তত্ত্বাবধানে শিক্ষার একটি রূপ যা VLM-এর জন্য অত্যন্ত কার্যকর প্রমাণিত হয়েছে।

Multimodal Embedding

একটি শেখা ভেক্টর উপস্থাপনা যা একটি ভাগ করা স্থানে একাধিক পদ্ধতি (যেমন চিত্র এবং পাঠ্য) থেকে তথ্য ক্যাপচার করে। মাল্টিমোডাল এম্বেডিং ক্রস-মোডাল পুনরুদ্ধার সক্ষম করে, যেখানে একটি পাঠ্য ক্যোয়ারী প্রাসঙ্গিক চিত্রগুলি খুঁজে পেতে পারে বা একটি চিত্র ক্যোয়ারী প্রাসঙ্গিক পাঠ্যের বিবরণ খুঁজে পেতে পারে।

Diffusion Model

একটি জেনারেটিভ মডেল যা শেখা রিভার্স ডিফিউশন প্রক্রিয়ার মাধ্যমে ধীরে ধীরে এলোমেলো শব্দকে অস্বীকার করে ডেটা (প্রায়শই ছবি) তৈরি করতে শেখে। DALL-E 2 এবং স্টেবল ডিফিউশনের মতো মডেলগুলি পাঠ্য বিবরণ থেকে চিত্র তৈরিকে গাইড করতে CLIP পাঠ্য এম্বেডিং ব্যবহার করে।

Region of Interest (ROI)

একটি ছবির মধ্যে একটি নির্দিষ্ট এলাকা যা একটি নির্দিষ্ট কাজের জন্য প্রাসঙ্গিক। দৃষ্টি-ভাষা মডেলগুলিতে, মডেলটি আগ্রহের নির্দিষ্ট অঞ্চলগুলিতে উপস্থিত হতে পারে যখন প্রশ্নের উত্তর দেয় বা কোনও চিত্রের মধ্যে স্থানীয়কৃত বিষয়বস্তু সম্পর্কে বিবরণ তৈরি করে।

Instruction Tuning

প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি ভাষা মডেলকে প্রশিক্ষণ দেওয়া, এটিকে আরও নিয়ন্ত্রণযোগ্য এবং বিভিন্ন কাজের জন্য উপযোগী করে তোলা। ভিজ্যুয়াল ইন্সট্রাকশন টিউনিং এটিকে ইমেজ-টেক্সট ইন্সট্রাকশন পেয়ার পর্যন্ত প্রসারিত করে।

Adapter Layer

একটি লাইটওয়েট নিউরাল নেটওয়ার্ক মডিউল একটি প্রাক-প্রশিক্ষিত মডেলে ঢোকানো হয়েছে যাতে এটিকে ন্যূনতম প্যারামিটার আপডেট সহ নতুন কাজ বা পদ্ধতির সাথে মানিয়ে নেওয়া যায়, মূল মডেলের জ্ঞান সংরক্ষণ করা হয়।

Vision-Language Pre-training

নির্দিষ্ট ডাউনস্ট্রিম টাস্কে ফাইন-টিউনিং করার আগে সাধারণ ক্রস-মডেল উপস্থাপনা শিখতে বড় আকারের ইমেজ-টেক্সট ডেটাতে একটি মডেলকে প্রশিক্ষণ দেওয়ার প্রক্রিয়া।

Generative Pre-trained Transformer (GPT)

অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের একটি পরিবার যা টোকেন দ্বারা টেক্সট টোকেন তৈরি করে। GPT-4V ভিজ্যুয়াল ইনপুট প্রক্রিয়া করার জন্য আর্কিটেকচারকে প্রসারিত করেছে, একটি শক্তিশালী দৃষ্টি-ভাষা মডেল তৈরি করেছে।

RLHF (Reinforcement Learning from Human Feedback)

একটি প্রশিক্ষণ কৌশল যা AI মডেলগুলিকে সূক্ষ্ম-টিউন করতে, তাদের সহায়কতা এবং সুরক্ষা উন্নত করতে মানুষের পছন্দগুলি ব্যবহার করে৷ চিত্র বোঝার মান উন্নত করতে মাল্টিমডাল মডেলগুলিতে প্রয়োগ করা হয়েছে।

Multimodal Large Language Model (MLLM)

একাধিক ধরনের ইনপুট (টেক্সট, ইমেজ, অডিও, ভিডিও) প্রক্রিয়া করার জন্য বর্ধিত একটি বড় ভাষা মডেল। উদাহরণগুলির মধ্যে রয়েছে GPT-4V, Gemini এবং Claude, যা পাঠ্যের পাশাপাশি ভিজ্যুয়াল বিষয়বস্তু সম্পর্কে বুঝতে এবং যুক্তি দিতে পারে।

Few-Shot Learning

ব্যাপক পুনঃপ্রশিক্ষণ ছাড়াই মাত্র কয়েকটি উদাহরণ থেকে একটি নতুন কাজ শেখার মডেলের ক্ষমতা। ফ্ল্যামিঙ্গোর মত ভিএলএম বিভিন্ন ভিজ্যুয়াল টাস্ক জুড়ে অসাধারণ কিছু শট ক্ষমতা প্রদর্শন করেছে।

Visual Instruction Tuning

চিত্র সম্পর্কে প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি দৃষ্টি-ভাষা মডেলের প্রশিক্ষণ, যেমন 'এই চিত্রটি বিশদভাবে বর্ণনা করুন' বা 'এই ছবিতে কী ভুল আছে?', LLaVA দ্বারা অগ্রণী৷

Cross-Attention

একটি ট্রান্সফরমার মেকানিজম যা একটি পদ্ধতিকে অন্যটিতে উপস্থিত হতে দেয়। VLM-এ, পাঠ প্রতিক্রিয়া তৈরি করার সময় ক্রস-অ্যাটেনশন ভাষা মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলে উপস্থিত হতে দেয়।

DALL-E

ওপেনএআই-এর একটি AI সিস্টেম যা প্রজন্মের প্রক্রিয়াকে গাইড করতে CLIP এম্বেডিং ব্যবহার করে পাঠ্য বিবরণ থেকে ছবি তৈরি করে। দৃষ্টি-ভাষা বোঝার বিপরীত দিক প্রদর্শন করে।

Grounding

একটি চিত্রের নির্দিষ্ট ভিজ্যুয়াল উপাদানগুলির সাথে বিমূর্ত ভাষার ধারণাগুলিকে সংযুক্ত করার প্রক্রিয়া, যেমন একটি ফটোতে কোন বস্তুটিকে একটি বর্ণনামূলক বাক্যাংশ দ্বারা উল্লেখ করা হচ্ছে তা সনাক্ত করা।

Hallucination

যখন একটি VLM বস্তু, গুণাবলী বা সম্পর্কের বর্ণনা তৈরি করে যা আসলে ইনপুট ছবিতে বিদ্যমান নেই। হ্যালুসিনেশন কমানো একটি বড় চলমান গবেষণা চ্যালেঞ্জ।

Object Detection

বাউন্ডিং বাক্স এবং ক্লাস লেবেলগুলির পূর্বাভাস দিয়ে একটি চিত্রের মধ্যে বস্তুগুলি সনাক্তকরণ এবং স্থানীয়করণের কাজ। আধুনিক ভিএলএম প্রাকৃতিক ভাষার বর্ণনা ব্যবহার করে খোলা শব্দভান্ডার সনাক্তকরণে এটিকে প্রসারিত করে।

Image Segmentation

একটি ছবিকে পিক্সেল স্তরে অর্থপূর্ণ অঞ্চলে ভাগ করা। শব্দার্থিক বিভাজন প্রতিটি পিক্সেলকে একটি শ্রেণির সাথে লেবেল করে, যখন উদাহরণ বিভাজন একই শ্রেণীর পৃথক বস্তুকে আলাদা করে।

Caption Generation

স্বয়ংক্রিয়ভাবে একটি ছবির বিষয়বস্তুর একটি প্রাকৃতিক ভাষায় বর্ণনা তৈরি করার কাজ। আধুনিক ক্যাপশনিং সিস্টেমগুলি ভিএলএম ব্যবহার করে বিস্তারিত, প্রাসঙ্গিকভাবে সমৃদ্ধ বর্ণনা তৈরি করে যা সাধারণ বস্তুর তালিকার বাইরে যায়।

Multimodal Reasoning

যৌক্তিক অনুমান সম্পাদন করার ক্ষমতা যার জন্য একাধিক পদ্ধতি থেকে তথ্য প্রয়োজন। উদাহরণস্বরূপ, 'কাপ পড়ে যাওয়ার সম্ভাবনা আছে?' চাক্ষুষ দৃশ্য জ্যামিতি এবং শারীরিক যুক্তি উভয় বোঝার প্রয়োজন.

LAION

বড় আকারের কৃত্রিম বুদ্ধিমত্তা ওপেন নেটওয়ার্ক - একটি অলাভজনক যা বিশাল ওপেন-সোর্স ইমেজ-টেক্সট ডেটাসেট তৈরি করে (5.85 বিলিয়ন জোড়া সহ LAION-5B) অনেকগুলি দৃষ্টি-ভাষা মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।

Visual Encoder

একটি VLM এর উপাদান যা চিত্রগুলি প্রক্রিয়া করে এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করে। সাধারণ আর্কিটেকচারের মধ্যে রয়েছে ভিশন ট্রান্সফরমার (ViT), ConvNeXt এবং CLIP এর ভিজ্যুয়াল এনকোডার।

Q-Former

BLIP-2-এ ব্যবহৃত একটি লাইটওয়েট ট্রান্সফরমার মডিউল যা একটি হিমায়িত ইমেজ এনকোডার এবং একটি হিমায়িত বৃহৎ ভাষার মডেলকে সেতু করে, ভাষা তৈরির জন্য সবচেয়ে তথ্যপূর্ণ ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করতে শেখে।

Masked Image Modeling

একটি স্ব-তত্ত্বাবধান করা প্রাক-প্রশিক্ষণ কৌশল যেখানে একটি চিত্রের অংশগুলি মুখোশযুক্ত (লুকানো) এবং মডেলটিকে অবশ্যই অনুপস্থিত বিষয়বস্তুর পূর্বাভাস দিতে হবে, প্রক্রিয়াটিতে সমৃদ্ধ ভিজ্যুয়াল উপস্থাপনা শিখতে হবে।

🏆 মূল ব্যক্তিত্ব

Alec Radford (2021)

ওপেনএআই-এর প্রধান গবেষক যিনি CLIP (কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রাক-প্রশিক্ষণ) সহ-তৈরি করেছেন, দেখিয়েছেন যে প্রাকৃতিক ভাষা তত্ত্বাবধান থেকে ভিজ্যুয়াল উপস্থাপনা শেখা অসাধারণ শূন্য-শট ক্ষমতা সহ অত্যন্ত স্থানান্তরযোগ্য মডেল তৈরি করতে পারে।

Junnan Li (2022)

সেলসফোর্স রিসার্চের প্রধান গবেষক যিনি BLIP (বুটস্ট্র্যাপিং ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং) এবং BLIP-2 তৈরি করেছেন, ক্যাপশনিং এবং ফিল্টারিং ব্যবহার করে গোলমালপূর্ণ ওয়েব ডেটা থেকে বুটস্ট্র্যাপিং দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণের জন্য অভিনব কৌশল প্রবর্তন করেছেন।

Jean-Baptiste Alayrac (2022)

ডিপমাইন্ড-এর গবেষক যিনি ফ্লেমিংগোর উন্নয়নে সহ-নেতৃত্ব করেন, একটি ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল যা ক্রস-অ্যাটেনশনের মাধ্যমে ভিজ্যুয়াল ইনপুটগুলিতে একটি হিমায়িত ভাষা মডেলকে কন্ডিশনার করে মাল্টিমোডাল টাস্কগুলির বিস্তৃত পরিসরে অল্প-শট শেখার ক্ষমতা রাখে৷

Alexey Dosovitskiy (2021)

Google Brain-এ ভিশন ট্রান্সফরমার (ViT) তৈরির নেতৃত্বে, এটি প্রদর্শন করে যে বিশুদ্ধ ট্রান্সফরমার আর্কিটেকচারগুলি চিত্রের শ্রেণীবিভাগে চমৎকার ফলাফল অর্জন করতে পারে, যা অনেক VLM-এর ভিজ্যুয়াল ব্যাকবোন গঠন করে।

Haotian Liu (2023)

LLaVA (বড় ভাষা এবং দৃষ্টি সহকারী) তৈরি করা হয়েছে, ভিজ্যুয়াল ইন্সট্রাকশন টিউনিংয়ের পদ্ধতির পথপ্রদর্শক যা বৃহৎ ভাষার মডেলগুলিকে দক্ষ সূক্ষ্ম-টিউনিংয়ের মাধ্যমে চিত্রগুলিকে প্রক্রিয়া করতে এবং যুক্তি দিতে সক্ষম করে।

Dario Amodei (2023)

অ্যানথ্রোপিক সহ-প্রতিষ্ঠা করেছেন এবং ক্লডের উন্নয়নে অবদান রেখেছেন, মাল্টিমোডাল এআই সুরক্ষার উন্নতি করেছেন এবং কীভাবে দৃষ্টি-ভাষা মডেলগুলিকে আরও সহায়ক, নিরীহ এবং সৎ করা যেতে পারে তা প্রদর্শন করেছেন

🎓 শিক্ষার উৎস

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
400 মিলিয়ন ইমেজ-টেক্সট জোড়ার উপর বৈপরীত্যমূলক প্রাক-প্রশিক্ষণ যে শক্তিশালী শূন্য-শট ভিজ্যুয়াল শ্রেণীবিভাগ এবং ইমেজ-টেক্সট পুনরুদ্ধার সক্ষম করে।
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP প্রবর্তন করে, একটি ফ্রেমওয়ার্ক যা শোরগোলপূর্ণ ওয়েব ডেটা থেকে ক্যাপশন বুটস্ট্র্যাপ করে এবং দৃষ্টি-ভাষা বোঝা এবং প্রজন্মের কাজগুলিতে অত্যাধুনিক ফলাফল অর্জন করে।
Flamingo: a Visual Language Model for Few-Shot Learning
ফ্ল্যামিঙ্গো উপস্থাপন করে, যা ক্রস-অ্যাটেনশন ব্যবহার করে শক্তিশালী প্রাক-প্রশিক্ষিত দৃষ্টিভঙ্গি এবং ভাষার মডেলগুলিকে সেতু করে এবং বিভিন্ন মাল্টিমোডাল টাস্কগুলিতে শক্তিশালী কয়েকটি শট শেখার প্রদর্শন করে।
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
ভিশন ট্রান্সফরমার (ViT) কাগজ দেখায় যে বিশুদ্ধ ট্রান্সফরমার আর্কিটেকচারগুলি চিত্র শ্রেণীবিভাগে চমৎকার ফলাফল অর্জন করতে পারে, যা অনেক ভিএলএম ভিশন এনকোডারের ভিত্তি তৈরি করে।
Deep Learning for Vision Systems
ভিজ্যুয়াল বোঝার জন্য কম্পিউটার ভিশন ফান্ডামেন্টাল এবং ডিপ লার্নিং আর্কিটেকচার কভার করে একটি ব্যবহারিক গাইড, ভিশন-ভাষা মডেল বোঝার জন্য প্রয়োজনীয় পটভূমি প্রদান করে।
Dive into Deep Learning
কোড, গণিত এবং আলোচনা সহ একটি ইন্টারেক্টিভ ডিপ লার্নিং পাঠ্যপুস্তক, ভিএলএমগুলির জন্য গুরুত্বপূর্ণ মনোযোগ প্রক্রিয়া এবং ট্রান্সফরমার আর্কিটেকচারের অধ্যায়গুলি সহ।
Foundations of Computer Vision
এমআইটি থেকে একটি ব্যাপক পাঠ্যপুস্তক যা মাল্টিমডাল শিক্ষা এবং দৃষ্টি-ভাষা একীকরণ সহ আধুনিক কম্পিউটার দৃষ্টিকে কভার করে।
CLIP: Connecting Text and Images - OpenAI Research Explanation
CLIP কীভাবে এর শূন্য-শট ক্ষমতার ভিজ্যুয়াল প্রদর্শনের সাথে বিপরীত শিক্ষা ব্যবহার করে চিত্র এবং পাঠ্য সংযোগ করতে শেখে তার একটি অ্যাক্সেসযোগ্য ব্যাখ্যা।
Stanford CS231n: Deep Learning for Computer Vision
স্ট্যানফোর্ডের বিখ্যাত কম্পিউটার ভিশন কোর্স যা সিএনএন, ট্রান্সফরমার এবং আধুনিক আর্কিটেকচারগুলিকে কভার করে যা দৃষ্টি-ভাষা মডেলগুলির ভিত্তি তৈরি করে।
Andrej Karpathy - Let's Build GPT: From Scratch
ভাষার মডেলগুলিতে ফোকাস করার সময়, ট্রান্সফরমার আর্কিটেকচারের এই বিস্তারিত ওয়াকথ্রু ভিএলএম-এর পাঠ্য প্রক্রিয়াকরণ উপাদানের জন্য প্রয়োজনীয় বোঝার ব্যবস্থা করে।

💬 শিক্ষার্থীদের বার্তা

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

শুরু করুন

বিনামূল্যে, সাইনআপ নেই

শুরু করুন →