🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 এখনই চেষ্টা করুন

এটা কী?

🎯 সিমুলেটর টিপস

📚 শব্দকোষ

Attention Mechanism
একটি নিউরাল নেটওয়ার্ক উপাদান যা মডেলটিকে আউটপুট তৈরি করার সময় ইনপুটের প্রাসঙ্গিক অংশগুলিতে ফোকাস করতে দেয়। দৃষ্টি-ভাষা মডেলগুলিতে, ক্রস-অ্যাটেনশন মেকানিজমগুলি পাঠ্য প্রক্রিয়াকরণের সময় মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলগুলিতে উপস্থিত হতে সক্ষম করে এবং এর বিপরীতে।
Contrastive Learning
একটি স্ব-তত্ত্বাবধানে শেখার পদ্ধতি যা মডেলগুলিকে বৈষম্যমূলক উপস্থাপনা শিখতে উত্সাহিত করে নেতিবাচক জোড়া (অ-ম্যাচিং নমুনা) এর বিপরীতে ইতিবাচক জোড়া (মিলন নমুনা) বিপরীত করে মডেলগুলিকে প্রশিক্ষণ দেয়।
Embedding Space
একটি অবিচ্ছিন্ন ভেক্টর স্থান যেখানে ডেটা পয়েন্টগুলি ঘন সংখ্যাসূচক ভেক্টর হিসাবে উপস্থাপিত হয়। দৃষ্টি-ভাষা মডেলে, ছবি এবং পাঠ্য একটি শেয়ার্ড এমবেডিং স্পেসে ম্যাপ করা হয় যেখানে শব্দার্থিক সাদৃশ্য জ্যামিতিক প্রক্সিমিটির সাথে মিলে যায়।
Zero-Shot Learning
একটি মডেলের কার্য সম্পাদন করার বা বিভাগগুলি সনাক্ত করার ক্ষমতা যা এটিকে স্পষ্টভাবে প্রশিক্ষিত করা হয়নি, সম্পর্কিত কাজ বা ডেটার প্রশিক্ষণ থেকে স্থানান্তরিত জ্ঞানের সুবিধার মাধ্যমে।
Fine-Tuning
একটি প্রাক-প্রশিক্ষিত মডেল নেওয়ার প্রক্রিয়া এবং এটিকে একটি নির্দিষ্ট ডাউনস্ট্রিম টাস্ক বা ডেটাসেটে আরও প্রশিক্ষণ দেওয়া, এর শেখা উপস্থাপনাগুলিকে নতুন প্রয়োজনীয়তার সাথে খাপ খাইয়ে নেওয়া।
Encoder-Decoder Architecture
একটি এনকোডার নিয়ে গঠিত একটি নিউরাল নেটওয়ার্ক কাঠামো যা একটি সুপ্ত উপস্থাপনায় ইনপুটকে সংকুচিত করে এবং একটি ডিকোডার যা সেই উপস্থাপনা থেকে আউটপুট তৈরি করে। চিত্র ক্যাপশনে ব্যবহৃত হয় যেখানে এনকোডার চিত্রটি প্রক্রিয়া করে এবং ডিকোডার পাঠ্য তৈরি করে।
Tokenization
টেক্সটকে ছোট ইউনিটে (টোকেন) বিভক্ত করার প্রক্রিয়া যেমন শব্দ, সাবওয়ার্ড বা অক্ষর যা একটি নিউরাল নেটওয়ার্ক দ্বারা প্রক্রিয়া করা যেতে পারে। ভিজ্যুয়াল টোকেনাইজেশন একইভাবে চিত্রগুলিকে প্যাচগুলিতে ভাগ করে।
Cross-Modal Transfer
একটি পদ্ধতিতে শেখা জ্ঞান স্থানান্তর করার ক্ষমতা (যেমন, পাঠ্য) অন্য একটি পদ্ধতিতে কর্মক্ষমতা উন্নত করতে (যেমন, দৃষ্টি), পদ্ধতি জুড়ে ভাগ করা শব্দার্থিক ধারণাগুলিকে কাজে লাগানো।
Visual Grounding
একটি চিত্রে নির্দিষ্ট অঞ্চলগুলিকে স্থানীয়করণ বা চিহ্নিত করার কাজ যা একটি প্রদত্ত প্রাকৃতিক ভাষার অভিব্যক্তির সাথে সামঞ্জস্যপূর্ণ, চাক্ষুষ বিষয়বস্তুর সাথে পাঠ্য উল্লেখগুলিকে সংযুক্ত করে।
Multimodal Fusion
একটি ইউনিফাইড উপস্থাপনায় একাধিক পদ্ধতি থেকে তথ্য একত্রিত করার কৌশল। সাধারণ পদ্ধতির মধ্যে রয়েছে প্রাথমিক ফিউশন (কাঁচা ইনপুট একত্রিত করা), দেরী ফিউশন (উচ্চ-স্তরের বৈশিষ্ট্যগুলি একত্রিত করা), এবং ক্রস-অ্যাটেনশন ফিউশন।
Image Patch
ভিশন ট্রান্সফরমারগুলিতে ইনপুট ইউনিট হিসাবে ব্যবহৃত একটি চিত্রের একটি ছোট আয়তক্ষেত্রাকার অঞ্চল। চিত্রটিকে নন-ওভারল্যাপিং প্যাচগুলির একটি গ্রিডে বিভক্ত করা হয়েছে, প্রতিটিকে এনএলপি-তে শব্দের মতো একটি টোকেন হিসাবে বিবেচনা করা হয়েছে।
Pre-training
নির্দিষ্ট কাজের সূক্ষ্ম সুর করার আগে একটি বড়, সাধারণ ডেটাসেটে একটি মডেলকে প্রশিক্ষণের প্রাথমিক পর্যায়ে। দৃষ্টি-ভাষা মডেলগুলি প্রায়শই ইন্টারনেট থেকে লক্ষ লক্ষ ইমেজ-টেক্সট জোড়ায় প্রাক-প্রশিক্ষিত হয়।
Prompt Engineering
ইনপুট তৈরির অনুশীলনটি পছন্দসই আউটপুটগুলির দিকে একটি মডেলকে গাইড করার জন্য অনুরোধ করে। VLM-এ, সাবধানে ডিজাইন করা টেক্সট প্রম্পট শূন্য-শট শ্রেণীবিভাগ এবং অন্যান্য কাজগুলিকে উল্লেখযোগ্যভাবে উন্নত করতে পারে।
Semantic Similarity
বিষয়বস্তুর দুটি অংশের অর্থ কতটা ঘনিষ্ঠভাবে সম্পর্কিত তার একটি পরিমাপ, তাদের পৃষ্ঠ-স্তরের প্রতিনিধিত্ব নির্বিশেষে। ভিএলএম-এ, একটি কুকুরের একটি চিত্র এবং 'একটি কুকুর' পাঠ্য উচ্চ শব্দার্থিক মিল থাকবে।
Feature Extraction
কাঁচা ডেটা থেকে গুরুত্বপূর্ণ নিদর্শন এবং বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে শেখার এবং সনাক্ত করার প্রক্রিয়া। ভিশন এনকোডারগুলি চিত্রগুলি থেকে প্রান্ত, টেক্সচার এবং বস্তুর আকারের মতো চাক্ষুষ বৈশিষ্ট্যগুলি বের করে।
Cosine Similarity
দুটি ভেক্টর কতটা একই রকম তা পরিমাপ করতে ব্যবহৃত একটি মেট্রিক তাদের মধ্যে কোণের কোসাইন গণনা করে। ভিএলএম-এ, ইমেজ এবং টেক্সট এম্বেডিংয়ের মধ্যে কোসাইন সাদৃশ্য নির্ধারণ করে যে তারা শব্দার্থগতভাবে কতটা ভাল মেলে, যার মান -1 (বিপরীত) থেকে 1 (অভিন্ন)।
Batch Normalization
একটি কৌশল যা একটি নিউরাল নেটওয়ার্কের প্রতিটি স্তরে ইনপুটগুলিকে স্বাভাবিক করে, প্রশিক্ষণকে স্থিতিশীল করে এবং ত্বরান্বিত করে। গ্রেডিয়েন্ট প্রবাহ উন্নত করতে এবং গভীর নেটওয়ার্কগুলির প্রশিক্ষণ সক্ষম করতে দৃষ্টি এনকোডারগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।
Transfer Learning
একটি মেশিন লার্নিং কৌশল যেখানে একটি টাস্কে প্রশিক্ষিত একটি মডেল একটি ভিন্ন কিন্তু সম্পর্কিত কাজের জন্য পুনঃপ্রয়োগ করা হয়। ভিএলএম যেমন CLIP ট্রান্সফার লার্নিং-এ এক্সেল কারণ তাদের সাধারণ ভিজ্যুয়াল-ভাষাগত উপস্থাপনা টাস্ক-নির্দিষ্ট প্রশিক্ষণ ছাড়াই অনেক ডাউনস্ট্রিম কাজে প্রয়োগ করা যেতে পারে।
Image Captioning
স্বয়ংক্রিয়ভাবে একটি চিত্রের একটি প্রাকৃতিক ভাষা বর্ণনা তৈরি করার কাজ। এর জন্য মডেলটিকে বস্তু, তাদের বৈশিষ্ট্য, স্থানিক সম্পর্ক এবং ক্রিয়াকলাপ সনাক্ত করতে হবে, তারপরে এই তথ্যটি বোঝাতে একটি ব্যাকরণগতভাবে সঠিক বাক্য রচনা করুন।
Self-Supervised Learning
একটি প্রশিক্ষণের দৃষ্টান্ত যেখানে মডেলটি ডেটা থেকে প্রাপ্ত অজুহাত কাজগুলি সমাধান করে লেবেলবিহীন ডেটা থেকে উপস্থাপনা শিখে। ইমেজ-টেক্সট জোড়ায় দ্বন্দ্বমূলক শিক্ষা হল স্ব-তত্ত্বাবধানে শিক্ষার একটি রূপ যা VLM-এর জন্য অত্যন্ত কার্যকর প্রমাণিত হয়েছে।
Multimodal Embedding
একটি শেখা ভেক্টর উপস্থাপনা যা একটি ভাগ করা স্থানে একাধিক পদ্ধতি (যেমন চিত্র এবং পাঠ্য) থেকে তথ্য ক্যাপচার করে। মাল্টিমোডাল এম্বেডিং ক্রস-মোডাল পুনরুদ্ধার সক্ষম করে, যেখানে একটি পাঠ্য ক্যোয়ারী প্রাসঙ্গিক চিত্রগুলি খুঁজে পেতে পারে বা একটি চিত্র ক্যোয়ারী প্রাসঙ্গিক পাঠ্যের বিবরণ খুঁজে পেতে পারে।
Diffusion Model
একটি জেনারেটিভ মডেল যা শেখা রিভার্স ডিফিউশন প্রক্রিয়ার মাধ্যমে ধীরে ধীরে এলোমেলো শব্দকে অস্বীকার করে ডেটা (প্রায়শই ছবি) তৈরি করতে শেখে। DALL-E 2 এবং স্টেবল ডিফিউশনের মতো মডেলগুলি পাঠ্য বিবরণ থেকে চিত্র তৈরিকে গাইড করতে CLIP পাঠ্য এম্বেডিং ব্যবহার করে।
Region of Interest (ROI)
একটি ছবির মধ্যে একটি নির্দিষ্ট এলাকা যা একটি নির্দিষ্ট কাজের জন্য প্রাসঙ্গিক। দৃষ্টি-ভাষা মডেলগুলিতে, মডেলটি আগ্রহের নির্দিষ্ট অঞ্চলগুলিতে উপস্থিত হতে পারে যখন প্রশ্নের উত্তর দেয় বা কোনও চিত্রের মধ্যে স্থানীয়কৃত বিষয়বস্তু সম্পর্কে বিবরণ তৈরি করে।
Instruction Tuning
প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি ভাষা মডেলকে প্রশিক্ষণ দেওয়া, এটিকে আরও নিয়ন্ত্রণযোগ্য এবং বিভিন্ন কাজের জন্য উপযোগী করে তোলা। ভিজ্যুয়াল ইন্সট্রাকশন টিউনিং এটিকে ইমেজ-টেক্সট ইন্সট্রাকশন পেয়ার পর্যন্ত প্রসারিত করে।
Adapter Layer
একটি লাইটওয়েট নিউরাল নেটওয়ার্ক মডিউল একটি প্রাক-প্রশিক্ষিত মডেলে ঢোকানো হয়েছে যাতে এটিকে ন্যূনতম প্যারামিটার আপডেট সহ নতুন কাজ বা পদ্ধতির সাথে মানিয়ে নেওয়া যায়, মূল মডেলের জ্ঞান সংরক্ষণ করা হয়।
Vision-Language Pre-training
নির্দিষ্ট ডাউনস্ট্রিম টাস্কে ফাইন-টিউনিং করার আগে সাধারণ ক্রস-মডেল উপস্থাপনা শিখতে বড় আকারের ইমেজ-টেক্সট ডেটাতে একটি মডেলকে প্রশিক্ষণ দেওয়ার প্রক্রিয়া।
Generative Pre-trained Transformer (GPT)
অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের একটি পরিবার যা টোকেন দ্বারা টেক্সট টোকেন তৈরি করে। GPT-4V ভিজ্যুয়াল ইনপুট প্রক্রিয়া করার জন্য আর্কিটেকচারকে প্রসারিত করেছে, একটি শক্তিশালী দৃষ্টি-ভাষা মডেল তৈরি করেছে।
RLHF (Reinforcement Learning from Human Feedback)
একটি প্রশিক্ষণ কৌশল যা AI মডেলগুলিকে সূক্ষ্ম-টিউন করতে, তাদের সহায়কতা এবং সুরক্ষা উন্নত করতে মানুষের পছন্দগুলি ব্যবহার করে৷ চিত্র বোঝার মান উন্নত করতে মাল্টিমডাল মডেলগুলিতে প্রয়োগ করা হয়েছে।
Multimodal Large Language Model (MLLM)
একাধিক ধরনের ইনপুট (টেক্সট, ইমেজ, অডিও, ভিডিও) প্রক্রিয়া করার জন্য বর্ধিত একটি বড় ভাষা মডেল। উদাহরণগুলির মধ্যে রয়েছে GPT-4V, Gemini এবং Claude, যা পাঠ্যের পাশাপাশি ভিজ্যুয়াল বিষয়বস্তু সম্পর্কে বুঝতে এবং যুক্তি দিতে পারে।
Few-Shot Learning
ব্যাপক পুনঃপ্রশিক্ষণ ছাড়াই মাত্র কয়েকটি উদাহরণ থেকে একটি নতুন কাজ শেখার মডেলের ক্ষমতা। ফ্ল্যামিঙ্গোর মত ভিএলএম বিভিন্ন ভিজ্যুয়াল টাস্ক জুড়ে অসাধারণ কিছু শট ক্ষমতা প্রদর্শন করেছে।
Visual Instruction Tuning
চিত্র সম্পর্কে প্রাকৃতিক ভাষার নির্দেশাবলী অনুসরণ করার জন্য একটি দৃষ্টি-ভাষা মডেলের প্রশিক্ষণ, যেমন 'এই চিত্রটি বিশদভাবে বর্ণনা করুন' বা 'এই ছবিতে কী ভুল আছে?', LLaVA দ্বারা অগ্রণী৷
Cross-Attention
একটি ট্রান্সফরমার মেকানিজম যা একটি পদ্ধতিকে অন্যটিতে উপস্থিত হতে দেয়। VLM-এ, পাঠ প্রতিক্রিয়া তৈরি করার সময় ক্রস-অ্যাটেনশন ভাষা মডেলটিকে প্রাসঙ্গিক চিত্র অঞ্চলে উপস্থিত হতে দেয়।
DALL-E
ওপেনএআই-এর একটি AI সিস্টেম যা প্রজন্মের প্রক্রিয়াকে গাইড করতে CLIP এম্বেডিং ব্যবহার করে পাঠ্য বিবরণ থেকে ছবি তৈরি করে। দৃষ্টি-ভাষা বোঝার বিপরীত দিক প্রদর্শন করে।
Grounding
একটি চিত্রের নির্দিষ্ট ভিজ্যুয়াল উপাদানগুলির সাথে বিমূর্ত ভাষার ধারণাগুলিকে সংযুক্ত করার প্রক্রিয়া, যেমন একটি ফটোতে কোন বস্তুটিকে একটি বর্ণনামূলক বাক্যাংশ দ্বারা উল্লেখ করা হচ্ছে তা সনাক্ত করা।
Hallucination
যখন একটি VLM বস্তু, গুণাবলী বা সম্পর্কের বর্ণনা তৈরি করে যা আসলে ইনপুট ছবিতে বিদ্যমান নেই। হ্যালুসিনেশন কমানো একটি বড় চলমান গবেষণা চ্যালেঞ্জ।
Object Detection
বাউন্ডিং বাক্স এবং ক্লাস লেবেলগুলির পূর্বাভাস দিয়ে একটি চিত্রের মধ্যে বস্তুগুলি সনাক্তকরণ এবং স্থানীয়করণের কাজ। আধুনিক ভিএলএম প্রাকৃতিক ভাষার বর্ণনা ব্যবহার করে খোলা শব্দভান্ডার সনাক্তকরণে এটিকে প্রসারিত করে।
Image Segmentation
একটি ছবিকে পিক্সেল স্তরে অর্থপূর্ণ অঞ্চলে ভাগ করা। শব্দার্থিক বিভাজন প্রতিটি পিক্সেলকে একটি শ্রেণির সাথে লেবেল করে, যখন উদাহরণ বিভাজন একই শ্রেণীর পৃথক বস্তুকে আলাদা করে।
Caption Generation
স্বয়ংক্রিয়ভাবে একটি ছবির বিষয়বস্তুর একটি প্রাকৃতিক ভাষায় বর্ণনা তৈরি করার কাজ। আধুনিক ক্যাপশনিং সিস্টেমগুলি ভিএলএম ব্যবহার করে বিস্তারিত, প্রাসঙ্গিকভাবে সমৃদ্ধ বর্ণনা তৈরি করে যা সাধারণ বস্তুর তালিকার বাইরে যায়।
Multimodal Reasoning
যৌক্তিক অনুমান সম্পাদন করার ক্ষমতা যার জন্য একাধিক পদ্ধতি থেকে তথ্য প্রয়োজন। উদাহরণস্বরূপ, 'কাপ পড়ে যাওয়ার সম্ভাবনা আছে?' চাক্ষুষ দৃশ্য জ্যামিতি এবং শারীরিক যুক্তি উভয় বোঝার প্রয়োজন.
LAION
বড় আকারের কৃত্রিম বুদ্ধিমত্তা ওপেন নেটওয়ার্ক - একটি অলাভজনক যা বিশাল ওপেন-সোর্স ইমেজ-টেক্সট ডেটাসেট তৈরি করে (5.85 বিলিয়ন জোড়া সহ LAION-5B) অনেকগুলি দৃষ্টি-ভাষা মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
Visual Encoder
একটি VLM এর উপাদান যা চিত্রগুলি প্রক্রিয়া করে এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করে। সাধারণ আর্কিটেকচারের মধ্যে রয়েছে ভিশন ট্রান্সফরমার (ViT), ConvNeXt এবং CLIP এর ভিজ্যুয়াল এনকোডার।
Q-Former
BLIP-2-এ ব্যবহৃত একটি লাইটওয়েট ট্রান্সফরমার মডিউল যা একটি হিমায়িত ইমেজ এনকোডার এবং একটি হিমায়িত বৃহৎ ভাষার মডেলকে সেতু করে, ভাষা তৈরির জন্য সবচেয়ে তথ্যপূর্ণ ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করতে শেখে।
Masked Image Modeling
একটি স্ব-তত্ত্বাবধান করা প্রাক-প্রশিক্ষণ কৌশল যেখানে একটি চিত্রের অংশগুলি মুখোশযুক্ত (লুকানো) এবং মডেলটিকে অবশ্যই অনুপস্থিত বিষয়বস্তুর পূর্বাভাস দিতে হবে, প্রক্রিয়াটিতে সমৃদ্ধ ভিজ্যুয়াল উপস্থাপনা শিখতে হবে।

🏆 মূল ব্যক্তিত্ব

Alec Radford (2021)

ওপেনএআই-এর প্রধান গবেষক যিনি CLIP (কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রাক-প্রশিক্ষণ) সহ-তৈরি করেছেন, দেখিয়েছেন যে প্রাকৃতিক ভাষা তত্ত্বাবধান থেকে ভিজ্যুয়াল উপস্থাপনা শেখা অসাধারণ শূন্য-শট ক্ষমতা সহ অত্যন্ত স্থানান্তরযোগ্য মডেল তৈরি করতে পারে।

Junnan Li (2022)

সেলসফোর্স রিসার্চের প্রধান গবেষক যিনি BLIP (বুটস্ট্র্যাপিং ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং) এবং BLIP-2 তৈরি করেছেন, ক্যাপশনিং এবং ফিল্টারিং ব্যবহার করে গোলমালপূর্ণ ওয়েব ডেটা থেকে বুটস্ট্র্যাপিং দৃষ্টি-ভাষা প্রাক-প্রশিক্ষণের জন্য অভিনব কৌশল প্রবর্তন করেছেন।

Jean-Baptiste Alayrac (2022)

ডিপমাইন্ড-এর গবেষক যিনি ফ্লেমিংগোর উন্নয়নে সহ-নেতৃত্ব করেন, একটি ভিজ্যুয়াল ল্যাঙ্গুয়েজ মডেল যা ক্রস-অ্যাটেনশনের মাধ্যমে ভিজ্যুয়াল ইনপুটগুলিতে একটি হিমায়িত ভাষা মডেলকে কন্ডিশনার করে মাল্টিমোডাল টাস্কগুলির বিস্তৃত পরিসরে অল্প-শট শেখার ক্ষমতা রাখে৷

Alexey Dosovitskiy (2021)

Google Brain-এ ভিশন ট্রান্সফরমার (ViT) তৈরির নেতৃত্বে, এটি প্রদর্শন করে যে বিশুদ্ধ ট্রান্সফরমার আর্কিটেকচারগুলি চিত্রের শ্রেণীবিভাগে চমৎকার ফলাফল অর্জন করতে পারে, যা অনেক VLM-এর ভিজ্যুয়াল ব্যাকবোন গঠন করে।

Haotian Liu (2023)

LLaVA (বড় ভাষা এবং দৃষ্টি সহকারী) তৈরি করা হয়েছে, ভিজ্যুয়াল ইন্সট্রাকশন টিউনিংয়ের পদ্ধতির পথপ্রদর্শক যা বৃহৎ ভাষার মডেলগুলিকে দক্ষ সূক্ষ্ম-টিউনিংয়ের মাধ্যমে চিত্রগুলিকে প্রক্রিয়া করতে এবং যুক্তি দিতে সক্ষম করে।

Dario Amodei (2023)

অ্যানথ্রোপিক সহ-প্রতিষ্ঠা করেছেন এবং ক্লডের উন্নয়নে অবদান রেখেছেন, মাল্টিমোডাল এআই সুরক্ষার উন্নতি করেছেন এবং কীভাবে দৃষ্টি-ভাষা মডেলগুলিকে আরও সহায়ক, নিরীহ এবং সৎ করা যেতে পারে তা প্রদর্শন করেছেন

🎓 শিক্ষার উৎস

💬 শিক্ষার্থীদের বার্তা

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

শুরু করুন

বিনামূল্যে, সাইনআপ নেই

শুরু করুন →