🔬

molmo-vision-language

An interactive educational simulator that demonstrates how vision-language models like CLIP, BLIP, and Flamingo process and understand images alongside natural language. Users can explore multimodal AI capabilities including visual question answering, image-text alignment, and zero-shot classification through hands-on experimentation.

🔬 Coba sekarang

Apa ini?

🎯 Tips Simulator

📚 Glosarium

Attention Mechanism
Komponen jaringan saraf yang memungkinkan model fokus pada bagian masukan yang relevan saat menghasilkan keluaran. Dalam model bahasa visi, mekanisme perhatian silang memungkinkan model memperhatikan wilayah gambar yang relevan saat memproses teks dan sebaliknya.
Contrastive Learning
Pendekatan pembelajaran dengan pengawasan mandiri yang melatih model dengan mengontraskan pasangan positif (sampel yang cocok) dengan pasangan negatif (sampel yang tidak cocok), mendorong model untuk mempelajari representasi diskriminatif.
Embedding Space
Ruang vektor kontinu di mana titik data direpresentasikan sebagai vektor numerik padat. Dalam model bahasa visi, gambar dan teks dipetakan ke dalam ruang penyematan bersama di mana kesamaan semantik berhubungan dengan kedekatan geometris.
Zero-Shot Learning
Kemampuan model untuk melakukan tugas atau mengenali kategori yang tidak dilatih secara eksplisit, dengan memanfaatkan pengetahuan yang ditransfer dari pelatihan pada tugas atau data terkait.
Fine-Tuning
Proses mengambil model yang telah dilatih sebelumnya dan melatihnya lebih lanjut pada tugas atau kumpulan data hilir tertentu, mengadaptasi representasi yang dipelajarinya ke persyaratan baru.
Encoder-Decoder Architecture
Struktur jaringan saraf yang terdiri dari encoder yang memampatkan masukan menjadi representasi laten dan decoder yang menghasilkan keluaran dari representasi tersebut. Digunakan dalam pembuatan teks gambar di mana encoder memproses gambar dan decoder menghasilkan teks.
Tokenization
Proses memecah teks menjadi unit-unit yang lebih kecil (token) seperti kata, subkata, atau karakter yang dapat diproses oleh jaringan saraf. Tokenisasi visual juga membagi gambar menjadi beberapa bagian.
Cross-Modal Transfer
Kemampuan untuk mentransfer pengetahuan yang dipelajari dalam satu modalitas (misalnya teks) untuk meningkatkan kinerja dalam modalitas lain (misalnya visi), memanfaatkan konsep semantik bersama di seluruh modalitas.
Visual Grounding
Tugas melokalisasi atau mengidentifikasi wilayah tertentu dalam gambar yang sesuai dengan ekspresi bahasa alami tertentu, menghubungkan referensi tekstual ke konten visual.
Multimodal Fusion
Teknik untuk menggabungkan informasi dari berbagai modalitas menjadi representasi terpadu. Pendekatan umum mencakup fusi awal (menggabungkan masukan mentah), fusi akhir (menggabungkan fitur tingkat tinggi), dan fusi lintas perhatian.
Image Patch
Wilayah persegi kecil dari suatu gambar yang digunakan sebagai unit masukan dalam Vision Transformers. Gambar dibagi menjadi beberapa kotak tambalan yang tidak tumpang tindih, masing-masing diperlakukan sebagai token yang mirip dengan kata-kata di NLP.
Pre-training
Fase awal pelatihan model pada kumpulan data umum yang besar sebelum melakukan penyesuaian pada tugas tertentu. Model bahasa visi sering kali telah dilatih sebelumnya pada jutaan pasangan gambar-teks dari internet.
Prompt Engineering
Praktik menyusun petunjuk masukan untuk memandu model menuju keluaran yang diinginkan. Di VLM, perintah teks yang dirancang dengan cermat dapat meningkatkan klasifikasi zero-shot dan tugas lainnya secara signifikan.
Semantic Similarity
Ukuran seberapa erat keterkaitan makna dari dua konten, terlepas dari representasi permukaannya. Dalam VLM, gambar seekor anjing dan teks 'anjing' akan memiliki kesamaan semantik yang tinggi.
Feature Extraction
Proses mempelajari dan mengidentifikasi pola dan karakteristik penting secara otomatis dari data mentah. Encoder visi mengekstrak fitur visual seperti tepi, tekstur, dan bentuk objek dari gambar.
Cosine Similarity
Metrik yang digunakan untuk mengukur kemiripan dua vektor dengan menghitung kosinus sudut di antara keduanya. Dalam VLM, kesamaan kosinus antara penyematan gambar dan teks menentukan seberapa cocok keduanya secara semantik, dengan nilai berkisar dari -1 (berlawanan) hingga 1 (identik).
Batch Normalization
Sebuah teknik yang menormalkan masukan ke setiap lapisan jaringan saraf, menstabilkan dan mempercepat pelatihan. Banyak digunakan dalam encoder visi untuk meningkatkan aliran gradien dan memungkinkan pelatihan jaringan yang lebih dalam.
Transfer Learning
Teknik pembelajaran mesin di mana model yang dilatih pada satu tugas digunakan kembali untuk tugas yang berbeda namun terkait. VLM seperti CLIP unggul dalam pembelajaran transfer karena representasi visual-linguistik umumnya dapat diterapkan ke banyak tugas hilir tanpa pelatihan khusus tugas.
Image Captioning
Tugas secara otomatis menghasilkan deskripsi bahasa alami dari suatu gambar. Hal ini memerlukan model untuk mengidentifikasi objek, atributnya, hubungan spasial, dan aktivitasnya, kemudian menyusun kalimat yang benar secara tata bahasa untuk menyampaikan informasi tersebut.
Self-Supervised Learning
Paradigma pelatihan di mana model mempelajari representasi dari data yang tidak berlabel dengan menyelesaikan tugas-tugas dalih yang berasal dari data itu sendiri. Pembelajaran kontrastif pada pasangan gambar-teks adalah bentuk pembelajaran mandiri yang terbukti sangat efektif untuk VLM.
Multimodal Embedding
Representasi vektor yang dipelajari yang menangkap informasi dari berbagai modalitas (seperti gambar dan teks) dalam ruang bersama. Penyematan multimodal memungkinkan pengambilan lintas-modal, di mana kueri teks dapat menemukan gambar yang relevan atau kueri gambar dapat menemukan deskripsi teks yang relevan.
Diffusion Model
Model generatif yang belajar membuat data (sering kali gambar) dengan menghilangkan noise acak secara bertahap melalui proses difusi terbalik yang dipelajari. Model seperti DALL-E 2 dan Difusi Stabil menggunakan penyematan teks CLIP untuk memandu pembuatan gambar dari deskripsi teks.
Region of Interest (ROI)
Area spesifik dalam gambar yang relevan untuk tugas tertentu. Dalam model bahasa visi, model tersebut mungkin memperhatikan wilayah tertentu saat menjawab pertanyaan atau menghasilkan deskripsi tentang konten yang dilokalkan dalam sebuah gambar.
Instruction Tuning
Melatih model bahasa untuk mengikuti instruksi bahasa alami, membuatnya lebih mudah dikontrol dan berguna untuk beragam tugas. Penyetelan instruksi visual memperluas ini ke pasangan instruksi gambar-teks.
Adapter Layer
Modul jaringan neural ringan yang dimasukkan ke dalam model terlatih untuk menyesuaikannya dengan tugas atau modalitas baru dengan pembaruan parameter minimal, sehingga mempertahankan pengetahuan model asli.
Vision-Language Pre-training
Proses melatih model pada data gambar-teks berskala besar untuk mempelajari representasi lintas-modal secara umum sebelum melakukan penyesuaian pada tugas hilir tertentu.
Generative Pre-trained Transformer (GPT)
Kelompok model bahasa autoregresif yang menghasilkan token teks demi token. GPT-4V memperluas arsitekturnya untuk juga memproses masukan visual, sehingga menciptakan model bahasa visi yang canggih.
RLHF (Reinforcement Learning from Human Feedback)
Sebuah teknik pelatihan yang menggunakan preferensi manusia untuk menyempurnakan model AI, sehingga meningkatkan kegunaan dan keamanannya. Diterapkan pada model multimodal untuk meningkatkan kualitas pemahaman gambar.
Multimodal Large Language Model (MLLM)
Model bahasa besar diperluas untuk memproses berbagai jenis masukan (teks, gambar, audio, video). Contohnya termasuk GPT-4V, Gemini, dan Claude, yang dapat memahami dan mempertimbangkan konten visual selain teks.
Few-Shot Learning
Kemampuan model untuk mempelajari tugas baru hanya dari beberapa contoh, tanpa pelatihan ulang yang ekstensif. VLM seperti Flamingo menunjukkan kemampuan beberapa pengambilan gambar yang luar biasa dalam beragam tugas visual.
Visual Instruction Tuning
Melatih model bahasa penglihatan untuk mengikuti instruksi bahasa alami tentang gambar, seperti 'Deskripsikan gambar ini secara detail' atau 'Apa yang salah dalam gambar ini?', yang dipelopori oleh LLaVA.
Cross-Attention
Mekanisme transformator yang memungkinkan satu modalitas untuk melayani modalitas lainnya. Dalam VLM, perhatian silang memungkinkan model bahasa memperhatikan wilayah gambar yang relevan saat menghasilkan respons teks.
DALL-E
Sistem AI dari OpenAI yang menghasilkan gambar dari deskripsi teks, menggunakan penyematan CLIP untuk memandu proses pembuatannya. Menunjukkan arah kebalikan dari pemahaman bahasa penglihatan.
Grounding
Proses menghubungkan konsep bahasa abstrak dengan elemen visual tertentu dalam sebuah gambar, seperti mengidentifikasi objek mana dalam foto yang diacu dengan frasa deskriptif.
Hallucination
Ketika VLM menghasilkan deskripsi objek, atribut, atau hubungan yang sebenarnya tidak ada pada gambar masukan. Mengurangi halusinasi adalah tantangan penelitian utama yang sedang berlangsung.
Object Detection
Tugas mengidentifikasi dan melokalisasi objek dalam suatu gambar dengan memprediksi kotak pembatas dan label kelas. VLM modern memperluas hal ini ke deteksi kosakata terbuka menggunakan deskripsi bahasa alami.
Image Segmentation
Membagi gambar menjadi wilayah yang bermakna pada tingkat piksel. Segmentasi semantik memberi label pada setiap piksel dengan suatu kelas, sedangkan segmentasi instance membedakan objek individual dari kelas yang sama.
Caption Generation
Tugas untuk secara otomatis menghasilkan deskripsi bahasa alami dari konten gambar. Sistem teks modern menggunakan VLM untuk menghasilkan deskripsi yang detail dan kaya kontekstual yang lebih dari sekadar daftar objek sederhana.
Multimodal Reasoning
Kemampuan untuk melakukan inferensi logis yang memerlukan informasi dari berbagai modalitas. Misalnya menjawab 'Apakah cangkirnya mungkin jatuh?' membutuhkan pemahaman geometri pemandangan visual dan penalaran fisik.
LAION
Jaringan Terbuka Kecerdasan Buatan Skala Besar - sebuah organisasi nirlaba yang menciptakan kumpulan data teks gambar sumber terbuka (LAION-5B dengan 5,85 miliar pasang) yang digunakan untuk melatih banyak model bahasa visi.
Visual Encoder
Komponen VLM yang memproses gambar dan mengekstrak fitur visual. Arsitektur umum mencakup Vision Transformers (ViT), ConvNeXt, dan encoder visual CLIP.
Q-Former
Modul transformator ringan yang digunakan dalam BLIP-2 yang menjembatani pembuat enkode gambar beku dan model bahasa besar yang dibekukan, belajar mengekstrak fitur visual paling informatif untuk menghasilkan bahasa.
Masked Image Modeling
Teknik pra-pelatihan yang diawasi sendiri dengan bagian gambar ditutup (disembunyikan) dan model harus memprediksi konten yang hilang, sambil mempelajari representasi visual yang kaya dalam prosesnya.

🏆 Tokoh Utama

Alec Radford (2021)

Peneliti utama di OpenAI yang ikut menciptakan CLIP (Contrastive Language-Image Pre-training), menunjukkan bahwa mempelajari representasi visual dari pengawasan bahasa alami dapat menghasilkan model yang sangat mudah ditransfer dengan kemampuan zero-shot yang luar biasa.

Junnan Li (2022)

Peneliti utama di Salesforce Research yang mengembangkan BLIP (Bootstrapping Language-Image Pre-training) dan BLIP-2, memperkenalkan teknik baru untuk melakukan bootstrapping pra-pelatihan bahasa penglihatan dari data web yang berisik menggunakan teks dan pemfilteran.

Jean-Baptiste Alayrac (2022)

Peneliti di DeepMind yang ikut memimpin pengembangan Flamingo, model bahasa visual yang mampu melakukan pembelajaran singkat pada berbagai tugas multimodal dengan mengkondisikan model bahasa beku pada masukan visual melalui perhatian silang.

Alexey Dosovitskiy (2021)

Memimpin pembuatan Vision Transformer (ViT) di Google Brain, menunjukkan bahwa arsitektur transformator murni dapat mencapai hasil yang sangat baik pada klasifikasi gambar, membentuk tulang punggung visual dari banyak VLM

Haotian Liu (2023)

Menciptakan LLaVA (Large Language and Vision Assistant), memelopori pendekatan penyesuaian instruksi visual yang memungkinkan model bahasa besar memproses dan mempertimbangkan gambar melalui penyesuaian yang efisien

Dario Amodei (2023)

Salah satu pendiri Anthropic dan berkontribusi pada pengembangan Claude, memajukan keamanan AI multimodal dan menunjukkan bagaimana model bahasa visi dapat dibuat lebih bermanfaat, tidak berbahaya, dan jujur

🎓 Sumber Belajar

💬 Pesan untuk Pelajar

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Mulai

Gratis, tanpa daftar

Mulai →