molmo-vision-language

Apa ini?

🎯 Tips Simulator

📚 Glosarium

Attention Mechanism

Komponen jaringan saraf yang memungkinkan model fokus pada bagian masukan yang relevan saat menghasilkan keluaran. Dalam model bahasa visi, mekanisme perhatian silang memungkinkan model memperhatikan wilayah gambar yang relevan saat memproses teks dan sebaliknya.

Contrastive Learning

Pendekatan pembelajaran dengan pengawasan mandiri yang melatih model dengan mengontraskan pasangan positif (sampel yang cocok) dengan pasangan negatif (sampel yang tidak cocok), mendorong model untuk mempelajari representasi diskriminatif.

Embedding Space

Ruang vektor kontinu di mana titik data direpresentasikan sebagai vektor numerik padat. Dalam model bahasa visi, gambar dan teks dipetakan ke dalam ruang penyematan bersama di mana kesamaan semantik berhubungan dengan kedekatan geometris.

Zero-Shot Learning

Kemampuan model untuk melakukan tugas atau mengenali kategori yang tidak dilatih secara eksplisit, dengan memanfaatkan pengetahuan yang ditransfer dari pelatihan pada tugas atau data terkait.

Fine-Tuning

Proses mengambil model yang telah dilatih sebelumnya dan melatihnya lebih lanjut pada tugas atau kumpulan data hilir tertentu, mengadaptasi representasi yang dipelajarinya ke persyaratan baru.

Encoder-Decoder Architecture

Struktur jaringan saraf yang terdiri dari encoder yang memampatkan masukan menjadi representasi laten dan decoder yang menghasilkan keluaran dari representasi tersebut. Digunakan dalam pembuatan teks gambar di mana encoder memproses gambar dan decoder menghasilkan teks.

Tokenization

Proses memecah teks menjadi unit-unit yang lebih kecil (token) seperti kata, subkata, atau karakter yang dapat diproses oleh jaringan saraf. Tokenisasi visual juga membagi gambar menjadi beberapa bagian.

Cross-Modal Transfer

Kemampuan untuk mentransfer pengetahuan yang dipelajari dalam satu modalitas (misalnya teks) untuk meningkatkan kinerja dalam modalitas lain (misalnya visi), memanfaatkan konsep semantik bersama di seluruh modalitas.

Visual Grounding

Tugas melokalisasi atau mengidentifikasi wilayah tertentu dalam gambar yang sesuai dengan ekspresi bahasa alami tertentu, menghubungkan referensi tekstual ke konten visual.

Multimodal Fusion

Teknik untuk menggabungkan informasi dari berbagai modalitas menjadi representasi terpadu. Pendekatan umum mencakup fusi awal (menggabungkan masukan mentah), fusi akhir (menggabungkan fitur tingkat tinggi), dan fusi lintas perhatian.

Image Patch

Wilayah persegi kecil dari suatu gambar yang digunakan sebagai unit masukan dalam Vision Transformers. Gambar dibagi menjadi beberapa kotak tambalan yang tidak tumpang tindih, masing-masing diperlakukan sebagai token yang mirip dengan kata-kata di NLP.

Pre-training

Fase awal pelatihan model pada kumpulan data umum yang besar sebelum melakukan penyesuaian pada tugas tertentu. Model bahasa visi sering kali telah dilatih sebelumnya pada jutaan pasangan gambar-teks dari internet.

Prompt Engineering

Praktik menyusun petunjuk masukan untuk memandu model menuju keluaran yang diinginkan. Di VLM, perintah teks yang dirancang dengan cermat dapat meningkatkan klasifikasi zero-shot dan tugas lainnya secara signifikan.

Semantic Similarity

Ukuran seberapa erat keterkaitan makna dari dua konten, terlepas dari representasi permukaannya. Dalam VLM, gambar seekor anjing dan teks 'anjing' akan memiliki kesamaan semantik yang tinggi.

Feature Extraction

Proses mempelajari dan mengidentifikasi pola dan karakteristik penting secara otomatis dari data mentah. Encoder visi mengekstrak fitur visual seperti tepi, tekstur, dan bentuk objek dari gambar.

Cosine Similarity

Metrik yang digunakan untuk mengukur kemiripan dua vektor dengan menghitung kosinus sudut di antara keduanya. Dalam VLM, kesamaan kosinus antara penyematan gambar dan teks menentukan seberapa cocok keduanya secara semantik, dengan nilai berkisar dari -1 (berlawanan) hingga 1 (identik).

Batch Normalization

Sebuah teknik yang menormalkan masukan ke setiap lapisan jaringan saraf, menstabilkan dan mempercepat pelatihan. Banyak digunakan dalam encoder visi untuk meningkatkan aliran gradien dan memungkinkan pelatihan jaringan yang lebih dalam.

Transfer Learning

Teknik pembelajaran mesin di mana model yang dilatih pada satu tugas digunakan kembali untuk tugas yang berbeda namun terkait. VLM seperti CLIP unggul dalam pembelajaran transfer karena representasi visual-linguistik umumnya dapat diterapkan ke banyak tugas hilir tanpa pelatihan khusus tugas.

Image Captioning

Tugas secara otomatis menghasilkan deskripsi bahasa alami dari suatu gambar. Hal ini memerlukan model untuk mengidentifikasi objek, atributnya, hubungan spasial, dan aktivitasnya, kemudian menyusun kalimat yang benar secara tata bahasa untuk menyampaikan informasi tersebut.

Self-Supervised Learning

Paradigma pelatihan di mana model mempelajari representasi dari data yang tidak berlabel dengan menyelesaikan tugas-tugas dalih yang berasal dari data itu sendiri. Pembelajaran kontrastif pada pasangan gambar-teks adalah bentuk pembelajaran mandiri yang terbukti sangat efektif untuk VLM.

Multimodal Embedding

Representasi vektor yang dipelajari yang menangkap informasi dari berbagai modalitas (seperti gambar dan teks) dalam ruang bersama. Penyematan multimodal memungkinkan pengambilan lintas-modal, di mana kueri teks dapat menemukan gambar yang relevan atau kueri gambar dapat menemukan deskripsi teks yang relevan.

Diffusion Model

Model generatif yang belajar membuat data (sering kali gambar) dengan menghilangkan noise acak secara bertahap melalui proses difusi terbalik yang dipelajari. Model seperti DALL-E 2 dan Difusi Stabil menggunakan penyematan teks CLIP untuk memandu pembuatan gambar dari deskripsi teks.

Region of Interest (ROI)

Area spesifik dalam gambar yang relevan untuk tugas tertentu. Dalam model bahasa visi, model tersebut mungkin memperhatikan wilayah tertentu saat menjawab pertanyaan atau menghasilkan deskripsi tentang konten yang dilokalkan dalam sebuah gambar.

Instruction Tuning

Melatih model bahasa untuk mengikuti instruksi bahasa alami, membuatnya lebih mudah dikontrol dan berguna untuk beragam tugas. Penyetelan instruksi visual memperluas ini ke pasangan instruksi gambar-teks.

Adapter Layer

Modul jaringan neural ringan yang dimasukkan ke dalam model terlatih untuk menyesuaikannya dengan tugas atau modalitas baru dengan pembaruan parameter minimal, sehingga mempertahankan pengetahuan model asli.

Vision-Language Pre-training

Proses melatih model pada data gambar-teks berskala besar untuk mempelajari representasi lintas-modal secara umum sebelum melakukan penyesuaian pada tugas hilir tertentu.

Generative Pre-trained Transformer (GPT)

Kelompok model bahasa autoregresif yang menghasilkan token teks demi token. GPT-4V memperluas arsitekturnya untuk juga memproses masukan visual, sehingga menciptakan model bahasa visi yang canggih.

RLHF (Reinforcement Learning from Human Feedback)

Sebuah teknik pelatihan yang menggunakan preferensi manusia untuk menyempurnakan model AI, sehingga meningkatkan kegunaan dan keamanannya. Diterapkan pada model multimodal untuk meningkatkan kualitas pemahaman gambar.

Multimodal Large Language Model (MLLM)

Model bahasa besar diperluas untuk memproses berbagai jenis masukan (teks, gambar, audio, video). Contohnya termasuk GPT-4V, Gemini, dan Claude, yang dapat memahami dan mempertimbangkan konten visual selain teks.

Few-Shot Learning

Kemampuan model untuk mempelajari tugas baru hanya dari beberapa contoh, tanpa pelatihan ulang yang ekstensif. VLM seperti Flamingo menunjukkan kemampuan beberapa pengambilan gambar yang luar biasa dalam beragam tugas visual.

Visual Instruction Tuning

Melatih model bahasa penglihatan untuk mengikuti instruksi bahasa alami tentang gambar, seperti 'Deskripsikan gambar ini secara detail' atau 'Apa yang salah dalam gambar ini?', yang dipelopori oleh LLaVA.

Cross-Attention

Mekanisme transformator yang memungkinkan satu modalitas untuk melayani modalitas lainnya. Dalam VLM, perhatian silang memungkinkan model bahasa memperhatikan wilayah gambar yang relevan saat menghasilkan respons teks.

DALL-E

Sistem AI dari OpenAI yang menghasilkan gambar dari deskripsi teks, menggunakan penyematan CLIP untuk memandu proses pembuatannya. Menunjukkan arah kebalikan dari pemahaman bahasa penglihatan.

Grounding

Proses menghubungkan konsep bahasa abstrak dengan elemen visual tertentu dalam sebuah gambar, seperti mengidentifikasi objek mana dalam foto yang diacu dengan frasa deskriptif.

Hallucination

Ketika VLM menghasilkan deskripsi objek, atribut, atau hubungan yang sebenarnya tidak ada pada gambar masukan. Mengurangi halusinasi adalah tantangan penelitian utama yang sedang berlangsung.

Object Detection

Tugas mengidentifikasi dan melokalisasi objek dalam suatu gambar dengan memprediksi kotak pembatas dan label kelas. VLM modern memperluas hal ini ke deteksi kosakata terbuka menggunakan deskripsi bahasa alami.

Image Segmentation

Membagi gambar menjadi wilayah yang bermakna pada tingkat piksel. Segmentasi semantik memberi label pada setiap piksel dengan suatu kelas, sedangkan segmentasi instance membedakan objek individual dari kelas yang sama.

Caption Generation

Tugas untuk secara otomatis menghasilkan deskripsi bahasa alami dari konten gambar. Sistem teks modern menggunakan VLM untuk menghasilkan deskripsi yang detail dan kaya kontekstual yang lebih dari sekadar daftar objek sederhana.

Multimodal Reasoning

Kemampuan untuk melakukan inferensi logis yang memerlukan informasi dari berbagai modalitas. Misalnya menjawab 'Apakah cangkirnya mungkin jatuh?' membutuhkan pemahaman geometri pemandangan visual dan penalaran fisik.

LAION

Jaringan Terbuka Kecerdasan Buatan Skala Besar - sebuah organisasi nirlaba yang menciptakan kumpulan data teks gambar sumber terbuka (LAION-5B dengan 5,85 miliar pasang) yang digunakan untuk melatih banyak model bahasa visi.

Visual Encoder

Komponen VLM yang memproses gambar dan mengekstrak fitur visual. Arsitektur umum mencakup Vision Transformers (ViT), ConvNeXt, dan encoder visual CLIP.

Q-Former

Modul transformator ringan yang digunakan dalam BLIP-2 yang menjembatani pembuat enkode gambar beku dan model bahasa besar yang dibekukan, belajar mengekstrak fitur visual paling informatif untuk menghasilkan bahasa.

Masked Image Modeling

Teknik pra-pelatihan yang diawasi sendiri dengan bagian gambar ditutup (disembunyikan) dan model harus memprediksi konten yang hilang, sambil mempelajari representasi visual yang kaya dalam prosesnya.

🏆 Tokoh Utama

Alec Radford (2021)

Peneliti utama di OpenAI yang ikut menciptakan CLIP (Contrastive Language-Image Pre-training), menunjukkan bahwa mempelajari representasi visual dari pengawasan bahasa alami dapat menghasilkan model yang sangat mudah ditransfer dengan kemampuan zero-shot yang luar biasa.

Junnan Li (2022)

Peneliti utama di Salesforce Research yang mengembangkan BLIP (Bootstrapping Language-Image Pre-training) dan BLIP-2, memperkenalkan teknik baru untuk melakukan bootstrapping pra-pelatihan bahasa penglihatan dari data web yang berisik menggunakan teks dan pemfilteran.

Jean-Baptiste Alayrac (2022)

Peneliti di DeepMind yang ikut memimpin pengembangan Flamingo, model bahasa visual yang mampu melakukan pembelajaran singkat pada berbagai tugas multimodal dengan mengkondisikan model bahasa beku pada masukan visual melalui perhatian silang.

Alexey Dosovitskiy (2021)

Memimpin pembuatan Vision Transformer (ViT) di Google Brain, menunjukkan bahwa arsitektur transformator murni dapat mencapai hasil yang sangat baik pada klasifikasi gambar, membentuk tulang punggung visual dari banyak VLM

Haotian Liu (2023)

Menciptakan LLaVA (Large Language and Vision Assistant), memelopori pendekatan penyesuaian instruksi visual yang memungkinkan model bahasa besar memproses dan mempertimbangkan gambar melalui penyesuaian yang efisien

Dario Amodei (2023)

Salah satu pendiri Anthropic dan berkontribusi pada pengembangan Claude, memajukan keamanan AI multimodal dan menunjukkan bagaimana model bahasa visi dapat dibuat lebih bermanfaat, tidak berbahaya, dan jujur

🎓 Sumber Belajar

Learning Transferable Visual Models From Natural Language Supervision (CLIP)
Makalah dasar CLIP menunjukkan bahwa pra-pelatihan kontrastif pada 400 juta pasangan gambar-teks memungkinkan klasifikasi visual zero-shot dan pengambilan gambar-teks yang kuat.
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Memperkenalkan BLIP, kerangka kerja yang mem-bootstrap teks dari data web yang berisik dan mencapai hasil canggih dalam pemahaman bahasa visi dan tugas pembuatan.
Flamingo: a Visual Language Model for Few-Shot Learning
Menghadirkan Flamingo, yang menjembatani model visi dan bahasa terlatih yang kuat menggunakan perhatian silang dan menunjukkan pembelajaran beberapa langkah yang kuat pada beragam tugas multimodal.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Makalah Vision Transformer (ViT) menunjukkan bahwa arsitektur transformator murni dapat mencapai hasil yang sangat baik pada klasifikasi gambar, yang menjadi dasar bagi banyak pembuat enkode visi VLM.
Deep Learning for Vision Systems
Panduan praktis yang mencakup dasar-dasar visi komputer dan arsitektur pembelajaran mendalam untuk pemahaman visual, memberikan latar belakang penting untuk memahami model bahasa visi.
Dive into Deep Learning
Buku teks pembelajaran mendalam interaktif dengan kode, matematika, dan diskusi, termasuk bab tentang mekanisme perhatian dan arsitektur transformator yang penting untuk VLM.
Foundations of Computer Vision
Buku teks komprehensif dari MIT yang mencakup visi komputer modern termasuk pembelajaran multimodal dan integrasi bahasa visi.
CLIP: Connecting Text and Images - OpenAI Research Explanation
Penjelasan yang dapat diakses tentang bagaimana CLIP belajar menghubungkan gambar dan teks menggunakan pembelajaran kontrastif, dengan demonstrasi visual kemampuan zero-shot.
Stanford CS231n: Deep Learning for Computer Vision
Kursus visi komputer terkenal di Stanford yang mencakup CNN, transformator, dan arsitektur modern yang menjadi dasar model bahasa visi.
Andrej Karpathy - Let's Build GPT: From Scratch
Meskipun berfokus pada model bahasa, panduan rinci tentang arsitektur transformator ini memberikan pemahaman penting untuk komponen pemrosesan teks VLM.

💬 Pesan untuk Pelajar

{'encouragement': 'Vision-language models represent one of the most exciting frontiers in artificial intelligence, bringing us closer to machines that can see and communicate about the world as naturally as humans do. As you explore this simulator, remember that each interaction demonstrates the remarkable ability of neural networks to bridge two fundamentally different types of information.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a developer in Lagos will build an AI assistant that describes the world for blind users in Yoruba. Perhaps a student in Dhaka will create medical imaging AI that saves lives in rural Bangladesh. VLMs are tools for everyone.', 'wiaVision': 'WIA Book believes AI literacy is a human right. From Seoul to Nairobi, from Mumbai to Sao Paulo - understanding how machines see and speak is your gateway to the AI revolution. Free forever.'}

Mulai

Gratis, tanpa daftar

Mulai →