Attention MechanismKomponen jaringan saraf yang memungkinkan model fokus pada bagian masukan yang relevan saat menghasilkan keluaran. Dalam model bahasa visi, mekanisme perhatian silang memungkinkan model memperhatikan wilayah gambar yang relevan saat memproses teks dan sebaliknya.
Contrastive LearningPendekatan pembelajaran dengan pengawasan mandiri yang melatih model dengan mengontraskan pasangan positif (sampel yang cocok) dengan pasangan negatif (sampel yang tidak cocok), mendorong model untuk mempelajari representasi diskriminatif.
Embedding SpaceRuang vektor kontinu di mana titik data direpresentasikan sebagai vektor numerik padat. Dalam model bahasa visi, gambar dan teks dipetakan ke dalam ruang penyematan bersama di mana kesamaan semantik berhubungan dengan kedekatan geometris.
Zero-Shot LearningKemampuan model untuk melakukan tugas atau mengenali kategori yang tidak dilatih secara eksplisit, dengan memanfaatkan pengetahuan yang ditransfer dari pelatihan pada tugas atau data terkait.
Fine-TuningProses mengambil model yang telah dilatih sebelumnya dan melatihnya lebih lanjut pada tugas atau kumpulan data hilir tertentu, mengadaptasi representasi yang dipelajarinya ke persyaratan baru.
Encoder-Decoder ArchitectureStruktur jaringan saraf yang terdiri dari encoder yang memampatkan masukan menjadi representasi laten dan decoder yang menghasilkan keluaran dari representasi tersebut. Digunakan dalam pembuatan teks gambar di mana encoder memproses gambar dan decoder menghasilkan teks.
TokenizationProses memecah teks menjadi unit-unit yang lebih kecil (token) seperti kata, subkata, atau karakter yang dapat diproses oleh jaringan saraf. Tokenisasi visual juga membagi gambar menjadi beberapa bagian.
Cross-Modal TransferKemampuan untuk mentransfer pengetahuan yang dipelajari dalam satu modalitas (misalnya teks) untuk meningkatkan kinerja dalam modalitas lain (misalnya visi), memanfaatkan konsep semantik bersama di seluruh modalitas.
Visual GroundingTugas melokalisasi atau mengidentifikasi wilayah tertentu dalam gambar yang sesuai dengan ekspresi bahasa alami tertentu, menghubungkan referensi tekstual ke konten visual.
Multimodal FusionTeknik untuk menggabungkan informasi dari berbagai modalitas menjadi representasi terpadu. Pendekatan umum mencakup fusi awal (menggabungkan masukan mentah), fusi akhir (menggabungkan fitur tingkat tinggi), dan fusi lintas perhatian.
Image PatchWilayah persegi kecil dari suatu gambar yang digunakan sebagai unit masukan dalam Vision Transformers. Gambar dibagi menjadi beberapa kotak tambalan yang tidak tumpang tindih, masing-masing diperlakukan sebagai token yang mirip dengan kata-kata di NLP.
Pre-trainingFase awal pelatihan model pada kumpulan data umum yang besar sebelum melakukan penyesuaian pada tugas tertentu. Model bahasa visi sering kali telah dilatih sebelumnya pada jutaan pasangan gambar-teks dari internet.
Prompt EngineeringPraktik menyusun petunjuk masukan untuk memandu model menuju keluaran yang diinginkan. Di VLM, perintah teks yang dirancang dengan cermat dapat meningkatkan klasifikasi zero-shot dan tugas lainnya secara signifikan.
Semantic SimilarityUkuran seberapa erat keterkaitan makna dari dua konten, terlepas dari representasi permukaannya. Dalam VLM, gambar seekor anjing dan teks 'anjing' akan memiliki kesamaan semantik yang tinggi.
Feature ExtractionProses mempelajari dan mengidentifikasi pola dan karakteristik penting secara otomatis dari data mentah. Encoder visi mengekstrak fitur visual seperti tepi, tekstur, dan bentuk objek dari gambar.
Cosine SimilarityMetrik yang digunakan untuk mengukur kemiripan dua vektor dengan menghitung kosinus sudut di antara keduanya. Dalam VLM, kesamaan kosinus antara penyematan gambar dan teks menentukan seberapa cocok keduanya secara semantik, dengan nilai berkisar dari -1 (berlawanan) hingga 1 (identik).
Batch NormalizationSebuah teknik yang menormalkan masukan ke setiap lapisan jaringan saraf, menstabilkan dan mempercepat pelatihan. Banyak digunakan dalam encoder visi untuk meningkatkan aliran gradien dan memungkinkan pelatihan jaringan yang lebih dalam.
Transfer LearningTeknik pembelajaran mesin di mana model yang dilatih pada satu tugas digunakan kembali untuk tugas yang berbeda namun terkait. VLM seperti CLIP unggul dalam pembelajaran transfer karena representasi visual-linguistik umumnya dapat diterapkan ke banyak tugas hilir tanpa pelatihan khusus tugas.
Image CaptioningTugas secara otomatis menghasilkan deskripsi bahasa alami dari suatu gambar. Hal ini memerlukan model untuk mengidentifikasi objek, atributnya, hubungan spasial, dan aktivitasnya, kemudian menyusun kalimat yang benar secara tata bahasa untuk menyampaikan informasi tersebut.
Self-Supervised LearningParadigma pelatihan di mana model mempelajari representasi dari data yang tidak berlabel dengan menyelesaikan tugas-tugas dalih yang berasal dari data itu sendiri. Pembelajaran kontrastif pada pasangan gambar-teks adalah bentuk pembelajaran mandiri yang terbukti sangat efektif untuk VLM.
Multimodal EmbeddingRepresentasi vektor yang dipelajari yang menangkap informasi dari berbagai modalitas (seperti gambar dan teks) dalam ruang bersama. Penyematan multimodal memungkinkan pengambilan lintas-modal, di mana kueri teks dapat menemukan gambar yang relevan atau kueri gambar dapat menemukan deskripsi teks yang relevan.
Diffusion ModelModel generatif yang belajar membuat data (sering kali gambar) dengan menghilangkan noise acak secara bertahap melalui proses difusi terbalik yang dipelajari. Model seperti DALL-E 2 dan Difusi Stabil menggunakan penyematan teks CLIP untuk memandu pembuatan gambar dari deskripsi teks.
Region of Interest (ROI)Area spesifik dalam gambar yang relevan untuk tugas tertentu. Dalam model bahasa visi, model tersebut mungkin memperhatikan wilayah tertentu saat menjawab pertanyaan atau menghasilkan deskripsi tentang konten yang dilokalkan dalam sebuah gambar.
Instruction TuningMelatih model bahasa untuk mengikuti instruksi bahasa alami, membuatnya lebih mudah dikontrol dan berguna untuk beragam tugas. Penyetelan instruksi visual memperluas ini ke pasangan instruksi gambar-teks.
Adapter LayerModul jaringan neural ringan yang dimasukkan ke dalam model terlatih untuk menyesuaikannya dengan tugas atau modalitas baru dengan pembaruan parameter minimal, sehingga mempertahankan pengetahuan model asli.
Vision-Language Pre-trainingProses melatih model pada data gambar-teks berskala besar untuk mempelajari representasi lintas-modal secara umum sebelum melakukan penyesuaian pada tugas hilir tertentu.
Generative Pre-trained Transformer (GPT)Kelompok model bahasa autoregresif yang menghasilkan token teks demi token. GPT-4V memperluas arsitekturnya untuk juga memproses masukan visual, sehingga menciptakan model bahasa visi yang canggih.
RLHF (Reinforcement Learning from Human Feedback)Sebuah teknik pelatihan yang menggunakan preferensi manusia untuk menyempurnakan model AI, sehingga meningkatkan kegunaan dan keamanannya. Diterapkan pada model multimodal untuk meningkatkan kualitas pemahaman gambar.
Multimodal Large Language Model (MLLM)Model bahasa besar diperluas untuk memproses berbagai jenis masukan (teks, gambar, audio, video). Contohnya termasuk GPT-4V, Gemini, dan Claude, yang dapat memahami dan mempertimbangkan konten visual selain teks.
Few-Shot LearningKemampuan model untuk mempelajari tugas baru hanya dari beberapa contoh, tanpa pelatihan ulang yang ekstensif. VLM seperti Flamingo menunjukkan kemampuan beberapa pengambilan gambar yang luar biasa dalam beragam tugas visual.
Visual Instruction TuningMelatih model bahasa penglihatan untuk mengikuti instruksi bahasa alami tentang gambar, seperti 'Deskripsikan gambar ini secara detail' atau 'Apa yang salah dalam gambar ini?', yang dipelopori oleh LLaVA.
Cross-AttentionMekanisme transformator yang memungkinkan satu modalitas untuk melayani modalitas lainnya. Dalam VLM, perhatian silang memungkinkan model bahasa memperhatikan wilayah gambar yang relevan saat menghasilkan respons teks.
DALL-ESistem AI dari OpenAI yang menghasilkan gambar dari deskripsi teks, menggunakan penyematan CLIP untuk memandu proses pembuatannya. Menunjukkan arah kebalikan dari pemahaman bahasa penglihatan.
GroundingProses menghubungkan konsep bahasa abstrak dengan elemen visual tertentu dalam sebuah gambar, seperti mengidentifikasi objek mana dalam foto yang diacu dengan frasa deskriptif.
HallucinationKetika VLM menghasilkan deskripsi objek, atribut, atau hubungan yang sebenarnya tidak ada pada gambar masukan. Mengurangi halusinasi adalah tantangan penelitian utama yang sedang berlangsung.
Object DetectionTugas mengidentifikasi dan melokalisasi objek dalam suatu gambar dengan memprediksi kotak pembatas dan label kelas. VLM modern memperluas hal ini ke deteksi kosakata terbuka menggunakan deskripsi bahasa alami.
Image SegmentationMembagi gambar menjadi wilayah yang bermakna pada tingkat piksel. Segmentasi semantik memberi label pada setiap piksel dengan suatu kelas, sedangkan segmentasi instance membedakan objek individual dari kelas yang sama.
Caption GenerationTugas untuk secara otomatis menghasilkan deskripsi bahasa alami dari konten gambar. Sistem teks modern menggunakan VLM untuk menghasilkan deskripsi yang detail dan kaya kontekstual yang lebih dari sekadar daftar objek sederhana.
Multimodal ReasoningKemampuan untuk melakukan inferensi logis yang memerlukan informasi dari berbagai modalitas. Misalnya menjawab 'Apakah cangkirnya mungkin jatuh?' membutuhkan pemahaman geometri pemandangan visual dan penalaran fisik.
LAIONJaringan Terbuka Kecerdasan Buatan Skala Besar - sebuah organisasi nirlaba yang menciptakan kumpulan data teks gambar sumber terbuka (LAION-5B dengan 5,85 miliar pasang) yang digunakan untuk melatih banyak model bahasa visi.
Visual EncoderKomponen VLM yang memproses gambar dan mengekstrak fitur visual. Arsitektur umum mencakup Vision Transformers (ViT), ConvNeXt, dan encoder visual CLIP.
Q-FormerModul transformator ringan yang digunakan dalam BLIP-2 yang menjembatani pembuat enkode gambar beku dan model bahasa besar yang dibekukan, belajar mengekstrak fitur visual paling informatif untuk menghasilkan bahasa.
Masked Image ModelingTeknik pra-pelatihan yang diawasi sendiri dengan bagian gambar ditutup (disembunyikan) dan model harus memprediksi konten yang hilang, sambil mempelajari representasi visual yang kaya dalam prosesnya.