objaverse-3d-explorer

ما هذا؟

🎯 نصائح المحاكي

📚 المصطلحات

Polygon Mesh

تمثيل ثلاثي الأبعاد يتكون من رؤوس وحواف ووجوه (عادةً مثلثات أو رباعيات) تحدد سطح الكائن ثلاثي الأبعاد. الشبكات هي التمثيل القياسي في رسومات الكمبيوتر ويمكنها تمثيل الأسطح المعقدة بكفاءة بمستويات مختلفة من التفاصيل.

Voxel

البكسل الحجمي - المعادل ثلاثي الأبعاد للبكسل ثنائي الأبعاد. تقسم تمثيلات Voxel المساحة ثلاثية الأبعاد إلى شبكة منتظمة من الخلايا المكعبة، كل منها يخزن خصائص مثل الإشغال أو اللون. سهلة المعالجة ولكنها تستهلك الكثير من الذاكرة بدقة عالية.

UV Mapping

عملية عرض نسيج صورة ثنائية الأبعاد على سطح نموذج ثلاثي الأبعاد. تحدد إحداثيات الأشعة فوق البنفسجية (U وV هما محورا النسيج ثنائي الأبعاد) كيفية تعيين كل نقطة على السطح ثلاثي الأبعاد إلى نقطة على صورة النسيج ثنائي الأبعاد.

Normal Vector

متجه عمودي على سطح عند نقطة معينة. تعد القيم الطبيعية للسطح ضرورية لحسابات الإضاءة واكتشاف الاصطدام وفهم اتجاه السطح في الهندسة ثلاثية الأبعاد.

Depth Map

صورة ثنائية الأبعاد حيث تمثل كل قيمة بكسل المسافة من الكاميرا إلى النقطة المقابلة في المشهد. تربط خرائط العمق بين الصور ثنائية الأبعاد والهندسة ثلاثية الأبعاد ويمكن التقاطها بواسطة كاميرات RGB-D أو تقديرها من الصور القياسية.

Volumetric Rendering

تقنية لعرض البيانات ثلاثية الأبعاد عن طريق إرسال الأشعة عبر الحجم وتجميع قيم اللون والعتامة على طول كل شعاع. يتم استخدامه بواسطة NeRF وطرق العرض العصبية الأخرى لإنشاء صور من التمثيلات ثلاثية الأبعاد المستفادة.

Signed Distance Function (SDF)

دالة رياضية تقوم بإرجاع أقصر مسافة من أي نقطة في الفضاء إلى أقرب سطح، مع الإشارة إلى ما إذا كانت النقطة داخل (سلبية) أو خارج (إيجابية) الكائن. توفر ملفات SDF تمثيلاً ضمنيًا قويًا للأشكال ثلاثية الأبعاد.

Multi-View Reconstruction

عملية إعادة بناء نموذج ثلاثي الأبعاد من عدة صور ثنائية الأبعاد مأخوذة من وجهات نظر مختلفة. تتراوح التقنيات من البنية الكلاسيكية من الحركة إلى الأساليب العصبية الحديثة مثل NeRF.

CAD Model

نموذج التصميم بمساعدة الكمبيوتر - تمثيل رياضي دقيق لكائن ثلاثي الأبعاد تم إنشاؤه باستخدام برامج التصميم. تستخدم نماذج CAD الأسطح البارامترية والهندسة الصلبة، مما يوفر المواصفات الدقيقة المستخدمة في الهندسة والتصنيع.

Texture

صورة ثنائية الأبعاد يتم تطبيقها على سطح نموذج ثلاثي الأبعاد لإضافة تفاصيل مرئية مثل اللون أو الأنماط أو خصائص السطح مثل الخشونة والانعكاس، دون زيادة التعقيد الهندسي.

LiDAR

كشف الضوء والمدى - تقنية استشعار عن بعد تقيس المسافات من خلال إضاءة الهدف بضوء الليزر وقياس النبضات المنعكسة. تنتج تقنية LiDAR سحبًا نقطية عالية الدقة لبيئات العالم الحقيقي.

Implicit Neural Representation

طريقة لتمثيل الأشكال أو المشاهد ثلاثية الأبعاد كوظائف مستمرة يتم تحديد معلماتها بواسطة الشبكات العصبية، بدلاً من كونها هياكل بيانات منفصلة مثل الشبكات أو وحدات فوكسل. تتعلم الشبكة كيفية تعيين الإحداثيات لخصائص مثل الإشغال أو اللون.

Shape Embedding

تمثيل متجه مدمج لشكل ثلاثي الأبعاد في مساحة المعالم المستفادة، مع التقاط الخصائص الهندسية والدلالية الأساسية للكائن. تعمل عمليات تضمين الأشكال على تمكين البحث عن التشابه والتصنيف وإنشاء الكائنات ثلاثية الأبعاد.

Gaussian Splatting

تقنية تمثيل المشهد ثلاثي الأبعاد التي تصمم المشهد كمجموعة من البدائيات الغوسية ثلاثية الأبعاد، لكل منها الموضع والتباين والعتامة واللون. فهو يتيح عرضًا عالي الجودة للمشاهد المعقدة في الوقت الفعلي من خلال التنقيط الفعال.

Photogrammetry

علم إجراء القياسات من الصور الفوتوغرافية لإعادة بناء نماذج ثلاثية الأبعاد لأشياء أو بيئات في العالم الحقيقي. يستخدم المسح التصويري الحديث خوارزميات رؤية الكمبيوتر لمطابقة الميزات تلقائيًا عبر الصور وتثليث المواضع ثلاثية الأبعاد.

Marching Cubes

خوارزمية لاستخراج سطح شبكي متعدد الأضلاع من حقل عددي ثلاثي الأبعاد (مثل دالة المسافة الموقعة أو شبكة فوكسل). فهو يعالج مكعب الحقل بمكعب، ويحدد الحواف التي يتقاطع معها السطح ويولد المثلثات وفقًا لذلك.

Sketchfab

منصة رئيسية عبر الإنترنت لنشر ومشاركة واكتشاف المحتوى ثلاثي الأبعاد والواقع الافتراضي والواقع المعزز. تم الحصول على Objaverse في المقام الأول من Sketchfab، الذي يستضيف الملايين من النماذج ثلاثية الأبعاد التي تم تحميلها من قبل الفنانين والمصممين وعشاق المسح ثلاثي الأبعاد.

Ray Casting

تقنية لتحديد الكائنات التي تكون مرئية في مشهد ثلاثي الأبعاد من خلال تتبع الأشعة الصادرة من الكاميرا عبر كل بكسل في المشهد. يتم استخدام صب الشعاع في NeRF والعرض الحجمي لكثافة العينة واللون على طول كل مسار شعاع.

Text-to-3D Generation

مهمة إنشاء كائن أو مشهد ثلاثي الأبعاد من وصف نص باللغة الطبيعية. تستخدم أساليب مثل DreamFusion وMagic3D وPoint-E مجموعات من نماذج النشر المشروطة بالنص والتمثيلات ثلاثية الأبعاد لإنشاء محتوى ثلاثي الأبعاد من المطالبات النصية.

Occupancy Network

تمثيل ضمني عصبي يقوم بتعيين إحداثيات ثلاثية الأبعاد لاحتمال الإشغال (سواء كانت النقطة داخل كائن أو خارجه). يمكن أن تمثل شبكات الإشغال أشكالًا معقدة بدقة تعسفية دون الحاجة إلى شبكات فوكسل منفصلة.

Shape Completion

مهمة التنبؤ بالشكل ثلاثي الأبعاد الكامل لجسم ما من خلال ملاحظة جزئية، مثل مسح عمق واحد أو سحابة نقطية جزئية. يمكن لنماذج التعلم العميق المدربة على مجموعات البيانات ثلاثية الأبعاد مثل Objaverse وShapeNet أن تتعلم كيفية استنتاج الأشكال الهندسية المفقودة.

PointNet

بنية تعليمية عميقة رائدة مصممة لمعالجة البيانات السحابية النقطية غير المرتبة بشكل مباشر. تستخدم PointNet تصورات مشتركة متعددة الطبقات وعملية تجميع قصوى متماثلة لتحقيق ثبات التقليب، مما يتيح التصنيف والتجزئة ثلاثية الأبعاد مباشرة من مجموعات النقاط.

Mesh Decimation

عملية تقليل عدد المضلعات في شبكة ثلاثية الأبعاد مع الحفاظ على شكلها العام ومظهرها البصري. يعد هذا أمرًا مهمًا لتحسين النماذج ثلاثية الأبعاد للعرض في الوقت الفعلي وعرض الويب والتخزين الفعال في مجموعات البيانات واسعة النطاق.

Objaverse-XL

نسخة موسعة من Objaverse تحتوي على أكثر من 10 ملايين كائن ثلاثي الأبعاد مصدرها منصات متعددة بما في ذلك Sketchfab وThingiverse وGitHub وSmithsonian، مما يجعلها أكبر مجموعة بيانات ثلاثية الأبعاد مفتوحة.

DreamFusion

طريقة إنشاء نص إلى ثلاثي الأبعاد من Google تستخدم نموذج نشر نص إلى صورة تم تدريبه مسبقًا لتحسين تمثيل NeRF، مما يتيح إنشاء كائن ثلاثي الأبعاد من أوصاف النص دون بيانات تدريب ثلاثية الأبعاد.

Zero-1-to-3

طريقة لإنشاء مشاهد جديدة لكائن من صورة واحدة، يتم تدريبها على بيانات Objaverse، مما يتيح إعادة البناء ثلاثي الأبعاد من صورة واحدة فقط.

ShapeNet

مجموعة بيانات واسعة النطاق غنية بالتعليقات التوضيحية للأشكال ثلاثية الأبعاد تحتوي على 51300 نموذج ثلاثي الأبعاد فريد يغطي 55 فئة كائنات شائعة، وتستخدم على نطاق واسع كمعيار في أبحاث التعلم العميق ثلاثي الأبعاد.

Triplane Representation

تمثيل ثلاثي الأبعاد مدمج يقوم بتشفير مشهد ثلاثي الأبعاد باستخدام ثلاث مستويات ميزات متعامدة (XY وXZ وYZ)، مما يتيح إنشاء وعرض ثلاثي الأبعاد بكفاءة باستخدام العمود الفقري للشبكة العصبية ثنائية الأبعاد.

Multi-View Stereo

تقنية لإعادة بناء الهندسة ثلاثية الأبعاد من صور فوتوغرافية متعددة متداخلة من خلال إيجاد النقاط المقابلة عبر طرق العرض وتثليث مواضعها ثلاثية الأبعاد.

Mesh Simplification

الخوارزميات التي تقلل عدد المضلعات للشبكة ثلاثية الأبعاد مع الحفاظ على مظهرها المرئي، وهي مهمة للتخزين الفعال وعرض مجموعات البيانات ثلاثية الأبعاد واسعة النطاق.

Cap3D

طريقة لإنشاء أوصاف نصية مفصلة (التسميات التوضيحية) تلقائيًا للكائنات ثلاثية الأبعاد في Objaverse، مما يتيح البحث المستند إلى النص والتدريب على إنشاء تحويل النص إلى ثلاثي الأبعاد.

Point-E

نموذج OpenAI يقوم بإنشاء سحب نقطية ثلاثية الأبعاد من أوصاف النص، ويتم تدريبه على مجموعة بيانات كبيرة من أزواج النص ثلاثية الأبعاد، مما يتيح إنشاء محتوى ثلاثي الأبعاد سريعًا من اللغة الطبيعية.

Radiance Field

وظيفة مستمرة تقوم بتعيين الإحداثيات ثلاثية الأبعاد واتجاهات العرض لقيم اللون والكثافة، مما يمثل مظهر المشهد من أي وجهة نظر. NeRF هو التطبيق الأكثر شهرة.

Digital Twin

نسخة طبق الأصل افتراضية من كائن مادي أو عملية أو نظام يتم تحديثه في الوقت الفعلي باستخدام بيانات المستشعر. تساعد مجموعات البيانات ثلاثية الأبعاد مثل Objaverse في إنشاء توائم رقمية أكثر واقعية وتنوعًا.

Implicit Surface

سطح ثلاثي الأبعاد يتم تعريفه على أنه مجموعة المستوى الصفري لدالة مستمرة، وليس من خلال القمم والوجوه الواضحة. تقع الأسطح العصبية الضمنية مثل DeepSDF وشبكات الإشغال ضمن هذه الفئة.

3D Reconstruction

عملية إنشاء نموذج ثلاثي الأبعاد من الملاحظات ثنائية الأبعاد مثل الصور الفوتوغرافية أو خرائط العمق أو بيانات الاستشعار. تتراوح الأساليب من البنية الكلاسيكية من الحركة إلى تقنيات إعادة البناء العصبي الحديثة.

View Synthesis

إنشاء مناظر جديدة للمشهد من وجهات نظر لم تلتقطها الكاميرات. يتفوق كل من NeRF وGaussian Splatting في هذه المهمة من خلال تعلم تمثيلات المشهد ثلاثية الأبعاد المستمرة.

Texture Synthesis

إنشاء صور أنسجة للأسطح ثلاثية الأبعاد تلقائيًا، إما عن طريق توسيع نماذج الأنسجة أو استخدام الذكاء الاصطناعي لإنشاء أنسجة من أوصاف النص. مهم للعرض الواقعي للكائنات ثلاثية الأبعاد التي تم إنشاؤها.

Watertight Mesh

شبكة مضلعة تشكل سطحًا كاملاً مغلقًا بدون ثقوب أو فجوات. الشبكات المقاومة للماء مطلوبة للعديد من العمليات مثل الطباعة ثلاثية الأبعاد والعمليات المنطقية والاستعلامات الداخلية/الخارجية.

Level of Detail (LOD)

تقنية لإدارة التعقيد باستخدام دقة شبكية مختلفة اعتمادًا على مسافة المشاهدة. تستخدم الكائنات البعيدة عن الكاميرا شبكات مبسطة، بينما تستخدم الكائنات القريبة إصدارات عالية التفاصيل.

Scene Graph

تمثيل منظم لمشهد ثلاثي الأبعاد يصف الكائنات وسماتها (اللون، المادة، الشكل)، والعلاقات (في الأعلى، بجوار، في الداخل). تتيح الرسوم البيانية للمشهد الفهم الدلالي وإنشاء بيئات ثلاثية الأبعاد.

Neural Signed Distance Function

شبكة عصبية تم تدريبها على إخراج المسافة الموقعة من أي نقطة ثلاثية الأبعاد إلى أقرب سطح، مما يوفر تمثيلًا ضمنيًا مستمرًا وقابلاً للتفاضل للأشكال ثلاثية الأبعاد.

NeRF in the Wild

امتداد لـ NeRF الذي يتعامل مع مجموعات الصور غير المقيدة ذات الإضاءة المتفاوتة والتعرض والتغطية العابرة، مما يتيح إعادة البناء ثلاثي الأبعاد من الصور السياحية.

🏆 شخصيات رئيسية

Matt Deitke (2023)

باحث رئيسي في معهد Allen للذكاء الاصطناعي (AI2) الذي أنشأ Objaverse وObjaverse-XL، مما أدى إلى إنشاء أكبر مجموعات بيانات مفتوحة المصدر للكائنات ثلاثية الأبعاد المشروحة المتاحة للبحث. يحتوي Objaverse على أكثر من 800000 كائن ويصل حجم Objaverse-XL إلى أكثر من 10 ملايين.

Ben Mildenhall (2020)

شارك في إنشاء حقول الإشعاع العصبي (NeRF) في جامعة كاليفورنيا في بيركلي وأبحاث Google. قدمت شركة NeRF نهجًا ثوريًا لتمثيل المشهد ثلاثي الأبعاد باستخدام الشبكات العصبية لتشفير خصائص المشهد الحجمي، مما يتيح تركيب منظر واقعي جديد من صور فوتوغرافية متفرقة.

Angel Chang (2015)

شارك في إنشاء ShapeNet، وهو أحد أقدم مستودعات النماذج ثلاثية الأبعاد واسعة النطاق وأكثرها تأثيرًا، والذي نظم 51300 نموذج ثلاثي الأبعاد في 55 فئة شائعة مع تعليقات توضيحية غنية. كما ساهمت أيضًا في ScanNet لفهم العالم الحقيقي ثلاثي الأبعاد.

Charles Qi (2017)

اخترع PointNet وPointNet++ في جامعة ستانفورد، مما أدى إلى إنشاء أول بنيات التعلم العميق القادرة على المعالجة المباشرة لبيانات السحابة النقطية ثلاثية الأبعاد للتصنيف والتجزئة

Bernhard Kerbl (2023)

تم إنشاء 3D Gaussian Splatting بشكل مشترك في INRIA، مما يتيح العرض الواقعي للمشاهد ثلاثية الأبعاد في الوقت الفعلي باستخدام البدائيات Gaussian القابلة للتعلم كبديل فعال لـ NeRF

Alexei Efros (2003)

رائد في تعلم التمثيل البصري في جامعة كاليفورنيا في بيركلي، حيث ساهم في العمل التأسيسي على تركيب الصور، ونقل الأنماط، والفهم البصري الذي مكّن من إنشاء صور ثلاثية الأبعاد حديثة من صور ثنائية الأبعاد

🎓 مصادر التعلم

Objaverse: A Universe of Annotated 3D Objects
تقدم الورقة الأصلية مجموعة بيانات Objaverse التي تضم أكثر من 800 ألف كائن ثلاثي الأبعاد مشروح، وتصف منهجية التجميع، وإحصائيات مجموعة البيانات، والتقييمات المعيارية.
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
تقدم هذه الورقة البحثية الرائدة مجالات الإشعاع العصبية، وتوضح تركيب منظر واقعي جديد من خلال تمثيل المشاهد كوظائف حجمية عصبية مستمرة.
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
يقدم أول بنية للتعلم العميق تعالج السحب النقطية مباشرة، وتتعامل مع الطبيعة غير المنظمة لمجموعات النقاط من خلال وظائف متماثلة.
3D Gaussian Splatting for Real-Time Radiance Field Rendering
يقدم تقنية 3D Gaussian Splatting كبديل فعال لـ NeRF، مما يؤدي إلى عرض مشاهد ثلاثية الأبعاد عالية الجودة في الوقت الفعلي باستخدام بدايات Gaussian ثلاثية الأبعاد قابلة للتعلم.
Multiple View Geometry in Computer Vision
الكتاب المدرسي النهائي حول هندسة وجهات النظر المتعددة، الذي يغطي المفاهيم الأساسية الضرورية لفهم إعادة البناء ثلاثي الأبعاد من الصور.
Computer Vision: Algorithms and Applications
كتاب دراسي شامل يغطي رؤية الكمبيوتر من التقنيات الأساسية إلى أساليب التعلم العميق الحديثة، بما في ذلك إعادة البناء والعرض ثلاثي الأبعاد.
3D Deep Learning with Python
دليل عملي لتنفيذ نماذج التعلم العميق للبيانات ثلاثية الأبعاد، يغطي المعالجة السحابية النقطية، وتحليل الشبكات، والتوليد ثلاثي الأبعاد باستخدام PyTorch.
NeRF: Neural Radiance Fields - Explained Visually
شرح مرئي لكيفية عمل حقول الإشعاع العصبي، بدءًا من صب الشعاع وحتى العرض الحجمي، مما يجعل المفاهيم الأساسية في متناول المبتدئين.
Stanford CS231A: Computer Vision - 3D Reconstruction
تحاضر دورة رؤية الكمبيوتر في جامعة ستانفورد حول إعادة البناء ثلاثي الأبعاد، وتغطي البنية من الحركة، والرؤية المجسمة، والهندسة متعددة الرؤية.
Two Minute Papers - 3D Gaussian Splatting
شرح مرئي وسهل الوصول إليه لـ 3D Gaussian Splatting، يوضح كيف تتيح هذه التقنية العرض في الوقت الفعلي للمشاهد ثلاثية الأبعاد الواقعية.

💬 رسالة للمتعلمين

{'encouragement': 'The world around us is three-dimensional, yet for decades, AI has primarily learned to understand it through flat, 2D images. The emergence of large-scale 3D datasets like Objaverse, combined with powerful techniques like NeRF and Gaussian Splatting, is finally enabling AI to truly perceive and create in three dimensions.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a 3D artist in Nairobi will use AI to generate entire virtual worlds. Perhaps a student in Karachi will build AR tools that bring education to life. 3D AI is a canvas for global creativity.', 'wiaVision': 'WIA Book believes 3D creation tools should be free for everyone. From Seoul to Lagos, from Kabul to Buenos Aires - the power to build virtual worlds is yours. Free forever.'}

ابدأ الآن

مجاني، بدون تسجيل

ابدأ الآن →