🔬

objaverse-3d-explorer

An interactive educational simulator that enables users to explore and understand large-scale 3D object datasets like Objaverse. Users can browse 3D models, learn about point clouds, neural radiance fields (NeRF), and modern 3D generation techniques, gaining hands-on experience with the data that powers cutting-edge 3D computer vision and generative AI research.

🔬 Jetzt ausprobieren

Was ist das?

🎯 Simulator-Tipps

📚 Glossar

Polygon Mesh
Eine 3D-Darstellung bestehend aus Eckpunkten, Kanten und Flächen (normalerweise Dreiecke oder Quader), die die Oberfläche eines 3D-Objekts definieren. Netze sind die Standarddarstellung in der Computergrafik und können komplexe Oberflächen mit unterschiedlichem Detaillierungsgrad effizient darstellen.
Voxel
Ein volumetrisches Pixel – das 3D-Äquivalent eines 2D-Pixels. Voxeldarstellungen unterteilen den 3D-Raum in ein regelmäßiges Gitter aus kubischen Zellen, die jeweils Eigenschaften wie Belegung oder Farbe speichern. Einfach zu verarbeiten, aber bei hohen Auflösungen speicherintensiv.
UV Mapping
Der Prozess der Projektion einer 2D-Bildtextur auf die Oberfläche eines 3D-Modells. UV-Koordinaten (U und V sind die Achsen der 2D-Textur) definieren, wie jeder Punkt auf der 3D-Oberfläche einem Punkt auf dem 2D-Texturbild zugeordnet wird.
Normal Vector
Ein Vektor senkrecht zu einer Oberfläche an einem bestimmten Punkt. Oberflächennormalen sind für Beleuchtungsberechnungen, Kollisionserkennung und das Verständnis der Oberflächenorientierung in der 3D-Geometrie unerlässlich.
Depth Map
Ein 2D-Bild, bei dem jeder Pixelwert den Abstand von der Kamera zum entsprechenden Punkt in der Szene darstellt. Tiefenkarten verbinden 2D-Bilder und 3D-Geometrie und können von RGB-D-Kameras erfasst oder anhand von Standardbildern geschätzt werden.
Volumetric Rendering
Eine Technik zum Rendern von 3D-Daten, indem Strahlen durch ein Volumen geworfen werden und entlang jedes Strahls Farb- und Deckkraftwerte akkumuliert werden. Wird von NeRF und anderen neuronalen Rendering-Methoden verwendet, um Bilder aus erlernten 3D-Darstellungen zu generieren.
Signed Distance Function (SDF)
Eine mathematische Funktion, die den kürzesten Abstand von einem beliebigen Punkt im Raum zur nächstgelegenen Oberfläche zurückgibt, wobei das Vorzeichen angibt, ob sich der Punkt innerhalb (negativ) oder außerhalb (positiv) des Objekts befindet. SDFs bieten eine leistungsstarke implizite Darstellung für 3D-Formen.
Multi-View Reconstruction
Der Prozess der Rekonstruktion eines 3D-Modells aus mehreren 2D-Fotos, die aus verschiedenen Blickwinkeln aufgenommen wurden. Die Techniken reichen von klassischen Structure-from-Motion-Methoden bis hin zu modernen neuronalen Methoden wie NeRF.
CAD Model
Computergestütztes Designmodell – eine präzise mathematische Darstellung eines 3D-Objekts, das mit einer Designsoftware erstellt wurde. CAD-Modelle verwenden parametrische Flächen und Volumengeometrie und bieten genaue Spezifikationen für die Konstruktion und Fertigung.
Texture
Ein 2D-Bild, das auf die Oberfläche eines 3D-Modells angewendet wird, um visuelle Details wie Farbe, Muster oder Oberflächeneigenschaften wie Rauheit und Reflexionsvermögen hinzuzufügen, ohne die geometrische Komplexität zu erhöhen.
LiDAR
Light Detection and Ranging – eine Fernerkundungstechnologie, die Entfernungen misst, indem sie ein Ziel mit Laserlicht beleuchtet und die reflektierten Impulse misst. LiDAR erzeugt hochauflösende Punktwolken realer Umgebungen.
Implicit Neural Representation
Eine Methode zur Darstellung von 3D-Formen oder Szenen als kontinuierliche Funktionen, die durch neuronale Netze parametrisiert werden, und nicht als diskrete Datenstrukturen wie Netze oder Voxel. Das Netzwerk lernt, Koordinaten Eigenschaften wie Belegung oder Farbe zuzuordnen.
Shape Embedding
Eine kompakte Vektordarstellung einer 3D-Form in einem erlernten Merkmalsraum, die die wesentlichen geometrischen und semantischen Eigenschaften des Objekts erfasst. Formeinbettungen ermöglichen die Suche nach Ähnlichkeiten, die Klassifizierung und die Generierung von 3D-Objekten.
Gaussian Splatting
Eine 3D-Szenendarstellungstechnik, die eine Szene als Sammlung von 3D-Gaußschen Grundelementen mit jeweils Position, Kovarianz, Deckkraft und Farbe modelliert. Es ermöglicht die Echtzeit-Rendering komplexer Szenen in hoher Qualität durch effiziente Rasterung.
Photogrammetry
Die Wissenschaft, Messungen anhand von Fotos vorzunehmen, um 3D-Modelle realer Objekte oder Umgebungen zu rekonstruieren. Moderne Photogrammetrie nutzt Computer-Vision-Algorithmen, um automatisch Merkmale in Bildern abzugleichen und 3D-Positionen zu triangulieren.
Marching Cubes
Ein Algorithmus zum Extrahieren einer polygonalen Netzoberfläche aus einem dreidimensionalen Skalarfeld (z. B. einer Abstandsfunktion mit Vorzeichen oder einem Voxelgitter). Es verarbeitet das Feld Würfel für Würfel, bestimmt, welche Kanten die Oberfläche schneidet und generiert entsprechend Dreiecke.
Sketchfab
Eine wichtige Online-Plattform zum Veröffentlichen, Teilen und Entdecken von 3D-, VR- und AR-Inhalten. Objaverse wurde hauptsächlich von Sketchfab bezogen, das Millionen von 3D-Modellen hostet, die von Künstlern, Designern und 3D-Scan-Enthusiasten hochgeladen wurden.
Ray Casting
Eine Technik zur Bestimmung, welche Objekte in einer 3D-Szene sichtbar sind, indem Strahlen von der Kamera durch jedes Pixel in die Szene verfolgt werden. Ray Casting wird bei NeRF und volumetrischem Rendering verwendet, um Dichte und Farbe entlang jedes Strahlpfads abzutasten.
Text-to-3D Generation
Die Aufgabe, ein 3D-Objekt oder eine 3D-Szene aus einer Textbeschreibung in natürlicher Sprache zu erstellen. Methoden wie DreamFusion, Magic3D und Point-E verwenden Kombinationen aus textbedingten Diffusionsmodellen und 3D-Darstellungen, um 3D-Inhalte aus Textaufforderungen zu generieren.
Occupancy Network
Eine neuronale implizite Darstellung, die eine 3D-Koordinate einer Belegungswahrscheinlichkeit zuordnet (unabhängig davon, ob sich der Punkt innerhalb oder außerhalb eines Objekts befindet). Belegungsnetzwerke können komplexe Formen mit beliebiger Auflösung darstellen, ohne dass diskrete Voxelgitter erforderlich sind.
Shape Completion
Die Aufgabe, die vollständige 3D-Form eines Objekts anhand einer Teilbeobachtung vorherzusagen, beispielsweise einem einzelnen Tiefenscan oder einer Teilpunktwolke. Deep-Learning-Modelle, die auf 3D-Datensätzen wie Objaverse und ShapeNet trainiert wurden, können lernen, auf fehlende Geometrie zu schließen.
PointNet
Eine bahnbrechende Deep-Learning-Architektur zur direkten Verarbeitung ungeordneter Punktwolkendaten. PointNet verwendet gemeinsam genutzte mehrschichtige Perzeptrone und eine symmetrische Max-Pooling-Operation, um Permutationsinvarianz zu erreichen und so eine 3D-Klassifizierung und Segmentierung direkt aus Punktmengen zu ermöglichen.
Mesh Decimation
Der Prozess der Reduzierung der Anzahl der Polygone in einem 3D-Netz unter Beibehaltung seiner Gesamtform und seines visuellen Erscheinungsbilds. Dies ist wichtig für die Optimierung von 3D-Modellen für Echtzeit-Rendering, Web-Anzeige und effiziente Speicherung in großen Datensätzen.
Objaverse-XL
Eine erweiterte Version von Objaverse mit über 10 Millionen 3D-Objekten, die von mehreren Plattformen stammen, darunter Sketchfab, Thingiverse, GitHub und Smithsonian, und ist damit der größte offene 3D-Datensatz.
DreamFusion
Eine Text-zu-3D-Generierungsmethode von Google, die ein vorab trainiertes Text-zu-Bild-Diffusionsmodell verwendet, um eine NeRF-Darstellung zu optimieren und so die Erstellung von 3D-Objekten aus Textbeschreibungen ohne 3D-Trainingsdaten ermöglicht.
Zero-1-to-3
Eine Methode zum Generieren neuartiger Ansichten eines Objekts aus einem einzelnen Bild, die auf Objaverse-Daten trainiert wird und eine 3D-Rekonstruktion aus nur einem Foto ermöglicht.
ShapeNet
Ein reich annotierter, umfangreicher Datensatz von 3D-Formen mit 51.300 einzigartigen 3D-Modellen, der 55 gängige Objektkategorien abdeckt und häufig als Benchmark in der 3D-Deep-Learning-Forschung verwendet wird.
Triplane Representation
Eine kompakte 3D-Darstellung, die eine 3D-Szene mithilfe von drei orthogonalen Merkmalsebenen (XY,
Multi-View Stereo
Eine Technik zur Rekonstruktion der 3D-Geometrie aus mehreren überlappenden Fotos, indem entsprechende Punkte in verschiedenen Ansichten gefunden und ihre 3D-Positionen trianguliert werden.
Mesh Simplification
Algorithmen, die die Polygonzahl eines 3D-Netzes reduzieren und gleichzeitig dessen visuelles Erscheinungsbild bewahren, wichtig für die effiziente Speicherung und Darstellung großer 3D-Datensätze.
Cap3D
Eine Methode zum automatischen Generieren detaillierter Textbeschreibungen (Beschriftungen) für 3D-Objekte in Objaverse, die eine textbasierte Suche und ein Training zur Text-zu-3D-Generierung ermöglicht.
Point-E
Ein OpenAI-Modell, das 3D-Punktwolken aus Textbeschreibungen generiert, trainiert auf einem großen Datensatz von Text-3D-Paaren und ermöglicht die schnelle Erstellung von 3D-Inhalten aus natürlicher Sprache.
Radiance Field
Eine kontinuierliche Funktion, die 3D-Koordinaten und Blickrichtungen Farb- und Dichtewerten zuordnet und so das Erscheinungsbild einer Szene aus jedem Blickwinkel darstellt. NeRF ist die bekannteste Implementierung.
Digital Twin
Eine virtuelle Nachbildung eines physischen Objekts, Prozesses oder Systems, die in Echtzeit mit Sensordaten aktualisiert wird. 3D-Datensätze wie Objaverse tragen dazu bei, realistischere und vielfältigere digitale Zwillinge zu erstellen.
Implicit Surface
Eine 3D-Oberfläche, die als Nullebenensatz einer kontinuierlichen Funktion und nicht durch explizite Scheitelpunkte und Flächen definiert ist. In diese Kategorie fallen neuronale implizite Oberflächen wie DeepSDF und Belegungsnetzwerke.
3D Reconstruction
Der Prozess der Erstellung eines 3D-Modells aus 2D-Beobachtungen wie Fotos, Tiefenkarten oder Sensordaten. Die Methoden reichen von klassischen Structure-from-Motion-Techniken bis hin zu modernen neuronalen Rekonstruktionstechniken.
View Synthesis
Generieren neuartiger Ansichten einer Szene aus Blickwinkeln, die nicht von Kameras erfasst wurden. NeRF und Gaussian Splatting zeichnen sich bei dieser Aufgabe durch das Erlernen kontinuierlicher 3D-Szenendarstellungen aus.
Texture Synthesis
Automatisches Generieren von Texturbildern für 3D-Oberflächen, entweder durch Erweitern von Beispieltexturen oder mithilfe von KI zum Erstellen von Texturen aus Textbeschreibungen. Wichtig für die realistische Darstellung generierter 3D-Objekte.
Watertight Mesh
Ein Polygonnetz, das eine vollständige, geschlossene Oberfläche ohne Löcher oder Lücken bildet. Für viele Vorgänge wie 3D-Druck, boolesche Operationen und Innen-/Außenabfragen sind wasserdichte Netze erforderlich.
Level of Detail (LOD)
Eine Technik zur Bewältigung der Komplexität durch Verwendung unterschiedlicher Netzauflösungen je nach Betrachtungsabstand. Für Objekte, die weit von der Kamera entfernt sind, werden vereinfachte Netze verwendet, während für Objekte in der Nähe hochdetaillierte Versionen verwendet werden.
Scene Graph
Eine strukturierte Darstellung einer 3D-Szene, die Objekte, ihre Attribute (Farbe, Material, Form) und Beziehungen (oben, neben, im Inneren) beschreibt. Szenendiagramme ermöglichen das semantische Verständnis und die Generierung von 3D-Umgebungen.
Neural Signed Distance Function
Ein neuronales Netzwerk, das darauf trainiert ist, den vorzeichenbehafteten Abstand von jedem 3D-Punkt zur nächstgelegenen Oberfläche auszugeben und so eine kontinuierliche und differenzierbare implizite Darstellung von 3D-Formen bereitzustellen.
NeRF in the Wild
Eine Erweiterung von NeRF, die uneingeschränkte Fotosammlungen mit unterschiedlicher Beleuchtung, Belichtung und vorübergehenden Verdeckungen verarbeitet und so die 3D-Rekonstruktion von Touristenfotos ermöglicht.

🏆 Schlüsselpersonen

Matt Deitke (2023)

Leitender Forscher am Allen Institute for AI (AI2), der Objaverse und Objaverse-XL erstellt und damit die größten Open-Source-Datensätze annotierter 3D-Objekte erstellt hat, die für die Forschung verfügbar sind. Objaverse enthält über 800.000 Objekte und Objaverse-XL skaliert auf über 10 Millionen.

Ben Mildenhall (2020)

Mitbegründer von Neural Radiance Fields (NeRF) an der UC Berkeley und Google Research. NeRF führte einen revolutionären Ansatz zur 3D-Szenendarstellung ein, bei dem neuronale Netze zur Codierung volumetrischer Szeneneigenschaften zum Einsatz kommen und so die fotorealistische Synthese neuartiger Ansichten aus spärlichen Fotos ermöglicht werden.

Angel Chang (2015)

Mitschöpfer von ShapeNet, einem der frühesten und einflussreichsten Repositories für groß angelegte 3D-Modelle, das 51.300 3D-Modelle in 55 gemeinsame Kategorien mit umfangreichen Anmerkungen organisierte. Sie hat auch zu ScanNet beigetragen, um das 3D-Verständnis in der realen Welt zu verbessern.

Charles Qi (2017)

Erfand PointNet und PointNet++ in Stanford und schuf damit die ersten Deep-Learning-Architekturen, die in der Lage sind, 3D-Punktwolkendaten direkt zur Klassifizierung und Segmentierung zu verarbeiten

Bernhard Kerbl (2023)

Mitentwickeltes 3D-Gaußsches Splatting am INRIA, das fotorealistisches Echtzeit-Rendering von 3D-Szenen mit erlernbaren Gaußschen Grundelementen als effiziente Alternative zu NeRF ermöglicht

Alexei Efros (2003)

Pionierarbeit beim Erlernen der visuellen Darstellung an der UC Berkeley, wo er grundlegende Arbeiten zu Bildsynthese, Stilübertragung und visuellem Verständnis beisteuerte, die die moderne 3D-Generierung aus 2D-Bildern ermöglichten

🎓 Lernressourcen

💬 Nachricht an Lernende

{'encouragement': 'The world around us is three-dimensional, yet for decades, AI has primarily learned to understand it through flat, 2D images. The emergence of large-scale 3D datasets like Objaverse, combined with powerful techniques like NeRF and Gaussian Splatting, is finally enabling AI to truly perceive and create in three dimensions.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a 3D artist in Nairobi will use AI to generate entire virtual worlds. Perhaps a student in Karachi will build AR tools that bring education to life. 3D AI is a canvas for global creativity.', 'wiaVision': 'WIA Book believes 3D creation tools should be free for everyone. From Seoul to Lagos, from Kabul to Buenos Aires - the power to build virtual worlds is yours. Free forever.'}

Loslegen

Kostenlos, ohne Anmeldung

Loslegen →