objaverse-3d-explorer

🔬 立即试用

这是什么？

🎯 模拟器提示

📚 术语表

Polygon Mesh

由定义 3D 对象表面的顶点、边和面（通常是三角形或四边形）组成的 3D 表示形式。网格是计算机图形学中的标准表示形式，可以有效地表示具有不同细节级别的复杂表面。

Voxel

体积像素 - 2D 像素的 3D 等效项。体素表示将 3D 空间划分为规则的立方体网格，每个网格都存储占用或颜色等属性。处理简单，但在高分辨率下会占用大量内存。

UV Mapping

将 2D 图像纹理投影到 3D 模型表面的过程。 UV 坐标（U 和 V 是 2D 纹理的轴）定义 3D 表面上的每个点如何映射到 2D 纹理图像上的点。

Normal Vector

在给定点处垂直于表面的矢量。表面法线对于照明计算、碰撞检测和理解 3D 几何中的表面方向至关重要。

Depth Map

二维图像，其中每个像素值表示从相机到场景中相应点的距离。深度图连接 2D 图像和 3D 几何图形，可以通过 RGB-D 相机捕获或根据标准图像进行估计。

Volumetric Rendering

一种通过将光线投射穿过体积并沿每条光线累积颜色和不透明度值来渲染 3D 数据的技术。 NeRF 和其他神经渲染方法使用它从学习的 3D 表示生成图像。

Signed Distance Function (SDF)

一种数学函数，返回空间中任意点到最近表面的最短距离，其符号指示该点是在对象内部（负）还是外部（正）。 SDF 为 3D 形状提供了强大的隐式表示。

Multi-View Reconstruction

根据从不同视点拍摄的多张 2D 照片重建 3D 模型的过程。技术范围从经典的运动结构到 NeRF 等现代神经方法。

CAD Model

计算机辅助设计模型 - 使用设计软件创建的 3D 对象的精确数学表示。 CAD 模型使用参数化曲面和实体几何，提供工程和制造中使用的精确规格。

Texture

应用于 3D 模型表面的 2D 图像，可添加颜色、图案等视觉细节或粗糙度和反射率等表面属性，而不会增加几何复杂性。

LiDAR

光探测和测距 - 一种遥感技术，通过用激光照射目标并测量反射脉冲来测量距离。激光雷达可生成现实环境的高分辨率点云。

Implicit Neural Representation

一种将 3D 形状或场景表示为神经网络参数化的连续函数的方法，而不是表示为网格或体素等离散数据结构。网络学习将坐标映射到占用或颜色等属性。

Shape Embedding

学习特征空间中 3D 形状的紧凑矢量表示，捕获对象的基本几何和语义属性。形状嵌入可实现 3D 对象的相似性搜索、分类和生成。

Gaussian Splatting

一种 3D 场景表示技术，将场景建模为 3D 高斯基元的集合，每个基元都具有位置、协方差、不透明度和颜色。它通过高效的光栅化实现复杂场景的实时、高质量渲染。

Photogrammetry

通过照片进行测量以重建真实世界物体或环境的 3D 模型的科学。现代摄影测量使用计算机视觉算法自动匹配图像中的特征并对 3D 位置进行三角测量。

Marching Cubes

一种从三维标量场（例如带符号的距离函数或体素网格）中提取多边形网格表面的算法。它逐个立方体地处理场立方体，确定表面穿过哪些边并相应地生成三角形。

Sketchfab

一个用于发布、共享和发现 3D、VR 和 AR 内容的主要在线平台。 Objaverse 主要源自 Sketchfab，其中包含艺术家、设计师和 3D 扫描爱好者上传的数百万个 3D 模型。

Ray Casting

一种通过追踪来自摄像机的光线穿过场景中每个像素来确定 3D 场景中哪些对象可见的技术。 NeRF 和体积渲染中使用光线投射来沿每条光线路径采样密度和颜色。

Text-to-3D Generation

根据自然语言文本描述创建 3D 对象或场景的任务。 DreamFusion、Magic3D 和 Point-E 等方法使用文本条件扩散模型和 3D 表示的组合，根据文本提示生成 3D 内容。

Occupancy Network

将 3D 坐标映射到占用概率（无论该点位于对象内部还是外部）的神经隐式表示。占用网络可以以任意分辨率表示复杂的形状，而不需要离散的体素网格。

Shape Completion

根据部分观察（例如单个深度扫描或部分点云）预测对象的完整 3D 形状的任务。在 Objaverse 和 ShapeNet 等 3D 数据集上训练的深度学习模型可以学习推断缺失的几何形状。

PointNet

一种开创性的深度学习架构，旨在直接处理无序点云数据。 PointNet 使用共享的多层感知器和对称最大池操作来实现排列不变性，从而能够直接从点集进行 3D 分类和分割。

Mesh Decimation

减少 3D 网格中多边形数量同时保留其整体形状和视觉外观的过程。这对于优化 3D 模型以实现大规模数据集中的实时渲染、Web 显示和高效存储非常重要。

Objaverse-XL

Objaverse 的扩展版本，包含来自 Sketchfab、Thingiverse、GitHub 和 Smithsonian 等多个平台的超过 1000 万个 3D 对象，使其成为最大的开放 3D 数据集。

DreamFusion

Google 的一种文本到 3D 生成方法，使用预先训练的文本到图像扩散模型来优化 NeRF 表示，从而无需 3D 训练数据即可从文本描述创建 3D 对象。

Zero-1-to-3

一种从单张图像生成物体新颖视图的方法，在 Objaverse 数据上进行训练，从而仅从一张照片即可进行 3D 重建。

ShapeNet

注释丰富的大型 3D 形状数据集，包含 51,300 个独特的 3D 模型，涵盖 55 个常见对象类别，广泛用作 3D 深度学习研究的基准。

Triplane Representation

紧凑的 3D 表示，使用三个正交特征平面（XY、XZ、YZ）对 3D 场景进行编码，从而通过 2D 神经网络主干实现高效的 3D 生成和渲染。

Multi-View Stereo

一种通过查找视图中的对应点并对它们的 3D 位置进行三角测量，从多个重叠照片重建 3D 几何形状的技术。

Mesh Simplification

减少 3D 网格的多边形数量同时保留其视觉外观的算法，对于大规模 3D 数据集的高效存储和渲染非常重要。

Cap3D

一种在 Objaverse 中自动生成 3D 对象详细文本描述（标题）的方法，支持基于文本的搜索和文本到 3D 生成训练。

Point-E

一种 OpenAI 模型，可根据文本描述生成 3D 点云，并在大型文本-3D 对数据集上进行训练，从而能够根据自然语言快速创建 3D 内容。

Radiance Field

一种连续函数，将 3D 坐标和观察方向映射到颜色和密度值，表示从任何视点观察场景的外观。 NeRF 是最著名的实现。

Digital Twin

使用传感器数据实时更新的物理对象、过程或系统的虚拟副本。 Objaverse 等 3D 数据集有助于创建更真实、更多样化的数字双胞胎。

Implicit Surface

3D 曲面定义为连续函数的零级集，而不是由显式顶点和面定义。像 DeepSDF 和占用网络这样的神经隐式表面就属于这一类。

3D Reconstruction

根据照片、深度图或传感器数据等 2D 观察结果创建 3D 模型的过程。方法范围从经典的运动结构到现代神经重建技术。

View Synthesis

从相机未捕获的视点生成场景的新颖视图。 NeRF 和 Gaussian Splatting 通过学习连续 3D 场景表示在这项任务上表现出色。

Texture Synthesis

通过扩展示例纹理或使用 AI 根据文本描述创建纹理，自动生成 3D 表面的纹理图像。对于生成的 3D 对象的真实渲染非常重要。

Watertight Mesh

形成完整、闭合表面、没有孔或间隙的多边形网格。 3D 打印、布尔运算和内部/外部查询等许多操作都需要防水网格。

Level of Detail (LOD)

一种根据观看距离使用不同网格分辨率来管理复杂性的技术。远离相机的物体使用简化的网格，而附近的物体使用高细节版本。

Scene Graph

3D 场景的结构化表示，描述对象、其属性（颜色、材质、形状）和关系（顶部、旁边、内部）。场景图支持语义理解和 3D 环境生成。

Neural Signed Distance Function

一种神经网络，经过训练可输出从任何 3D 点到最近表面的有符号距离，从而提供 3D 形状的连续且可微的隐式表示。

NeRF in the Wild

NeRF 的扩展，可处理具有不同照明、曝光和瞬态遮挡器的无约束照片集，从而能够根据旅游照片进行 3D 重建。

🏆 关键人物

Matt Deitke (2023)

艾伦人工智能研究所 (AI2) 的首席研究员，创建了 Objaverse 和 Objaverse-XL，建立了可用于研究的最大的带注释 3D 对象开源数据集。 Objaverse 包含超过 800,000 个对象，Objaverse-XL 可扩展至超过 1000 万个。

Ben Mildenhall (2020)

加州大学伯克利分校和谷歌研究院神经辐射场 (NeRF) 的共同创建者。 NeRF 引入了一种革命性的 3D 场景表示方法，使用神经网络对体积场景属性进行编码，从而能够从稀疏照片合成逼真的新颖视图。

Angel Chang (2015)

ShapeNet 的共同创建者，ShapeNet 是最早、最有影响力的大型 3D 模型存储库之一，它将 51,300 个 3D 模型组织成 55 个常见类别，并具有丰富的注释。她还为 ScanNet 做出了贡献，以实现现实世界的 3D 理解。

Charles Qi (2017)

在斯坦福大学发明了PointNet和PointNet++，创建了第一个能够直接处理3D点云数据以进行分类和分割的深度学习架构

Bernhard Kerbl (2023)

在 INRIA 共同创建了 3D Gaussian Splatting，使用可学习的高斯基元作为 NeRF 的有效替代方案实现 3D 场景的实时真实感渲染

Alexei Efros (2003)

在加州大学伯克利分校开创了视觉表示学习，在图像合成、风格迁移和视觉理解方面做出了基础工作，从而实现了从 2D 图像生成现代 3D

🎓 学习资源

Objaverse: A Universe of Annotated 3D Objects
原始论文介绍了包含 800K+ 带注释的 3D 对象的 Objaverse 数据集，描述了收集方法、数据集统计和基准评估。
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
这篇开创性的论文介绍了神经辐射场，通过将场景表示为连续的神经体积函数来演示逼真的新颖视图合成。
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
推出第一个直接处理点云的深度学习架构，通过对称函数处理点集的无序性质。
3D Gaussian Splatting for Real-Time Radiance Field Rendering
引入 3D 高斯泼溅作为 NeRF 的有效替代方案，使用可学习的 3D 高斯基元实现高质量 3D 场景的实时渲染。
Multiple View Geometry in Computer Vision
关于多视图几何的权威教科书，涵盖了理解图像 3D 重建所必需的基本概念。
Computer Vision: Algorithms and Applications
一本全面的教科书，涵盖计算机视觉从基础技术到现代深度学习方法，包括 3D 重建和渲染。
3D Deep Learning with Python
实施 3D 数据深度学习模型的实用指南，涵盖点云处理、网格分析和使用 PyTorch 生成 3D。
NeRF: Neural Radiance Fields - Explained Visually
以视觉方式解释神经辐射场的工作原理，从光线投射到体积渲染，使初学者能够理解核心概念。
Stanford CS231A: Computer Vision - 3D Reconstruction
斯坦福大学的计算机视觉课程讲授 3D 重建，涵盖运动结构、立体视觉和多视图几何。
Two Minute Papers - 3D Gaussian Splatting
对 3D 高斯泼溅的直观易懂的解释，展示了该技术如何实现逼真 3D 场景的实时渲染。

💬 给学习者的话

{'encouragement': 'The world around us is three-dimensional, yet for decades, AI has primarily learned to understand it through flat, 2D images. The emergence of large-scale 3D datasets like Objaverse, combined with powerful techniques like NeRF and Gaussian Splatting, is finally enabling AI to truly perceive and create in three dimensions.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a 3D artist in Nairobi will use AI to generate entire virtual worlds. Perhaps a student in Karachi will build AR tools that bring education to life. 3D AI is a canvas for global creativity.', 'wiaVision': 'WIA Book believes 3D creation tools should be free for everyone. From Seoul to Lagos, from Kabul to Buenos Aires - the power to build virtual worlds is yours. Free forever.'}

开始使用

免费，无需注册

开始使用 →