objaverse-3d-explorer

🔬 立即試用

呢個係咩？

🎯 模擬器提示

📚 術語表

Polygon Mesh

由定義 3D 物件表面的頂點、邊和麵（通常是三角形或四邊形）組成的 3D 表示形式。網格是計算機圖形學中的標準表示形式，可以有效地表示具有不同細節等級的複雜表面。

Voxel

體積像素 - 2D 像素的 3D 等效項。體素表示將 3D 空間劃分為規則的立方體網格，每個網格都儲存佔用或顏色等屬性。處理簡單，但在高解析度下會佔用大量記憶體。

UV Mapping

將 2D 影像紋理投影到 3D 模型表面的過程。 UV 座標（U 和 V 是 2D 紋理的軸）定義 3D 表面上的每個點如何映射到 2D 紋理影像上的點。

Normal Vector

在給定點處垂直於表面的向量。表面法線對於照明計算、碰撞偵測和理解 3D 幾何中的表面方向至關重要。

Depth Map

二維影像，其中每個像素值表示從相機到場景中相應點的距離。深度圖連接 2D 影像和 3D 幾何圖形，可透過 RGB-D 相機擷取或根據標準影像進行估計。

Volumetric Rendering

一種透過將光線投射穿過體積並沿著每條光線累積顏色和不透明度值來渲染 3D 資料的技術。 NeRF 和其他神經渲染方法使用它從學習的 3D 表示來產生圖像。

Signed Distance Function (SDF)

數學函數，傳回空間中任意點到最近表面的最短距離，其符號指示該點是在物件內部（負）還是外部（正）。 SDF 為 3D 形狀提供了強大的隱式表示。

Multi-View Reconstruction

根據從不同視點拍攝的多張 2D 照片重建 3D 模型的過程。技術範圍從經典的運動結構到 NeRF 等現代神經方法。

CAD Model

電腦輔助設計模型 - 使用設計軟體建立的 3D 物件的精確數學表示。 CAD 模型使用參數化曲面和實體幾何，提供工程和製造中使用的精確規格。

Texture

應用於 3D 模型表面的 2D 影像，可添加顏色、圖案等視覺細節或粗糙度和反射率等表面屬性，而不會增加幾何複雜性。

LiDAR

光探測和測距 - 一種遙感技術，透過雷射照射目標並測量反射脈衝來測量距離。光達可產生現實環境的高解析度點雲。

Implicit Neural Representation

將 3D 形狀或場景表示為神經網路參數化的連續函數的方法，而不是表示為網格或體素等離散資料結構。網路學習將座標映射到佔用或顏色等屬性。

Shape Embedding

學習特徵空間中 3D 形狀的緊湊向量表示，捕捉物件的基本幾何和語義屬性。形狀嵌入可實現 3D 物件的相似性搜尋、分類和生成。

Gaussian Splatting

一種 3D 場景表示技術，將場景建模為 3D 高斯基元的集合，每個基元都具有位置、協方差、不透明度和顏色。它透過高效的光柵化實現複雜場景的即時、高品質渲染。

Photogrammetry

透過照片進行測量以重建真實世界物體或環境的 3D 模型的科學。現代攝影測量使用電腦視覺演算法自動匹配影像中的特徵並對 3D 位置進行三角測量。

Marching Cubes

從三維標量場（例如帶符號的距離函數或體素網格）中提取多邊形網格表面的演算法。它逐個立方體處理場立方體，確定表面穿過哪些邊並相應地產生三角形。

Sketchfab

一個用於發布、分享和發現 3D、VR 和 AR 內容的主要線上平台。 Objaverse 主要源自 Sketchfab，其中包含藝術家、設計師和 3D 掃描愛好者上傳的數百萬個 3D 模型。

Ray Casting

一種透過追蹤來自攝影機的光線穿過場景中每個像素來確定 3D 場景中哪些物件可見的技術。 NeRF 和體積渲染中使用光線投射來沿著每條光線路徑採樣密度和顏色。

Text-to-3D Generation

根據自然語言文字描述建立 3D 物件或場景的任務。 DreamFusion、Magic3D 和 Point-E 等方法使用文字條件擴散模型和 3D 表示的組合，根據文字提示產生 3D 內容。

Occupancy Network

將 3D 座標映射到佔用機率（無論該點位於物件內部還是外部）的神經隱式表示。佔用網路可以以任意解析度表示複雜的形狀，而不需要離散的體素網格。

Shape Completion

根據部分觀察（例如單一深度掃描或部分點雲）預測物件的完整 3D 形狀的任務。在 Objaverse 和 ShapeNet 等 3D 資料集上訓練的深度學習模型可以學習推斷缺失的幾何形狀。

PointNet

一種開創性的深度學習架構，旨在直接處理無序點雲資料。 PointNet 使用共享的多層感知器和對稱最大池操作來實現排列不變性，從而能夠直接從點集進行 3D 分類和分割。

Mesh Decimation

減少 3D 網格中多邊形數量同時保留其整體形狀和視覺外觀的過程。這對於優化 3D 模型以實現大規模資料集中的即時渲染、Web 顯示和高效儲存非常重要。

Objaverse-XL

Objaverse 的擴展版本，包含來自 Sketchfab、Thingiverse、GitHub 和 Smithsonian 等多個平台的超過 1000 萬個 3D 對象，使其成為最大的開放 3D 資料集。

DreamFusion

Google 的一種文字到 3D 生成方法，使用預先訓練的文字到圖像擴散模型來優化 NeRF 表示，從而無需 3D 訓練資料即可從文字描述建立 3D 物件。

Zero-1-to-3

一種從單張影像產生物件新穎視圖的方法，在 Objaverse 資料上進行訓練，從而僅從一張照片即可進行 3D 重建。

ShapeNet

註釋豐富的大型 3D 形狀資料集，包含 51,300 個獨特的 3D 模型，涵蓋 55 個常見物件類別，廣泛用作 3D 深度學習研究的基準。

Triplane Representation

緊湊的 3D 表示，使用三個正交特徵平面（XY、XZ、YZ）對 3D 場景進行編碼，從而透過 2D 神經網路主幹實現高效的 3D 生成和渲染。

Multi-View Stereo

一種透過尋找視圖中的對應點並對它們的 3D 位置進行三角測量，從多個重疊照片重建 3D 幾何形狀的技術。

Mesh Simplification

減少 3D 網格的多邊形數量同時保留其視覺外觀的演算法，對於大規模 3D 資料集的高效儲存和渲染非常重要。

Cap3D

一種在 Objaverse 中自動產生 3D 物件詳細文字描述（標題）的方法，支援基於文字的搜尋和文字到 3D 生成訓練。

Point-E

一種 OpenAI 模型，可根據文字描述產生 3D 點雲，並在大型文字-3D 對資料集上進行訓練，從而能夠根據自然語言快速創建 3D 內容。

Radiance Field

一種連續函數，將 3D 座標和觀察方向映射到顏色和密度值，表示從任何視點觀察場景的外觀。 NeRF 是最著名的實作。

Digital Twin

使用感測器資料即時更新的實體物件、流程或系統的虛擬副本。 Objaverse 等 3D 資料集有助於創建更真實、更多樣化的數位雙胞胎。

Implicit Surface

3D 曲面定義為連續函數的零級集，而不是由顯式頂點和麵定義。像 DeepSDF 和佔用網路這樣的神經隱式表面就屬於這一類。

3D Reconstruction

根據照片、深度圖或感測器資料等 2D 觀察結果建立 3D 模型的流程。方法範圍從經典的運動結構到現代神經重建技術。

View Synthesis

從相機未捕獲的視點生成場景的新穎視圖。 NeRF 和 Gaussian Splatting 透過學習連續 3D 場景表示在這項任務上表現出色。

Texture Synthesis

透過擴展範例紋理或使用 AI 根據文字描述建立紋理，自動產生 3D 表面的紋理圖像。對於生成的 3D 物件的真實渲染非常重要。

Watertight Mesh

形成完整、閉合表面、沒有孔或間隙的多邊形網格。 3D 列印、布林運算和內部/外部查詢等許多操作都需要防水網格。

Level of Detail (LOD)

一種根據觀看距離使用不同網格解析度來管理複雜性的技術。遠離相機的物體使用簡化的網格，而附近的物體使用高細節版本。

Scene Graph

3D 場景的結構化表示，描述物件、其屬性（顏色、材質、形狀）和關係（頂部、旁邊、內部）。場景圖支援語義理解和 3D 環境生成。

Neural Signed Distance Function

一種神經網絡，經過訓練可輸出從任何 3D 點到最近表面的有符號距離，從而提供 3D 形狀的連續且可微的隱式表示。

NeRF in the Wild

NeRF 的擴展，可處理具有不同照明、曝光和瞬態遮擋器的無約束照片集，從而能夠根據旅遊照片進行 3D 重建。

🏆 關鍵人物

Matt Deitke (2023)

艾倫人工智慧研究所 (AI2) 的首席研究員，創建了 Objaverse 和 Objaverse-XL，建立了可用於研究的最大的註釋 3D 物件開源資料集。 Objaverse 包含超過 80 萬個對象，Objaverse-XL 可擴展至超過 1,000 萬個。

Ben Mildenhall (2020)

加州大學柏克萊分校和谷歌研究院神經輻射場 (NeRF) 的共同創建者。 NeRF 引入了一種革命性的 3D 場景表示方法，使用神經網路對體積場景屬性進行編碼，從而能夠從稀疏照片合成逼真的新穎視圖。

Angel Chang (2015)

ShapeNet 的共同創建者，ShapeNet 是最早、最具影響力的大型 3D 模型存儲庫之一，它將 51,300 個 3D 模型組織成 55 個常見類別，並具有豐富的註釋。她也為 ScanNet 做出了貢獻，以實現現實世界的 3D 理解。

Charles Qi (2017)

在史丹佛大學發明了PointNet和PointNet++，創建了第一個能夠直接處理3D點雲資料以進行分類和分割的深度學習架構

Bernhard Kerbl (2023)

在 INRIA 共同創建了 3D Gaussian Splatting，使用可學習的高斯基元作為 NeRF 的有效替代方案實現 3D 場景的即時真實感渲染

Alexei Efros (2003)

在加州大學柏克萊分校開創了視覺表示學習，在影像合成、風格遷移和視覺理解方面做出了基礎工作，從而實現了從 2D 影像生成現代 3D

🎓 學習資源

Objaverse: A Universe of Annotated 3D Objects
原始論文介紹了包含 800K+ 帶註釋的 3D 物件的 Objaverse 資料集，描述了收集方法、資料集統計和基準評估。
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
這篇開創性的論文介紹了神經輻射場，透過將場景表示為連續的神經體積函數來演示逼真的新穎視圖合成。
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
推出第一個直接處理點雲的深度學習架構，透過對稱函數處理點集的無序性質。
3D Gaussian Splatting for Real-Time Radiance Field Rendering
引入 3D 高斯潑濺作為 NeRF 的有效替代方案，使用可學習的 3D 高斯基元實現高品質 3D 場景的即時渲染。
Multiple View Geometry in Computer Vision
關於多視圖幾何的權威教科書，涵蓋了理解圖像 3D 重建所必需的基本概念。
Computer Vision: Algorithms and Applications
一本全面的教科書，涵蓋電腦視覺從基礎技術到現代深度學習方法，包括 3D 重建和渲染。
3D Deep Learning with Python
實施 3D 資料深度學習模型的實用指南，涵蓋點雲處理、網格分析和使用 PyTorch 產生 3D。
NeRF: Neural Radiance Fields - Explained Visually
以視覺方式解釋神經輻射場的工作原理，從光線投射到體積渲染，使初學者能夠理解核心概念。
Stanford CS231A: Computer Vision - 3D Reconstruction
史丹佛大學的電腦視覺課程講授 3D 重建，涵蓋運動結構、立體視覺和多視圖幾何。
Two Minute Papers - 3D Gaussian Splatting
對 3D 高斯潑濺的直觀易懂的解釋，展示了該技術如何實現逼真 3D 場景的即時渲染。

💬 畀學習者嘅話

{'encouragement': 'The world around us is three-dimensional, yet for decades, AI has primarily learned to understand it through flat, 2D images. The emergence of large-scale 3D datasets like Objaverse, combined with powerful techniques like NeRF and Gaussian Splatting, is finally enabling AI to truly perceive and create in three dimensions.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a 3D artist in Nairobi will use AI to generate entire virtual worlds. Perhaps a student in Karachi will build AR tools that bring education to life. 3D AI is a canvas for global creativity.', 'wiaVision': 'WIA Book believes 3D creation tools should be free for everyone. From Seoul to Lagos, from Kabul to Buenos Aires - the power to build virtual worlds is yours. Free forever.'}

開始使用

免費，唔使註冊

開始使用 →