objaverse-3d-explorer

Đây là gì?

🎯 Mẹo sử dụng

📚 Thuật ngữ

Polygon Mesh

Biểu diễn 3D bao gồm các đỉnh, cạnh và mặt (thường là hình tam giác hoặc hình tứ giác) xác định bề mặt của vật thể 3D. Mắt lưới là cách biểu diễn tiêu chuẩn trong đồ họa máy tính và có thể biểu diễn các bề mặt phức tạp một cách hiệu quả với các mức độ chi tiết khác nhau.

Voxel

Pixel thể tích - tương đương 3D với pixel 2D. Các biểu diễn Voxel chia không gian 3D thành một lưới các ô hình khối thông thường, mỗi ô lưu trữ các thuộc tính như diện tích sử dụng hoặc màu sắc. Xử lý đơn giản nhưng tốn nhiều bộ nhớ ở độ phân giải cao.

UV Mapping

Quá trình chiếu kết cấu hình ảnh 2D lên bề mặt của mô hình 3D. Tọa độ UV (U và V là trục của kết cấu 2D) xác định cách mỗi điểm trên bề mặt 3D ánh xạ tới một điểm trên hình ảnh kết cấu 2D.

Normal Vector

Một vectơ vuông góc với một bề mặt tại một điểm cho trước. Pháp tuyến bề mặt rất cần thiết cho việc tính toán ánh sáng, phát hiện va chạm và hiểu hướng bề mặt trong hình học 3D.

Depth Map

Hình ảnh 2D trong đó mỗi giá trị pixel biểu thị khoảng cách từ máy ảnh đến điểm tương ứng trong cảnh. Bản đồ độ sâu kết nối hình ảnh 2D và hình học 3D và có thể được chụp bằng camera RGB-D hoặc ước tính từ hình ảnh tiêu chuẩn.

Volumetric Rendering

Một kỹ thuật hiển thị dữ liệu 3D bằng cách truyền các tia qua một khối và tích lũy các giá trị màu sắc và độ mờ dọc theo mỗi tia. Được sử dụng bởi NeRF và các phương pháp kết xuất thần kinh khác để tạo hình ảnh từ các biểu diễn 3D đã học.

Signed Distance Function (SDF)

Một hàm toán học trả về khoảng cách ngắn nhất từ bất kỳ điểm nào trong không gian đến bề mặt gần nhất, với dấu hiệu cho biết điểm đó nằm bên trong (âm) hay bên ngoài (dương) đối tượng. SDF cung cấp một biểu diễn ngầm định mạnh mẽ cho các hình dạng 3D.

Multi-View Reconstruction

Quá trình tái tạo lại mô hình 3D từ nhiều bức ảnh 2D được chụp từ các góc nhìn khác nhau. Các kỹ thuật bao gồm từ Cấu trúc từ Chuyển động cổ điển đến các phương pháp thần kinh hiện đại như NeRF.

CAD Model

Mô hình thiết kế có sự hỗ trợ của máy tính - biểu diễn toán học chính xác của đối tượng 3D được tạo bằng phần mềm thiết kế. Các mô hình CAD sử dụng các bề mặt tham số và hình học khối, cung cấp các thông số kỹ thuật chính xác được sử dụng trong kỹ thuật và sản xuất.

Texture

Hình ảnh 2D được áp dụng lên bề mặt của mô hình 3D để thêm chi tiết trực quan như màu sắc, hoa văn hoặc các đặc tính bề mặt như độ nhám và độ phản chiếu mà không làm tăng độ phức tạp hình học.

LiDAR

Phát hiện và đo khoảng cách ánh sáng - một công nghệ viễn thám đo khoảng cách bằng cách chiếu sáng mục tiêu bằng ánh sáng laser và đo các xung phản xạ. LiDAR tạo ra các đám mây điểm có độ phân giải cao trong môi trường thế giới thực.

Implicit Neural Representation

Một phương pháp biểu diễn các hình dạng hoặc cảnh 3D dưới dạng các hàm liên tục được tham số hóa bởi mạng thần kinh, thay vì dưới dạng cấu trúc dữ liệu rời rạc như lưới hoặc voxels. Mạng học cách ánh xạ tọa độ tới các thuộc tính như sức chứa hoặc màu sắc.

Shape Embedding

Biểu diễn vectơ nhỏ gọn của hình dạng 3D trong không gian đặc trưng đã học, nắm bắt các thuộc tính hình học và ngữ nghĩa thiết yếu của đối tượng. Việc nhúng hình dạng cho phép tìm kiếm, phân loại và tạo các đối tượng 3D tương tự.

Gaussian Splatting

Một kỹ thuật biểu diễn cảnh 3D mô hình hóa một cảnh dưới dạng một tập hợp các nguyên hàm Gaussian 3D, mỗi nguyên mẫu có vị trí, hiệp phương sai, độ mờ và màu sắc. Nó cho phép hiển thị các cảnh phức tạp theo thời gian thực, chất lượng cao thông qua quá trình rasterization hiệu quả.

Photogrammetry

Khoa học thực hiện các phép đo từ các bức ảnh để tái tạo mô hình 3D của các vật thể hoặc môi trường trong thế giới thực. Phép đo ảnh hiện đại sử dụng thuật toán thị giác máy tính để tự động khớp các đặc điểm trên các hình ảnh và sắp xếp các vị trí 3D theo hình tam giác.

Marching Cubes

Một thuật toán để trích xuất bề mặt lưới đa giác từ trường vô hướng ba chiều (chẳng hạn như hàm khoảng cách có dấu hoặc lưới voxel). Nó xử lý khối trường theo khối, xác định cạnh nào mà bề mặt đi qua và tạo ra các hình tam giác tương ứng.

Sketchfab

Một nền tảng trực tuyến chính để xuất bản, chia sẻ và khám phá nội dung 3D, VR và AR. Objaverse chủ yếu có nguồn gốc từ Sketchfab, nơi lưu trữ hàng triệu mô hình 3D được tải lên bởi các nghệ sĩ, nhà thiết kế và những người đam mê quét 3D.

Ray Casting

Một kỹ thuật xác định những vật thể nào trong cảnh 3D có thể nhìn thấy được bằng cách dò tia từ máy ảnh qua từng pixel vào cảnh. Truyền tia được sử dụng trong NeRF và kết xuất thể tích theo mật độ mẫu và màu sắc dọc theo từng đường đi của tia.

Text-to-3D Generation

Nhiệm vụ tạo đối tượng hoặc cảnh 3D từ mô tả văn bản bằng ngôn ngữ tự nhiên. Các phương pháp như DreamFusion, Magic3D và Point-E sử dụng kết hợp mô hình khuếch tán có điều kiện văn bản và biểu diễn 3D để tạo nội dung 3D từ lời nhắc văn bản.

Occupancy Network

Một biểu diễn ngầm thần kinh ánh xạ tọa độ 3D tới xác suất chiếm chỗ (cho dù điểm nằm bên trong hay bên ngoài một đối tượng). Mạng chiếm chỗ có thể biểu diễn các hình dạng phức tạp với độ phân giải tùy ý mà không yêu cầu lưới voxel rời rạc.

Shape Completion

Nhiệm vụ dự đoán hình dạng 3D hoàn chỉnh của vật thể từ quan sát một phần, chẳng hạn như quét độ sâu đơn lẻ hoặc đám mây điểm một phần. Các mô hình học sâu được đào tạo trên bộ dữ liệu 3D như Objaverse và ShapeNet có thể học cách suy ra hình học bị thiếu.

PointNet

Kiến trúc học sâu tiên phong được thiết kế để xử lý trực tiếp dữ liệu đám mây điểm không có thứ tự. PointNet sử dụng các perceptron nhiều lớp được chia sẻ và hoạt động gộp tối đa đối xứng để đạt được tính bất biến hoán vị, cho phép phân loại và phân đoạn 3D trực tiếp từ các tập hợp điểm.

Mesh Decimation

Quá trình giảm số lượng đa giác trong lưới 3D trong khi vẫn giữ được hình dạng tổng thể và hình thức trực quan của nó. Điều này rất quan trọng để tối ưu hóa mô hình 3D nhằm hiển thị thời gian thực, hiển thị trên web và lưu trữ hiệu quả trong bộ dữ liệu quy mô lớn.

Objaverse-XL

Phiên bản mở rộng của Objaverse chứa hơn 10 triệu đối tượng 3D có nguồn gốc từ nhiều nền tảng bao gồm Sketchfab, Thingiverse, GitHub và Smithsonian, khiến nó trở thành bộ dữ liệu 3D mở lớn nhất.

DreamFusion

Phương pháp tạo văn bản thành 3D của Google sử dụng mô hình khuếch tán văn bản thành hình ảnh được đào tạo trước để tối ưu hóa cách trình bày NeRF, cho phép tạo đối tượng 3D từ mô tả văn bản mà không cần dữ liệu đào tạo 3D.

Zero-1-to-3

Một phương pháp tạo ra các góc nhìn mới về một đối tượng từ một hình ảnh duy nhất, được đào tạo trên dữ liệu Objaverse, cho phép tái tạo 3D chỉ từ một bức ảnh.

ShapeNet

Một tập dữ liệu quy mô lớn, có chú thích phong phú về các hình dạng 3D chứa 51.300 mô hình 3D độc đáo bao gồm 55 danh mục đối tượng phổ biến, được sử dụng rộng rãi làm chuẩn mực trong nghiên cứu học sâu 3D.

Triplane Representation

Một biểu diễn 3D nhỏ gọn mã hóa cảnh 3D bằng cách sử dụng ba mặt phẳng đặc trưng trực giao (XY, XX, YZ), cho phép tạo và hiển thị 3D hiệu quả với các trục mạng thần kinh 2D.

Multi-View Stereo

Một kỹ thuật tái tạo hình học 3D từ nhiều bức ảnh chồng chéo bằng cách tìm các điểm tương ứng trên các khung nhìn và sắp xếp tam giác các vị trí 3D của chúng.

Mesh Simplification

Các thuật toán giúp giảm số lượng đa giác của lưới 3D trong khi vẫn giữ được hình thức trực quan của nó, rất quan trọng để lưu trữ và hiển thị hiệu quả các bộ dữ liệu 3D quy mô lớn.

Cap3D

Một phương pháp tự động tạo mô tả văn bản chi tiết (chú thích) cho các đối tượng 3D trong Objaverse, cho phép tìm kiếm dựa trên văn bản và đào tạo tạo văn bản thành 3D.

Point-E

Một mô hình OpenAI tạo ra các đám mây điểm 3D từ mô tả văn bản, được đào tạo trên tập dữ liệu lớn gồm các cặp văn bản-3D, cho phép tạo nội dung 3D nhanh chóng từ ngôn ngữ tự nhiên.

Radiance Field

Một chức năng liên tục ánh xạ tọa độ 3D và hướng xem tới các giá trị màu sắc và mật độ, thể hiện diện mạo của cảnh từ bất kỳ góc nhìn nào. NeRF là triển khai nổi tiếng nhất.

Digital Twin

Bản sao ảo của một đối tượng, quy trình hoặc hệ thống vật lý được cập nhật theo thời gian thực bằng dữ liệu cảm biến. Các bộ dữ liệu 3D như Objaverse giúp tạo ra các bản song sinh kỹ thuật số thực tế và đa dạng hơn.

Implicit Surface

Bề mặt 3D được định nghĩa là tập mức 0 của hàm liên tục, thay vì theo các đỉnh và mặt rõ ràng. Các bề mặt tiềm ẩn thần kinh như DeepSDF và mạng chiếm chỗ thuộc loại này.

3D Reconstruction

Quá trình tạo mô hình 3D từ các quan sát 2D như ảnh, bản đồ độ sâu hoặc dữ liệu cảm biến. Các phương pháp bao gồm từ cấu trúc cổ điển từ chuyển động đến kỹ thuật tái tạo thần kinh hiện đại.

View Synthesis

Tạo các góc nhìn mới lạ về một cảnh từ các góc nhìn không được máy ảnh ghi lại. NeRF và Gaussian Splatting thực hiện xuất sắc nhiệm vụ này bằng cách học cách trình bày cảnh 3D liên tục.

Texture Synthesis

Tự động tạo hình ảnh họa tiết cho bề mặt 3D, bằng cách mở rộng họa tiết mẫu hoặc sử dụng AI để tạo họa tiết từ mô tả văn bản. Quan trọng để hiển thị thực tế các đối tượng 3D được tạo.

Watertight Mesh

Một lưới đa giác tạo thành một bề mặt hoàn chỉnh, khép kín không có lỗ hoặc khoảng trống. Lưới kín nước là cần thiết cho nhiều hoạt động như in 3D, hoạt động boolean và truy vấn bên trong/bên ngoài.

Level of Detail (LOD)

Một kỹ thuật quản lý độ phức tạp bằng cách sử dụng các độ phân giải lưới khác nhau tùy thuộc vào khoảng cách xem. Các đối tượng ở xa máy ảnh sử dụng các mắt lưới đơn giản hóa, trong khi các đối tượng ở gần sử dụng các phiên bản có độ chi tiết cao.

Scene Graph

Sự biểu diễn có cấu trúc của cảnh 3D mô tả các đối tượng, thuộc tính của chúng (màu sắc, chất liệu, hình dạng) và các mối quan hệ (trên cùng, bên cạnh, bên trong). Biểu đồ cảnh cho phép hiểu ngữ nghĩa và tạo ra môi trường 3D.

Neural Signed Distance Function

Mạng lưới thần kinh được đào tạo để xuất ra khoảng cách đã ký từ bất kỳ điểm 3D nào đến bề mặt gần nhất, cung cấp biểu diễn ngầm liên tục và có thể phân biệt được của các hình dạng 3D.

NeRF in the Wild

Một phần mở rộng của NeRF xử lý các bộ sưu tập ảnh không bị giới hạn với ánh sáng, độ phơi sáng và độ che phủ tạm thời khác nhau, cho phép tái tạo 3D từ các bức ảnh du lịch.

🏆 Nhân vật chính

Matt Deitke (2023)

Trưởng nhóm nghiên cứu tại Viện AI Allen (AI2), người đã tạo ra Objaverse và Objaverse-XL, thiết lập các bộ dữ liệu nguồn mở lớn nhất về các đối tượng 3D được chú thích có sẵn để nghiên cứu. Objaverse chứa hơn 800.000 đối tượng và Objaverse-XL có quy mô lên tới hơn 10 triệu.

Ben Mildenhall (2020)

Đồng sáng tạo Trường bức xạ thần kinh (NeRF) tại UC Berkeley và Google Research. NeRF đã giới thiệu một cách tiếp cận mang tính cách mạng đối với việc thể hiện cảnh 3D bằng cách sử dụng mạng thần kinh để mã hóa các thuộc tính cảnh thể tích, cho phép tổng hợp chế độ xem mới lạ như ảnh thực từ các bức ảnh thưa thớt.

Angel Chang (2015)

Người đồng sáng tạo ShapeNet, một trong những kho lưu trữ mô hình 3D quy mô lớn sớm nhất và có ảnh hưởng nhất, đã sắp xếp 51.300 mô hình 3D thành 55 danh mục phổ biến với các chú thích phong phú. Cô ấy cũng đóng góp cho ScanNet để hiểu biết về 3D trong thế giới thực.

Charles Qi (2017)

Đã phát minh ra PointNet và PointNet++ tại Stanford, tạo ra kiến trúc deep learning đầu tiên có khả năng xử lý trực tiếp dữ liệu đám mây điểm 3D để phân loại và phân đoạn

Bernhard Kerbl (2023)

Đồng sáng tạo 3D Gaussian Splatting tại INRIA, cho phép hiển thị quang học theo thời gian thực các cảnh 3D bằng cách sử dụng các nguyên hàm Gaussian có thể học được như một giải pháp thay thế hiệu quả cho NeRF

Alexei Efros (2003)

Tiên phong trong việc học biểu diễn trực quan tại UC Berkeley, đóng góp công việc nền tảng về tổng hợp hình ảnh, chuyển giao phong cách và hiểu biết trực quan cho phép tạo 3D hiện đại từ hình ảnh 2D

🎓 Tài nguyên học tập

Objaverse: A Universe of Annotated 3D Objects
Bài viết gốc giới thiệu bộ dữ liệu Objaverse gồm hơn 800K đối tượng 3D được chú thích, mô tả phương pháp thu thập, thống kê tập dữ liệu và đánh giá điểm chuẩn.
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Bài báo đột phá giới thiệu Trường bức xạ thần kinh, thể hiện sự tổng hợp khung nhìn mới lạ như ảnh thực tế bằng cách biểu diễn các cảnh dưới dạng các hàm thể tích thần kinh liên tục.
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
Giới thiệu kiến trúc deep learning đầu tiên xử lý trực tiếp các đám mây điểm, xử lý tính chất không có thứ tự của tập hợp điểm thông qua các hàm đối xứng.
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Giới thiệu 3D Gaussian Splatting như một giải pháp thay thế hiệu quả cho NeRF, đạt được khả năng hiển thị thời gian thực các cảnh 3D chất lượng cao bằng cách sử dụng các nguyên hàm Gaussian 3D có thể học được.
Multiple View Geometry in Computer Vision
Sách giáo khoa cơ bản về hình học của nhiều khung nhìn, bao gồm các khái niệm cơ bản cần thiết để hiểu việc tái tạo 3D từ hình ảnh.
Computer Vision: Algorithms and Applications
Một cuốn sách giáo khoa toàn diện bao gồm thị giác máy tính từ các kỹ thuật cơ bản đến các phương pháp học sâu hiện đại, bao gồm cả tái tạo và kết xuất 3D.
3D Deep Learning with Python
Hướng dẫn thực tế để triển khai các mô hình học sâu cho dữ liệu 3D, bao gồm xử lý đám mây điểm, phân tích lưới và tạo 3D bằng PyTorch.
NeRF: Neural Radiance Fields - Explained Visually
Giải thích trực quan về cách hoạt động của Trường bức xạ thần kinh, từ truyền tia cho đến kết xuất thể tích, giúp người mới bắt đầu có thể tiếp cận các khái niệm cốt lõi.
Stanford CS231A: Computer Vision - 3D Reconstruction
Khóa học thị giác máy tính của Stanford giảng về tái tạo 3D, bao gồm cấu trúc từ chuyển động, thị giác lập thể và hình học nhiều góc nhìn.
Two Minute Papers - 3D Gaussian Splatting
Phần giải thích trực quan và dễ tiếp cận về 3D Gaussian Splatting, cho thấy kỹ thuật này cho phép hiển thị các cảnh 3D quang học theo thời gian thực như thế nào.

💬 Lời nhắn cho người học

{'encouragement': 'The world around us is three-dimensional, yet for decades, AI has primarily learned to understand it through flat, 2D images. The emergence of large-scale 3D datasets like Objaverse, combined with powerful techniques like NeRF and Gaussian Splatting, is finally enabling AI to truly perceive and create in three dimensions.', 'reminder': "Every expert was once a beginner. The most important step is the first one - and you've already taken it by being here.", 'action': "Explore the simulator! Try different settings, experiment freely, and don't be afraid to make mistakes - that's how the best learning happens.", 'dream': 'Perhaps a 3D artist in Nairobi will use AI to generate entire virtual worlds. Perhaps a student in Karachi will build AR tools that bring education to life. 3D AI is a canvas for global creativity.', 'wiaVision': 'WIA Book believes 3D creation tools should be free for everyone. From Seoul to Lagos, from Kabul to Buenos Aires - the power to build virtual worlds is yours. Free forever.'}

Bắt đầu

Miễn phí, không cần đăng ký

Bắt đầu →