potongan Uni3D: Menjelajahi Representasi 3D Terpadu dalam Skala Besar - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Uni3D: Menjelajahi Representasi 3D Terpadu dalam Skala Besar

mm
Updated on

Meningkatkan representasi teks dan visual telah menjadi fokus utama penelitian dalam beberapa tahun terakhir. Perkembangan dan penelitian yang dilakukan belakangan ini telah membawa banyak revolusi dalam pembelajaran dan penglihatan bahasa. Namun, meskipun penskalaan representasi teks dan visual populer, penskalaan representasi adegan dan objek 3D belum cukup dibahas.

Hari ini kita akan membahas Uni3D, model dasar 3D yang bertujuan untuk mengeksplorasi representasi 3D terpadu. Kerangka kerja Uni3D menggunakan kerangka kerja ViT yang diinisialisasi 2D, yang telah dilatih sebelumnya secara end-to-end, untuk menyelaraskan fitur gambar-teks dengan fitur cloud titik 3D yang sesuai.

Kerangka kerja Uni3D menggunakan tugas preteks dan arsitektur sederhana untuk memanfaatkan banyaknya model 2D yang telah dilatih sebelumnya dan model penyelarasan gambar-teks sebagai inisialisasi dan target. Pendekatan ini mengeluarkan potensi penuh model dan strategi 2D untuk menskalakannya ke dunia 3D.

Pada artikel ini, kita akan mempelajari lebih dalam tentang 3D visi komputer dan kerangka Uni3D, yang mengeksplorasi konsep penting dan arsitektur model. Jadi, mari kita mulai.

Pembelajaran Representasi Uni3D dan 3D: Sebuah Pengantar

Dalam beberapa tahun terakhir, visi komputer telah muncul sebagai salah satu domain yang paling banyak berinvestasi di industri AI. Menyusul kemajuan signifikan dalam kerangka visi komputer 2D, pengembang telah mengalihkan fokus mereka ke visi komputer 3D. Bidang ini, khususnya pembelajaran representasi 3D, menggabungkan aspek grafik komputer, Mesin belajar, visi komputer, dan matematika untuk mengotomatisasi pemrosesan dan pemahaman geometri 3D. Pesatnya perkembangan sensor 3D seperti LiDAR, seiring dengan meluasnya penerapannya di industri AR/VR, mengakibatkan pembelajaran representasi 3D semakin mendapat perhatian. Potensi penerapannya terus berkembang setiap hari.

Meskipun kerangka kerja yang ada telah menunjukkan kemajuan luar biasa dalam arsitektur model 3D, pemodelan berorientasi tugas, dan tujuan pembelajaran, sebagian besar mengeksplorasi arsitektur 3D dalam skala yang relatif kecil dengan data, parameter, dan skenario tugas yang terbatas. Tantangan dalam mempelajari representasi 3D yang dapat diskalakan, yang kemudian dapat diterapkan pada aplikasi real-time di berbagai lingkungan, sebagian besar masih belum tereksplorasi.

Seiring berjalannya waktu, dalam beberapa tahun terakhir, terjadi peningkatan model bahasa besar yang telah dilatih sebelumnya telah membantu merevolusi pemrosesan bahasa alami domain, dan karya terbaru telah menunjukkan kemajuan terjemahan ke 2D dari bahasa menggunakan penskalaan data dan model yang memberi jalan bagi pengembang untuk mencoba & mencoba kembali keberhasilan ini untuk mempelajari representasi 3D yang dapat diskalakan & ditransfer ke aplikasi di dunia nyata. 

Uni3D adalah kerangka kerja 3D pra-pelatihan terpadu dan terukur yang dikembangkan dengan tujuan mempelajari representasi 3D skala besar yang menguji batasannya pada skala lebih dari satu miliar parameter, lebih dari 10 juta gambar dipasangkan dengan lebih dari 70 juta teks, dan lebih dari satu juta bentuk 3D . Gambar di bawah membandingkan akurasi zero-shot terhadap parameter dalam kerangka Uni3D. Kerangka kerja Uni3D berhasil menskalakan representasi 3D dari 6 juta menjadi lebih dari satu miliar. 

Kerangka kerja Uni3D terdiri dari ViT 2D atau Transformator Visi sebagai encoder 3D yang kemudian dilatih sebelumnya secara end-to-end untuk menyelaraskan fitur penyelarasan gambar-teks dengan fitur point cloud 3D. Kerangka kerja Uni3D memanfaatkan tugas dalih dan arsitektur sederhana untuk memanfaatkan banyaknya model 2D yang telah dilatih sebelumnya dan model yang disejajarkan dengan teks gambar sebagai inisialisasi dan target, sehingga mengeluarkan potensi penuh model 2D, dan strategi untuk menskalakannya ke dunia 3D. Fleksibilitas & skalabilitas kerangka Uni3D diukur dalam bentuk

  1. Menskalakan model dari 6 juta hingga lebih dari satu miliar parameter. 
  2. Inisialisasi 2D ke teks diawasi dari visual belajar mandiri
  3. Model target gambar teks menskalakan dari 150 juta menjadi lebih dari satu miliar parameter. 

Di bawah kerangka fleksibel dan terpadu yang ditawarkan oleh Uni3D, pengembang mengamati peningkatan kinerja yang koheren ketika harus menskalakan setiap komponen. Pembelajaran representasi 3D skala besar juga mendapat manfaat besar dari strategi 2D yang dapat dibagikan dan peningkatan skala. 

Seperti yang dapat dilihat pada gambar di bawah, kerangka kerja Uni3D menampilkan peningkatan kinerja jika dibandingkan dengan penemuan sebelumnya dalam pengaturan beberapa pengambilan gambar dan zero-shot. Perlu dicatat bahwa kerangka Uni3D mengembalikan skor akurasi klasifikasi zero-shot lebih dari 88% di ModelNet yang setara dengan kinerja beberapa metode pengawasan canggih. 

Selain itu, kerangka kerja Uni3D juga memberikan akurasi & kinerja terbaik saat melakukan tugas 3D representatif lainnya seperti segmentasi bagian, dan pemahaman dunia terbuka. Kerangka kerja Uni3D bertujuan untuk menjembatani kesenjangan antara visi 2D dan visi 3D dengan menskalakan model dasar 3D dengan pendekatan pra-pelatihan yang terpadu namun sederhana untuk mempelajari representasi 3D yang lebih kuat di beragam tugas, yang pada akhirnya dapat membantu konvergensi 2D dan visi 3D di beragam modalitas.

Uni3D : Pekerjaan Terkait

Kerangka kerja Uni3D mengambil inspirasi, dan belajar dari pengembangan pembelajaran representasi 3D sebelumnya, dan model Dasar terutama dengan modalitas yang berbeda. 

Pembelajaran Representasi 3D

Metode pembelajaran representasi 3D menggunakan titik awan untuk pemahaman 3D suatu objek, dan bidang ini telah banyak dieksplorasi oleh pengembang di masa lalu, dan telah diamati bahwa titik awan ini dapat dilatih sebelumnya di bawah pengawasan mandiri dengan menggunakan metode spesifik. Tugas dalih 3D termasuk pemodelan titik topeng, rekonstruksi diri, dan pembelajaran kontrastif. 

Perlu dicatat bahwa metode ini bekerja dengan data yang terbatas, dan sering kali tidak menyelidiki representasi multimodal ke 3D dari 2D atau NLP. Namun, keberhasilan terbaru dari kerangka CLIP yang mengembalikan efisiensi tinggi dalam mempelajari konsep visual dari teks mentah menggunakan metode pembelajaran kontrastif, dan selanjutnya berupaya mempelajari representasi 3D dengan menyelaraskan fitur gambar, teks, dan titik awan menggunakan metode pembelajaran kontrastif yang sama. 

Model Pondasi

Pengembang telah berupaya keras merancang model dasar untuk meningkatkan dan menyatukan representasi multimoda. Misalnya, dalam domain NLP, pengembang telah mengerjakan kerangka kerja yang dapat meningkatkan model bahasa yang telah dilatih sebelumnya, dan secara perlahan hal ini merevolusi industri NLP. Selain itu, kemajuan juga dapat diamati dalam domain visi 2D karena pengembang sedang mengerjakan kerangka kerja yang menggunakan teknik penskalaan data & model untuk membantu kemajuan bahasa ke model 2D, meskipun kerangka kerja seperti itu sulit untuk ditiru untuk model 3D karena keterbatasannya. terbatasnya ketersediaan data 3D, dan tantangan yang dihadapi saat menyatukan & memperluas kerangka kerja 3D. 

Dengan belajar dari dua domain kerja di atas, pengembang telah menciptakan kerangka kerja Uni3D, model dasar 3D pertama dengan lebih dari satu miliar parameter yang menggunakan arsitektur ViT atau Vision Transformer terpadu yang memungkinkan pengembang untuk menskalakan model Uni3D menggunakan strategi 3D atau NLP terpadu untuk meningkatkan skala model. Pengembang berharap metode ini akan memungkinkan kerangka Uni3D menjembatani kesenjangan yang saat ini memisahkan visi 2D dan 3D serta memfasilitasi konvergensi multimodal.

Uni3D: Metode dan Arsitektur

Gambar di atas menunjukkan gambaran umum kerangka kerja Uni3D, kerangka kerja 3D pra-pelatihan yang dapat diskalakan dan terpadu untuk pembelajaran representasi 3D skala besar. Pengembang memanfaatkan lebih dari 70 juta teks, dan 10 juta gambar yang dipasangkan dengan lebih dari satu juta bentuk 3D untuk menskalakan kerangka Uni3D ke lebih dari satu miliar parameter. Kerangka kerja Uni3D menggunakan 2D ViT atau Vision Transformer sebagai encoder 3D yang kemudian dilatih secara end-to-end untuk menyelaraskan data teks-gambar dengan fitur titik awan 3D, sehingga memungkinkan kerangka Uni3D memberikan efisiensi & akurasi yang diinginkan di seluruh dunia. beragam tolok ukur. Sekarang mari kita melihat secara mendetail cara kerja kerangka Uni3D. 

Menskalakan Kerangka Uni3D

Studi sebelumnya tentang pembelajaran representasi titik cloud secara tradisional sangat berfokus pada perancangan arsitektur model tertentu yang memberikan kinerja lebih baik di berbagai aplikasi, dan bekerja pada jumlah data terbatas berkat kumpulan data berskala kecil. Namun, penelitian terbaru telah mencoba mengeksplorasi kemungkinan penggunaan pra-pelatihan terukur dalam 3D, namun tidak ada hasil besar karena ketersediaan data 3D yang terbatas. Untuk mengatasi masalah skalabilitas kerangka kerja 3D, kerangka kerja Uni3D memanfaatkan kekuatan struktur transformator vanilla yang hampir mencerminkan Vision Transformer, dan dapat memecahkan masalah penskalaan dengan menggunakan strategi peningkatan skala 2D atau NLP terpadu untuk menskalakan ukuran model. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Eksperimen dan Hasil

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Final Thoughts

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.