mozzicone Uni3D: esplorare la rappresentazione 3D unificata su larga scala - Unite.AI
Seguici sui social

Intelligenza Artificiale

Uni3D: esplorare la rappresentazione 3D unificata su larga scala

mm
aggiornato on

L’incremento delle rappresentazioni di testo e immagini è stato uno degli obiettivi principali della ricerca negli ultimi anni. Gli sviluppi e le ricerche condotte nel recente passato hanno portato a numerose rivoluzioni nell’apprendimento e nella visione delle lingue. Tuttavia, nonostante la popolarità del ridimensionamento del testo e delle rappresentazioni visive, il ridimensionamento delle rappresentazioni per scene e oggetti 3D non è stato sufficientemente discusso.

Oggi parleremo di Uni3D, un modello di fondazione 3D che mira a esplorare rappresentazioni 3D unificate. Il framework Uni3D utilizza un framework ViT inizializzato in 2D, preaddestrato end-to-end, per allineare le caratteristiche del testo dell'immagine con le corrispondenti caratteristiche della nuvola di punti 3D.

Il framework Uni3D utilizza attività pretesto e un'architettura semplice per sfruttare l'abbondanza di modelli 2D preaddestrati e modelli allineati al testo dell'immagine come inizializzazioni e obiettivi, rispettivamente. Questo approccio libera tutto il potenziale dei modelli 2D e delle strategie per adattarli al mondo 3D.

In questo articolo approfondiremo il 3D visione computerizzata e il framework Uni3D, esplorando i concetti essenziali e l'architettura del modello. Quindi, cominciamo.

Uni3D e apprendimento della rappresentazione 3D: un'introduzione

Negli ultimi anni, la visione artificiale è emersa come uno dei settori in cui si è investito maggiormente nel settore dell’intelligenza artificiale. A seguito di progressi significativi nei framework di visione artificiale 2D, gli sviluppatori hanno spostato la loro attenzione sulla visione artificiale 3D. Questo campo, in particolare l'apprendimento della rappresentazione 3D, unisce aspetti della computer grafica, machine learning, visione artificiale e matematica per automatizzare l'elaborazione e la comprensione della geometria 3D. Il rapido sviluppo di sensori 3D come LiDAR, insieme alle loro diffuse applicazioni nel settore AR/VR, ha portato l’apprendimento della rappresentazione 3D a guadagnare maggiore attenzione. Le sue potenziali applicazioni continuano a crescere ogni giorno.

Sebbene i framework esistenti abbiano mostrato notevoli progressi nell’architettura del modello 3D, nella modellazione orientata alle attività e negli obiettivi di apprendimento, la maggior parte esplora l’architettura 3D su una scala relativamente piccola con dati, parametri e scenari di attività limitati. La sfida di apprendere rappresentazioni 3D scalabili, che possano poi essere applicate ad applicazioni in tempo reale in ambienti diversi, rimane in gran parte inesplorata.

Andando avanti, negli ultimi anni, ridimensionando modelli linguistici di grandi dimensioni che sono pre-addestrati ha contribuito a rivoluzionare il elaborazione del linguaggio naturale dominio, e lavori recenti hanno indicato una traduzione in corso in 2D dal linguaggio utilizzando dati e ridimensionamento del modello che consente agli sviluppatori di provare e riprovare questo successo per apprendere una rappresentazione 3D che può essere ridimensionata e trasferita ad applicazioni nel mondo reale. 

Uni3D è un framework 3D di pre-allenamento scalabile e unificato sviluppato con l'obiettivo di apprendere rappresentazioni 3D su larga scala che mette alla prova i suoi limiti su una scala di oltre un miliardo di parametri, oltre 10 milioni di immagini abbinate a oltre 70 milioni di testi e oltre un milione di forme 3D . La figura seguente confronta la precisione dello scatto zero rispetto ai parametri nel framework Uni3D. Il framework Uni3D scala con successo le rappresentazioni 3D da 6 milioni a oltre un miliardo. 

Il framework Uni3D è costituito da un ViT 2D o Trasformatore di visione come codificatore 3D che viene quindi pre-addestrato end-to-end per allineare le funzionalità allineate all'immagine-testo con le funzionalità della nuvola di punti 3D. Il framework Uni3D fa uso di attività pretesto e di un'architettura semplice per sfruttare l'abbondanza di modelli 2D preaddestrati e modelli allineati con testo immagine rispettivamente come inizializzazione e obiettivi, liberando così tutto il potenziale dei modelli 2D e delle strategie per adattarli al mondo 3D. La flessibilità e la scalabilità del framework Uni3D vengono misurate in termini di

  1. Ridimensionare il modello da 6 milioni a oltre un miliardo di parametri. 
  2. Inizializzazione 2D in testo supervisionata da visual apprendimento auto-supervisionato
  3. Modello target con immagini di testo scalabile da 150 milioni a oltre un miliardo di parametri. 

Nell'ambito della struttura flessibile e unificata offerta da Uni3D, gli sviluppatori osservano un aumento coerente delle prestazioni quando si tratta di ridimensionare ciascun componente. Anche l’apprendimento della rappresentazione 3D su larga scala trae enormi benefici dalle strategie 2D condivisibili e di ingrandimento. 

Come si può vedere nella figura seguente, la struttura Uni3D mostra un aumento delle prestazioni rispetto alla tecnica precedente nelle impostazioni "pochi colpi" e "zero colpi". Vale la pena notare che il framework Uni3D restituisce un punteggio di accuratezza della classificazione zero-shot superiore all'88% su ModelNet, che è alla pari con le prestazioni di diversi metodi di supervisione all'avanguardia. 

Inoltre, il framework Uni3D offre anche precisione e prestazioni di prim'ordine durante l'esecuzione di altre attività 3D rappresentative come la segmentazione delle parti e la comprensione del mondo aperto. Il framework Uni3D mira a colmare il divario tra visione 2D e visione 3D ridimensionando i modelli fondamentali 3D con un approccio di pre-formazione unificato ma semplice per apprendere rappresentazioni 3D più robuste in un'ampia gamma di attività, che potrebbero in definitiva aiutare nella convergenza della visione 2D. e visione 3D in un'ampia gamma di modalità.

Uni3D: lavoro correlato

Il framework Uni3D trae ispirazione e apprende dagli sviluppi apportati dal precedente apprendimento della rappresentazione 3D e dai modelli fondamentali, soprattutto in diverse modalità. 

Apprendimento della rappresentazione 3D

Il metodo di apprendimento della rappresentazione 3D utilizza punti di nuvola per la comprensione 3D dell'oggetto, e questo campo è stato esplorato molto dagli sviluppatori nel recente passato, ed è stato osservato che questi punti di nuvola possono essere pre-addestrati sotto auto-supervisione utilizzando specifici Attività di pretesto 3D tra cui la modellazione dei punti di maschera, l'autoricostruzione e l'apprendimento contrastivo. 

Vale la pena notare che questi metodi funzionano con dati limitati e spesso non indagano sulle rappresentazioni multimodali in 3D da 2D o PNL. Tuttavia, il recente successo del framework CLIP che restituisce un'elevata efficienza nell'apprendimento di concetti visivi dal testo grezzo utilizzando il metodo di apprendimento contrastivo e cerca inoltre di apprendere rappresentazioni 3D allineando le caratteristiche di immagine, testo e punto nuvola utilizzando lo stesso metodo di apprendimento contrastivo. 

Modelli di fondazione

Gli sviluppatori hanno lavorato approfonditamente alla progettazione di modelli di base per ingrandire e unificare le rappresentazioni multimodali. Ad esempio, nel dominio della PNL, gli sviluppatori hanno lavorato su framework in grado di ampliare i modelli linguistici pre-addestrati e questo sta lentamente rivoluzionando il settore della PNL. Inoltre, si possono osservare progressi anche nel dominio della visione 2D perché gli sviluppatori stanno lavorando su strutture che utilizzano tecniche di ridimensionamento di dati e modelli per aiutare nel progresso del linguaggio verso i modelli 2D, sebbene tali strutture siano difficili da replicare per i modelli 3D a causa della disponibilità limitata di dati 3D e sfide incontrate durante l'unificazione e l'ampliamento delle strutture 3D. 

Imparando dai due ambiti di lavoro precedenti, gli sviluppatori hanno creato il framework Uni3D, il primo modello di fondazione 3D con oltre un miliardo di parametri che fa uso di un'architettura ViT o Vision Transformer unificata che consente agli sviluppatori di ridimensionare il modello Uni3D utilizzando strategie 3D o NLP unificate per ingrandire i modelli. Gli sviluppatori sperano che questo metodo consentirà al framework Uni3D di colmare il divario che attualmente separa la visione 2D da quella 3D, oltre a facilitare la convergenza multimodale

Uni3D: Metodo e Architettura

L'immagine sopra mostra la panoramica generica del framework Uni3D, un framework 3D di pre-formazione scalabile e unificato per l'apprendimento della rappresentazione 3D su larga scala. Gli sviluppatori utilizzano oltre 70 milioni di testi e 10 milioni di immagini abbinate a oltre un milione di forme 3D per adattare il framework Uni3D a oltre un miliardo di parametri. Il framework Uni3D utilizza un ViT 2D o Vision Transformer come codificatore 3D che viene quindi addestrato end-to-end per allineare i dati dell'immagine di testo con le caratteristiche dei punti della nuvola 3D, consentendo al framework Uni3D di fornire l'efficienza e la precisione desiderate in un ampia gamma di parametri di riferimento. Vediamo ora nel dettaglio il funzionamento del framework Uni3D. 

Ridimensionamento del framework Uni3D

Gli studi precedenti sull’apprendimento della rappresentazione dei punti nelle nuvole si sono tradizionalmente concentrati fortemente sulla progettazione di particolari architetture di modelli che offrono prestazioni migliori in un’ampia gamma di applicazioni e lavorano su una quantità limitata di dati grazie a set di dati su piccola scala. Tuttavia, studi recenti hanno tentato di esplorare la possibilità di utilizzare un pre-addestramento scalabile in 3D, ma non sono stati ottenuti risultati importanti grazie alla disponibilità di dati 3D limitati. Per risolvere il problema di scalabilità dei framework 3D, il framework Uni3D sfrutta la potenza di una struttura di trasformatore vanilla che rispecchia quasi un Vision Transformer e può risolvere i problemi di ridimensionamento utilizzando strategie di ridimensionamento 2D o NLP unificate per ridimensionare le dimensioni del modello. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO 

Esperimenti e risultati

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Considerazioni finali

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.