stomp Uni3D: onderzoek naar uniforme 3D-representatie op schaal - Unite.AI
Verbind je met ons

Artificial Intelligence

Uni3D: onderzoek naar uniforme 3D-representatie op schaal

mm
Bijgewerkt on

Het opschalen van representaties van tekst en beeld is de afgelopen jaren een belangrijk aandachtspunt geweest in het onderzoek. Ontwikkelingen en onderzoek uit het recente verleden hebben geleid tot talloze revoluties op het gebied van het leren en zien van talen. Ondanks de populariteit van het schalen van tekst en visuele representaties, is de schaal van representaties voor 3D-scènes en objecten echter niet voldoende besproken.

Vandaag bespreken we Uni3D, een 3D-basismodel dat tot doel heeft uniforme 3D-representaties te verkennen. Het Uni3D-framework maakt gebruik van een 2D-geïnitialiseerd ViT-framework, vooraf getraind end-to-end, om beeld-tekstkenmerken uit te lijnen met hun overeenkomstige 3D-puntenwolkkenmerken.

Het Uni3D-framework maakt gebruik van pretext-taken en een eenvoudige architectuur om de overvloed aan vooraf getrainde 2D-modellen en met beeldtekst uitgelijnde modellen te benutten als respectievelijk initialisaties en doelen. Deze aanpak ontketent het volledige potentieel van 2D-modellen en strategieën om ze op te schalen naar de 3D-wereld.

In dit artikel gaan we dieper in op 3D computer visie en het Uni3D-framework, waarin de essentiële concepten en de architectuur van het model worden onderzocht. Dus laten we beginnen.

Leren van Uni3D en 3D-representatie: een introductie

De afgelopen jaren is computer vision uitgegroeid tot een van de meest zwaar geïnvesteerde domeinen in de AI-industrie. Na aanzienlijke verbeteringen op het gebied van 2D-computervisieframeworks hebben ontwikkelaars hun focus verlegd naar 3D-computervisie. Dit vakgebied, met name het leren van 3D-representaties, combineert aspecten van computergraphics, machine learning, computervisie en wiskunde om de verwerking en het begrip van 3D-geometrie te automatiseren. De snelle ontwikkeling van 3D-sensoren zoals LiDAR, samen met hun wijdverbreide toepassingen in de AR/VR-industrie, heeft ertoe geleid dat het leren van 3D-representaties steeds meer aandacht krijgt. De potentiële toepassingen ervan blijven dagelijks groeien.

Hoewel bestaande raamwerken opmerkelijke vooruitgang hebben laten zien op het gebied van 3D-modelarchitectuur, taakgerichte modellering en leerdoelen, verkennen de meeste 3D-architectuur op relatief kleine schaal met beperkte gegevens, parameters en taakscenario's. De uitdaging van het leren van schaalbare 3D-representaties, die vervolgens kunnen worden toegepast op realtime toepassingen in diverse omgevingen, blijft grotendeels onontgonnen.

Meebewegen, de afgelopen jaren, opschalen grote taalmodellen die vooraf zijn opgeleid, heeft geholpen bij het revolutioneren van de wereld natuurlijke taalverwerking domein, en recente werken hebben een vertaling aangegeven in de voortgang naar 2D van taal met behulp van data- en modelschaling, wat ruimte maakt voor ontwikkelaars om dit succes te proberen en opnieuw te proberen om een ​​3D-representatie te leren die kan worden geschaald en kan worden overgedragen naar toepassingen in de echte wereld. 

Uni3D is een schaalbaar en uniform 3D-framework voor voortraining, ontwikkeld met als doel grootschalige 3D-representaties te leren die zijn grenzen testen op de schaal van meer dan een miljard parameters, meer dan 10 miljoen afbeeldingen gecombineerd met meer dan 70 miljoen teksten, en meer dan een miljoen 3D-vormen . De onderstaande afbeelding vergelijkt de zero-shot-nauwkeurigheid met parameters in het Uni3D-framework. Het Uni3D-framework schaalt met succes 3D-weergaven op van 6 miljoen naar meer dan een miljard. 

Het Uni3D-framework bestaat uit een 2D ViT of Visietransformator als de 3D-encoder die vervolgens van begin tot eind vooraf is getraind om de uitgelijnde beeldtekstkenmerken uit te lijnen met de 3D-puntenwolkkenmerken. Het Uni3D-framework maakt gebruik van pretext-taken en eenvoudige architectuur om de overvloed aan vooraf getrainde 2D-modellen en beeldtekst-uitgelijnde modellen als respectievelijk initialisatie en doelen te benutten, waardoor het volledige potentieel van 2D-modellen wordt ontketend, en strategieën om ze op te schalen naar de 3D-wereld. De flexibiliteit en schaalbaarheid van het Uni3D-framework wordt gemeten in termen van

  1. Het model schalen van 6 miljoen tot meer dan een miljard parameters. 
  2. 2D-initialisatie naar tekst onder toezicht van visueel zelfstandig leren
  3. Doelmodel voor tekst en afbeeldingen schaalbaar van 150 miljoen naar meer dan een miljard parameters. 

Onder het flexibele en uniforme raamwerk dat Uni3D biedt, zien ontwikkelaars een samenhangende prestatieverbetering als het gaat om het schalen van elk onderdeel. Het grootschalige leren van 3D-representatie profiteert ook enorm van de deelbare 2D- en opschalingsstrategieën. 

Zoals je in de onderstaande afbeelding kunt zien, vertoont het Uni3D-framework een verbetering van de prestaties in vergelijking met de stand van de techniek in de instellingen voor een paar shots en zero-shots. Het is vermeldenswaard dat het Uni3D-framework een zero-shot classificatienauwkeurigheidsscore van meer dan 88% op ModelNet retourneert, wat vergelijkbaar is met de prestaties van verschillende geavanceerde supervisiemethoden. 

Bovendien levert het Uni3D-framework ook eersteklas nauwkeurigheid en prestaties bij het uitvoeren van andere representatieve 3D-taken, zoals onderdeelsegmentatie en begrip van de open wereld. Het Uni3D-framework heeft tot doel de kloof tussen 2D-visie en 3D-visie te overbruggen door 3D-fundamentele modellen te schalen met een uniforme maar eenvoudige pre-trainingsaanpak om robuustere 3D-representaties te leren over een breed scala aan taken, wat uiteindelijk zou kunnen helpen bij de convergentie van 2D en 3D-visie over een breed scala aan modaliteiten.

Uni3D: gerelateerd werk

Het Uni3D-framework haalt inspiratie en leert van de ontwikkelingen die zijn gemaakt door eerder leren van 3D-representatie en fundamentele modellen, vooral onder verschillende modaliteiten. 

3D-weergave leren

De leermethode voor 3D-representaties maakt gebruik van cloud points voor 3D-begrip van het object, en dit veld is in het recente verleden veel onderzocht door ontwikkelaars. Er is waargenomen dat deze cloud points vooraf kunnen worden getraind onder zelfsupervisie met behulp van specifieke 3D-pretexttaken, waaronder maskerpuntmodellering, zelfreconstructie en contrastief leren. 

Het is vermeldenswaard dat deze methoden met beperkte gegevens werken, en dat ze vaak geen multimodale representaties naar 3D vanuit 2D of NLP onderzoeken. Het recente succes van het CLIP-framework dat een hoge efficiëntie oplevert bij het leren van visuele concepten uit ruwe tekst met behulp van de contrastieve leermethode, en verder probeert 3D-representaties te leren door beeld-, tekst- en wolkpuntkenmerken uit te lijnen met behulp van dezelfde contrastieve leermethode. 

Funderingsmodellen

Ontwikkelaars hebben uitputtend gewerkt aan het ontwerpen van basismodellen om multimodale representaties op te schalen en te verenigen. In het NLP-domein hebben ontwikkelaars bijvoorbeeld gewerkt aan raamwerken die vooraf getrainde taalmodellen kunnen opschalen, en dit zorgt langzaam voor een revolutie in de NLP-industrie. Bovendien kunnen er ook vorderingen worden waargenomen op het gebied van 2D-visie, omdat ontwikkelaars werken aan raamwerken die data- en modelschalingstechnieken gebruiken om de voortgang van taal naar 2D-modellen te helpen, hoewel dergelijke raamwerken moeilijk te repliceren zijn voor 3D-modellen vanwege de beperkte beschikbaarheid van 3D-gegevens en de uitdagingen die men tegenkomt bij het verenigen en opschalen van de 3D-frameworks. 

Door te leren van de bovenstaande twee werkdomeinen hebben ontwikkelaars gecreëerd het Uni3D-framework, het eerste 3D-basismodel met meer dan een miljard parameters dat gebruik maakt van een uniforme ViT- of Vision Transformer-architectuur waarmee ontwikkelaars het Uni3D-model kunnen schalen met behulp van uniforme 3D- of NLP-strategieën voor het opschalen van de modellen. Ontwikkelaars hopen dat deze methode het Uni3D-framework in staat zal stellen de kloof te overbruggen die momenteel 2D- en 3D-visie scheidt, en tegelijkertijd multimodale convergentie te vergemakkelijken

Uni3D: Methode en Architectuur

De bovenstaande afbeelding demonstreert het algemene overzicht van het Uni3D-framework, een schaalbaar en uniform pre-training 3D-framework voor grootschalig leren van 3D-representatie. Ontwikkelaars maken gebruik van meer dan 70 miljoen teksten en 10 miljoen afbeeldingen gecombineerd met meer dan een miljoen 3D-vormen om het Uni3D-framework te schalen naar meer dan een miljard parameters. Het Uni3D-framework maakt gebruik van een 2D ViT of Vision Transformer als een 3D-encoder die vervolgens end-to-end wordt getraind om de tekst-beeldgegevens uit te lijnen met de 3D-wolkpuntfuncties, waardoor het Uni3D-framework de gewenste efficiëntie en nauwkeurigheid kan leveren over een breed gebied. breed scala aan benchmarks. Laten we nu eens gedetailleerd kijken naar de werking van het Uni3D-framework. 

Het Uni3D-framework schalen

Eerdere onderzoeken naar het leren van cloudpuntrepresentaties hebben zich van oudsher sterk gericht op het ontwerpen van specifieke modelarchitecturen die betere prestaties leveren voor een breed scala aan toepassingen, en werken op een beperkte hoeveelheid gegevens dankzij kleinschalige datasets. Recente onderzoeken hebben echter geprobeerd de mogelijkheid te onderzoeken om schaalbare voortraining in 3D te gebruiken, maar er waren geen grote resultaten dankzij de beschikbaarheid van beperkte 3D-gegevens. Om het schaalbaarheidsprobleem van 3D-frameworks op te lossen, maakt het Uni3D-framework gebruik van de kracht van een vanille-transformatorstructuur die bijna een Vision Transformer weerspiegelt, en kan de schaalproblemen oplossen door uniforme 2D- of NLP-opschalingsstrategieën te gebruiken om de modelgrootte te schalen. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Experimenten en resultaten

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Conclusie

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.