stub Uni3D: Utforsker enhetlig 3D-representasjon i stor skala - Unite.AI
Kontakt med oss

Kunstig intelligens

Uni3D: Utforsker enhetlig 3D-representasjon i stor skala

mm
oppdatert on

Oppskalering av representasjoner av tekst og visuelle elementer har vært et hovedfokus for forskningen de siste årene. Utvikling og forskning utført i den siste tiden har ført til en rekke revolusjoner innen språklæring og syn. Til tross for populariteten til å skalere tekst og visuelle representasjoner, har ikke skaleringen av representasjoner for 3D-scener og -objekter blitt diskutert tilstrekkelig.

I dag skal vi diskutere Uni3D, en 3D-grunnmodell som tar sikte på å utforske enhetlige 3D-representasjoner. Uni3D-rammeverket bruker et 2D-initialisert ViT-rammeverk, forhåndsopplært ende-til-ende, for å justere bildetekstfunksjoner med deres tilsvarende 3D-punktskyfunksjoner.

Uni3D-rammeverket bruker påskuddsoppgaver og en enkel arkitektur for å utnytte overfloden av forhåndstrente 2D-modeller og bildetekstjusterte modeller som henholdsvis initialiseringer og mål. Denne tilnærmingen frigjør det fulle potensialet til 2D-modeller og strategier for å skalere dem til 3D-verdenen.

I denne artikkelen skal vi gå dypere inn i 3D datasyn og Uni3D-rammeverket, som utforsker de essensielle konseptene og arkitekturen til modellen. Så la oss begynne.

Uni3D- og 3D-representasjonslæring: en introduksjon

I løpet av de siste årene har datasyn dukket opp som et av de mest investerte domenene i AI-industrien. Etter betydelige fremskritt innen 2D-datasynsrammer, har utviklere skiftet fokus til 3D-datasyn. Dette feltet, spesielt 3D-representasjonslæring, slår sammen aspekter ved datagrafikk, maskinlæring, datasyn og matematikk for å automatisere behandlingen og forståelsen av 3D-geometri. Den raske utviklingen av 3D-sensorer som LiDAR, sammen med deres utbredte applikasjoner i AR/VR-industrien, har resultert i at 3D-representasjonslæring har fått økt oppmerksomhet. Dens potensielle applikasjoner fortsetter å vokse daglig.

Selv om eksisterende rammeverk har vist bemerkelsesverdig fremgang innen 3D-modellarkitektur, oppgaveorientert modellering og læringsmål, utforsker de fleste 3D-arkitektur i relativt liten skala med begrensede data, parametere og oppgavescenarier. Utfordringen med å lære skalerbare 3D-representasjoner, som deretter kan brukes på sanntidsapplikasjoner i forskjellige miljøer, forblir stort sett uutforsket.

Beveger seg, de siste årene, skalering store språkmodeller som er pre-trent har bidratt til å revolusjonere naturlig språkbehandling domene, og nyere arbeider har indikert en oversettelse i utviklingen til 2D fra språk ved hjelp av data- og modellskalering som gjør det mulig for utviklere å prøve og prøve denne suksessen på nytt for å lære en 3D-representasjon som kan skaleres og overføres til applikasjoner i den virkelige verden. 

Uni3D er et skalerbart og enhetlig pretraining 3D-rammeverk utviklet med sikte på å lære storskala 3D-representasjoner som tester sine grenser i skalaen over en milliard parametere, over 10 millioner bilder paret med over 70 millioner tekster og over en million 3D-former . Figuren nedenfor sammenligner nullskuddsnøyaktigheten med parametere i Uni3D-rammeverket. Uni3D-rammeverket skalerer vellykket 3D-representasjoner fra 6 millioner til over en milliard. 

Uni3D-rammeverket består av en 2D ViT eller Visjonstransformator som 3D-koderen som deretter er forhåndstrent ende-til-ende for å justere de bilde-tekst-justerte funksjonene med 3D-punktsky-funksjonene. Uni3D-rammeverket bruker påskuddsoppgaver og enkel arkitektur for å utnytte overfloden av forhåndstrente 2D-modeller og bildetekstjusterte modeller som henholdsvis initialisering og mål, og dermed frigjøre det fulle potensialet til 2D-modeller, og strategier for å skalere dem til 3D-verdenen. Fleksibiliteten og skalerbarheten til Uni3D-rammeverket måles i form av

  1. Skalering av modellen fra 6M til over en milliard parametere. 
  2. 2D initialisering til tekst overvåket fra visuell selvovervåket læring
  3. Tekst-bilde målmodell skalering fra 150 millioner til over en milliard parametere. 

Under det fleksible og enhetlige rammeverket som tilbys av Uni3D, observerer utviklere et sammenhengende løft i ytelsen når det gjelder å skalere hver komponent. Den storskala 3D-representasjonslæringen drar også stor nytte av de delbare 2D- og oppskaleringsstrategiene. 

Som det kan sees i figuren nedenfor, viser Uni3D-rammeverket et løft i ytelsen sammenlignet med tidligere teknikk i innstillinger for få skudd og null skudd. Det er verdt å merke seg at Uni3D-rammeverket gir en klassifiseringsnøyaktighetsscore på over 88 % på ModelNet, som er på nivå med ytelsen til flere toppmoderne tilsynsmetoder. 

Videre leverer Uni3D-rammeverket også førsteklasses nøyaktighet og ytelse når du utfører andre representative 3D-oppgaver som delsegmentering og åpen verdensforståelse. Uni3D-rammeverket tar sikte på å bygge bro mellom 2D-syn og 3D-syn ved å skalere 3D-grunnmodeller med en enhetlig, men enkel tilnærming før opplæring for å lære mer robuste 3D-representasjoner på tvers av et bredt spekter av oppgaver, som til slutt kan hjelpe i konvergensen av 2D og 3D-syn på tvers av et bredt spekter av modaliteter.

Uni3D : Relatert arbeid

Uni3D-rammeverket henter inspirasjon, og lærer av utviklingen gjort av tidligere 3D-representasjonslæring, og grunnleggende modeller, spesielt under ulike modaliteter. 

3D-representasjonslæring

Læringsmetoden for 3D-representasjon bruker skypunkter for 3D-forståelse av objektet, og dette feltet har blitt utforsket mye av utviklere i den siste tiden, og det har blitt observert at disse skypunktene kan forhåndstrenes under selvtilsyn ved å bruke spesifikke 3D-påskuddsoppgaver inkludert maskepunktmodellering, selvrekonstruksjon og kontrastiv læring. 

Det er verdt å merke seg at disse metodene fungerer med begrenset data, og de undersøker ofte ikke multimodale representasjoner til 3D fra 2D eller NLP. Imidlertid er den nylige suksessen til CLIP-rammeverket som gir høy effektivitet i å lære visuelle konsepter fra rå tekst ved hjelp av den kontrastive læringsmetoden, og som videre søker å lære 3D-representasjoner ved å justere bilde-, tekst- og skypunktfunksjoner ved å bruke den samme kontrastive læringsmetoden. 

Grunnleggende modeller

Utviklere har uttømmende jobbet med å designe fundamentmodeller for å skalere opp og forene multimodale representasjoner. For eksempel i NLP-domenet har utviklere jobbet med rammeverk som kan skalere opp ferdigtrente språkmodeller, og det revolusjonerer sakte NLP-industrien. Videre kan fremskritt også observeres i 2D-syndomenet fordi utviklere jobber med rammeverk som bruker data- og modellskaleringsteknikker for å hjelpe til med utviklingen av språk til 2D-modeller, selv om slike rammeverk er vanskelige å replikere for 3D-modeller på grunn av begrenset tilgjengelighet av 3D-data, og utfordringene man møter når man samler og skalerer opp 3D-rammeverket. 

Ved å lære av de to ovennevnte arbeidsdomenene har utviklere skapt Uni3D-rammeverket, den første 3D-grunnmodellen med over en milliard parametere som gjør bruk av en enhetlig ViT- eller Vision Transformer-arkitektur som lar utviklere skalere Uni3D-modellen ved å bruke enhetlige 3D- eller NLP-strategier for å skalere opp modellene. Utviklere håper at denne metoden vil tillate Uni3D-rammeverket å bygge bro over gapet som for øyeblikket skiller 2D- og 3D-syn sammen med å legge til rette for multimodal konvergens

Uni3D : Metode og arkitektur

Bildet ovenfor demonstrerer den generelle oversikten over Uni3D-rammeverket, et skalerbart og enhetlig 3D-rammeverk for 3D-representasjon i stor skala. Utviklere bruker over 70 millioner tekster og 10 millioner bilder sammen med over en million 3D-former for å skalere Uni3D-rammeverket til over en milliard parametere. Uni3D-rammeverket bruker en 2D ViT eller Vision Transformer som en 3D-koder som deretter trenes ende-til-ende for å justere tekst-bildedataene med 3D-skypunktfunksjonene, slik at Uni3D-rammeverket kan levere ønsket effektivitet og nøyaktighet på tvers av en bredt utvalg av benchmarks. La oss nå se detaljert på hvordan Uni3D-rammeverket fungerer. 

Skalering av Uni3D Framework

Tidligere studier på læring av skypunktrepresentasjon har tradisjonelt fokusert tungt på å designe bestemte modellarkitekturer som leverer bedre ytelse på tvers av et bredt spekter av applikasjoner, og arbeider med en begrenset mengde data takket være småskala datasett. Nyere studier har imidlertid forsøkt å utforske muligheten for å bruke skalerbar forhåndstrening i 3D, men det var ingen store utfall takket være tilgjengeligheten av begrensede 3D-data. For å løse skalerbarhetsproblemet til 3D-rammeverk, utnytter Uni3D-rammeverket kraften til en vaniljetransformatorstruktur som nesten speiler en Vision Transformer, og kan løse skaleringsproblemene ved å bruke enhetlige 2D- eller NLP-oppskaleringsstrategier for å skalere modellstørrelsen. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Eksperimenter og resultater

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Final Thoughts

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.