tynkä Uni3D: Unite.AI:n yhtenäisen 3D-esityksen tutkiminen mittakaavassa
Liity verkostomme!

Tekoäly

Uni3D: yhtenäisen 3D-esityksen tutkiminen mittakaavassa

mm
Päivitetty on

Tekstin ja visuaalisen esitysmuodon skaalaaminen on ollut viime vuosien tutkimuksen pääpaino. Viime aikojen kehitys ja tutkimus ovat johtaneet lukuisiin vallankumouksiin kieltenoppimisessa ja visiossa. Tekstin ja visuaalisten esitysten skaalauksen suosiosta huolimatta 3D-kohtausten ja -objektien esitysten skaalauksesta ei kuitenkaan ole keskusteltu riittävästi.

Tänään keskustelemme Uni3D:stä, 3D-perusmallista, jonka tavoitteena on tutkia yhtenäisiä 3D-esityksiä. Uni3D-kehys käyttää 2D-alustettua ViT-kehystä, joka on valmiiksi koulutettu päästä päähän, jotta kuva-tekstiominaisuudet kohdistetaan vastaaviin 3D-pistepilviominaisuuksiin.

Uni3D-kehys käyttää tekosyytehtäviä ja yksinkertaista arkkitehtuuria hyödyntääkseen runsaasti valmiiksi koulutettuja 2D-malleja ja kuvatekstiin kohdistettuja malleja alustuksena ja vastaavasti kohteina. Tämä lähestymistapa vapauttaa 2D-mallien ja strategioiden täyden potentiaalin niiden skaalaamiseksi 3D-maailmaan.

Tässä artikkelissa perehdymme syvemmälle 3D:hen tietokoneen visio ja Uni3D-kehys, jossa tutkitaan mallin oleellisia käsitteitä ja arkkitehtuuria. Joten aloitetaan.

Uni3D- ja 3D-esitysoppiminen: Johdanto

Viime vuosina tietokonenäkö on noussut yhdeksi eniten investoiduista aloista tekoälyteollisuudessa. 2D-tietokonenäkökehysten merkittävien edistysten jälkeen kehittäjät ovat siirtäneet painopisteensä 3D-tietokonenäön pariin. Tämä ala, erityisesti 3D-esitysoppiminen, yhdistää tietokonegrafiikkaa, koneoppiminen, tietokonenäköä ja matematiikkaa 3D-geometrian käsittelyn ja ymmärtämisen automatisoimiseksi. LiDARin kaltaisten 3D-anturien nopea kehitys sekä niiden laajat sovellukset AR/VR-teollisuudessa ovat johtaneet siihen, että 3D-esitysoppiminen on saanut entistä enemmän huomiota. Sen potentiaaliset sovellukset kasvavat edelleen päivittäin.

Vaikka olemassa olevat puitteet ovat osoittaneet huomattavaa edistystä 3D-malliarkkitehtuurissa, tehtäväkeskeisessä mallintamisessa ja oppimistavoitteissa, useimmat tutkivat 3D-arkkitehtuuria suhteellisen pienessä mittakaavassa rajallisilla tiedoilla, parametreilla ja tehtäväskenaarioilla. Haaste skaalattavien 3D-esitysten oppimisesta, joita voidaan sitten soveltaa reaaliaikaisiin sovelluksiin erilaisissa ympäristöissä, on suurelta osin tutkimatta.

Muutaman viime vuoden aikana skaalautumassa suuria kielimalleja jotka ovat esikoulutettuja, ovat auttaneet mullistamaan luonnollinen kielenkäsittely verkkotunnuksessa, ja viimeaikaiset työt ovat osoittaneet käännöksen 2D-muotoon kielestä datan ja mallin skaalauksen avulla, mikä antaa kehittäjille mahdollisuuden yrittää ja yrittää uudelleen tätä menestystä oppiakseen 3D-esityksen, joka voidaan skaalata ja siirtää sovelluksiin todellisessa maailmassa. 

Uni3D on skaalautuva ja yhtenäinen harjoittelua edeltävä 3D-kehys, jonka tavoitteena on oppia laajamittaisia ​​3D-esityksiä, jotka testaavat rajojaan yli miljardin parametrin asteikolla, yli 10 miljoonassa kuvassa yli 70 miljoonan tekstin kanssa ja yli miljoonassa 3D-muodossa. . Alla olevassa kuvassa verrataan nollakuvan tarkkuutta Uni3D-kehyksen parametreihin. Uni3D-kehys skaalaa onnistuneesti 3D-esitykset 6 miljoonasta yli miljardiin. 

Uni3D-kehys koostuu 2D ViT tai Visuaalinen muuntaja 3D-enkooderina, joka on sitten valmiiksi koulutettu päästä päähän kohdistamaan kuva-tekstikohdistetut ominaisuudet 3D-pistepilviominaisuuksien kanssa. Uni3D-kehys käyttää tekosyytehtäviä ja yksinkertaista arkkitehtuuria hyödyntääkseen runsaasti valmiiksi koulutettuja 2D-malleja ja kuvatekstiin kohdistettuja malleja alustuksena ja vastaavasti kohteina, mikä vapauttaa 2D-mallien täyden potentiaalin ja strategioita niiden skaalaamiseksi 3D-maailmaan. Uni3D-kehyksen joustavuutta ja skaalautuvuutta mitataan

  1. Mallin skaalaus 6 miljoonasta yli miljardiin parametriin. 
  2. 2D-alustus tekstiksi visuaalisesta ohjauksesta itseohjautuva oppiminen
  3. Teksti-kuvakohdemalli skaalaus 150 miljoonasta yli miljardiin parametriin. 

Uni3D:n tarjoaman joustavan ja yhtenäisen kehyksen alaisuudessa kehittäjät havaitsevat johdonmukaisen tehosteen suorituskyvyn kunkin komponentin skaalauksessa. Laajamittainen 3D-esitysoppiminen hyötyy myös valtavasti jaettavissa olevista 2D- ja laajennusstrategioista. 

Kuten alla olevasta kuvasta voidaan nähdä, Uni3D-kehys näyttää tehosteen suorituskyvyssä verrattuna aikaisempaan tekniikkaan muutaman kuvan ja nolla-asetuksissa. On syytä huomata, että Uni3D-kehys palauttaa ModelNetissä yli 88 %:n luokittelutarkkuuden nollapisteen, mikä vastaa useiden huippuluokan valvontamenetelmien suorituskykyä. 

Lisäksi Uni3D-kehys tarjoaa myös huippuluokan tarkkuuden ja suorituskyvyn suoritettaessa muita edustavia 3D-tehtäviä, kuten osien segmentointi ja avoimen maailman ymmärtäminen. Uni3D-kehys pyrkii kuromaan umpeen 2D-näön ja 3D-näön välistä kuilua skaalaamalla 3D-perusmalleja yhtenäisellä mutta yksinkertaisella koulutusta edeltävällä lähestymistavalla oppiakseen vankempia 3D-esityksiä useissa eri tehtävissä, mikä saattaa viime kädessä auttaa 2D:n lähentymisessä. ja 3D-näön laajalla valikoimalla modaliteetit.

Uni3D : Aiheeseen liittyvä työ

Uni3D-kehys ammentaa inspiraatiota ja oppii aiemman 3D-esitysoppimisen ja Fundamental-mallien kehityksestä erityisesti eri modaliteeteissa. 

3D-esitysten oppiminen

3D-esitysoppimismenetelmässä käytetään pilvipisteitä kohteen 3D-ymmärtämiseen, ja tätä alaa ovat kehittäjät tutkineet paljon viime aikoina ja on havaittu, että näitä pilvipisteitä voidaan esikouluttaa itsevalvonnassa käyttämällä erityisiä 3D tekosyytehtävät mukaan lukien maskin pisteen mallinnus, itsensä rekonstruktio ja kontrastiivinen oppiminen. 

On syytä huomata, että nämä menetelmät toimivat rajoitetulla tiedolla, eivätkä ne useinkaan tutki multimodaalisia esityksiä 3D:ksi 2D:stä tai NLP:stä. Kuitenkin viimeaikainen menestys CLIP-kehyksestä, joka palauttaa korkean tehokkuuden visuaalisten käsitteiden oppimiseen raakatekstistä kontrastiivisen oppimismenetelmän avulla ja pyrkii edelleen oppimaan 3D-esityksiä kohdistamalla kuvan, tekstin ja pilvipisteen piirteet käyttämällä samaa kontrastiivista oppimismenetelmää. 

Perustusmallit

Kehittäjät ovat tyhjentävästi työskennelleet perusmallien suunnittelussa multimodaalisten esitysten skaalaamiseksi ja yhtenäistämiseksi. Esimerkiksi NLP-alueella kehittäjät ovat työstäneet kehyksiä, jotka voivat skaalata esikoulutettuja kielimalleja, ja se mullistaa hitaasti NLP-alan. Lisäksi edistystä voidaan havaita myös 2D-näön alalla, koska kehittäjät työskentelevät kehyksissä, jotka käyttävät datan ja mallin skaalaustekniikoita auttamaan kielen etenemisessä 2D-malleiksi, vaikka tällaisia ​​kehyksiä on vaikea kopioida 3D-malleille, koska 3D-datan rajoitettu saatavuus ja haasteet, joita kohdattiin 3D-kehysten yhdistämisessä ja laajennuksessa. 

Oppimalla yllä olevista kahdesta työalueesta kehittäjät ovat luoneet Uni3D-kehys, ensimmäinen 3D-perusmalli, jossa on yli miljardi parametria ja joka käyttää yhtenäistä ViT- tai Vision Transformer -arkkitehtuuria, jonka avulla kehittäjät voivat skaalata Uni3D-mallia käyttämällä yhtenäisiä 3D- tai NLP-strategioita mallien skaalaamiseen. Kehittäjät toivovat, että tämä menetelmä mahdollistaa Uni3D-kehyksen kuromisen umpeen, joka tällä hetkellä erottaa 2D- ja 3D-näön, sekä helpottaa multimodaalista lähentymistä.

Uni3D: menetelmä ja arkkitehtuuri

Yllä oleva kuva esittää yleiskatsauksen Uni3D-kehyksestä, skaalautuvasta ja yhtenäisestä koulutusta edeltävästä 3D-kehyksestä laajamittaiseen 3D-esitysoppimiseen. Kehittäjät käyttävät yli 70 miljoonaa tekstiä ja 10 miljoonaa kuvaa pariksi yli miljoonan 3D-muodon kanssa skaalatakseen Uni3D-kehyksen yli miljardiin parametriin. Uni3D-kehys käyttää 2D ViT- tai Vision Transformeria 3D-enkooderina, joka sitten koulutetaan päästä päähän kohdistamaan tekstikuvatiedot 3D-pilvipisteominaisuuksien kanssa, jolloin Uni3D-kehys voi tarjota halutun tehokkuuden ja tarkkuuden laaja valikoima vertailuarvoja. Katsotaanpa nyt yksityiskohtaisesti Uni3D-kehyksen toimintaa. 

Uni3D Frameworkin skaalaus

Aiemmat tutkimukset pilvipisteen esitysoppimisesta ovat perinteisesti keskittyneet voimakkaasti tiettyjen malliarkkitehtuurien suunnitteluun, jotka tarjoavat paremman suorituskyvyn useissa sovelluksissa ja työskentelevät rajoitetulla määrällä dataa pienimuotoisten tietojoukkojen ansiosta. Viimeaikaiset tutkimukset ovat kuitenkin yrittäneet selvittää mahdollisuutta käyttää skaalautuvaa esikoulutusta 3D:ssä, mutta suuria tuloksia ei saavutettu, koska 3D-dataa oli saatavilla rajoitetusti. 3D-kehysten skaalautuvuusongelman ratkaisemiseksi Uni3D-kehys hyödyntää vaniljamuuntajarakenteen tehoa, joka melkein heijastaa Vision Transformeria, ja voi ratkaista skaalausongelmat käyttämällä yhtenäisiä 2D- tai NLP-skaalausstrategioita mallin koon skaalaamiseen. 

Aiemmat tutkimukset pilvipisteen esitysoppimisesta ovat perinteisesti keskittyneet voimakkaasti tiettyjen malliarkkitehtuurien suunnitteluun, jotka tarjoavat paremman suorituskyvyn useissa eri sovelluksissa ja työskentelevät rajoitetulla määrällä dataa pienimuotoisten tietojoukkojen ansiosta. Viimeaikaiset tutkimukset ovat kuitenkin yrittäneet selvittää mahdollisuutta käyttää skaalautuvaa esikoulutusta 3D:ssä, mutta suuria tuloksia ei saavutettu, koska 3D-dataa oli saatavilla rajoitetusti. 3D-kehysten skaalautuvuusongelman ratkaisemiseksi Uni3D-kehys hyödyntää vaniljamuuntajarakenteen tehoa, joka melkein heijastaa Vision Transformeria, ja voi ratkaista skaalausongelmat käyttämällä yhtenäisiä 2D- tai NLP-skaalausstrategioita mallin koon skaalaamiseen. 

Uni3D:n alustus

Toinen suuri haaste, jonka kohtasivat aikaisemmat 3D-esitysten skaalaustyöt, konvergenssivaikeudet ja ylisovitus, jotka johtuivat mallien suuresta koosta. Tehokas tapa voittaa tämä este on esiopetella yksittäisiä 3D-runkoja tietyillä 3D-verhotehtävillä ja alustaa esiopetetut parametrit. Lähestymistapaan liittyy kuitenkin korkeat koulutuskustannukset, ja on myös vaikeaa saada aikaan vankka alustaminen crossmodaalista oppimista varten, koska koulutustarkoituksiin on saatavilla rajoitettu määrä 3D-dataa. 

Uni3D-runko hyödyntää vaniljamuuntajaa, jonka rakenne muistuttaa läheisesti ViT:tä. Tällä lähestymistavalla Uni3D-kehys voi luonnollisesti omaksua valmiiksi koulutetut suuret mallit muilla menetelmillä alustaakseen Uni3D-kehyksen. 

Multimodaalinen kohdistus

Uni3D-kehys yrittää oppia usean mallin kohdistuksia kuvan, kielen ja pistepilvien välillä käyttämällä OpenShape- ja ULIP-kehysten kaltaisia ​​paradigmoja. Reilun vertailun varmistamiseksi muihin menetelmiin Uni3D-kehys käyttää lisäksi OpenShapen koottua 3D-tietoaineistoa koulutustarkoituksiin. Tämä OpenShapen koottu tietojoukko koostuu 4 3D-tietojoukosta: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-TULEVIA. 
  4. ABO. 

Kokeilut ja tulokset

Uni3D-kehystä testataan eri asetuksissa ja erilaisissa luokittelutehtävissä, mukaan lukien sen suorituskyky nolla- ja muutaman laukauksen asetuksissa, tulokset avoimen maailman ymmärryksessä ja paljon muuta. Tarkastellaan näitä tuloksia yksityiskohtaisesti.

Nollakuvan muotoluokitus

Arvioidakseen Uni3D-kehyksen suorituskykyä nollakuvien luokittelutehtävissä kehittäjät suorittavat kokeita kolmella vertailuarvolla, mukaan lukien ModelNet, ScanObjNN ja Objaverse-LVIS-vertailutietojoukot. ModelNet ja ScanObjNN ovat tietojoukkoja, joita käytetään laajalti luokitustehtävissä, ja ne koostuvat vastaavasti 15 ja 40 kohdekategoriasta, kun taas Objaverse-LVIS-benchmark on puhdistettu ja annotoitu tietojoukko, joka koostuu yli 40,000 1,100 kohteesta yli 3 XNUMX luokassa. Kehysten vertailu on havainnollistettu alla olevassa kuvassa, ja kuten näkyy, UniXNUMXD-kehys ylittää merkittävästi aikaisemmat huipputason kehykset eri asetuksissa. 

Muutaman laukauksen lineaarinen koetin

Tekoälyssä Linear Probing on yleinen menetelmä, jota käytetään arvioimaan kehyksen tai mallin oppimia esityksiä. Arvioidakseen Uni3D:n lineaarisen luotauskyvyn kehittäjät jäädyttävät Uni3D-kehyksen parametrit käyttämällä yleisiä asetuksia OpenShapena. Tämän jälkeen kehittäjät kouluttavat lineaarisen luokittelijan Uni3D:lle käyttämällä muutaman kuvan luokkatunnisteita. Alla oleva kuva osoittaa Objaverse-LVIS-tietojoukon eri kehysten lineaarisen luotauskyvyn ja mallin keskimääräisen suorituskyvyn 10 satunnaisessa siemenessä. Kuten voidaan nähdä, Uni3D-kehys ylittää olemassa olevat menetelmät merkittävästi erilaisissa muutaman kuvan asetuksissa. 

Avoimen maailman ymmärtäminen

Arvioidakseen Uni3D-kehyksen kykyä ymmärtää todellisia muotoja ja objekteja reaaliajassa kehittäjät käyttävät ScanNet- ja CLIP-tietojoukkoja tutkiakseen Uni3D:n suorituskykyä. On syytä huomata, että pohjatotuuden välitön segmentointi on saatavilla, ja ensisijainen motiivi on tunnistaa jokaisen kohtauksen yksittäisen hetken luokka nollakuvassa. Tulokset näkyvät alla olevassa kuvassa. Kuten voidaan nähdä, Uni3D-kehys tuottaa poikkeuksellisia tuloksia suoritettaessa todellista ymmärtämistä ja tunnistamista. Uni3D-kehys ylittää olemassa olevat kehykset huomattavalla marginaalilla, vaikka sitä ei koskaan harjoiteltu todellisten tietojoukkojen suhteen. 

Modaalien välinen haku

Uni3D-kehyksen oppimat multimodaaliset esitykset voivat mahdollistaa 3D-muotojen hakemisen luonnollisesti joko teksteistä tai kuvista. 3D-muotojen hakemiseksi malli laskee kosinin samankaltaisuuden 3D-muotojen upotusten ja kyselyn tekstikehotteen tai kyselykuvan upotusten välillä. Kehys käyttää sitten KNN- tai K Lähin naapuri -algoritmia luodakseen 3D-muotoja, jotka muistuttavat kyselyä eniten, ja tulokset esitetään alla olevassa kuvassa. Kuten voidaan nähdä, Uni3D-kehys käyttää menestyksekkäästi todellisia kuvia 3D-muotojen hakemiseen. Lisäksi on syytä huomata, että harjoituskuvat on tarkoitettu vain renderöintitarkoituksiin, ja ero todellisen maailman ja harjoituskuvien välillä on huomattava. Lisäksi malli ottaa myös kaksi syöttökuvaa ja hakee muodot, jotka ovat samankaltaisia ​​kuin molemmat syöttökuvat käyttämällä kosinin samankaltaisuutta molempien kuvien upotuskeskiarvojen ja niiden upotettujen 3D-muotojen välillä. Tulokset ovat mielenkiintoisia, koska ne osoittavat Uni3D:n kyvyn oppia erilaisia ​​3D-esityksiä ja havaita useita 2D-signaaleja. 

Ensimmäisessä sarakkeessa kehys käyttää kahta kyselykuvaa palauttamaan 2D-muodot, jotka ovat eniten samankaltaisia ​​kuin kyselyn kuvia. Toisessa sarakkeessa kehys käyttää kahta syöttökuvaa hakemaan 3D-muotoja, jotka muistuttavat molempia syötekuvia. Lopuksi viimeisessä sarakkeessa malli käyttää kyselytekstejä ja palauttaa 3D-muotoja, jotka muistuttavat tekstikyselyä maksimissaan. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet Uni3D:stä, skaalautuvasta ja yhtenäisestä harjoittelua edeltävästä 3D-kehyksestä, joka on kehitetty tavoitteena oppia laajamittaisia ​​3D-esityksiä, jotka testaavat rajojaan yli miljardin parametrin asteikolla, yli 10 miljoonan kuvan pariksi yli 70 miljoonan kanssa. tekstejä ja yli miljoona 3D-muotoa. Kehyksen kehittäjät ovat sisällyttäneet vaniljamuuntajan, jonka rakenne vastaa ViT:itä, jonka avulla he voivat skaalata Uni3D-kehystä käyttämällä yhtenäisiä 2D- tai NLP-skaalausstrategioita. Lisäksi Uni3D-kehys voi hyödyntää laajaa valikoimaa valmiiksi koulutettuja 2D-kehyksiä ja 2D-strategioita 3D-maailmaan. Kokeelliset tulokset ovat jo osoittaneet Uni3D-kehyksen valtavan potentiaalin, koska Uni3D-kehys palauttaa tarkat ja tehokkaat tulokset useissa eri asetuksissa ja ylittää nykyiset huipputason kehykset. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.