stub Uni3D: ühtse 3D-esituse uurimine mastaabis – Unite.AI
Ühenda meile

Tehisintellekt

Uni3D: mastaabis ühtse 3D-esituse uurimine

mm
Ajakohastatud on

Viimaste aastate uurimistöö on keskendunud teksti ja visuaalide esitusviiside suurendamisele. Lähimineviku arengud ja uuringud on toonud kaasa arvukalt revolutsioone keeleõppes ja nägemuses. Kuid vaatamata teksti ja visuaalsete esituste skaleerimise populaarsusele ei ole 3D-stseenide ja -objektide esituste skaleerimist piisavalt arutatud.

Täna räägime Uni3D-st, 3D-aluse mudelist, mille eesmärk on uurida ühtseid 3D-esitusi. Uni3D raamistik kasutab 2D-initsialiseeritud ViT-raamistikku, mis on eelkoolitatud otsast lõpuni, et joondada pilditeksti funktsioonid neile vastavate 3D-punktipilve funktsioonidega.

Uni3D raamistik kasutab ettekäändeks ülesandeid ja lihtsat arhitektuuri, et kasutada vastavalt initsialiseerimise ja sihtmärgina eelkoolitatud 2D-mudelite ja pildi-tekstiga joondatud mudelite rohkust. See lähenemisviis vabastab 2D-mudelite ja strateegiate täieliku potentsiaali, et skaleerida need 3D-maailma.

Selles artiklis käsitleme 3D-valdkonda sügavamalt arvuti nägemine ja Uni3D raamistik, mis uurib mudeli põhikontseptsioone ja arhitektuuri. Niisiis, alustame.

Uni3D- ja 3D-esitusõpe: sissejuhatus

Viimastel aastatel on arvutinägemine muutunud tehisintellektitööstuse üheks kõige enam investeeritud valdkonnaks. Pärast märkimisväärseid edusamme 2D-arvutinägemise raamistikes on arendajad keskendunud 3D-arvutinägemisele. See valdkond, eriti 3D-esitusõpe, ühendab arvutigraafika aspekte, masinõpe, arvutinägemine ja matemaatika 3D-geomeetria töötlemise ja mõistmise automatiseerimiseks. 3D-andurite, nagu LiDAR, kiire areng koos nende laialt levinud rakendustega AR/VR-tööstuses on toonud kaasa 3D-esitusõppele suurema tähelepanu pälvimise. Selle potentsiaalsed rakendused kasvavad iga päev.

Kuigi olemasolevad raamistikud on näidanud märkimisväärset edusamme 3D-mudeli arhitektuuri, ülesandele orienteeritud modelleerimise ja õpieesmärkide vallas, uurib enamik 3D-arhitektuuri suhteliselt väikeses mahus piiratud andmete, parameetrite ja ülesannete stsenaariumitega. Väljakutse skaleeritavate 3D-esitluste õppimisel, mida saab seejärel erinevates keskkondades reaalajas rakendustes rakendada, on suures osas uurimata.

Viimase paari aasta jooksul liikumine on laienenud suured keelemudelid mis on eelkoolitatud, on aidanud revolutsiooniliselt muuta loomuliku keele töötlemine Domeenis ja hiljutised tööd on näidanud, et edenevad 2D-vormingusse keelest, kasutades andmeid ja mudeli skaleerimist, mis võimaldab arendajatel proovida ja uuesti proovida seda edu, et õppida tundma 3D-esitus, mida saab skaleerida ja rakendustesse reaalses maailmas üle kanda. 

Uni3D on skaleeritav ja ühtne koolituseelne 3D-raamistik, mis on välja töötatud eesmärgiga õppida tundma suuremahulisi 3D-esitusi, mis testib oma piire enam kui miljardi parameetri skaalal, üle 10 miljoni pildi, mis on seotud üle 70 miljoni tekstiga ja üle miljoni 3D-kujundiga. . Alloleval joonisel võrreldakse nullvõtte täpsust Uni3D raamistiku parameetritega. Uni3D raamistik skaleerib edukalt 3D-esitusi 6 miljonilt üle miljardini. 

Uni3D raamistik koosneb 2D ViT-st või Vision Transformer 3D-kooderina, mis on seejärel eelkoolitatud, et viia pildi-teksti joondatud funktsioonid 3D-punktipilve funktsioonidega vastavusse. Uni3D raamistik kasutab ettekäändeülesandeid ja lihtsat arhitektuuri, et kasutada eelkoolitatud 2D-mudelite ja pilditekstiga joondatud mudelite rohkust vastavalt lähtestamise ja sihtmärkidena, vabastades seega 2D-mudelite täieliku potentsiaali ja strateegiaid nende 3D-maailma skaleerimiseks. Uni3D raamistiku paindlikkust ja mastaapsust mõõdetakse

  1. Mudeli skaleerimine 6 miljonilt üle miljardi parameetrini. 
  2. 2D initsialiseerimine tekstiks visuaalsest järelevalvest iseseisvalt juhendatud õpe
  3. Teksti-pildi sihtmudeli skaleerimine 150 miljonilt üle miljardi parameetrini. 

Uni3D pakutava paindliku ja ühtse raamistiku alusel näevad arendajad jõudluse ühtlast tõusu iga komponendi skaleerimisel. Suuremahuline 3D-esitusõpe saab tohutult kasu ka jagatavatest 2D- ja suurendamisstrateegiatest. 

Nagu on näha allolevalt jooniselt, näitab Uni3D raamistik jõudluse tõuke võrreldes varasema tehnika tasemega mõne kaadri ja nullkaadri seadetes. Väärib märkimist, et Uni3D raamistik annab ModelNetis nullkaadri klassifitseerimise täpsuse tulemuseks üle 88%, mis on samaväärne mitme nüüdisaegse järelevalvemeetodi jõudlusega. 

Lisaks pakub Uni3D raamistik tipptasemel täpsust ja jõudlust ka muude tüüpiliste 3D-ülesannete täitmisel, nagu osade segmenteerimine ja avatud maailma mõistmine. Uni3D raamistiku eesmärk on ületada lõhe 2D-nägemise ja 3D-nägemise vahel, skaleerides 3D-põhimudeleid ühtse, kuid lihtsa koolituseelse lähenemisviisiga, et õppida tugevamaid 3D-esitusi paljude ülesannete jaoks, mis võivad lõpuks aidata kaasa 2D-pildi ühtlustamisele. ja 3D-nägemine paljudes viisides.

Uni3D : Seotud töö

Uni3D raamistik ammutab inspiratsiooni ja õpib varasemate 3D-esitusõppe ja põhimudelite arendustest, eriti erinevatel viisidel. 

3D-esitusõpe

3D-esitusõppe meetod kasutab objekti 3D-mõistmiseks pilvepunkte ja seda valdkonda on arendajad lähiminevikus palju uurinud ning on täheldatud, et neid pilvepunkte saab eelnevalt treenida enesejärelevalve all, kasutades selleks spetsiifilisi 3D-ettekäändeülesanded, sealhulgas maskipunktide modelleerimine, eneserekonstrueerimine ja kontrastiivne õpe. 

Väärib märkimist, et need meetodid töötavad piiratud andmetega ja sageli ei uurita multimodaalseid esitusi 3D-ks 2D-st või NLP-st. Hiljutine CLIP-raamistiku edu saavutas aga suure tõhususe visuaalsete mõistete õppimisel toortekstist kontrastiivse õppemeetodi abil ja püüab lisaks õppida 3D-esitusi, joondades pildi, teksti ja pilvepunkti funktsioone sama kontrastiivse õppemeetodi abil. 

Vundamendi mudelid

Arendajad on ammendavalt töötanud vundamendimudelite kujundamisel, et suurendada ja ühtlustada multimodaalseid esitusi. Näiteks NLP-valdkonnas on arendajad töötanud raamistike kallal, mis võivad suurendada eelkoolitatud keelemudeleid, ja see muudab NLP-tööstuses aeglaselt revolutsiooni. Lisaks võib edusamme täheldada ka 2D-nägemise valdkonnas, kuna arendajad töötavad raamistike kallal, mis kasutavad andmete ja mudelite skaleerimise tehnikaid, et aidata kaasa keele edenemisele 2D-mudeliteks, kuigi selliseid raamistikke on 3D-mudelite jaoks raske korrata, kuna 3D-andmete piiratud kättesaadavus ja 3D-raamistike ühendamisel ja suurendamisel tekkinud väljakutsed. 

Õppides ülaltoodud kahest töövaldkonnast, on arendajad loonud Uni3D raamistik, esimene enam kui miljardi parameetriga 3D alusmudel, mis kasutab ühtset ViT või Vision Transformer arhitektuuri, mis võimaldab arendajatel skaleerida Uni3D mudelit, kasutades mudelite skaleerimiseks ühtseid 3D või NLP strateegiaid. Arendajad loodavad, et see meetod võimaldab Uni3D raamistikul ületada lõhe, mis praegu eraldab 2D- ja 3D-nägemust ning hõlbustab multimodaalset lähenemist.

Uni3D: meetod ja arhitektuur

Ülaltoodud pilt näitab üldist ülevaadet Uni3D raamistikust, skaleeritavast ja ühtsest koolituseelsest 3D-raamistikust suuremahuliseks 3D-esitusõppeks. Arendajad kasutavad üle 70 miljoni teksti ja 10 miljonit pilti, mis on seotud enam kui miljoni 3D-kujuga, et skaleerida Uni3D raamistikku enam kui miljardi parameetrini. Uni3D raamistik kasutab 2D-kodeerijana 3D ViT-i või Vision Transformerit, mida õpetatakse seejärel otsast lõpuni tekstipildi andmete joondamiseks 3D-pilvepunkti funktsioonidega, võimaldades Uni3D raamistikul pakkuda soovitud tõhusust ja täpsust kogu lai valik võrdlusaluseid. Vaatame nüüd üksikasjalikult Uni3D raamistiku tööd. 

Uni3D raamistiku skaleerimine

Varasemad pilvepunktide esituse õppimise uuringud on traditsiooniliselt keskendunud konkreetsete mudeliarhitektuuride kujundamisele, mis tagavad parema jõudluse paljudes rakendustes ja töötavad tänu väikesemahulistele andmekogumitele piiratud andmehulgaga. Hiljutised uuringud on aga püüdnud uurida võimalust kasutada skaleeritavat eelkoolitust 3D-s, kuid tänu piiratud 3D-andmete kättesaadavusele ei olnud olulisi tulemusi. 3D-raamistike skaleeritavuse probleemi lahendamiseks kasutab Uni3D raamistik vaniljetrafo struktuuri võimsust, mis peaaegu peegeldab Vision Transformerit, ja suudab skaleerimisprobleeme lahendada, kasutades mudeli suuruse skaleerimiseks ühtseid 2D või NLP skaleerimisstrateegiaid. 

Varasemad pilvepunkti esituse õppimise uuringud on traditsiooniliselt keskendunud konkreetsete mudeliarhitektuuride kujundamisele, mis tagavad parema jõudluse paljudes rakendustes ja töötavad tänu väikesemahulistele andmekogumitele piiratud andmehulgaga. Hiljutised uuringud on aga püüdnud uurida võimalust kasutada skaleeritavat eelkoolitust 3D-s, kuid tänu piiratud 3D-andmete kättesaadavusele ei olnud olulisi tulemusi. 3D-raamistike skaleeritavuse probleemi lahendamiseks kasutab Uni3D raamistik vaniljetrafo struktuuri võimsust, mis peaaegu peegeldab Vision Transformerit, ja suudab skaleerimisprobleeme lahendada, kasutades mudeli suuruse skaleerimiseks ühtseid 2D või NLP skaleerimisstrateegiaid. 

Uni3D lähtestamine

Veel üks suur väljakutse, millega on kokku puutunud varasemad 3D-esitluste skaleerimisega seotud tööd, raskused lähenemisel ja mudelite suurest suurusest tingitud liigne sobitamine. Tõhus lähenemine selle tõkke ületamiseks on üksikute 3D selgroogude eelkoolitamine määratud 3D ettekäändeülesannetega ja eelkoolitatud parameetrite lähtestamine. Selle lähenemisviisiga kaasnevad aga suured koolituskulud ning samuti on keeruline luua ristmodaalse õppimise jaoks tugevat lähtestamist, kuna koolituse jaoks on saadaval piiratud hulk 3D-andmeid. 

Uni3D raamistik kasutab vaniljetrafot, mille struktuur sarnaneb väga ViT-ga. Selle lähenemisviisi abil saab Uni3D raamistik Uni3D raamistiku initsialiseerimiseks loomulikult kasutusele võtta eelkoolitatud suured mudelid koos muude modaalsustega. 

Mitmeliigiline joondamine

Uni3D raamistik püüab õppida mitme mudeli joondusi pildi, keele ja punktipilvede vahel, kasutades OpenShape'i ja ULIP raamistikega sarnaseid paradigmasid. Lisaks, et tagada õiglane võrdlus teiste meetoditega, kasutab Uni3D raamistik koolituse eesmärgil OpenShape'i 3D-andmestikku. See OpenShape'i komplekteeritud andmestik koosneb neljast 4D-andmestikku: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-TULEVIK. 
  4. ABO. 

Katsed ja tulemused

Uni3D raamistikku testitakse erinevates seadetes ja erinevate klassifitseerimisülesannete puhul, sealhulgas selle jõudlust null- ja mõne võttega seadetes, tulemusi avatud maailma arusaamade kohta ja palju muud. Vaatame neid tulemusi üksikasjalikult.

Nullkaadri kuju klassifikatsioon

Uni3D raamistiku toimivuse hindamiseks nullkaadri kuju klassifitseerimise ülesannete lõikes viivad arendajad läbi katseid kolme võrdlusaluse, sealhulgas ModelNet, ScanObjNN ja Objaverse-LVIS võrdlusandmete kogumitega. ModelNet ja ScanObjNN on klassifitseerimisülesannete jaoks laialdaselt kasutatavad andmekogumid ning need koosnevad vastavalt 15 ja 40 objektikategooriast, samas kui Objaverse-LVIS etalon on puhastatud ja annoteeritud andmestik, mis koosneb enam kui 40,000 1,100 objektist 3+ kategoorias. Raamistikute võrdlus on näidatud alloleval pildil ja nagu näha, ületab UniXNUMXD raamistik erinevates seadetes oluliselt varasemaid tipptasemel raamistikke. 

Vähese võttega lineaarne sondeerimine

Tehisintellektis on lineaarne uurimine tavaline meetod, mida kasutatakse raamistiku või mudeli õpitavate esituste hindamiseks. Uni3D lineaarse sondeerimise võime hindamiseks külmutavad arendajad Uni3D raamistiku parameetrid, kasutades üldisi sätteid nagu OpenShape. Pärast seda koolitavad arendajad Uni3D jaoks lineaarset klassifikaatorit, kasutades mõne võttega klassi silte. Allolev joonis näitab erinevate raamistike lineaarset sondeerimisvõimet Objaverse-LVIS andmekogumis ja mudeli keskmist jõudlust 10 juhusliku seemne vahel. Nagu näha, ületab Uni3D raamistik olemasolevaid meetodeid märkimisväärselt erinevate mõne kaadri seadistuste korral. 

Avatud maailma mõistmine

Et hinnata Uni3D raamistiku võimet mõista reaalajas reaalseid kujundeid ja objekte, kasutavad arendajad Uni3D jõudluse uurimiseks ScanNeti ja CLIP-i andmekogumeid. Väärib märkimist, et põhitõe vahetu segmenteerimine on saadaval ja peamine motiiv on tuvastada iga stseeni individuaalse hetke kategooria nullkaadri seades. Tulemused on näidatud alloleval pildil. Nagu näha, annab Uni3D raamistik erakordseid tulemusi reaalse mõistmise ja äratundmise teostamisel. Uni3D raamistik ületab olemasolevaid raamistikke märkimisväärse marginaaliga, hoolimata sellest, et see pole kunagi treeninud reaalsete andmekogumitega. 

Transpordiliikidevaheline otsimine

Uni3D raamistiku õpitud multimodaalsed esitused võimaldavad raamistikul 3D-kujundeid loomulikult hankida kas tekstidest või piltidest. 3D-kujundite hankimiseks arvutab mudel koosinuse sarnasuse 3D-kujundite manuste ja päringu tekstiviipa või päringupildi manustuste vahel. Seejärel kasutab raamistik KNN-i või K lähima naabri algoritmi, et luua 3D-kujundeid, mis meenutavad päringut kõige rohkem, ja tulemusi on näidatud alloleval joonisel. Nagu näha, kasutab Uni3D raamistik edukalt 3D-kujundite hankimiseks reaalseid pilte. Lisaks väärib märkimist, et treeningpildid on mõeldud ainult renderdamiseks ning vahe reaalse maailma ja treeningpiltide vahel on märkimisväärne. Lisaks võtab mudel ka kaks sisendpilti ja hangib mõlema sisendpildiga sarnaseid kujundeid, kasutades mõlema kujutise manustatud keskmiste ja nende manustatud 3D-kujude koosinussarnasust. Tulemused on huvitavad, kuna need näitavad Uni3D võimet õppida erinevaid 3D-esitusi ja tajuda mitut 2D-signaali. 

Esimeses veerus kasutab raamistik 2 päringupilti, et tagastada 3D-kujundid, mis on päringukujutistele kõige sarnasemad. Teises veerus kasutab raamistik kahte sisendkujutist, et hankida 3D-kujundeid, mis sarnanevad mõlemale sisendkujutisele. Viimases veerus kasutab mudel päringutekste ja tagastab 3D-kujundid, mis meenutavad maksimaalselt tekstipäringut. 

Final Thoughts

Selles artiklis oleme rääkinud Uni3D-st, skaleeritavast ja ühtsest koolituseelsest 3D-raamistikust, mis on välja töötatud eesmärgiga õppida tundma suuremahulisi 3D-esitusi, mis testivad oma piire enam kui miljardi parameetri skaalal, üle 10 miljoni pildi, mis on seotud enam kui 70 miljoniga. tekste ja üle miljoni 3D-kujundi. Raamistiku arendajad on lisanud vaniljetrafo, mille struktuur on samaväärne ViT-dega, mis võimaldab neil Uni3D raamistikku suurendada, kasutades ühtseid 2D või NLP skaleerimisstrateegiaid. Lisaks võib Uni3D raamistik kasutada 2D-maailma jaoks laia valikut eelkoolitatud 2D-raamistikke ja 3D-strateegiaid. Eksperimentaalsed tulemused on juba näidanud Uni3D raamistiku tohutut potentsiaali, kuna Uni3D raamistik annab täpsed ja tõhusad tulemused paljudes seadistustes ning ületab olemasolevaid tipptasemel raamistikke. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.