stub Uni3D: Nesploraw Rappreżentanza 3D Unifikata fuq Skala - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Uni3D: Nesploraw Rappreżentanza 3D Unifikata fuq Skala

mm
Aġġornata on

It-tkabbir tar-rappreżentazzjonijiet tat-test u l-viżivi kien fokus ewlieni tar-riċerka f'dawn l-aħħar snin. L-iżviluppi u r-riċerka mwettqa fil-passat riċenti wasslu għal bosta rivoluzzjonijiet fit-tagħlim tal-lingwi u l-viżjoni. Madankollu, minkejja l-popolarità tal-iskala tar-rappreżentazzjonijiet tat-test u viżivi, l-iskala tar-rappreżentazzjonijiet għal xeni u oġġetti 3D ma ġietx diskussa biżżejjed.

Illum, se niddiskutu Uni3D, mudell tal-pedament 3D li għandu l-għan li jesplora rappreżentazzjonijiet 3D unifikati. Il-qafas Uni3D juża qafas ViT inizjat bi 2D, imħarreġ minn qabel minn tarf sa tarf, biex jallinja l-karatteristiċi tat-test tal-immaġni mal-karatteristiċi korrispondenti tagħhom tas-sħaba tal-punti 3D.

Il-qafas Uni3D juża ħidmiet ta 'pretest u arkitettura sempliċi biex jisfrutta l-abbundanza ta' mudelli 2D imħarrġa minn qabel u mudelli allinjati mat-test tal-immaġni bħala inizjalizzazzjonijiet u miri, rispettivament. Dan l-approċċ joħroġ il-potenzjal sħiħ tal-mudelli u l-istrateġiji 2D biex jiskalawhom għad-dinja 3D.

F'dan l-artikolu, se nidħlu aktar fil-fond fit-3D viżjoni tal-kompjuter u l-qafas Uni3D, li jesplora l-kunċetti essenzjali u l-arkitettura tal-mudell. Allura, ejja nibdew.

Tagħlim tar-Rappreżentanza Uni3D u 3D: Introduzzjoni

Fl-aħħar ftit snin, il-viżjoni bil-kompjuter ħarġet bħala wieħed mill-oqsma l-aktar investiti fl-industrija tal-AI. Wara avvanzi sinifikanti fl-oqfsa tal-viżjoni tal-kompjuter 2D, l-iżviluppaturi bidlu l-fokus tagħhom għall-viżjoni tal-kompjuter 3D. Dan il-qasam, partikolarment it-tagħlim tar-rappreżentazzjoni 3D, jgħaqqad aspetti tal-grafika tal-kompjuter, tagħlim magna, viżjoni bil-kompjuter, u matematika biex awtomat l-ipproċessar u l-fehim tal-ġeometrija 3D. L-iżvilupp mgħaġġel ta 'sensors 3D bħal LiDAR, flimkien mal-applikazzjonijiet mifruxa tagħhom fl-industrija AR/VR, irriżulta fit-tagħlim tar-rappreżentazzjoni 3D li jikseb attenzjoni akbar. L-applikazzjonijiet potenzjali tagħha jkomplu jikbru kuljum.

Għalkemm l-oqfsa eżistenti wrew progress notevoli fl-arkitettura tal-mudell 3D, l-immudellar orjentat lejn il-kompitu, u l-għanijiet tat-tagħlim, il-biċċa l-kbira jesploraw l-arkitettura 3D fuq skala relattivament żgħira b'data, parametri u xenarji ta 'kompitu limitati. L-isfida tat-tagħlim ta' rappreżentazzjonijiet 3D skalabbli, li mbagħad jistgħu jiġu applikati għal applikazzjonijiet f'ħin reali f'ambjenti diversi, għadha fil-biċċa l-kbira mhux esplorata.

Nimxu flimkien, fl-aħħar ftit snin, skalar mudelli kbar tal-lingwa li huma mħarrġa minn qabel għen biex tirrivoluzzjona l- Ipproċessar tal-lingwa naturali dominju, u xogħlijiet riċenti indikaw traduzzjoni fil-progress għal 2D minn lingwa bl-użu tad-dejta u l-iskala tal-mudelli li tagħti lok għall-iżviluppaturi biex jippruvaw u jerġgħu jippruvaw dan is-suċċess biex jitgħallmu rappreżentazzjoni 3D li tista 'tiġi skalata u trasferita għal applikazzjonijiet fid-dinja reali. 

Uni3D huwa qafas 3D ta' taħriġ minn qabel skalabbli u unifikat żviluppat bil-għan li jitgħallem rappreżentazzjonijiet 3D fuq skala kbira li jittestja l-limiti tiegħu fuq skala ta' aktar minn biljun parametru, aktar minn 10 miljun immaġini flimkien ma' aktar minn 70 miljun test, u aktar minn miljun għamla 3D. . Il-figura hawn taħt tqabbel l-eżattezza zero-shot mal-parametri fil-qafas Uni3D. Il-qafas Uni3D jiskala b'suċċess rappreżentazzjonijiet 3D minn 6 miljun għal aktar minn biljun. 

Il-qafas Uni3D jikkonsisti minn ViT 2D jew Viżjoni Transformer bħala l-kodifikatur 3D li mbagħad huwa mħarreġ minn qabel tarf sa tarf biex jallinja l-karatteristiċi allinjati mat-test tal-immaġni mal-karatteristiċi tas-sħaba tal-punti 3D. Il-qafas Uni3D jagħmel użu minn ħidmiet ta 'pretest u arkitettura sempliċi biex jisfrutta l-abbundanza ta' mudelli 2D imħarrġa minn qabel u mudelli allinjati tat-test tal-immaġni bħala inizjalizzazzjoni u miri rispettivament, u b'hekk joħroġ il-potenzjal sħiħ ta 'mudelli 2D, u strateġiji biex skalahom għad-dinja 3D. Il-flessibilità u l-iskalabbiltà tal-qafas Uni3D hija mkejla f'termini ta '

  1. Skala tal-mudell minn 6M għal aktar minn biljun parametru. 
  2. Inizjalizzazzjoni 2D għal test sorveljat minn viżwali tagħlim awto-sorveljat
  3. Mudell ta' mira ta' immaġni tat-test li jkabbar minn 150 miljun għal aktar minn biljun parametru. 

Taħt il-qafas flessibbli u unifikat offrut minn Uni3D, l-iżviluppaturi josservaw spinta koerenti fil-prestazzjoni meta niġu għall-iskala ta 'kull komponent. It-tagħlim tar-rappreżentazzjoni 3D fuq skala kbira wkoll jibbenefika immens mill-istrateġiji 2D kondiviżi u ta 'scale-up. 

Kif jidher fil-figura hawn taħt, il-qafas Uni3D juri spinta fil-prestazzjoni meta mqabbel ma 'arti preċedenti f'settings ta' ftit sparatura u żero. Ta 'min jinnota li l-qafas Uni3D jirritorna punteġġ ta' preċiżjoni tal-klassifikazzjoni zero-shot ta 'aktar minn 88% fuq ModelNet li huwa f'parità mal-prestazzjoni ta' diversi metodi ta 'superviżjoni tal-aħħar teknoloġija. 

Barra minn hekk, il-qafas Uni3D jagħti wkoll preċiżjoni u prestazzjoni mill-aqwa meta jwettaq kompiti 3D rappreżentattivi oħra bħas-segmentazzjoni tal-partijiet, u fehim tad-dinja miftuħa. Il-qafas Uni3D għandu l-għan li jnaqqas id-distakk bejn il-viżjoni 2D u l-viżjoni 3D billi jżid mudelli 3D fundamentali b’approċċ ta’ qabel it-taħriġ unifikat iżda sempliċi biex jitgħallmu rappreżentazzjonijiet 3D aktar robusti f’firxa wiesgħa ta’ kompiti, li fl-aħħar mill-aħħar jistgħu jgħinu fil-konverġenza tat-2D. u viżjoni 3D fuq firxa wiesgħa ta’ modalitajiet.

Uni3D : Xogħol Relatat

Il-qafas Uni3D jispira, u jitgħallem mill-iżviluppi li saru mit-tagħlim preċedenti tar-rappreżentazzjoni 3D, u mudelli Fundamentali speċjalment taħt modalitajiet differenti. 

Tagħlim tar-Rappreżentanza 3D

Il-metodu tat-tagħlim tar-rappreżentazzjoni 3D juża punti sħab għall-fehim 3D tal-oġġett, u dan il-qasam ġie esplorat ħafna mill-iżviluppaturi fil-passat reċenti, u ġie osservat li dawn il-punti sħab jistgħu jiġu mħarrġa minn qabel taħt awto-superviżjoni bl-użu speċifiku Ħidmiet ta' pretest 3D inklużi l-immudellar tal-punt tal-maskra, awto-rikostruzzjoni, u tagħlim kuntrastattiv. 

Ta 'min jinnota li dawn il-metodi jaħdmu b'dejta limitata, u ħafna drabi ma jinvestigawx rappreżentazzjonijiet multimodali għal 3D minn 2D jew NLP. Madankollu, is-suċċess reċenti tal-qafas CLIP li jirritorna effiċjenza għolja fit-tagħlim ta 'kunċetti viżwali minn test mhux ipproċessat bl-użu tal-metodu ta' tagħlim kuntrastattiv, u jkompli jfittex li jitgħallem rappreżentazzjonijiet 3D billi tallinja l-immaġni, it-test u l-karatteristiċi tal-punt tas-sħab bl-użu tal-istess metodu ta 'tagħlim kuntrastattiv. 

Mudelli tal-Fondazzjoni

L-iżviluppaturi ilhom jaħdmu b'mod eżawrjenti fuq id-disinn ta 'mudelli ta' pedament biex iżidu u jgħaqqdu rappreżentazzjonijiet multimodali. Pereżempju, fid-dominju tal-NLP, l-iżviluppaturi ilhom jaħdmu fuq oqfsa li jistgħu jżidu l-mudelli tal-lingwa mħarrġa minn qabel, u bil-mod qed tirrivoluzzjona l-industrija tal-NLP. Barra minn hekk, jistgħu jiġu osservati avvanzi fid-dominju tal-viżjoni 2D ukoll minħabba li l-iżviluppaturi qed jaħdmu fuq oqfsa li jużaw tekniki ta’ skalar tad-dejta u tal-mudelli biex jgħinu fil-progress tal-lingwa għal mudelli 2D, għalkemm tali oqfsa huma diffiċli biex jiġu replikati għal mudelli 3D minħabba l- disponibbiltà limitata tad-dejta 3D, u l-isfidi li jiltaqgħu magħhom meta jiġu unifikati u jiżdiedu l-oqfsa 3D. 

Billi tgħallmu miż-żewġ oqsma tax-xogħol ta 'hawn fuq, l-iżviluppaturi ħolqu il-qafas Uni3D, l-ewwel mudell ta 'pedament 3D b'aktar minn biljun parametru li jagħmel użu minn arkitettura unifikata ViT jew Vision Transformer li tippermetti lill-iżviluppaturi biex jiskalaw il-mudell Uni3D billi jużaw strateġiji unifikati 3D jew NLP biex jiżdiedu l-mudelli. L-iżviluppaturi jittamaw li dan il-metodu jippermetti li l-qafas Uni3D jonqos il-vojt li bħalissa jifred il-viżjoni 2D u 3D flimkien mal-faċilitazzjoni tal-konverġenza multimodali

Uni3D: Metodu u Arkitettura

L-immaġni ta 'hawn fuq turi l-ħarsa ġenerali ġenerika tal-qafas Uni3D, qafas 3D ta' qabel it-taħriġ skalabbli u unifikat għal tagħlim ta 'rappreżentazzjoni 3D fuq skala kbira. L-iżviluppaturi jagħmlu użu minn aktar minn 70 miljun test, u 10 miljun immaġini flimkien ma 'aktar minn miljun għamla 3D biex iskalaw il-qafas Uni3D għal aktar minn biljun parametru. Il-qafas Uni3D juża 2D ViT jew Vision Transformer bħala encoder 3D li mbagħad jiġi mħarreġ minn tarf għal tarf biex jallinja d-dejta tal-immaġni tat-test mal-karatteristiċi tal-punt sħaba 3D, li jippermetti lill-qafas Uni3D jagħti l-effiċjenza u l-eżattezza mixtieqa madwar firxa wiesgħa ta 'benchmarks. Ejja issa nagħtu ħarsa dettaljata lejn il-ħidma tal-qafas Uni3D. 

Skala tal-Qafas Uni3D

Studji preċedenti dwar it-tagħlim tar-rappreżentazzjoni tal-punti tas-sħab tradizzjonalment iffokaw ħafna fuq it-tfassil ta’ arkitetturi ta’ mudell partikolari li jagħtu prestazzjoni aħjar f’firxa wiesgħa ta’ applikazzjonijiet, u jaħdmu fuq ammont limitat ta’ data grazzi għal settijiet ta’ data fuq skala żgħira. Madankollu, studji reċenti ppruvaw jesploraw il-possibbiltà li jintuża taħriġ minn qabel skalabbli fit-3D iżda ma kien hemm l-ebda riżultat kbir grazzi għad-disponibbiltà ta 'dejta 3D limitata. Biex issolvi l-problema tal-iskalabbiltà tal-oqfsa 3D, il-qafas Uni3D jisfrutta l-qawwa ta 'struttura tat-transformer tal-vanilla li kważi tirrifletti Vision Transformer, u tista' ssolvi l-problemi tal-iskala billi tuża strateġiji unifikati ta 'skala 2D jew NLP biex tiskala d-daqs tal-mudell. 

Studji preċedenti dwar it-tagħlim tar-rappreżentazzjoni tal-punti tas-sħab tradizzjonalment iffokaw ħafna fuq it-tfassil ta’ arkitetturi ta’ mudell partikolari li jagħtu prestazzjoni aħjar f’firxa wiesgħa ta’ applikazzjonijiet, u jaħdmu fuq ammont limitat ta’ data grazzi għal settijiet ta’ data fuq skala żgħira. Madankollu, studji reċenti ppruvaw jesploraw il-possibbiltà li jintuża taħriġ minn qabel skalabbli fit-3D iżda ma kien hemm l-ebda riżultat kbir grazzi għad-disponibbiltà ta 'dejta 3D limitata. Biex issolvi l-problema tal-iskalabbiltà tal-oqfsa 3D, il-qafas Uni3D jisfrutta l-qawwa ta 'struttura tat-transformer tal-vanilla li kważi tirrifletti Vision Transformer, u tista' ssolvi l-problemi tal-iskala billi tuża strateġiji unifikati ta 'skala 2D jew NLP biex tiskala d-daqs tal-mudell. 

Inizjalizzazzjoni ta' Uni3D

Sfida ewlenija oħra li ltaqgħu magħhom xogħlijiet preċedenti involuti fl-iskala tar-rappreżentazzjonijiet 3D, id-diffikultajiet fil-konverġenza, u l-iffittjar żejjed li kienu riżultat tad-daqs kbir tal-mudelli. Approċċ effettiv biex jingħeleb dan l-ostaklu huwa li jitħarrġu minn qabel is-sinsla tad-dahar 3D individwali b'kompiti speċifikati ta' pretest 3D, u jinizjalizza parametri mħarrġa minn qabel. Madankollu, l-approċċ huwa akkumpanjat bi spejjeż għoljin ta 'taħriġ, u huwa wkoll diffiċli li tiġi stabbilita inizjalizzazzjoni robusta għal tagħlim transmodali grazzi għall-ammont limitat ta' dejta 3D disponibbli għal skopijiet ta 'taħriġ. 

Il-qafas Uni3D jisfrutta transformer tal-vanilla, li l-istruttura tiegħu tixbah ħafna lil ViT. B'dan l-approċċ, il-qafas Uni3D jista 'naturalment jadotta l-mudelli kbar imħarrġa minn qabel b'modalitajiet oħra biex jinizjalizza l-qafas Uni3D. 

Allinjament Multi-Modali

Il-qafas Uni3D jipprova jitgħallem allinjamenti multi-mudelli fuq sħab tal-immaġni, il-lingwa u l-punti billi jagħmel użu minn paradigmi simili għal OpenShape, u oqfsa ULIP. Barra minn hekk, biex jiġi żgurat paragun ġust ma 'metodi oħra, il-qafas Uni3D juża s-sett tad-dejta 3D ensemble minn OpenShape għal skopijiet ta' taħriġ. Dan is-sett tad-dejta mgħaqqad minn OpenShape jikkonsisti minn 4 settijiet ta' dejta 3D: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTUR. 
  4. ABO. 

Esperimenti u Riżultati

Il-qafas Uni3D huwa ttestjat f'settings differenti, u f'diversi kompiti ta' klassifikazzjoni inkluż il-prestazzjoni tiegħu f'settings ta' zero-shot, u ftit shot, riżultati madwar fehim tad-dinja miftuħa, u aktar. Ejja nagħtu ħarsa dettaljata lejn dawn ir-riżultati.

Klassifikazzjoni tal-Forma Zero Shot

Biex jevalwaw il-prestazzjoni tal-qafas Uni3D tul il-kompiti ta 'klassifikazzjoni tal-forma zero-shot, l-iżviluppaturi jwettqu esperimenti fuq tliet punti ta' referenza inklużi settijiet ta 'dejta ta' referenza ModelNet, ScanObjNN u Objaverse-LVIS. ModelNet, u ScanObjNN huma settijiet ta' dejta użati ħafna għal kompiti ta' klassifikazzjoni, u jikkonsistu fi 15, u 40 kategorija ta' oġġetti rispettivament, filwaqt li l-benchmark Objaverse-LVIS huwa sett ta' dejta mnaddaf u annotat li jikkonsisti f'aktar minn 40,000 oġġett f'1,100+ kategorija. It-tqabbil bejn l-oqfsa huwa muri fl-immaġni hawn taħt, u kif wieħed jista 'jara, il-qafas Uni3D jegħleb b'mod sinifikanti l-oqfsa ta' qabel l-istat tal-arti f'ambjenti differenti. 

Probing Lineari Ftit-Shot

Fl-AI, Linear Probing huwa metodu komuni użat biex jevalwa r-rappreżentazzjonijiet li jitgħallem qafas jew mudell. Biex jevalwaw il-kapaċità ta 'sondar lineari ta' Uni3D, l-iżviluppaturi jiffriżaw il-parametri tal-qafas Uni3D billi jużaw is-settings komuni bħala OpenShape. Wara dan, l-iżviluppaturi jħarrġu klassifikatur lineari għal Uni3D billi juża tikketti tal-klassi ftit shot. Il-figura t'hawn taħt turi l-kapaċità ta 'sondar lineari ta' oqfsa differenti fuq is-sett tad-dejta Objaverse-LVIS, u turi l-prestazzjoni medja tal-mudell fuq 10 żerriegħa każwali. Kif wieħed jista 'jara, il-qafas Uni3D jissupera l-metodi eżistenti b'mod sinifikanti taħt settings differenti ta' ftit shots. 

Fehim tad-Dinja Miftuħa

Biex jevalwaw il-kapaċità tal-qafas Uni3D biex jifhem forom u oġġetti tad-dinja reali f'ħin reali, l-iżviluppaturi jużaw settijiet ta 'dejta ScanNet u CLIP biex jesploraw il-prestazzjoni ta' Uni3D. Ta 'min jinnota li s-segmentazzjoni immedjata tal-verità tal-art hija disponibbli, u l-motiv primarju huwa li tirrikonoxxi l-kategorija tal-instant individwali ta' kull xena f'ambjent ta 'żero sparatura. Ir-riżultati huma murija fl-immaġni hawn taħt. Kif jidher, il-qafas Uni3D jagħti riżultati eċċezzjonali meta jwettaq fehim u rikonoxximent fid-dinja reali. Il-qafas Uni3D jissupera l-oqfsa eżistenti b'marġni sinifikanti minkejja li qatt ma tħarreġ fuq settijiet tad-dejta tad-dinja reali. 

Irkupru Trans-Modali

Ir-rappreżentazzjonijiet multi-modali li tgħallmu mill-qafas Uni3D jistgħu jippermettu lill-qafas jirkupra forom 3D b'mod naturali jew minn testi jew immaġini. Biex tkun irkuprata l-forom 3D, il-mudell jikkalkula x-xebh tal-cosine bejn l-inkorporazzjonijiet tal-forom 3D, u l-inkorporazzjonijiet ta 'test ta' mistoqsija fil-pront jew immaġni ta 'mistoqsija. Il-qafas imbagħad jagħmel użu mill-algoritmu KNN jew K Nearest Neighbor biex jiġġenera forom 3D li jixbħu l-aktar il-mistoqsija, u r-riżultati jintwerew fil-figura hawn taħt. Kif jidher, il-qafas Uni3D juża b'suċċess immaġini tad-dinja reali biex jirkupra forom 3D. Barra minn hekk, ta 'min jinnota li l-immaġini tat-taħriġ huma biss għal skopijiet ta' rendering, u d-differenza bejn id-dinja reali u l-immaġini tat-taħriġ hija sostanzjali. Barra minn hekk, il-mudell jieħu wkoll żewġ immaġini ta 'input, u jirkupra forom simili għaż-żewġ immaġini ta' input billi juża x-xebh tal-cosine bejn il-medji ta 'inkorporazzjoni taż-żewġ stampi, u l-forom 3D inkorporati tagħhom. Ir-riżultati huma interessanti peress li juru l-kapaċità ta 'Uni3D li jitgħallmu rappreżentazzjonijiet 3D differenti, u jipperċepixxi sinjali 2D multipli. 

Fl-ewwel kolonna, il-qafas juża 2 immaġini tal-mistoqsija biex jirritorna forom 3D li huma l-aktar simili għall-immaġini tal-mistoqsija. Fit-tieni kolonna, il-qafas juża żewġ immaġini ta 'input biex jirkupra forom 3D li jixbħu kemm l-immaġini ta' input. Fl-aħħarnett, fil-kolonna finali, il-mudell juża testi ta 'mistoqsijiet, u jirritorna forom 3D li jixbħu l-mistoqsija tat-test il-massimu. 

Ħsibijiet Finali

F'dan l-artikolu, tkellimna dwar Uni3D, qafas 3D ta' taħriġ minn qabel skalabbli u unifikat żviluppat bil-għan li jitgħallmu rappreżentazzjonijiet 3D fuq skala kbira li jittestjaw il-limiti tiegħu fuq skala ta 'aktar minn biljun parametru, aktar minn 10 miljun immaġini flimkien ma' aktar minn 70 miljun. testi, u aktar minn miljun għamla 3D. L-iżviluppaturi tal-qafas inkludew transformer tal-vanilla bl-istruttura tiegħu ekwivalenti għal ViTs li tippermettilhom iżidu l-qafas Uni3D bl-użu ta 'strateġiji unifikati ta' skalar 2D jew NLP. Barra minn hekk, il-qafas Uni3D jista 'jinfluwenza firxa wiesgħa ta' oqfsa 2D mħarrġa minn qabel u strateġiji 2D għad-dinja 3D. Ir-riżultati sperimentali diġà wrew il-potenzjal enormi tal-qafas Uni3D peress li l-qafas Uni3D jirritorna riżultati preċiżi u effiċjenti fuq firxa wiesgħa ta 'settings, u jegħleb l-oqfsa eżistenti tal-aktar avvanzata. 

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.