stubbur Uni3D: Kannar sameinaða 3D framsetningu á mælikvarða - Unite.AI
Tengja við okkur

Artificial Intelligence

Uni3D: Að kanna sameinaða 3D framsetningu á mælikvarða

mm
Uppfært on

Stækkun framsetninga á texta og myndefni hefur verið í brennidepli í rannsóknum undanfarin ár. Þróun og rannsóknir sem gerðar hafa verið að undanförnu hafa leitt til fjölda byltinga í tungumálanámi og sjón. Hins vegar, þrátt fyrir vinsældir mælikvarða texta og sjónrænna framsetninga, hefur ekki verið nægjanlega rætt um kvarðan á framsetningum fyrir þrívíddarsenur og hluti.

Í dag munum við ræða Uni3D, 3D grunnlíkan sem miðar að því að kanna sameinaða 3D framsetningu. Uni3D ramminn notar tvívíddar frumstilltan ViT ramma, forþjálfaðan enda til enda, til að samræma myndtextaeiginleika við samsvarandi þrívíddarpunktskýjaeiginleika þeirra.

Uni3D ramminn notar fortextaverkefni og einfaldan arkitektúr til að nýta gnægð forþjálfaðra tvívíddarlíkana og myndatextajafnaðra líkana sem frumstillingar og markmið, í sömu röð. Þessi nálgun leysir úr læðingi alla möguleika tvívíddarlíkana og aðferða til að stækka þau í þrívíddarheiminn.

Í þessari grein munum við kafa dýpra í 3D tölva sýn og Uni3D ramma, kanna helstu hugtök og arkitektúr líkansins. Svo, við skulum byrja.

Uni3D og 3D Representation Learning : An Introduction

Á undanförnum árum hefur tölvusjón komið fram sem eitt af mest fjárfestu lénum í gervigreindargeiranum. Eftir verulegar framfarir í 2D tölvusjón ramma hafa verktaki fært áherslur sínar yfir í 3D tölvusjón. Þetta svið, sérstaklega 3D framsetning nám, sameinar þætti tölvugrafík, vél nám, tölvusjón og stærðfræði til að gera sjálfvirkan vinnslu og skilning á þrívíddarrúmfræði. Hröð þróun þrívíddarskynjara eins og LiDAR, ásamt víðtækri notkun þeirra í AR/VR iðnaði, hefur leitt til þess að nám í þrívíddarmyndagerð hefur fengið aukna athygli. Hugsanleg forrit þess halda áfram að vaxa daglega.

Þrátt fyrir að núverandi rammar hafi sýnt ótrúlegar framfarir í 3D líkanaarkitektúr, verkefnamiðaðri líkanagerð og námsmarkmiðum, kanna flestir þrívíddararkitektúr á tiltölulega litlum mælikvarða með takmörkuðum gögnum, breytum og verksviðsmyndum. Áskorunin við að læra stigstærð 3D framsetningu, sem síðan er hægt að nota í rauntímaforritum í fjölbreyttu umhverfi, er enn að mestu órannsökuð.

Á undanförnum árum hefur stækkað stór mállíkön sem eru forþjálfaðir hefur hjálpað til við að gjörbylta náttúrulega málvinnslu lén, og nýleg verk hafa gefið til kynna þýðingu í framvindu í 2D úr tungumáli með því að nota gagna- og líkanskala sem gerir það að verkum að forritarar geta reynt og endurreyna þennan árangur til að læra 3D framsetningu sem hægt er að kvarða og flytja yfir í forrit í raunheimum. 

Uni3D er stigstærð og sameinuð þrívíddarramma sem er þróuð með það að markmiði að læra þrívíddarmyndir í stórum stíl sem prófar takmörk sín á mælikvarða yfir milljarð breytu, yfir 3 milljónir mynda paraðar við yfir 3 milljónir texta og yfir milljón þrívíddarform . Myndin hér að neðan ber saman núllskotsnákvæmni við færibreytur í Uni10D ramma. Uni70D ramminn skalar þrívíddarmyndir með góðum árangri frá 3 milljónum í yfir milljarð. 

Uni3D ramminn samanstendur af 2D ViT eða Vision Transformer sem þrívíddarkóðari sem síðan er forþjálfaður frá enda til enda til að samræma mynd-textajafnaða eiginleikana við þrívíddarpunktskýjaeiginleikana. Uni3D umgjörðin notar ályktunarverkefni og einfaldan arkitektúr til að nýta gnægð fyrirframþjálfaðra tvívíddarlíkana og myndtextajafnaðra líkana sem frumstillingar og markmið í sömu röð og leysir þannig úr læðingi alla möguleika tvívíddarlíkana og aðferðir til að skala þau að þrívíddarheiminum. Sveigjanleiki og sveigjanleiki Uni3D ramma er mældur með tilliti til

  1. Stærð líkansins frá 6M til yfir milljarð breytu. 
  2. 2D frumstilling á texta undir eftirliti frá sjón sjálfstætt nám
  3. Markmiðslíkan texta-mynda skala frá 150 milljónum til yfir milljarð breytu. 

Undir sveigjanlegum og sameinuðum ramma sem Uni3D býður upp á, sjá verktaki samfellda uppörvun í frammistöðu þegar kemur að því að skala hvern íhlut. Stórfellt 3D framsetninganám nýtur líka gríðarlega góðs af 2D sem hægt er að deila og skala upp. 

Eins og sést á myndinni hér að neðan sýnir Uni3D ramma uppörvun í frammistöðu miðað við fyrri tækni í stillingum fyrir fáa skot og núllskota. Það er athyglisvert að Uni3D ramminn skilar núllskotum flokkunarnákvæmni sem er yfir 88% á ModelNet sem er á pari við frammistöðu nokkurra nýjustu eftirlitsaðferða. 

Ennfremur skilar Uni3D rammanum einnig hágæða nákvæmni og frammistöðu þegar önnur dæmigerð þrívíddarverkefni eru framkvæmt eins og hlutaskiptingu og skilningur á opnum heimi. Uni3D ramminn miðar að því að brúa bilið milli tvívíddarsýnar og þrívíddarsýnar með því að stækka þrívíddar grunnlíkön með samræmdri en einfaldri forþjálfunarnálgun til að læra öflugri þrívíddarmyndir yfir fjölbreytt úrval verkefna, sem gæti að lokum hjálpað til við sameiningu tvívíddar. og þrívíddarsýn yfir margs konar aðferðir.

Uni3D: Tengt verk

Uni3D ramminn sækir innblástur og lærir af þróuninni sem gerð hefur verið af fyrra 3D framsetninganámi og grunnlíkönum sérstaklega undir mismunandi aðferðum. 

Nám um 3D framsetningu

3D framsetning námsaðferðin notar skýjapunkta fyrir þrívíddarskilning á hlutnum og þetta svið hefur verið kannað mikið af hönnuðum að undanförnu og það hefur komið fram að hægt er að forþjálfa þessa skýjapunkta undir sjálfseftirliti með því að nota sérstaka Þrívíddarverkefni þar á meðal grímupunktslíkön, sjálfsuppbyggingu og andstæða nám. 

Rétt er að taka fram að þessar aðferðir virka með takmörkuðum gögnum og þær rannsaka oft ekki fjölþætta framsetningu til 3D frá 2D eða NLP. Hins vegar er nýleg velgengni CLIP rammans sem skilar mikilli skilvirkni við að læra sjónræn hugtök úr hráum texta með því að nota mótefnafræðilega námsaðferðina, og leitast frekar við að læra 3D framsetningu með því að samræma mynd, texta og skýjapunktareiginleika með því að nota sömu andstæða námsaðferðina. 

Grunnlíkön

Hönnuðir hafa unnið ítarlega að því að hanna grunnlíkön til að stækka og sameina fjölþætta framsetningu. Til dæmis, á NLP léninu, hafa verktaki unnið að ramma sem geta stækkað fyrirfram þjálfuð tungumálalíkön og það er hægt og rólega að bylta NLP iðnaðinum. Ennfremur er hægt að fylgjast með framförum á tvívíddarsýnarsviðinu vegna þess að þróunaraðilar eru að vinna að ramma sem nota gagna- og líkanakvarðatækni til að hjálpa til við framvindu tungumálsins yfir í tvívíddarlíkön, þó erfitt sé að endurtaka slíka ramma fyrir þrívíddarlíkön vegna takmarkað framboð á þrívíddargögnum og áskoranirnar sem upp koma við sameiningu og stækkaðri þrívíddarramma. 

Með því að læra af ofangreindum tveimur vinnusviðum hafa verktaki búið til Uni3D ramma, fyrsta 3D grunnlíkanið með yfir milljarði breytum sem notar sameinaðan ViT eða Vision Transformer arkitektúr sem gerir forriturum kleift að skala Uni3D líkanið með því að nota sameinaða 3D eða NLP aðferðir til að stækka módelin. Hönnuðir vona að þessi aðferð muni gera Uni3D ramma kleift að brúa bilið sem nú skilur að 2D og 3D sýn ásamt því að auðvelda fjölþætta samleitni

Uni3D: Aðferð og arkitektúr

Myndin hér að ofan sýnir almenna yfirsýn yfir Uni3D ramma, stigstærð og sameinað forþjálfun 3D ramma fyrir stórfellda 3D framsetningu nám. Hönnuðir nota yfir 70 milljónir texta og 10 milljónir mynda paraðar við yfir milljón þrívíddarform til að skala Uni3D ramma í yfir milljarð breytur. Uni3D ramminn notar 3D ViT eða Vision Transformer sem þrívíddarkóðara sem síðan er þjálfaður frá enda til enda til að samræma textamyndagögnin við 2D skýpunktareiginleikana, sem gerir Uni3D ramma kleift að skila æskilegri skilvirkni og nákvæmni í gegnum breitt úrval af viðmiðum. Við skulum nú líta ítarlega á virkni Uni3D ramma. 

Skala Uni3D ramma

Fyrri rannsóknir á skýjapunktaframsetninganámi hafa jafnan einbeitt sér að því að hanna tiltekna módelarkitektúr sem skila betri afköstum í fjölmörgum forritum og vinna á takmörkuðu magni gagna þökk sé litlum gagnasöfnum. Hins vegar hafa nýlegar rannsóknir reynt að kanna möguleikann á því að nota stigstærða forþjálfun í 3D en það voru engar stórar niðurstöður þökk sé tiltækum takmörkuðum 3D gögnum. Til að leysa stigstærðarvandamál 3D ramma nýtir Uni3D ramma kraftinn í vanillu spennibyggingu sem nánast speglar Vision Transformer og getur leyst skalastærðarvandamálin með því að nota sameinaða 2D eða NLP stigstærðaraðferðir til að skala líkanstærðina. 

Fyrri rannsóknir á skýjapunktaframsetninganámi hafa jafnan einbeitt sér að því að hanna tiltekna módelarkitektúr sem skila betri afköstum í fjölmörgum forritum og vinna á takmörkuðu magni gagna þökk sé litlum gagnasöfnum. Hins vegar hafa nýlegar rannsóknir reynt að kanna möguleikann á því að nota stigstærða forþjálfun í 3D en það voru engar stórar niðurstöður þökk sé tiltækum takmörkuðum 3D gögnum. Til að leysa stigstærðarvandamál 3D ramma nýtir Uni3D ramma kraftinn í vanillu spennibyggingu sem nánast speglar Vision Transformer og getur leyst skalastærðarvandamálin með því að nota sameinaða 2D eða NLP stigstærðaraðferðir til að skala líkanstærðina. 

Frumstillir Uni3D

Önnur meiriháttar áskorun sem fyrri verk stóðu fyrir sem fólst í stærðarstærð þrívíddarmynda, erfiðleikunum við samleitni og offitun sem var afleiðing af stórri stærð líkananna. Árangursrík nálgun til að yfirstíga þessa hindrun er að forþjálfa einstaka þrívíddarstoðkerfi með tilgreindum þrívíddarforsenduverkefnum og frumstilla forþjálfaðar breytur. Hins vegar fylgir nálguninni mikill þjálfunarkostnaður og það er líka erfitt að koma á öflugri frumstillingu fyrir þverformað nám þökk sé takmörkuðu magni þrívíddargagna sem er tiltækt í þjálfunarskyni. 

Uni3D umgjörðin nýtir vanilluspenni, uppbygging hans líkist mjög ViT. Með þessari nálgun getur Uni3D ramma náttúrulega tekið upp fyrirfram þjálfuð stór líkön með öðrum aðferðum til að frumstilla Uni3D ramma. 

Multi-Modal Alignment

Uni3D umgjörðin reynir að læra marglíka röðun þvert á mynd, tungumál og punktský með því að nota hugmyndafræði svipað OpenShape og ULIP ramma. Ennfremur, til að tryggja sanngjarnan samanburð við aðrar aðferðir, notar Uni3D ramma samsetta 3D gagnasafnið frá OpenShape í þjálfunarskyni. Þetta samsetta gagnasafn frá OpenShape samanstendur af 4 þrívíddargagnasöfnum: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FRAMTÍÐ. 
  4. ABO. 

Tilraunir og niðurstöður

Uni3D ramminn er prófaður í mismunandi stillingum og í ýmsum flokkunarverkefnum, þar á meðal frammistöðu hans í núllskotum og fáum skotum stillingum, niðurstöðum um skilning á opnum heimi og fleira. Við skulum skoða þessar niðurstöður ítarlega.

Zero Shot Shape Classification

Til að meta frammistöðu Uni3D ramma yfir núllskot form flokkunarverkefni, gera verktaki tilraunir á þremur viðmiðum, þar á meðal ModelNet, ScanObjNN og Objaverse-LVIS viðmiðunargagnasettum. ModelNet og ScanObjNN eru gagnasöfn sem eru mikið notuð fyrir flokkunarverkefni og samanstanda af 15 og 40 hlutaflokkum í sömu röð, en Objaverse-LVIS viðmiðið er hreinsað og skýrt gagnasafn sem samanstendur af yfir 40,000 hlutum í 1,100+ flokkum. Samanburðurinn á milli ramma er sýndur á myndinni hér að neðan, og eins og sést er Uni3D ramma umtalsvert betri en fyrri nýjustu ramma í mismunandi stillingum. 

Fáskota línuleg pæling

Í gervigreind er Linear Probing algeng aðferð sem notuð er til að meta framsetninguna sem rammi eða líkan lærir. Til að meta línulega könnunargetu Uni3D, frysta verktaki færibreytur Uni3D ramma með því að nota algengar stillingar sem OpenShape. Í kjölfarið þjálfa verktaki línulegan flokkara fyrir Uni3D með því að nota flokksmerki með fáum skotum. Myndin hér að neðan sýnir línulega könnunargetu mismunandi ramma á Objaverse-LVIS gagnapakkanum og sýnir meðalframmistöðu líkansins yfir 10 tilviljunarkennd fræ. Eins og sést er Uni3D ramma betri en núverandi aðferðir verulega undir mismunandi stillingum með fáum skotum. 

Opinn heimsskilningur

Til að meta getu Uni3D ramma til að skilja raunveruleg form og hluti í rauntíma, nota verktaki ScanNet og CLIP gagnapakka til að kanna frammistöðu Uni3D. Rétt er að hafa í huga að skyndiskiptin á jörðu niðri er tiltæk og meginástæðan er að viðurkenna flokkinn á einstökum augnabliki hvers senu í núllmyndastillingu. Niðurstöðurnar eru sýndar á myndinni hér að neðan. Eins og sést, skilar Uni3D rammanum framúrskarandi árangri þegar framkvæmt er raunheimsskilning og viðurkenningu. Uni3D ramminn er umtalsvert betri en núverandi ramma þrátt fyrir að hafa aldrei þjálfað á raunverulegum gagnasöfnum. 

Cross-Modal Retrieval

Margþættar framsetningarnar sem Uni3D ramman lærði getur gert rammanum kleift að sækja 3D form náttúrulega annaðhvort úr texta eða myndum. Til að ná í þrívíddarformin reiknar líkanið út kósínuslíkinguna milli innfellinga þrívíddarforma og innfellinga fyrirspurnartexta eða fyrirspurnarmyndar. Ramminn notar síðan KNN eða K Nearest Neighbor reiknirit til að búa til þrívíddarform sem líkjast mest fyrirspurninni og niðurstöðurnar eru sýndar á myndinni hér að neðan. Eins og sést notar Uni3D ramminn með góðum árangri raunheimsmyndir til að sækja þrívíddarform. Ennfremur er rétt að hafa í huga að þjálfunarmyndir eru aðeins til flutnings og bilið á milli raunverulegra mynda og þjálfunarmynda er verulegt. Að auki tekur líkanið einnig tvær inntaksmyndir og sækir form svipað og báðar inntaksmyndirnar með því að nota kósínuslíkinguna á milli innfelldu meðaltala beggja mynda og innbyggðra þrívíddarforma þeirra. Niðurstöðurnar eru áhugaverðar þar sem þær sýna fram á getu Uni3D til að læra fjölbreytta 3D framsetningu og skynja mörg 3D merki. 

Í fyrsta dálknum notar ramminn 2 fyrirspurnamyndir til að skila þrívíddarformum sem líkjast mest fyrirspurnarmyndum. Í öðrum dálki notar ramminn tvær inntaksmyndir til að sækja þrívíddarform sem líkjast báðum inntaksmyndunum. Að lokum, í síðasta dálknum, notar líkanið fyrirspurnartexta og skilar þrívíddarformum sem líkjast textafyrirspurninni sem mest. 

Final Thoughts

Í þessari grein höfum við talað um Uni3D, stigstærð og sameinað þrívíddarramma fyrir forþjálfun þróað með það að markmiði að læra umfangsmikla þrívíddarframsetningu sem prófar takmörk sín á mælikvarða yfir milljarð breytu, yfir 3 milljónir mynda paraðar við yfir 3 milljónir. texta og yfir milljón þrívíddarform. Hönnuðir rammans hafa innifalið vanilluspennir með uppbyggingu hans sem jafngildir ViTs sem gerir þeim kleift að stækka Uni10D rammann með því að nota sameinaða 70D eða NLP mælikvarða. Ennfremur getur Uni3D umgjörðin nýtt fjölbreytt úrval af fyrirfram þjálfuðum 3D ramma og 2D aðferðum til 3D heimsins. Tilraunaniðurstöðurnar hafa þegar sýnt fram á mikla möguleika Uni2D ramma þar sem Uni2D ramma skilar nákvæmum og skilvirkum niðurstöðum í margs konar stillingum og er betri en núverandi nýjustu ramma. 

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.