taló Uni3D: explorant la representació 3D unificada a escala - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Uni3D: explorant la representació 3D unificada a escala

mm
actualitzat on

L'ampliació de les representacions de text i imatges ha estat un dels principals focus de recerca dels darrers anys. Els desenvolupaments i investigacions realitzades en el passat recent han donat lloc a nombroses revolucions en l'aprenentatge i la visió de llengües. No obstant això, malgrat la popularitat d'escalar el text i les representacions visuals, l'escala de les representacions per a escenes i objectes en 3D no s'ha discutit prou.

Avui parlarem d'Uni3D, un model de base 3D que pretén explorar representacions 3D unificades. El marc Uni3D empra un marc ViT inicialitzat en 2D, entrenat prèviament d'extrem a extrem, per alinear les funcions de text d'imatge amb les seves corresponents funcions de núvol de punts 3D.

El marc Uni3D utilitza tasques de pretext i una arquitectura senzilla per aprofitar l'abundància de models 2D entrenats prèviament i models alineats amb el text d'imatge com a inicialitzacions i objectius, respectivament. Aquest enfocament allibera tot el potencial dels models 2D i les estratègies per escalar-los al món 3D.

En aquest article, aprofundirem en el 3D visió per computadora i el framework Uni3D, explorant els conceptes essencials i l'arquitectura del model. Així doncs, comencem.

Aprenentatge de la representació Uni3D i 3D: una introducció

En els últims anys, la visió per ordinador s'ha convertit en un dels dominis amb més inversió en la indústria de la IA. Després dels avenços significatius en els marcs de visió per ordinador 2D, els desenvolupadors han canviat el seu enfocament a la visió per ordinador 3D. Aquest camp, especialment l'aprenentatge de la representació 3D, fusiona aspectes dels gràfics per ordinador, màquina d'aprenentatge, visió per computador i matemàtiques per automatitzar el processament i la comprensió de la geometria 3D. El ràpid desenvolupament de sensors 3D com el LiDAR, juntament amb les seves aplicacions generalitzades a la indústria AR/VR, ha donat com a resultat que l'aprenentatge de la representació 3D hagi guanyat més atenció. Les seves aplicacions potencials continuen creixent diàriament.

Tot i que els marcs existents han mostrat un progrés notable en l'arquitectura de models 3D, el modelatge orientat a tasques i els objectius d'aprenentatge, la majoria explora l'arquitectura 3D a una escala relativament petita amb dades, paràmetres i escenaris de tasques limitats. El repte d'aprendre representacions 3D escalables, que després es poden aplicar a aplicacions en temps real en entorns diversos, segueix sent en gran part inexplorat.

Avançant, en els últims anys, escalant grans models lingüístics que estan preformats ha ajudat a revolucionar el processament del llenguatge natural domini, i treballs recents han indicat una traducció en el progrés a 2D del llenguatge mitjançant l'escalat de dades i models que deixa pas als desenvolupadors per intentar i tornar a intentar aquest èxit per aprendre una representació en 3D que es pugui escalar i transferir a aplicacions del món real. 

Uni3D és un marc 3D de preentrenament escalable i unificat desenvolupat amb l'objectiu d'aprendre representacions 3D a gran escala que posa a prova els seus límits a l'escala de més de mil milions de paràmetres, més de 10 milions d'imatges emparellades amb més de 70 milions de textos i més d'un milió de formes 3D. . La figura següent compara la precisió del tir zero amb els paràmetres del marc Uni3D. El marc Uni3D escala amb èxit representacions 3D de 6 milions a més de mil milions. 

El marc Uni3D consta d'un ViT 2D o Transformador de visió com a codificador 3D que després s'entrena prèviament d'extrem a extrem per alinear les característiques alineades amb el text de la imatge amb les característiques del núvol de punts 3D. El marc Uni3D fa ús de tasques de pretext i d'arquitectura senzilla per aprofitar l'abundància de models 2D preentrenats i models alineats amb el text d'imatge com a inicialització i objectius respectivament, alliberant així tot el potencial dels models 2D i estratègies per escalar-los al món 3D. La flexibilitat i escalabilitat del marc Uni3D es mesura en termes de

  1. Escalat del model de 6M a més de mil milions de paràmetres. 
  2. Inicialització 2D a text supervisat des de visual aprenentatge autocontrolat
  3. Model d'objectiu d'imatge de text que s'escala de 150 milions a més de mil milions de paràmetres. 

Sota el marc flexible i unificat que ofereix Uni3D, els desenvolupadors observen un augment coherent del rendiment quan es tracta d'escalar cada component. L'aprenentatge de la representació en 3D a gran escala també es beneficia enormement de les estratègies d'ampliació i 2D compartibles. 

Com es pot veure a la figura següent, el marc Uni3D mostra un augment del rendiment en comparació amb l'art anterior en configuracions de pocs tirs i zero. Val la pena assenyalar que el marc Uni3D retorna una puntuació de precisió de classificació zero-shot superior al 88% a ModelNet, que està a l'alçada del rendiment de diversos mètodes de supervisió d'última generació. 

A més, el marc Uni3D també ofereix una precisió i un rendiment de primer nivell quan es realitzen altres tasques representatives en 3D, com ara la segmentació de peces i la comprensió del món obert. El marc Uni3D pretén salvar la bretxa entre la visió 2D i la visió 3D escalant models fonamentals 3D amb un enfocament de formació prèvia unificat però senzill per aprendre representacions 3D més sòlides en una àmplia gamma de tasques, que en última instància poden ajudar a la convergència del 2D. i visió 3D a través d'una àmplia gamma de modalitats.

Uni3D : Treball relacionat

El marc Uni3D s'inspira i aprèn dels desenvolupaments realitzats per l'aprenentatge de representació 3D anterior i dels models bàsics, especialment sota diferents modalitats. 

Aprenentatge de la representació 3D

El mètode d'aprenentatge de representació 3D utilitza punts de núvol per a la comprensió de l'objecte en 3D, i els desenvolupadors han explorat molt aquest camp en el passat recent, i s'ha observat que aquests punts de núvol es poden entrenar prèviament sota autosupervisió mitjançant Tasques de pretext en 3D que inclouen modelatge de punts de màscara, auto-reconstrucció i aprenentatge contrastiu. 

Val la pena assenyalar que aquests mètodes funcionen amb dades limitades i sovint no investiguen representacions multimodals a 3D des de 2D o NLP. No obstant això, l'èxit recent del marc CLIP que retorna una alta eficiència en l'aprenentatge de conceptes visuals a partir de text en brut mitjançant el mètode d'aprenentatge contrastiu i, a més, busca aprendre representacions en 3D alineant les característiques d'imatge, text i punt de núvol mitjançant el mateix mètode d'aprenentatge contrastiu. 

Models de fundació

Els desenvolupadors han estat treballant exhaustivament en el disseny de models de base per ampliar i unificar representacions multimodals. Per exemple, en el domini de la PNL, els desenvolupadors han estat treballant en marcs que poden escalar models de llenguatge pre-entrenats i lentament està revolucionant la indústria de la PNL. A més, també es poden observar avenços en el domini de la visió 2D perquè els desenvolupadors estan treballant en marcs que utilitzen tècniques d'escala de dades i models per ajudar en el progrés del llenguatge als models 2D, tot i que aquests marcs són difícils de replicar per als models 3D a causa del disponibilitat limitada de dades 3D i els reptes que es troben en unificar i ampliar els marcs 3D. 

Aprenent dels dos dominis de treball anteriors, els desenvolupadors han creat el marc Uni3D, el primer model de base 3D amb més de mil milions de paràmetres que fa ús d'una arquitectura unificada de ViT o Vision Transformer que permet als desenvolupadors escalar el model Uni3D mitjançant estratègies unificades 3D o NLP per ampliar els models. Els desenvolupadors esperen que aquest mètode permeti que el marc Uni3D superi la bretxa que actualment separa la visió 2D i la visió 3D, a més de facilitar la convergència multimodal.

Uni3D: Mètode i Arquitectura

La imatge de dalt mostra la visió general genèrica del marc Uni3D, un marc 3D de pre-entrenament escalable i unificat per a l'aprenentatge de representacions 3D a gran escala. Els desenvolupadors utilitzen més de 70 milions de textos i 10 milions d'imatges combinades amb més d'un milió de formes 3D per escalar el marc Uni3D a més de mil milions de paràmetres. El marc Uni3D utilitza un ViT 2D o un transformador de visió com a codificador 3D que després s'entrena d'extrem a extrem per alinear les dades de la imatge de text amb les característiques del punt de núvol 3D, permetent que el marc Uni3D ofereixi l'eficiència i precisió desitjades en un àmplia gamma de punts de referència. Fem ara una ullada detallada al funcionament del marc Uni3D. 

Ampliació del marc Uni3D

Els estudis anteriors sobre l'aprenentatge de la representació de punts de núvol s'han centrat tradicionalment en el disseny d'arquitectures de models particulars que ofereixen un millor rendiment en una àmplia gamma d'aplicacions i treballen en una quantitat limitada de dades gràcies a conjunts de dades a petita escala. Tanmateix, estudis recents han intentat explorar la possibilitat d'utilitzar la formació prèvia escalable en 3D, però no hi va haver resultats importants gràcies a la disponibilitat de dades 3D limitades. Per resoldre el problema d'escalabilitat dels marcs 3D, el marc Uni3D aprofita el poder d'una estructura de transformador de vainilla que gairebé reflecteix un transformador de visió i pot resoldre els problemes d'escalat utilitzant estratègies unificades d'ampliació 2D o NLP per escalar la mida del model. 

Els estudis anteriors sobre l'aprenentatge de la representació de punts de núvol s'han centrat tradicionalment en el disseny d'arquitectures de models particulars que ofereixen un millor rendiment en una àmplia gamma d'aplicacions i treballen en una quantitat limitada de dades gràcies a conjunts de dades a petita escala. Tanmateix, estudis recents han intentat explorar la possibilitat d'utilitzar la formació prèvia escalable en 3D, però no hi va haver resultats importants gràcies a la disponibilitat de dades 3D limitades. Per resoldre el problema d'escalabilitat dels marcs 3D, el marc Uni3D aprofita el poder d'una estructura de transformador de vainilla que gairebé reflecteix un transformador de visió i pot resoldre els problemes d'escalat utilitzant estratègies unificades d'ampliació 2D o NLP per escalar la mida del model. 

Inicialització d'Uni3D

Un altre dels grans reptes que s'han trobat amb els treballs previs relacionats amb l'escalat de representacions 3D, les dificultats de convergència i el sobreajustament que van ser conseqüència de la gran mida dels models. Un enfocament eficaç per superar aquest obstacle és entrenar prèviament els backbones 3D individuals amb tasques de pretext 3D especificades i inicialitzar paràmetres preentrenats. Tanmateix, l'enfocament s'acompanya d'alts costos de formació i també és difícil establir una inicialització robusta per a l'aprenentatge multimodal gràcies a la quantitat limitada de dades 3D disponibles per a finalitats de formació. 

El marc Uni3D aprofita un transformador de vainilla, l'estructura del qual s'assembla molt a ViT. Amb aquest enfocament, el marc Uni3D pot adoptar de manera natural els grans models pre-entrenats amb altres modalitats per inicialitzar el marc Uni3D. 

Alineació multimodal

El marc Uni3D intenta aprendre alineacions multimodel entre imatges, llenguatge i núvols de punts fent ús de paradigmes similars als marcs OpenShape i ULIP. A més, per garantir una comparació justa amb altres mètodes, el marc Uni3D utilitza el conjunt de dades 3D d'OpenShape amb finalitats de formació. Aquest conjunt de dades conjunt d'OpenShape consta de 4 conjunts de dades 3D: 

  1. Objavers. 
  2. ShapeNet. 
  3. 3D-FUTUR. 
  4. ABO. 

Experiments i resultats

El marc Uni3D es prova en diferents configuracions i en diverses tasques de classificació, inclòs el seu rendiment en configuracions de tir zero i de pocs tirs, resultats al voltant de la comprensió del món obert i molt més. Fem una ullada detallada a aquests resultats.

Classificació de la forma de tir zero

Per avaluar el rendiment del marc Uni3D a través de tasques de classificació de formes zero-shot, els desenvolupadors realitzen experiments amb tres punts de referència, inclosos els conjunts de dades de referència ModelNet, ScanObjNN i Objaverse-LVIS. ModelNet i ScanObjNN són conjunts de dades àmpliament utilitzats per a tasques de classificació i consten de 15 i 40 categories d'objectes respectivament, mentre que el punt de referència Objaverse-LVIS és un conjunt de dades netejat i anotat que consta de més de 40,000 objectes en més de 1,100 categories. La comparació entre els marcs es demostra a la imatge següent i, com es pot veure, el marc Uni3D supera significativament els marcs d'última generació en diferents entorns. 

Sondeig lineal de pocs tirs

En IA, el sondeig lineal és un mètode comú utilitzat per avaluar les representacions que aprèn un marc o un model. Per avaluar la capacitat de sondeig lineal d'Uni3D, els desenvolupadors congelen els paràmetres del marc Uni3D utilitzant la configuració habitual com OpenShape. Després d'això, els desenvolupadors entrenen un classificador lineal per a Uni3D mitjançant etiquetes de classe de pocs tirs. La figura següent mostra la capacitat de sondeig lineal de diferents marcs al conjunt de dades Objaverse-LVIS i demostra el rendiment mitjà del model en 10 llavors aleatòries. Com es pot veure, el marc Uni3D supera significativament els mètodes existents amb diferents configuracions de pocs tirs. 

Comprensió del món obert

Per avaluar la capacitat del marc Uni3D per entendre formes i objectes del món real en temps real, els desenvolupadors utilitzen conjunts de dades ScanNet i CLIP per explorar el rendiment d'Uni3D. Val la pena assenyalar que la segmentació instantània de la veritat bàsica està disponible i el motiu principal és reconèixer la categoria de l'instant individual de cada escena en un escenari zero-shot. Els resultats es mostren a la imatge següent. Com es pot veure, el marc Uni3D ofereix resultats excepcionals quan es realitza la comprensió i el reconeixement del món real. El marc Uni3D supera els marcs existents per un marge important tot i que mai no s'ha entrenat en conjunts de dades del món real. 

Recuperació intermodal

Les representacions multimodals apreses pel marc Uni3D poden permetre que el marc recuperi formes 3D de manera natural, ja sigui de textos o imatges. Per recuperar les formes 3D, el model calcula la similitud del cosinus entre les incrustacions de les formes 3D i les incrustacions d'una sol·licitud de text de consulta o una imatge de consulta. A continuació, el marc fa ús de l'algorisme KNN o K Nearest Neighbor per generar formes 3D que s'assemblen més a la consulta, i els resultats es mostren a la figura següent. Com es pot veure, el marc Uni3D utilitza amb èxit imatges del món real per recuperar formes 3D. A més, val la pena assenyalar que les imatges d'entrenament només tenen finalitats de renderització i la bretxa entre les imatges del món real i les d'entrenament és substancial. A més, el model també pren dues imatges d'entrada i recupera formes similars a les dues imatges d'entrada utilitzant la similitud del cosinus entre les mitjanes d'incrustació de les dues imatges i les seves formes 3D incrustades. Els resultats són interessants, ja que demostren la capacitat d'Uni3D per aprendre diverses representacions 3D i percebre múltiples senyals 2D. 

A la primera columna, el marc utilitza 2 imatges de consulta per retornar les formes 3D més semblants a les imatges de consulta. A la segona columna, el marc utilitza dues imatges d'entrada per recuperar formes 3D que s'assemblen a les dues imatges d'entrada. Finalment, a la columna final, el model utilitza textos de consulta i retorna formes 3D que s'assemblen al màxim a la consulta de text. 

Consideracions finals

En aquest article, hem parlat d'Uni3D, un marc 3D de preentrenament escalable i unificat desenvolupat amb l'objectiu d'aprendre representacions 3D a gran escala que posa a prova els seus límits a l'escala de més de mil milions de paràmetres, més de 10 milions d'imatges emparellades amb més de 70 milions. textos i més d'un milió de formes 3D. Els desenvolupadors del marc han inclòs un transformador de vainilla amb la seva estructura equivalent a ViTs que els permet escalar el marc Uni3D mitjançant estratègies d'escalat 2D o NLP unificades. A més, el marc Uni3D pot aprofitar una àmplia gamma de marcs 2D pre-entrenats i estratègies 2D per al món 3D. Els resultats experimentals ja han demostrat l'enorme potencial del marc Uni3D, ja que el marc Uni3D retorna resultats precisos i eficients en una àmplia gamma de configuracions i supera els marcs d'última generació existents. 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.