քոթուկ Uni3D. Ուսումնասիրելով միասնական 3D ներկայացուցչությունը մասշտաբով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Uni3D. ուսումնասիրելով միասնական 3D ներկայացուցչությունը մասշտաբով

mm
Թարմացվել է on

Տեքստի և վիզուալ պատկերների ընդլայնումը վերջին տարիներին եղել է հետազոտության հիմնական կենտրոնը: Ոչ վաղ անցյալում կատարված զարգացումները և հետազոտությունները հանգեցրել են բազմաթիվ հեղափոխությունների լեզվի ուսուցման և տեսլականի մեջ: Այնուամենայնիվ, չնայած մասշտաբային տեքստի և տեսողական ներկայացումների հանրաճանաչությանը, 3D տեսարանների և օբյեկտների պատկերների մասշտաբը բավականաչափ չի քննարկվել:

Այսօր մենք կքննարկենք Uni3D-ը՝ 3D հիմքի մոդելը, որի նպատակն է ուսումնասիրել միասնական 3D ներկայացումները: Uni3D շրջանակն օգտագործում է 2D-ի սկզբնավորման ViT շրջանակը, որը նախապես պատրաստված է ծայրից ծայր՝ պատկերի տեքստի առանձնահատկությունները համապատասխանեցնելու համար իրենց համապատասխան 3D կետային ամպային հատկանիշներին:

Uni3D շրջանակն օգտագործում է պատրվակային առաջադրանքներ և պարզ ճարտարապետություն՝ համապատասխանաբար որպես սկզբնավորում և թիրախ օգտագործելու նախապես պատրաստված 2D մոդելների և պատկերի տեքստին համապատասխանեցված մոդելների առատությունը: Այս մոտեցումը սանձազերծում է 2D մոդելների և ռազմավարությունների ողջ ներուժը՝ դրանք 3D աշխարհին հասցնելու համար:

Այս հոդվածում մենք կխորանանք 3D-ի մեջ համակարգչային տեսլական և Uni3D շրջանակը՝ ուսումնասիրելով մոդելի հիմնական հասկացությունները և ճարտարապետությունը: Այսպիսով, եկեք սկսենք:

Uni3D և 3D ներկայացուցչական ուսուցում. ներածություն

Վերջին մի քանի տարիների ընթացքում համակարգչային տեսլականը հայտնվել է որպես արհեստական ​​ինտելեկտի ոլորտում ամենաշատ ներդրված տիրույթներից մեկը: Հետևելով 2D համակարգչային տեսողության շրջանակների զգալի առաջընթացին, մշակողները իրենց ուշադրությունը տեղափոխել են 3D համակարգչային տեսլականի վրա: Այս ոլորտը, մասնավորապես 3D ներկայացման ուսուցումը, միավորում է համակարգչային գրաֆիկայի ասպեկտները, Machine Learning, համակարգչային տեսլական և մաթեմատիկա՝ 3D երկրաչափության մշակումն ու ըմբռնումն ավտոմատացնելու համար։ LiDAR-ի նման 3D սենսորների արագ զարգացումը, ինչպես նաև AR/VR արդյունաբերության մեջ դրանց լայնածավալ կիրառությունները, հանգեցրել են նրան, որ 3D ներկայացման ուսուցումը մեծ ուշադրություն է գրավում: Դրա պոտենցիալ կիրառությունները շարունակում են աճել ամեն օր:

Թեև գոյություն ունեցող շրջանակները զգալի առաջընթաց են ցույց տվել 3D մոդելների ճարտարապետության, առաջադրանքների վրա հիմնված մոդելավորման և ուսուցման նպատակների մեջ, մեծ մասը ուսումնասիրում է 3D ճարտարապետությունը համեմատաբար փոքր մասշտաբով՝ սահմանափակ տվյալների, պարամետրերի և առաջադրանքների սցենարներով: Մասշտաբային 3D ներկայացումները սովորելու մարտահրավերը, որը կարող է հետագայում կիրառվել տարբեր միջավայրերում իրական ժամանակի ծրագրերում, հիմնականում մնում է չուսումնասիրված:

Շարժվելով, վերջին մի քանի տարիների ընթացքում, մասշտաբով մեծ լեզվի մոդելներ որոնք նախապես պատրաստված են, օգնել են հեղափոխել բնական լեզվով մշակման գործընթացը տիրույթում, և վերջին աշխատությունները ցույց են տվել, որ թարգմանությունը լեզվից դեպի 2D՝ տվյալների և մոդելի մասշտաբավորման միջոցով, ինչը ծրագրավորողների համար ճանապարհ է բացում փորձել և նորից փորձել այս հաջողությունը՝ սովորելու 3D ներկայացում, որը կարող է մասշտաբավորվել և փոխանցվել իրական աշխարհում հավելվածներին: 

Uni3D-ը մասշտաբային և միասնական նախավարժանքային 3D շրջանակ է, որը մշակվել է լայնածավալ 3D ներկայացումներ սովորելու նպատակով, որը ստուգում է իր սահմանները ավելի քան մեկ միլիարդ պարամետրերի մասշտաբով, ավելի քան 10 միլիոն պատկերներ՝ զուգակցված ավելի քան 70 միլիոն տեքստերի և ավելի քան մեկ միլիոն 3D ձևերի հետ: . Ստորև բերված նկարը համեմատում է զրոյական կրակոցի ճշգրտությունը Uni3D շրջանակի պարամետրերի հետ: Uni3D շրջանակը հաջողությամբ ընդլայնում է 3D ներկայացումները 6 միլիոնից մինչև ավելի քան մեկ միլիարդ: 

Uni3D շրջանակը բաղկացած է 2D ViT կամ Vision տրանսֆորմատոր որպես 3D կոդավորիչ, որն այնուհետև նախապես վերապատրաստվում է ծայրից ծայր՝ պատկերի տեքստի համահարթեցման առանձնահատկությունները 3D կետային ամպի առանձնահատկություններին համապատասխանեցնելու համար: Uni3D շրջանակն օգտագործում է պատրվակային առաջադրանքներ և պարզ ճարտարապետություն՝ օգտագործելու նախապես պատրաստված 2D մոդելների և պատկերի տեքստի համահունչ մոդելների առատությունը՝ որպես սկզբնավորում և թիրախ, այդպիսով բացելով 2D մոդելների ողջ ներուժը և դրանք 3D աշխարհում ընդլայնելու ռազմավարությունները: Uni3D շրջանակի ճկունությունը և մասշտաբայնությունը չափվում է ըստ

  1. Մոդելի մասշտաբավորում 6M-ից մինչև ավելի քան մեկ միլիարդ պարամետր: 
  2. Վիզուալից վերահսկվող տեքստի 2D սկզբնավորումը ինքնուրույն վերահսկվող ուսուցում
  3. Տեքստ-պատկեր թիրախային մոդելի մասշտաբով 150 միլիոնից մինչև ավելի քան մեկ միլիարդ պարամետր: 

Uni3D-ի կողմից առաջարկվող ճկուն և միասնական շրջանակի ներքո ծրագրավորողները հետևում են կատարողականի համահունչ խթանմանը, երբ խոսքը վերաբերում է յուրաքանչյուր բաղադրիչի մասշտաբավորմանը: Լայնածավալ 3D ներկայացման ուսուցումը մեծապես օգուտ է քաղում նաև 2D-ի և մասշտաբի մեծացման ռազմավարություններից: 

Ինչպես երևում է ստորև նկարում, Uni3D շրջանակը ցուցադրում է կատարողականի խթանում, երբ համեմատվում է նախորդ արվեստի հետ մի քանի կրակոցների և զրոյական կրակոցների պարամետրերում: Հարկ է նշել, որ Uni3D շրջանակը վերադարձնում է զրոյական դասակարգման ճշգրտության միավորը, որը գերազանցում է 88%-ը ModelNet-ում, որը համարժեք է մի քանի ժամանակակից հսկողության մեթոդների կատարմանը: 

Ավելին, Uni3D շրջանակը նաև ապահովում է բարձր ճշգրտություն և կատարողականություն այլ ներկայացուցչական 3D առաջադրանքներ կատարելիս, ինչպիսիք են մասերի հատվածավորումը և բաց աշխարհի ըմբռնումը: Uni3D շրջանակը նպատակ ունի կամրջել 2D տեսլականի և 3D տեսլականի միջև առկա բացը` ընդլայնելով 3D հիմնարար մոդելները միասնական, բայց պարզ նախավարժանքային մոտեցմամբ, որպեսզի ավելի ամուր 3D ներկայացումներ սովորեն մի շարք առաջադրանքներում, որոնք, ի վերջո, կարող են օգնել 2D-ի մերձեցմանը: և 3D տեսլականը լայն տեսականիով:

Uni3D: Հարակից աշխատանք

Uni3D շրջանակը ոգեշնչում է և սովորում է նախորդ 3D ներկայացման ուսուցման և հիմնարար մոդելների զարգացումներից, հատկապես տարբեր եղանակներով: 

3D ներկայացման ուսուցում

3D ներկայացման ուսուցման մեթոդը օգտագործում է ամպային կետեր՝ օբյեկտի 3D ընկալման համար, և այս ոլորտը շատ է ուսումնասիրվել ծրագրավորողների կողմից ոչ վաղ անցյալում, և նկատվել է, որ այդ ամպային կետերը կարող են նախապես վերապատրաստվել ինքնուրույն վերահսկողության ներքո՝ օգտագործելով հատուկ 3D պատրվակով առաջադրանքներ, ներառյալ դիմակ կետի մոդելավորում, ինքնավերականգնում և հակադրական ուսուցում: 

Հարկ է նշել, որ այս մեթոդներն աշխատում են սահմանափակ տվյալների հետ, և նրանք հաճախ չեն ուսումնասիրում մուլտիմոդալ ներկայացումները 3D-ից 2D-ից կամ NLP-ից: Այնուամենայնիվ, CLIP շրջանակի վերջին հաջողությունը, որը բարձր արդյունավետություն է տալիս հում տեքստից տեսողական հասկացությունների ուսուցման հարցում՝ օգտագործելով հակադրական ուսուցման մեթոդը, և հետագայում ձգտում է սովորել 3D ներկայացումներ՝ հավասարեցնելով պատկերի, տեքստի և ամպային կետերի առանձնահատկությունները՝ օգտագործելով նույն հակադրական ուսուցման մեթոդը: 

Հիմնադրամի մոդելներ

Մշակողները սպառիչ կերպով աշխատել են հիմքի մոդելների նախագծման վրա՝ մուլտիմոդալ ներկայացումները մեծացնելու և միավորելու համար: Օրինակ, NLP տիրույթում մշակողները աշխատել են շրջանակների վրա, որոնք կարող են մեծացնել նախապես պատրաստված լեզվական մոդելները, և դա դանդաղորեն հեղափոխում է NLP արդյունաբերությունը: Ավելին, առաջխաղացումները կարող են դիտվել նաև 2D տեսողության տիրույթում, քանի որ մշակողները աշխատում են շրջանակների վրա, որոնք օգտագործում են տվյալների և մոդելների մասշտաբման տեխնիկան՝ օգնելու լեզվի առաջընթացին դեպի 2D մոդելներ, թեև նման շրջանակները դժվար է կրկնօրինակել 3D մոդելների համար, քանի որ 3D տվյալների սահմանափակ հասանելիությունը և 3D շրջանակները միավորելիս և մեծացնելիս հանդիպող մարտահրավերները: 

Սովորելով վերը նշված երկու աշխատանքային տիրույթներից՝ մշակողները ստեղծել են Uni3D շրջանակը, ավելի քան միլիարդ պարամետրերով առաջին 3D հիմքի մոդելը, որն օգտագործում է միասնական ViT կամ Vision Transformer ճարտարապետությունը, որը թույլ է տալիս ծրագրավորողներին մասշտաբավորել Uni3D մոդելը՝ օգտագործելով մոդելների մեծացման միասնական 3D կամ NLP ռազմավարություններ: Մշակողները հուսով են, որ այս մեթոդը թույլ կտա Uni3D շրջանակին կամրջել այն բացը, որը ներկայումս բաժանում է 2D և 3D տեսլականը և հեշտացնում է բազմամոդալ կոնվերգենցիան:

Uni3D: Մեթոդ և ճարտարապետություն

Վերոնշյալ պատկերը ցույց է տալիս Uni3D շրջանակի ընդհանուր ակնարկը, որը մասշտաբային և միասնական նախնական ուսումնական 3D շրջանակ է լայնածավալ 3D ներկայացման ուսուցման համար: Մշակողները օգտագործում են ավելի քան 70 միլիոն տեքստեր և 10 միլիոն պատկերներ՝ զուգակցված ավելի քան մեկ միլիոն 3D ձևերի հետ՝ Uni3D շրջանակը մեկ միլիարդ պարամետրի հասցնելու համար: Uni3D շրջանակն օգտագործում է 2D ViT կամ Vision Transformer որպես 3D կոդավորիչ, որն այնուհետև վերապատրաստվում է ծայրից ծայր՝ տեքստային պատկերի տվյալները հավասարեցնելու 3D ամպային կետի առանձնահատկություններին, ինչը թույլ է տալիս Uni3D շրջանակին ապահովել ցանկալի արդյունավետություն և ճշգրտություն ամբողջ տարածքում: հենանիշների լայն տեսականի: Եկեք հիմա մանրամասն նայենք Uni3D շրջանակի աշխատանքին: 

Uni3D Framework-ի մասշտաբավորում

Ամպային կետերի ներկայացման ուսուցման վերաբերյալ նախորդ ուսումնասիրությունները ավանդաբար մեծապես կենտրոնացել են որոշակի մոդելային ճարտարապետության նախագծման վրա, որոնք ավելի լավ կատարում են ապահովում հավելվածների լայն շրջանակում և աշխատում են սահմանափակ քանակությամբ տվյալների վրա՝ շնորհիվ փոքրածավալ տվյալների հավաքածուների: Այնուամենայնիվ, վերջին ուսումնասիրությունները փորձել են ուսումնասիրել 3D-ում մասշտաբային նախավարժանք օգտագործելու հնարավորությունը, սակայն սահմանափակ 3D տվյալների առկայության շնորհիվ լուրջ արդյունքներ չեն եղել: Եռաչափ շրջանակների մասշտաբայնության խնդիրը լուծելու համար Uni3D շրջանակը օգտագործում է վանիլային տրանսֆորմատորի կառուցվածքի հզորությունը, որը գրեթե արտացոլում է Vision տրանսֆորմատորը և կարող է լուծել մասշտաբի խնդիրները՝ օգտագործելով 3D կամ NLP ընդլայնման միասնական ռազմավարություններ՝ մոդելի չափը մեծացնելու համար: 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Փորձեր և արդյունքներ

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Վերջնական Մտքեր

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: