სტუბი Uni3D: ერთიანი 3D წარმოდგენის შესწავლა მასშტაბით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

Uni3D: შეისწავლეთ ერთიანი 3D წარმოდგენა მასშტაბით

mm
განახლებულია on

ტექსტისა და ვიზუალის წარმოდგენების მასშტაბირება ბოლო წლების კვლევის მთავარი აქცენტი იყო. ახლო წარსულში განხორციელებულმა განვითარებამ და კვლევამ გამოიწვია მრავალი რევოლუცია ენის შესწავლასა და ხედვაში. თუმცა, ტექსტისა და ვიზუალური გამოსახულებების სკალირების პოპულარობის მიუხედავად, 3D სცენებისა და ობიექტების გამოსახულების მასშტაბირება საკმარისად არ არის განხილული.

დღეს განვიხილავთ Uni3D-ს, 3D საძირკვლის მოდელს, რომელიც მიზნად ისახავს ერთიანი 3D წარმოდგენების შესწავლას. Uni3D Framework იყენებს 2D ინიციალიზებულ ViT ჩარჩოს, წინასწარ გაწვრთნილ ბოლოდან ბოლომდე, გამოსახულების ტექსტის მახასიათებლების შესაბამის 3D წერტილის ღრუბლის ფუნქციებთან გასასწორებლად.

Uni3D ჩარჩო იყენებს პრეტექსტის ამოცანებს და მარტივ არქიტექტურას, რათა გამოიყენოს წინასწარ გაწვრთნილი 2D მოდელების სიმრავლე და გამოსახულების ტექსტით გასწორებული მოდელები, როგორც ინიციალიზაცია და მიზნები, შესაბამისად. ეს მიდგომა ავლენს 2D მოდელების სრულ პოტენციალს და სტრატეგიებს, რათა მოხდეს მათი მასშტაბირება 3D სამყაროში.

ამ სტატიაში ჩვენ უფრო ღრმად ჩავუღრმავდებით 3D-ს კომპიუტერული ხედვა და Uni3D ჩარჩო, რომელიც შეისწავლის მოდელის ძირითად კონცეფციებს და არქიტექტურას. მაშ ასე, დავიწყოთ.

Uni3D და 3D წარმოდგენის სწავლა: შესავალი

ბოლო რამდენიმე წლის განმავლობაში, კომპიუტერული ხედვა გამოჩნდა, როგორც ერთ-ერთი ყველაზე დიდი ინვესტიციის სფერო AI ინდუსტრიაში. 2D კომპიუტერული ხედვის ჩარჩოებში მნიშვნელოვანი წინსვლის შემდეგ, დეველოპერებმა ყურადღება გადაიტანეს 3D კომპიუტერულ ხედვაზე. ეს სფერო, განსაკუთრებით 3D წარმოდგენის სწავლა, აერთიანებს კომპიუტერული გრაფიკის ასპექტებს, მანქანა სწავლის, კომპიუტერული ხედვა და მათემატიკა 3D გეომეტრიის დამუშავებისა და გაგების ავტომატიზაციისთვის. 3D სენსორების სწრაფმა განვითარებამ, როგორიცაა LiDAR, მათ ფართოდ გავრცელებულ აპლიკაციებთან ერთად AR/VR ინდუსტრიაში, განაპირობა ის, რომ 3D წარმოდგენის სწავლებამ მოიპოვა მეტი ყურადღება. მისი პოტენციური აპლიკაციები ყოველდღიურად იზრდება.

მიუხედავად იმისა, რომ არსებულმა ჩარჩოებმა აჩვენეს შესანიშნავი პროგრესი 3D მოდელის არქიტექტურაში, დავალებაზე ორიენტირებულ მოდელირებასა და სასწავლო მიზნებში, უმეტესობა იკვლევს 3D არქიტექტურას შედარებით მცირე მასშტაბით შეზღუდული მონაცემებით, პარამეტრებით და ამოცანების სცენარებით. მასშტაბირებადი 3D წარმოდგენების სწავლის გამოწვევა, რომელიც შემდეგ შეიძლება გამოყენებულ იქნას რეალურ დროში აპლიკაციებში მრავალფეროვან გარემოში, ძირითადად შეუსწავლელი რჩება.

გასული რამდენიმე წლის განმავლობაში სკალირება დიდი ენის მოდელები წინასწარ გაწვრთნილმა ხელი შეუწყო რევოლუციას ბუნებრივი ენის დამუშავება დომენი და ბოლო ნამუშევრები მიუთითებენ 2D-ში თარგმნაზე ენიდან მონაცემებისა და მოდელის სკალირების გამოყენებით, რაც საშუალებას აძლევს დეველოპერებს სცადონ და ხელახლა სცადონ ეს წარმატება, ისწავლონ 3D წარმოდგენა, რომელიც შეიძლება მასშტაბირდეს და გადაიტანოს აპლიკაციებში რეალურ სამყაროში. 

Uni3D არის მასშტაბირებადი და ერთიანი წინასწარი ტრენინგის 3D ჩარჩო, რომელიც შემუშავებულია ფართომასშტაბიანი 3D წარმოდგენების შესწავლის მიზნით, რომელიც ამოწმებს მის საზღვრებს მილიარდზე მეტი პარამეტრის მასშტაბით, 10 მილიონზე მეტ სურათზე დაწყვილებულ 70 მილიონზე მეტ ტექსტთან და მილიონზე მეტ 3D ფორმებთან. . ქვემოთ მოყვანილი ფიგურა ადარებს ნულოვანი გასროლის სიზუსტეს Uni3D ჩარჩოში არსებულ პარამეტრებთან. Uni3D ჩარჩო წარმატებით ადიდებს 3D წარმოდგენებს 6 მილიონიდან მილიარდზე მეტს. 

Uni3D ჩარჩო შედგება 2D ViT ან Vision Transformer როგორც 3D ენკოდერი, რომელიც შემდეგ წინასწარ არის გაწვრთნილი ბოლომდე, გამოსახულების ტექსტის გასწორებული ფუნქციების 3D წერტილის ღრუბლის ფუნქციებთან გასასწორებლად. Uni3D ჩარჩო იყენებს პრეტექსტის ამოცანებს და მარტივ არქიტექტურას, რათა გამოიყენოს წინასწარ გაწვრთნილი 2D მოდელების სიმრავლე და გამოსახულების ტექსტის გასწორებული მოდელები, როგორც ინიციალიზაცია და მიზნები, შესაბამისად, ათავისუფლებს 2D მოდელების სრულ პოტენციალს და სტრატეგიებს მათი მასშტაბის 3D სამყაროში. Uni3D ჩარჩოს მოქნილობა და მასშტაბურობა იზომება თვალსაზრისით

  1. მოდელის მასშტაბირება 6M-დან მილიარდზე მეტ პარამეტრამდე. 
  2. 2D ინიციალიზაცია ტექსტში ვიზუალური ზედამხედველობით თვითკონტროლირებადი სწავლა
  3. ტექსტური გამოსახულების სამიზნე მოდელის მასშტაბირება 150 მილიონიდან მილიარდზე მეტ პარამეტრამდე. 

Uni3D-ის მიერ შემოთავაზებული მოქნილი და ერთიანი ჩარჩოს მიხედვით, დეველოპერები აკვირდებიან შესრულების თანმიმდევრულ ზრდას, როდესაც საქმე ეხება თითოეული კომპონენტის სკალირებას. ფართომასშტაბიანი 3D წარმომადგენლობითი სწავლება ასევე დიდ სარგებელს მოაქვს გაზიარებული 2D და მასშტაბური სტრატეგიებიდან. 

როგორც ქვემოთ მოყვანილ ფიგურაში ჩანს, Uni3D ჩარჩო აჩვენებს შესრულების გაუმჯობესებას წინა ხელოვნებასთან შედარებით რამდენიმე და ნულოვანი დარტყმის პარამეტრებში. აღსანიშნავია, რომ Uni3D Framework აბრუნებს ნულოვანი დარტყმის კლასიფიკაციის სიზუსტის ქულას ModelNet-ზე 88%-ზე მეტი, რაც ემთხვევა ზედამხედველობის რამდენიმე უახლესი მეთოდის შესრულებას. 

გარდა ამისა, Uni3D ჩარჩო ასევე უზრუნველყოფს უმაღლესი დონის სიზუსტეს და შესრულებას სხვა წარმომადგენლობითი 3D ამოცანების შესრულებისას, როგორიცაა ნაწილის სეგმენტაცია და ღია სამყაროს გაგება. Uni3D ჩარჩო მიზნად ისახავს გადალახოს უფსკრული 2D ხედვასა და 3D ხედვას შორის 3D ფუნდამენტური მოდელების სკალირების გზით ერთიანი, მაგრამ მარტივი წინასწარი ტრენინგის მიდგომით, რათა გაიგოთ უფრო ძლიერი 3D წარმოდგენები ამოცანების ფართო სპექტრში, რაც საბოლოოდ შეიძლება დაეხმაროს 2D-ის კონვერგენციას. და 3D ხედვა მოდალობის ფართო სპექტრში.

Uni3D: დაკავშირებული სამუშაო

Uni3D ჩარჩო იღებს შთაგონებას და სწავლობს წინა 3D წარმომადგენლობითი სწავლების და ფუნდამენტური მოდელების განვითარებიდან, განსაკუთრებით სხვადასხვა მოდალობით. 

3D წარმოდგენის სწავლა

3D წარმოდგენის სწავლის მეთოდი იყენებს ღრუბლოვან წერტილებს ობიექტის 3D გაგებისთვის, და ეს ველი დეველოპერებმა ბევრს გამოიკვლიეს ახლო წარსულში და დაფიქსირდა, რომ ამ ღრუბლოვანი წერტილების წინასწარ მომზადება შესაძლებელია თვითმმართველობის მეთვალყურეობის ქვეშ, სპეციფიკური გამოყენებით. 3D საპრეტექსტის ამოცანები, მათ შორის ნიღბის წერტილის მოდელირება, თვითრეკონსტრუქცია და კონტრასტული სწავლება. 

აღსანიშნავია, რომ ეს მეთოდები მუშაობს შეზღუდული მონაცემებით და ისინი ხშირად არ იკვლევენ მულტიმოდალურ წარმოდგენებს 3D-ზე 2D ან NLP-დან. თუმცა, CLIP ჩარჩოს ბოლო წარმატება, რომელიც აბრუნებს მაღალ ეფექტურობას ვიზუალური ცნებების სწავლაში ნედლი ტექსტიდან კონტრასტული სწავლის მეთოდის გამოყენებით და შემდგომში ცდილობს ისწავლოს 3D წარმოდგენები გამოსახულების, ტექსტისა და ღრუბლოვანი წერტილის მახასიათებლების გასწორებით იმავე კონტრასტული სწავლის მეთოდის გამოყენებით. 

ფონდის მოდელები

დეველოპერები ამომწურავად მუშაობდნენ საძირკვლის მოდელების შემუშავებაზე, რათა გაზარდონ და გააერთიანონ მულტიმოდალური წარმოდგენები. მაგალითად, NLP დომენში, დეველოპერები მუშაობენ ჩარჩოებზე, რომლებსაც შეუძლიათ წინასწარ გაწვრთნილი ენის მოდელების მასშტაბირება და ეს ნელ-ნელა რევოლუციას ახდენს NLP ინდუსტრიაში. გარდა ამისა, წინსვლა შეიძლება შეინიშნოს 2D ხედვის დომენშიც, რადგან დეველოპერები მუშაობენ ჩარჩოებზე, რომლებიც იყენებენ მონაცემთა და მოდელის სკალირების ტექნიკას ენის 2D მოდელებამდე პროგრესის დასახმარებლად, თუმცა ასეთი ჩარჩოების გამეორება ძნელია 3D მოდელებისთვის. 3D მონაცემების შეზღუდული ხელმისაწვდომობა და 3D ჩარჩოების გაერთიანებისა და გაზრდისას წარმოქმნილი გამოწვევები. 

ზემოაღნიშნული ორი სამუშაო დომენიდან სწავლით, დეველოპერებმა შექმნეს Uni3D ჩარჩო, პირველი 3D საძირკვლის მოდელი მილიარდზე მეტი პარამეტრით, რომელიც იყენებს ერთიან ViT ან Vision Transformer არქიტექტურას, რომელიც დეველოპერებს საშუალებას აძლევს გააფართოვონ Uni3D მოდელი ერთიანი 3D ან NLP სტრატეგიების გამოყენებით მოდელების მასშტაბირების მიზნით. დეველოპერები იმედოვნებენ, რომ ეს მეთოდი საშუალებას მისცემს Uni3D ჩარჩოს გადალახოს უფსკრული, რომელიც ამჟამად ჰყოფს 2D და 3D ხედვას და ხელს შეუწყობს მულტიმოდალურ კონვერგენციას.

Uni3D: მეთოდი და არქიტექტურა

ზემოთ მოყვანილი სურათი გვიჩვენებს Uni3D ჩარჩოს ზოგად მიმოხილვას, მასშტაბირებადი და ერთიანი წინასწარი ტრენინგის 3D ჩარჩო ფართომასშტაბიანი 3D წარმოდგენის სწავლისთვის. დეველოპერები იყენებენ 70 მილიონზე მეტ ტექსტს და 10 მილიონ სურათს, რომლებიც დაწყვილებულია მილიონზე მეტ 3D ფორმებთან, რათა Uni3D ჩარჩო მილიარდზე მეტ პარამეტრამდე გაზარდონ. Uni3D Framework იყენებს 2D ViT-ს ან Vision Transformer-ს, როგორც 3D შიფრატორს, რომელიც შემდეგ ივარჯიშება ბოლომდე- ბოლომდე ტექსტური გამოსახულების მონაცემების 3D ღრუბლოვანი წერტილის მახასიათებლებთან გასწორების მიზნით, რაც საშუალებას აძლევს Uni3D ჩარჩოს მიაწოდოს სასურველი ეფექტურობა და სიზუსტე მთელს სივრცეში. კრიტერიუმების ფართო სპექტრი. მოდით ახლა დეტალურად გადავხედოთ Uni3D ჩარჩოს მუშაობას. 

Uni3D Framework-ის მასშტაბირება

ღრუბლოვანი წერტილების წარმოდგენის სწავლის შესახებ წინა კვლევები ტრადიციულად ფოკუსირებული იყო კონკრეტული მოდელის არქიტექტურის დიზაინზე, რომელიც უზრუნველყოფს უკეთეს შესრულებას აპლიკაციების ფართო სპექტრში და მუშაობს მონაცემთა შეზღუდულ რაოდენობაზე მცირე ზომის მონაცემთა ნაკრების წყალობით. თუმცა, ბოლოდროინდელმა კვლევებმა სცადა შეესწავლა მასშტაბური წინასწარი ვარჯიშის 3D-ში გამოყენების შესაძლებლობა, მაგრამ არ იყო მნიშვნელოვანი შედეგები შეზღუდული 3D მონაცემების ხელმისაწვდომობის გამო. 3D ჩარჩოების მასშტაბურობის პრობლემის გადასაჭრელად, Uni3D ჩარჩო იყენებს ვანილის სატრანსფორმატორო სტრუქტურის ძალას, რომელიც თითქმის ასახავს Vision Transformer-ს და შეუძლია გადაჭრას მასშტაბის პრობლემები ერთიანი 2D ან NLP მასშტაბირების სტრატეგიების გამოყენებით მოდელის ზომების გასაზომად. 

ღრუბლოვანი წერტილების წარმოდგენის სწავლის შესახებ წინა კვლევები ტრადიციულად ფოკუსირებული იყო კონკრეტული მოდელის არქიტექტურის დიზაინზე, რომელიც უზრუნველყოფს უკეთეს შესრულებას აპლიკაციების ფართო სპექტრში და მუშაობს მონაცემთა შეზღუდულ რაოდენობაზე მცირე ზომის მონაცემთა ნაკრების წყალობით. თუმცა, ბოლოდროინდელმა კვლევებმა სცადა შეესწავლა მასშტაბური წინასწარი ვარჯიშის 3D-ში გამოყენების შესაძლებლობა, მაგრამ არ იყო მნიშვნელოვანი შედეგები შეზღუდული 3D მონაცემების ხელმისაწვდომობის გამო. 3D ჩარჩოების მასშტაბურობის პრობლემის გადასაჭრელად, Uni3D ჩარჩო იყენებს ვანილის სატრანსფორმატორო სტრუქტურის ძალას, რომელიც თითქმის ასახავს Vision Transformer-ს და შეუძლია გადაჭრას მასშტაბის პრობლემები ერთიანი 2D ან NLP მასშტაბირების სტრატეგიების გამოყენებით მოდელის ზომების გასაზომად. 

Uni3D-ის ინიცირება

კიდევ ერთი მთავარი გამოწვევა, რომელსაც წააწყდა წინა სამუშაოები, რომლებიც დაკავშირებულია 3D წარმოდგენების სკალირებასთან, სირთულეებთან დაახლოებასთან და ზედმეტად მორგებასთან, რაც მოდელების დიდი ზომის შედეგი იყო. ამ დაბრკოლების დასაძლევად ეფექტური მიდგომაა ინდივიდუალური 3D ხერხემლის წინასწარ მომზადება 3D საპრეტექსტის ამოცანებით და წინასწარ მომზადებული პარამეტრების ინიციალიზაცია. თუმცა, მიდგომას თან ახლავს ტრენინგის მაღალი ხარჯები და ასევე რთულია ჯვარედინი მოდალური სწავლებისთვის ძლიერი ინიციალიზაციის დადგენა, 3D მონაცემების შეზღუდული რაოდენობის გამო, რომელიც ხელმისაწვდომია სასწავლო მიზნებისთვის. 

Uni3D ჩარჩო იყენებს ვანილის ტრანსფორმატორს, რომლის სტრუქტურა ძალიან ჰგავს ViT-ს. ამ მიდგომით, Uni3D ჩარჩოს ბუნებრივია შეუძლია მიიღოს წინასწარ მომზადებული დიდი მოდელები სხვა მოდალობებით Uni3D ჩარჩოს ინიციალიზაციისთვის. 

მრავალმოდალური გასწორება

Uni3D Framework ცდილობს ისწავლოს მრავალ მოდელის გასწორება გამოსახულების, ენისა და წერტილის ღრუბლებში OpenShape-ისა და ULIP ჩარჩოების მსგავსი პარადიგმების გამოყენებით. გარდა ამისა, სხვა მეთოდებთან სამართლიანი შედარების უზრუნველსაყოფად, Uni3D ჩარჩო იყენებს OpenShape-ის მიერ შედგენილ 3D მონაცემთა ბაზას სასწავლო მიზნებისთვის. OpenShape-ის ეს ანსამბლური მონაცემთა ნაკრები შედგება 4 3D მონაცემთა ნაკრებისგან: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-მომავალი. 
  4. ABO. 

ექსპერიმენტები და შედეგები

Uni3D ჩარჩო ტესტირება ხდება სხვადასხვა პარამეტრებში და სხვადასხვა კლასიფიკაციის ამოცანებში, მათ შორის მისი შესრულება ნულოვანი სროლის და რამდენიმე დარტყმის პარამეტრებში, შედეგები ღია სამყაროს გაგების გარშემო და სხვა. მოდით დეტალურად განვიხილოთ ეს შედეგები.

ნულოვანი გასროლის ფორმის კლასიფიკაცია

Uni3D ჩარჩოს მუშაობის შესაფასებლად ნულოვანი სროლის ფორმის კლასიფიკაციის ამოცანებში, დეველოპერები ატარებენ ექსპერიმენტებს სამ ეტალონზე, მათ შორის ModelNet, ScanObjNN და Objaverse-LVIS საორიენტაციო მონაცემთა ნაკრები. ModelNet და ScanObjNN არის მონაცემთა ნაკრები, რომელიც ფართოდ გამოიყენება კლასიფიკაციის ამოცანებისთვის და ისინი შედგება შესაბამისად 15 და 40 ობიექტის კატეგორიისგან, ხოლო Objaverse-LVIS ბენჩმარკი არის გასუფთავებული და ანოტირებული მონაცემთა ნაკრები, რომელიც შედგება 40,000-ზე მეტი ობიექტისგან 1,100+ კატეგორიაში. ჩარჩოებს შორის შედარება ნაჩვენებია ქვემოთ მოცემულ სურათზე და, როგორც ჩანს, Uni3D ფრეიმვეირი მნიშვნელოვნად აღემატება წინა თანამედროვე ჩარჩოებს სხვადასხვა პარამეტრებში. 

რამდენიმე დარტყმის ხაზოვანი ზონდირება

AI-ში, Linear Probing არის ჩვეულებრივი მეთოდი, რომელიც გამოიყენება იმ წარმოდგენის შესაფასებლად, რომელსაც ფრეიმიკა ან მოდელი სწავლობს. Uni3D-ის ხაზოვანი გამოკვლევის უნარის შესაფასებლად, დეველოპერები ყინავენ Uni3D ჩარჩოს პარამეტრებს საერთო პარამეტრების გამოყენებით, როგორც OpenShape. ამის შემდეგ, დეველოპერები ამზადებენ ხაზოვან კლასიფიკატორს Uni3D-სთვის რამდენიმე დარტყმის კლასის ეტიკეტების გამოყენებით. ქვემოთ მოყვანილი ფიგურა გვიჩვენებს Objaverse-LVIS მონაცემთა ბაზაზე სხვადასხვა ჩარჩოების წრფივი გამოკვლევის უნარს და აჩვენებს მოდელის საშუალო ეფექტურობას 10 შემთხვევით ნათესში. როგორც ხედავთ, Uni3D ჩარჩო მნიშვნელოვნად აჭარბებს არსებულ მეთოდებს სხვადასხვა რამდენიმე დარტყმის პარამეტრებში. 

ღია სამყაროს გაგება

Uni3D ჩარჩოს შესაძლებლობების შესაფასებლად რეალურ დროში არსებული ფორმებისა და ობიექტების გასაგებად, დეველოპერები იყენებენ ScanNet და CLIP მონაცემთა ნაკრებებს Uni3D-ის მუშაობის შესასწავლად. აღსანიშნავია, რომ მიწისქვეშა ჭეშმარიტების მყისიერი სეგმენტაცია ხელმისაწვდომია და მთავარი მოტივი არის თითოეული სცენის ინდივიდუალური მომენტის კატეგორიის ამოცნობა ნულოვანი კადრის პირობებში. შედეგები ნაჩვენებია ქვემოთ მოცემულ სურათზე. როგორც ხედავთ, Uni3D ჩარჩო იძლევა განსაკუთრებულ შედეგებს რეალურ სამყაროში გაგებისა და ამოცნობის შესრულებისას. Uni3D Framework აჯობებს არსებულ ჩარჩოებს მნიშვნელოვანი ზღვრით, მიუხედავად იმისა, რომ არასოდეს სწავლობს რეალურ სამყაროს მონაცემთა ნაკრებებზე. 

Cross-Modal Retrieval

Uni3D ჩარჩოს მიერ ნასწავლი მრავალმოდალური გამოსახულებები საშუალებას აძლევს ჩარჩოს, ბუნებრივად მოიპოვოს 3D ფორმები ტექსტებიდან ან სურათებიდან. 3D ფორმების მოსაპოვებლად, მოდელი ითვლის კოსინუსების მსგავსებას 3D ფორმების ჩაშენებასა და შეკითხვის ტექსტის მოთხოვნის ან მოთხოვნის გამოსახულების ჩაშენებებს შორის. შემდეგ ჩარჩო იყენებს KNN ან K უახლოეს მეზობელ ალგორითმს 3D ფორმების გენერირებისთვის, რომლებიც ყველაზე მეტად წააგავს მოთხოვნას და შედეგები ნაჩვენებია ქვემოთ მოცემულ ფიგურაში. როგორც ხედავთ, Uni3D ჩარჩო წარმატებით იყენებს რეალურ სამყაროს სურათებს 3D ფორმების მისაღებად. გარდა ამისა, აღსანიშნავია, რომ ტრენინგის სურათები მხოლოდ რენდერის მიზნებისთვისაა და რეალურ სამყაროსა და სასწავლო სურათებს შორის უფსკრული არსებითია. გარდა ამისა, მოდელი ასევე იღებს ორ შეყვანილ სურათს და იბრუნებს ორივე შეყვანის გამოსახულების მსგავს ფორმებს ორივე გამოსახულების ჩადგმის საშუალოსა და მათ ჩაშენებულ 3D ფორმებს შორის კოსინუსური მსგავსების გამოყენებით. შედეგები საინტერესოა, რადგან ისინი აჩვენებენ Uni3D-ის უნარს ისწავლოს მრავალფეროვანი 3D წარმოდგენები და აღიქვას მრავალი 2D სიგნალი. 

პირველ სვეტში ჩარჩო იყენებს 2 მოთხოვნის სურათს, რათა დააბრუნოს 3D ფორმები, რომლებიც ყველაზე მეტად ჰგავს მოთხოვნის სურათებს. მეორე სვეტში ჩარჩო იყენებს ორ შეყვანის სურათს 3D ფორმების მოსაძიებლად, რომლებიც ორივე შეყვანის სურათს ჰგავს. ბოლოს, ბოლო სვეტში, მოდელი იყენებს მოთხოვნის ტექსტებს და აბრუნებს 3D ფორმებს, რომლებიც მაქსიმალურად წააგავს ტექსტურ მოთხოვნას. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ Uni3D-ზე, მასშტაბირებად და ერთიან წინასწარ ტრენინგზე 3D ჩარჩოზე, რომელიც შემუშავებულია ფართომასშტაბიანი 3D წარმოდგენების შესასწავლად, რომელიც ამოწმებს მის საზღვრებს მილიარდზე მეტი პარამეტრის მასშტაბით, 10 მილიონზე მეტ სურათზე დაწყვილებული 70 მილიონზე მეტზე. ტექსტები და მილიონზე მეტი 3D ფორმა. ჩარჩოს შემქმნელებმა შეიტანეს ვანილის ტრანსფორმატორი მისი სტრუქტურით, რომელიც ექვივალენტურია ViT-ებისთვის, რაც მათ საშუალებას აძლევს გააფართოვონ Uni3D ჩარჩო ერთიანი 2D ან NLP სკალირების სტრატეგიების გამოყენებით. გარდა ამისა, Uni3D ჩარჩოს შეუძლია გამოიყენოს წინასწარ მომზადებული 2D ჩარჩოების ფართო სპექტრი და 2D სტრატეგიები 3D სამყაროში. ექსპერიმენტულმა შედეგებმა უკვე აჩვენა Uni3D ჩარჩოს უზარმაზარი პოტენციალი, რადგან Uni3D Framework აბრუნებს ზუსტ და ეფექტურ შედეგებს პარამეტრების ფართო სპექტრში და აჭარბებს არსებულ უახლესი ჩარჩოებს. 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.