στέλεχος Uni3D: Εξερεύνηση ενοποιημένης 3D αναπαράστασης σε κλίμακα - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Uni3D: Εξερεύνηση ενοποιημένης 3D αναπαράστασης σε κλίμακα

mm
Ενημερώθηκε on

Η κλιμάκωση των αναπαραστάσεων του κειμένου και των εικαστικών εικόνων αποτελεί κύριο επίκεντρο της έρευνας τα τελευταία χρόνια. Οι εξελίξεις και οι έρευνες που έγιναν στο πρόσφατο παρελθόν έχουν οδηγήσει σε πολυάριθμες επαναστάσεις στην εκμάθηση γλωσσών και το όραμα. Ωστόσο, παρά τη δημοτικότητα της κλιμάκωσης του κειμένου και των οπτικών αναπαραστάσεων, η κλιμάκωση των αναπαραστάσεων για τρισδιάστατες σκηνές και αντικείμενα δεν έχει συζητηθεί επαρκώς.

Σήμερα, θα συζητήσουμε το Uni3D, ένα τρισδιάστατο μοντέλο θεμελίωσης που στοχεύει να εξερευνήσει ενοποιημένες 3D αναπαραστάσεις. Το πλαίσιο Uni3D χρησιμοποιεί ένα διδιάστατο αρχικοποιημένο πλαίσιο ViT, προεκπαιδευμένο από άκρο σε άκρο, για την ευθυγράμμιση των χαρακτηριστικών εικόνας κειμένου με τις αντίστοιχες λειτουργίες σύννεφο σημείων 3D.

Το πλαίσιο Uni3D χρησιμοποιεί εργασίες προσχήματος και μια απλή αρχιτεκτονική για να αξιοποιήσει την αφθονία προεκπαιδευμένων μοντέλων 2D και μοντέλων ευθυγραμμισμένων με κείμενο εικόνας ως αρχικοποιήσεις και στόχους, αντίστοιχα. Αυτή η προσέγγιση απελευθερώνει το πλήρες δυναμικό των μοντέλων 2D και των στρατηγικών για την κλιμάκωση τους στον τρισδιάστατο κόσμο.

Σε αυτό το άρθρο, θα εμβαθύνουμε στο 3D όραση υπολογιστή και το πλαίσιο Uni3D, διερευνώντας τις βασικές έννοιες και την αρχιτεκτονική του μοντέλου. Λοιπόν, ας ξεκινήσουμε.

Uni3D και 3D Representation Learning: Μια εισαγωγή

Τα τελευταία χρόνια, η όραση υπολογιστών έχει αναδειχθεί ως ένας από τους τομείς με τις περισσότερες επενδύσεις στον κλάδο της τεχνητής νοημοσύνης. Μετά από σημαντικές προόδους στα πλαίσια όρασης υπολογιστών 2D, οι προγραμματιστές έχουν μετατοπίσει την εστίασή τους στην τρισδιάστατη όραση υπολογιστών. Αυτό το πεδίο, ιδιαίτερα η εκμάθηση 3D αναπαράστασης, συγχωνεύει πτυχές των γραφικών υπολογιστών, μάθηση μηχανής, όραση υπολογιστή και μαθηματικά για την αυτοματοποίηση της επεξεργασίας και της κατανόησης της τρισδιάστατης γεωμετρίας. Η ταχεία ανάπτυξη τρισδιάστατων αισθητήρων όπως το LiDAR, μαζί με τις ευρέως διαδεδομένες εφαρμογές τους στη βιομηχανία AR/VR, είχε ως αποτέλεσμα η εκμάθηση της 3D αναπαράστασης να κερδίζει αυξημένη προσοχή. Οι πιθανές εφαρμογές του συνεχίζουν να αυξάνονται καθημερινά.

Παρόλο που τα υπάρχοντα πλαίσια έχουν δείξει αξιοσημείωτη πρόοδο στην αρχιτεκτονική τρισδιάστατων μοντέλων, στη μοντελοποίηση προσανατολισμένη στην εργασία και στους μαθησιακούς στόχους, τα περισσότερα εξερευνούν την αρχιτεκτονική 3D σε σχετικά μικρή κλίμακα με περιορισμένα δεδομένα, παραμέτρους και σενάρια εργασιών. Η πρόκληση της εκμάθησης κλιμακούμενων 3D αναπαραστάσεων, οι οποίες μπορούν στη συνέχεια να εφαρμοστούν σε εφαρμογές σε πραγματικό χρόνο σε διαφορετικά περιβάλλοντα, παραμένει σε μεγάλο βαθμό ανεξερεύνητη.

Προχωρώντας, τα τελευταία χρόνια, κλιμακώνοντας μεγάλα γλωσσικά μοντέλα που είναι προεκπαιδευμένα βοήθησαν στην επανάσταση του επεξεργασία φυσικής γλώσσας τομέα και πρόσφατες εργασίες υποδεικνύουν μια μετάφραση σε εξέλιξη σε 2D από τη γλώσσα με χρήση δεδομένων και κλιμάκωσης μοντέλων, η οποία ανοίγει τον δρόμο για τους προγραμματιστές να δοκιμάσουν και να ξαναεπιχειρήσουν αυτήν την επιτυχία να μάθουν μια τρισδιάστατη αναπαράσταση που μπορεί να κλιμακωθεί και να μεταφερθεί σε εφαρμογές στον πραγματικό κόσμο. 

Το Uni3D είναι ένα επεκτάσιμο και ενοποιημένο πλαίσιο προεκπαίδευσης 3D που αναπτύχθηκε με στόχο την εκμάθηση τρισδιάστατων αναπαραστάσεων μεγάλης κλίμακας που δοκιμάζει τα όριά του σε κλίμακα άνω του ενός δισεκατομμυρίου παραμέτρων, πάνω από 3 εκατομμύρια εικόνες σε συνδυασμό με περισσότερα από 10 εκατομμύρια κείμενα και πάνω από ένα εκατομμύριο τρισδιάστατα σχήματα . Το παρακάτω σχήμα συγκρίνει την ακρίβεια μηδενικής λήψης με παραμέτρους στο πλαίσιο Uni70D. Το πλαίσιο Uni3D κλιμακώνει με επιτυχία τις τρισδιάστατες αναπαραστάσεις από 3 εκατομμύρια σε πάνω από ένα δισεκατομμύριο. 

Το πλαίσιο Uni3D αποτελείται από ένα 2D ViT ή Μετασχηματιστής όρασης ως ο κωδικοποιητής 3D που στη συνέχεια είναι προεκπαιδευμένος από άκρο σε άκρο για την ευθυγράμμιση των χαρακτηριστικών ευθυγράμμισης εικόνας-κειμένου με τις λειτουργίες του νέφους σημείων 3D. Το πλαίσιο Uni3D χρησιμοποιεί εργασίες προσχήματος και απλή αρχιτεκτονική για να αξιοποιήσει την πληθώρα προεκπαιδευμένων μοντέλων 2D και μοντέλων ευθυγραμμισμένων με κείμενο εικόνας ως αρχικοποίηση και στόχους αντίστοιχα, απελευθερώνοντας έτσι το πλήρες δυναμικό των μοντέλων 2D και στρατηγικές για την κλιμάκωση τους στον τρισδιάστατο κόσμο. Η ευελιξία και η επεκτασιμότητα του πλαισίου Uni3D μετριέται σε όρους

  1. Κλιμάκωση του μοντέλου από 6M σε πάνω από ένα δισεκατομμύριο παραμέτρους. 
  2. Δισδιάστατη προετοιμασία σε κείμενο με επίβλεψη από οπτικό αυτο-εποπτευόμενη μάθηση
  3. Μοντέλο στόχου κειμένου-εικόνας που κλιμακώνεται από 150 εκατομμύρια σε πάνω από ένα δισεκατομμύριο παραμέτρους. 

Κάτω από το ευέλικτο και ενοποιημένο πλαίσιο που προσφέρει το Uni3D, οι προγραμματιστές παρατηρούν μια συνεκτική ώθηση στην απόδοση όταν πρόκειται για την κλιμάκωση κάθε στοιχείου. Η εκμάθηση τρισδιάστατης αναπαράστασης μεγάλης κλίμακας επωφελείται επίσης απίστευτα από τις κοινοποιήσιμες στρατηγικές 3D και κλιμάκωσης. 

Όπως φαίνεται στο παρακάτω σχήμα, το πλαίσιο Uni3D εμφανίζει μια ώθηση στην απόδοση σε σύγκριση με την προηγούμενη τεχνολογία σε ρυθμίσεις λίγων λήψεων και μηδενικών λήψεων. Αξίζει να σημειωθεί ότι το πλαίσιο Uni3D επιστρέφει βαθμολογία ακρίβειας ταξινόμησης μηδενικής λήψης πάνω από 88% στο ModelNet, η οποία είναι ισοδύναμη με την απόδοση αρκετών μεθόδων εποπτείας τελευταίας τεχνολογίας. 

Επιπλέον, το πλαίσιο Uni3D προσφέρει επίσης κορυφαία ακρίβεια και απόδοση κατά την εκτέλεση άλλων αντιπροσωπευτικών εργασιών 3D, όπως η τμηματοποίηση μερών και η κατανόηση ανοιχτού κόσμου. Το πλαίσιο Uni3D στοχεύει να γεφυρώσει το χάσμα μεταξύ 2D όρασης και 3D όρασης κλιμακώνοντας τα βασικά μοντέλα 3D με μια ενοποιημένη αλλά απλή προσέγγιση προεκπαίδευσης για να μάθετε πιο ισχυρές 3D αναπαραστάσεις σε ένα ευρύ φάσμα εργασιών, που θα μπορούσαν τελικά να βοηθήσουν στη σύγκλιση του 2D και τρισδιάστατη όραση σε ένα ευρύ φάσμα τρόπων.

Uni3D : Σχετική εργασία

Το πλαίσιο Uni3D αντλεί έμπνευση και μαθαίνει από τις εξελίξεις που έγιναν από την προηγούμενη εκμάθηση τρισδιάστατης αναπαράστασης και τα θεμελιώδη μοντέλα, ειδικά κάτω από διαφορετικές μεθόδους. 

Εκμάθηση 3D αναπαράστασης

Η μέθοδος εκμάθησης τρισδιάστατης αναπαράστασης χρησιμοποιεί σημεία νέφους για την τρισδιάστατη κατανόηση του αντικειμένου, και αυτό το πεδίο έχει διερευνηθεί πολύ από προγραμματιστές στο πρόσφατο παρελθόν, και έχει παρατηρηθεί ότι αυτά τα σημεία νέφους μπορούν να προεκπαιδευτούν υπό αυτο-επίβλεψη χρησιμοποιώντας συγκεκριμένες Εργασίες 3D προσχήματος, όπως μοντελοποίηση σημείου μάσκας, αυτο-ανασυγκρότηση και αντιθετική μάθηση. 

Αξίζει να σημειωθεί ότι αυτές οι μέθοδοι λειτουργούν με περιορισμένα δεδομένα και συχνά δεν διερευνούν πολυτροπικές αναπαραστάσεις σε 3D από 2D ή NLP. Ωστόσο, η πρόσφατη επιτυχία του πλαισίου CLIP που επιστρέφει υψηλή αποτελεσματικότητα στην εκμάθηση οπτικών εννοιών από ακατέργαστο κείμενο χρησιμοποιώντας τη μέθοδο αντιθετικής μάθησης και περαιτέρω επιδιώκει να μάθει τρισδιάστατες αναπαραστάσεις ευθυγραμμίζοντας χαρακτηριστικά εικόνας, κειμένου και σημείου νέφους χρησιμοποιώντας την ίδια μέθοδο αντιθετικής μάθησης. 

Μοντέλα θεμελίωσης

Οι προγραμματιστές εργάζονται εξαντλητικά για το σχεδιασμό μοντέλων θεμελίων για την κλιμάκωση και την ενοποίηση πολυτροπικών αναπαραστάσεων. Για παράδειγμα, στον τομέα του NLP, οι προγραμματιστές εργάζονται σε πλαίσια που μπορούν να κλιμακώσουν τα προεκπαιδευμένα μοντέλα γλώσσας και φέρνουν σιγά σιγά επανάσταση στον κλάδο του NLP. Επιπλέον, μπορούν να παρατηρηθούν πρόοδοι στον τομέα της 2D όρασης, καθώς οι προγραμματιστές εργάζονται σε πλαίσια που χρησιμοποιούν τεχνικές κλίμακας δεδομένων και μοντέλων για να βοηθήσουν στην πρόοδο της γλώσσας σε μοντέλα 2D, αν και τέτοια πλαίσια είναι δύσκολο να αναπαραχθούν για μοντέλα 3D λόγω περιορισμένη διαθεσιμότητα τρισδιάστατων δεδομένων και τις προκλήσεις που συναντώνται κατά την ενοποίηση και την κλιμάκωση των τρισδιάστατων πλαισίων. 

Μαθαίνοντας από τους δύο παραπάνω τομείς εργασίας, οι προγραμματιστές έχουν δημιουργήσει το πλαίσιο Uni3D, το πρώτο τρισδιάστατο μοντέλο θεμελίωσης με περισσότερες από ένα δισεκατομμύριο παραμέτρους που χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική ViT ή Vision Transformer που επιτρέπει στους προγραμματιστές να κλιμακώσουν το μοντέλο Uni3D χρησιμοποιώντας ενοποιημένες στρατηγικές 3D ή NLP για την κλιμάκωση των μοντέλων. Οι προγραμματιστές ελπίζουν ότι αυτή η μέθοδος θα επιτρέψει στο πλαίσιο Uni3D να γεφυρώσει το χάσμα που χωρίζει επί του παρόντος την όραση 3D και 2D μαζί με τη διευκόλυνση της πολυτροπικής σύγκλισης

Uni3D : Μέθοδος και Αρχιτεκτονική

Η παραπάνω εικόνα δείχνει τη γενική επισκόπηση του πλαισίου Uni3D, ένα επεκτάσιμο και ενοποιημένο τρισδιάστατο πλαίσιο προεκπαίδευσης για εκμάθηση τρισδιάστατης αναπαράστασης μεγάλης κλίμακας. Οι προγραμματιστές χρησιμοποιούν πάνω από 3 εκατομμύρια κείμενα και 3 εκατομμύρια εικόνες σε συνδυασμό με πάνω από ένα εκατομμύριο τρισδιάστατα σχήματα για να κλιμακώσουν το πλαίσιο Uni70D σε πάνω από ένα δισεκατομμύριο παραμέτρους. Το πλαίσιο Uni10D χρησιμοποιεί ένα 3D ViT ή Vision Transformer ως 3D κωδικοποιητή που στη συνέχεια εκπαιδεύεται από άκρο σε άκρο για να ευθυγραμμίζει τα δεδομένα κειμένου-εικόνας με τις λειτουργίες του σημείου νέφους 3D, επιτρέποντας στο πλαίσιο Uni2D να προσφέρει την επιθυμητή απόδοση και ακρίβεια σε ένα ευρύ φάσμα σημείων αναφοράς. Ας ρίξουμε τώρα μια λεπτομερή ματιά στη λειτουργία του πλαισίου Uni3D. 

Κλιμάκωση του Uni3D Framework

Προηγούμενες μελέτες για την εκμάθηση αναπαράστασης σημείων νέφους παραδοσιακά επικεντρώθηκαν σε μεγάλο βαθμό στο σχεδιασμό συγκεκριμένων αρχιτεκτονικών μοντέλων που παρέχουν καλύτερη απόδοση σε ένα ευρύ φάσμα εφαρμογών και εργάζονται σε περιορισμένο αριθμό δεδομένων χάρη σε σύνολα δεδομένων μικρής κλίμακας. Ωστόσο, πρόσφατες μελέτες προσπάθησαν να διερευνήσουν τη δυνατότητα χρήσης κλιμακούμενης προ-εκπαίδευσης σε 3D, αλλά δεν υπήρξαν σημαντικά αποτελέσματα χάρη στη διαθεσιμότητα περιορισμένων δεδομένων 3D. Για την επίλυση του προβλήματος επεκτασιμότητας των πλαισίων 3D, το πλαίσιο Uni3D αξιοποιεί τη δύναμη μιας δομής μετασχηματιστή βανίλιας που αντικατοπτρίζει σχεδόν ένα Vision Transformer και μπορεί να λύσει τα προβλήματα κλιμάκωσης χρησιμοποιώντας ενοποιημένες στρατηγικές κλιμάκωσης 2D ή NLP για να κλιμακώσει το μέγεθος του μοντέλου. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Πειράματα και Αποτελέσματα

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Τελικές Σκέψεις

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.