Stummel Uni3D: Erforschung einer einheitlichen 3D-Darstellung im Maßstab – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Uni3D: Erforschung einer einheitlichen 3D-Darstellung im Maßstab

mm
Aktualisiert on

Die Vergrößerung der Darstellung von Texten und Bildern war in den letzten Jahren ein Hauptschwerpunkt der Forschung. Die in der jüngeren Vergangenheit durchgeführten Entwicklungen und Forschungen haben zu zahlreichen Revolutionen im Sprachenlernen und -sehen geführt. Trotz der Beliebtheit der Skalierung von Texten und visuellen Darstellungen wurde die Skalierung von Darstellungen für 3D-Szenen und -Objekte jedoch nicht ausreichend diskutiert.

Heute besprechen wir Uni3D, ein 3D-Grundlagenmodell, das darauf abzielt, einheitliche 3D-Darstellungen zu erforschen. Das Uni3D-Framework verwendet ein 2D-initialisiertes ViT-Framework, das Ende-zu-Ende vorab trainiert wurde, um Bild-Text-Features mit ihren entsprechenden 3D-Punktwolken-Features auszurichten.

Das Uni3D-Framework nutzt Vorwandaufgaben und eine einfache Architektur, um die Fülle an vorab trainierten 2D-Modellen und Bild-Text-ausgerichteten Modellen als Initialisierungen bzw. Ziele zu nutzen. Dieser Ansatz setzt das volle Potenzial von 2D-Modellen und Strategien für deren Skalierung in die 3D-Welt frei.

In diesem Artikel werden wir uns eingehender mit 3D befassen Computer Vision und das Uni3D-Framework, wobei die wesentlichen Konzepte und die Architektur des Modells untersucht werden. Also, fangen wir an.

Uni3D und 3D-Repräsentationslernen: Eine Einführung

In den letzten Jahren hat sich Computer Vision zu einem der am stärksten investierten Bereiche in der KI-Branche entwickelt. Nach bedeutenden Fortschritten bei 2D-Computer-Vision-Frameworks haben Entwickler ihren Fokus auf 3D-Computer-Vision verlagert. Dieses Gebiet, insbesondere das Lernen der 3D-Darstellung, vereint Aspekte der Computergrafik, Maschinelles Lernen, Computer Vision und Mathematik, um die Verarbeitung und das Verständnis der 3D-Geometrie zu automatisieren. Die rasante Entwicklung von 3D-Sensoren wie LiDAR und ihre weit verbreiteten Anwendungen in der AR/VR-Branche haben dazu geführt, dass das Lernen von 3D-Darstellungen zunehmend an Bedeutung gewonnen hat. Seine potenziellen Anwendungen nehmen täglich zu.

Obwohl bestehende Frameworks bemerkenswerte Fortschritte in der 3D-Modellarchitektur, der aufgabenorientierten Modellierung und den Lernzielen gezeigt haben, untersuchen die meisten die 3D-Architektur in relativ kleinem Maßstab mit begrenzten Daten, Parametern und Aufgabenszenarien. Die Herausforderung, skalierbare 3D-Darstellungen zu erlernen, die dann auf Echtzeitanwendungen in verschiedenen Umgebungen angewendet werden können, bleibt weitgehend unerforscht.

In den letzten Jahren kam es zu einer Skalierung große Sprachmodelle die vorab trainiert sind, haben zur Revolutionierung beigetragen Verarbeitung natürlicher Sprache Domäne, und neuere Arbeiten deuten darauf hin, dass der Fortschritt von der Sprache mithilfe von Daten und Modellskalierung auf 2D übertragen wird, was Entwicklern die Möglichkeit gibt, diesen Erfolg erneut zu versuchen, um eine 3D-Darstellung zu erlernen, die skaliert und auf Anwendungen in der realen Welt übertragen werden kann. 

Uni3D ist ein skalierbares und einheitliches 3D-Framework vor dem Training, das mit dem Ziel entwickelt wurde, großformatige 3D-Darstellungen zu erlernen, das seine Grenzen im Maßstab von über einer Milliarde Parametern, über 10 Millionen Bildern gepaart mit über 70 Millionen Texten und über einer Million 3D-Formen austestet . Die folgende Abbildung vergleicht die Nullschussgenauigkeit mit Parametern im Uni3D-Framework. Das Uni3D-Framework skaliert erfolgreich 3D-Darstellungen von 6 Millionen auf über eine Milliarde. 

Das Uni3D-Framework besteht aus einem 2D-ViT bzw Vision Transformator als 3D-Encoder, der dann Ende-zu-Ende vorab trainiert wird, um die Bild-Text-ausgerichteten Features an den 3D-Punktwolken-Features auszurichten. Das Uni3D-Framework nutzt Vorwandaufgaben und einfache Architektur, um die Fülle vorab trainierter 2D-Modelle und an Bildtext ausgerichteter Modelle als Initialisierung bzw. Ziele zu nutzen und so das volle Potenzial von 2D-Modellen und Strategien für deren Skalierung in die 3D-Welt freizusetzen. Die Flexibilität und Skalierbarkeit des Uni3D-Frameworks wird anhand von gemessen

  1. Skalieren des Modells von 6 Millionen bis über eine Milliarde Parameter. 
  2. 2D-Initialisierung für Text, überwacht von visueller Seite selbstüberwachtes Lernen
  3. Skalierung des Text-Bild-Zielmodells von 150 Millionen auf über eine Milliarde Parameter. 

Unter dem flexiblen und einheitlichen Framework von Uni3D beobachten Entwickler eine kohärente Leistungssteigerung bei der Skalierung jeder Komponente. Das groß angelegte 3D-Darstellungslernen profitiert auch immens von den gemeinsam nutzbaren 2D- und Scale-up-Strategien. 

Wie in der Abbildung unten zu sehen ist, zeigt das Uni3D-Framework im Vergleich zum Stand der Technik eine Leistungssteigerung in den Einstellungen „Wenige Schüsse“ und „Zero Shots“. Es ist erwähnenswert, dass das Uni3D-Framework auf ModelNet eine Zero-Shot-Klassifizierungsgenauigkeit von über 88 % zurückgibt, was der Leistung mehrerer hochmoderner Überwachungsmethoden entspricht. 

Darüber hinaus bietet das Uni3D-Framework auch erstklassige Genauigkeit und Leistung bei der Durchführung anderer repräsentativer 3D-Aufgaben wie der Teilesegmentierung und dem Verständnis der offenen Welt. Das Uni3D-Framework zielt darauf ab, die Lücke zwischen 2D-Vision und 3D-Vision zu schließen, indem es grundlegende 3D-Modelle mit einem einheitlichen, aber einfachen Vortrainingsansatz skaliert, um robustere 3D-Darstellungen für ein breites Spektrum von Aufgaben zu erlernen, was letztendlich zur Konvergenz von 2D beitragen könnte und 3D-Vision über eine breite Palette von Modalitäten.

Uni3D: Verwandte Arbeit

Das Uni3D-Framework lässt sich inspirieren und lernt von den Entwicklungen früherer 3D-Darstellungslern- und Grundlagenmodelle, insbesondere unter verschiedenen Modalitäten. 

3D-Darstellungslernen

Die Lernmethode für die 3D-Darstellung verwendet Wolkenpunkte für das 3D-Verständnis des Objekts. Dieses Gebiet wurde in der jüngeren Vergangenheit von Entwicklern intensiv erforscht und es wurde beobachtet, dass diese Wolkenpunkte unter Selbstüberwachung mithilfe spezifischer Methoden vorab trainiert werden können 3D-Vorwandaufgaben, einschließlich Maskenpunktmodellierung, Selbstrekonstruktion und kontrastives Lernen. 

Es ist erwähnenswert, dass diese Methoden mit begrenzten Daten funktionieren und häufig keine multimodalen Darstellungen von 3D oder NLP in 2D untersuchen. Der jüngste Erfolg des CLIP-Frameworks zeigt jedoch eine hohe Effizienz beim Erlernen visueller Konzepte aus Rohtext mithilfe der kontrastiven Lernmethode und versucht darüber hinaus, 3D-Darstellungen durch Ausrichten von Bild-, Text- und Wolkenpunktmerkmalen mithilfe derselben kontrastiven Lernmethode zu lernen. 

Fundamentmodelle

Entwickler haben intensiv an der Gestaltung von Basismodellen gearbeitet, um multimodale Darstellungen zu skalieren und zu vereinheitlichen. Im NLP-Bereich haben Entwickler beispielsweise an Frameworks gearbeitet, die vorab trainierte Sprachmodelle skalieren können, und dies revolutioniert langsam die NLP-Branche. Darüber hinaus sind auch im 2D-Vision-Bereich Fortschritte zu beobachten, da Entwickler an Frameworks arbeiten, die Daten- und Modellskalierungstechniken verwenden, um den Fortschritt der Sprache zu 2D-Modellen zu unterstützen, obwohl solche Frameworks aufgrund der schwierigen Replikation für 3D-Modelle schwierig sind begrenzte Verfügbarkeit von 3D-Daten und die Herausforderungen bei der Vereinheitlichung und Skalierung der 3D-Frameworks. 

Durch das Lernen aus den beiden oben genannten Arbeitsbereichen haben Entwickler etwas geschaffen das Uni3D-Framework, das erste 3D-Basismodell mit über einer Milliarde Parametern, das eine einheitliche ViT- oder Vision Transformer-Architektur nutzt, die es Entwicklern ermöglicht, das Uni3D-Modell mithilfe einheitlicher 3D- oder NLP-Strategien zur Skalierung der Modelle zu skalieren. Die Entwickler hoffen, dass diese Methode es dem Uni3D-Framework ermöglichen wird, die Lücke zu schließen, die derzeit zwischen 2D- und 3D-Vision besteht, und gleichzeitig die multimodale Konvergenz zu erleichtern

Uni3D: Methode und Architektur

Das obige Bild zeigt den allgemeinen Überblick über das Uni3D-Framework, ein skalierbares und einheitliches 3D-Framework vor dem Training für das Lernen von 3D-Darstellungen in großem Maßstab. Entwickler nutzen über 70 Millionen Texte und 10 Millionen Bilder gepaart mit über einer Million 3D-Formen, um das Uni3D-Framework auf über eine Milliarde Parameter zu skalieren. Das Uni3D-Framework verwendet einen 2D-ViT- oder Vision-Transformer als 3D-Encoder, der dann durchgängig trainiert wird, um die Text-Bild-Daten an den 3D-Cloud-Point-Features auszurichten, sodass das Uni3D-Framework die gewünschte Effizienz und Genauigkeit über einen Zeitraum hinweg liefern kann große Auswahl an Benchmarks. Werfen wir nun einen detaillierten Blick auf die Funktionsweise des Uni3D-Frameworks. 

Skalieren des Uni3D Frameworks

Frühere Studien zum Lernen der Wolkenpunktdarstellung konzentrierten sich traditionell stark auf den Entwurf bestimmter Modellarchitekturen, die eine bessere Leistung in einem breiten Spektrum von Anwendungen bieten und dank kleiner Datensätze mit einer begrenzten Datenmenge arbeiten. In neueren Studien wurde jedoch versucht, die Möglichkeit der Verwendung eines skalierbaren Vortrainings in 3D zu untersuchen. Aufgrund der begrenzten Verfügbarkeit begrenzter 3D-Daten gab es jedoch keine nennenswerten Ergebnisse. Um das Skalierbarkeitsproblem von 3D-Frameworks zu lösen, nutzt das Uni3D-Framework die Leistungsfähigkeit einer Vanilla-Transformator-Struktur, die fast einen Vision Transformer widerspiegelt, und kann die Skalierungsprobleme durch die Verwendung einheitlicher 2D- oder NLP-Skalierungsstrategien zur Skalierung der Modellgröße lösen. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO 

Experimente und Ergebnisse

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Abschließende Überlegungen

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.