talón Uni3D: Explorando la representación 3D unificada a escala - Unite.AI
Conécte

Inteligencia artificial

Uni3D: Explorando la representación 3D unificada a escala

mm
Actualizado on

La ampliación de las representaciones de texto y elementos visuales ha sido un importante foco de investigación en los últimos años. Los avances y las investigaciones realizadas en el pasado reciente han dado lugar a numerosas revoluciones en el aprendizaje y la visión de idiomas. Sin embargo, a pesar de la popularidad del escalado de texto y representaciones visuales, el escalado de representaciones para escenas y objetos 3D no se ha discutido lo suficiente.

Hoy hablaremos de Uni3D, un modelo básico 3D que tiene como objetivo explorar representaciones 3D unificadas. El marco Uni3D emplea un marco ViT inicializado en 2D, previamente entrenado de un extremo a otro, para alinear las características de imagen y texto con sus correspondientes características de nube de puntos 3D.

El marco Uni3D utiliza tareas de pretexto y una arquitectura simple para aprovechar la abundancia de modelos 2D previamente entrenados y modelos alineados con imagen y texto como inicializaciones y objetivos, respectivamente. Este enfoque libera todo el potencial de los modelos 2D y las estrategias para escalarlos al mundo 3D.

En este artículo profundizaremos en el 3D. visión de computadora y el marco Uni3D, explorando los conceptos esenciales y la arquitectura del modelo. Vamos a empezar.

Uni3D y aprendizaje de representación 3D: una introducción

En los últimos años, la visión por computadora se ha convertido en uno de los dominios con mayor inversión en la industria de la IA. Tras avances significativos en los marcos de visión por computadora 2D, los desarrolladores han cambiado su enfoque a la visión por computadora 3D. Este campo, particularmente el aprendizaje de representación 3D, fusiona aspectos de gráficos por computadora, máquina de aprendizaje, visión por computadora y matemáticas para automatizar el procesamiento y la comprensión de la geometría 3D. El rápido desarrollo de sensores 3D como LiDAR, junto con sus aplicaciones generalizadas en la industria AR/VR, ha dado como resultado que el aprendizaje de representación 3D gane cada vez más atención. Sus aplicaciones potenciales continúan creciendo día a día.

Aunque los marcos existentes han mostrado un progreso notable en la arquitectura de modelos 3D, el modelado orientado a tareas y los objetivos de aprendizaje, la mayoría explora la arquitectura 3D a una escala relativamente pequeña con datos, parámetros y escenarios de tareas limitados. El desafío de aprender representaciones 3D escalables, que luego puedan aplicarse a aplicaciones en tiempo real en diversos entornos, sigue en gran medida inexplorado.

Avanzando, en los últimos años, escalando grandes modelos de lenguaje que están previamente capacitados ha ayudado a revolucionar la procesamiento natural del lenguaje dominio, y trabajos recientes han indicado una traducción en el progreso a 2D desde el lenguaje usando datos y escalado de modelos, lo que abre paso para que los desarrolladores intenten y vuelvan a intentar este éxito para aprender una representación 3D que se pueda escalar y transferir a aplicaciones en el mundo real. 

Uni3D es un marco 3D de preentrenamiento escalable y unificado desarrollado con el objetivo de aprender representaciones 3D a gran escala que pone a prueba sus límites en una escala de más de mil millones de parámetros, más de 10 millones de imágenes combinadas con más de 70 millones de textos y más de un millón de formas 3D. . La siguiente figura compara la precisión del disparo cero con los parámetros del marco Uni3D. El marco Uni3D escala con éxito las representaciones 3D de 6 millones a más de mil millones. 

El marco Uni3D consta de un ViT 2D o Transformador de visión como codificador 3D que luego se entrena previamente de un extremo a otro para alinear las características alineadas de imagen y texto con las características de la nube de puntos 3D. El marco Uni3D utiliza tareas de pretexto y una arquitectura simple para aprovechar la abundancia de modelos 2D previamente entrenados y modelos alineados con texto de imagen como inicialización y objetivos respectivamente, liberando así todo el potencial de los modelos 2D y estrategias para escalarlos al mundo 3D. La flexibilidad y escalabilidad del marco Uni3D se mide en términos de

  1. Escalando el modelo desde 6M hasta más de mil millones de parámetros. 
  2. Inicialización 2D a texto supervisado desde visual. aprendizaje auto supervisado
  3. Modelo de destino de imagen de texto que escala de 150 millones a más de mil millones de parámetros. 

Bajo el marco flexible y unificado que ofrece Uni3D, los desarrolladores observan un aumento coherente en el rendimiento a la hora de escalar cada componente. El aprendizaje de representación 3D a gran escala también se beneficia enormemente de las estrategias 2D compartibles y de ampliación. 

Como se puede ver en la figura siguiente, el marco Uni3D muestra un aumento en el rendimiento en comparación con la técnica anterior en configuraciones de pocos disparos y cero disparos. Vale la pena señalar que el marco Uni3D arroja una puntuación de precisión de clasificación de disparo cero de más del 88% en ModelNet, que está a la par con el rendimiento de varios métodos de supervisión de última generación. 

Además, el marco Uni3D también ofrece precisión y rendimiento de primer nivel al realizar otras tareas 3D representativas, como la segmentación de piezas y la comprensión del mundo abierto. El marco Uni3D tiene como objetivo cerrar la brecha entre la visión 2D y la visión 3D escalando modelos fundamentales 3D con un enfoque de preentrenamiento unificado pero simple para aprender representaciones 3D más sólidas en una amplia gama de tareas, que en última instancia podrían ayudar en la convergencia de 2D. y visión 3D en una amplia gama de modalidades.

Uni3D: Trabajo relacionado

El marco Uni3D se inspira y aprende de los desarrollos realizados por el aprendizaje de representación 3D anterior y de los modelos fundamentales, especialmente en diferentes modalidades. 

Aprendizaje de representación 3D

El método de aprendizaje de representación 3D utiliza puntos de nube para la comprensión 3D del objeto, y este campo ha sido explorado mucho por los desarrolladores en el pasado reciente, y se ha observado que estos puntos de nube se pueden entrenar previamente bajo autosupervisión usando específicos. Tareas de pretexto en 3D que incluyen modelado de puntos de máscara, autorreconstrucción y aprendizaje contrastivo. 

Vale la pena señalar que estos métodos funcionan con datos limitados y, a menudo, no investigan representaciones multimodales a 3D desde 2D o PNL. Sin embargo, el reciente éxito del marco CLIP que ofrece una alta eficiencia en el aprendizaje de conceptos visuales a partir de texto sin formato utilizando el método de aprendizaje contrastivo, y además busca aprender representaciones 3D alineando características de imágenes, texto y puntos de nube utilizando el mismo método de aprendizaje contrastivo. 

Modelos de cimientos

Los desarrolladores han estado trabajando exhaustivamente en el diseño de modelos básicos para ampliar y unificar representaciones multimodales. Por ejemplo, en el dominio de la PNL, los desarrolladores han estado trabajando en marcos que pueden ampliar los modelos de lenguaje previamente entrenados y esto está revolucionando lentamente la industria de la PNL. Además, también se pueden observar avances en el dominio de la visión 2D porque los desarrolladores están trabajando en marcos que utilizan técnicas de escalado de modelos y datos para ayudar en el progreso del lenguaje a modelos 2D, aunque dichos marcos son difíciles de replicar para modelos 3D debido a la disponibilidad limitada de datos 3D y los desafíos encontrados al unificar y ampliar los marcos 3D. 

Al aprender de los dos dominios de trabajo anteriores, los desarrolladores han creado el marco Uni3D, el primer modelo básico 3D con más de mil millones de parámetros que utiliza una arquitectura ViT o Vision Transformer unificada que permite a los desarrolladores escalar el modelo Uni3D utilizando estrategias 3D o NLP unificadas para ampliar los modelos. Los desarrolladores esperan que este método permita que el marco Uni3D cierre la brecha que actualmente separa la visión 2D y 3D, además de facilitar la convergencia multimodal.

Uni3D: Método y Arquitectura

La imagen de arriba muestra la descripción general genérica del marco Uni3D, un marco 3D de preentrenamiento escalable y unificado para el aprendizaje de representación 3D a gran escala. Los desarrolladores utilizan más de 70 millones de textos y 10 millones de imágenes combinadas con más de un millón de formas 3D para escalar el marco Uni3D a más de mil millones de parámetros. El marco Uni3D utiliza un ViT 2D o un transformador de visión como codificador 3D que luego se entrena de extremo a extremo para alinear los datos de imagen y texto con las características de puntos de nube 3D, lo que permite que el marco Uni3D proporcione la eficiencia y precisión deseadas en todo un amplia gama de puntos de referencia. Veamos ahora en detalle el funcionamiento del marco Uni3D. 

Escalando el marco Uni3D

Los estudios anteriores sobre el aprendizaje de la representación de puntos de nube se han centrado tradicionalmente en gran medida en el diseño de arquitecturas de modelos particulares que ofrecen un mejor rendimiento en una amplia gama de aplicaciones y funcionan con una cantidad limitada de datos gracias a conjuntos de datos a pequeña escala. Sin embargo, estudios recientes han intentado explorar la posibilidad de utilizar un preentrenamiento escalable en 3D, pero no hubo resultados importantes gracias a la disponibilidad de datos 3D limitados. Para resolver el problema de escalabilidad de los marcos 3D, el marco Uni3D aprovecha el poder de una estructura de transformador básico que casi refleja un Vision Transformer y puede resolver los problemas de escala mediante el uso de estrategias de escalamiento unificadas 2D o NLP para escalar el tamaño del modelo. 

Los estudios anteriores sobre el aprendizaje de la representación de puntos de nube se han centrado tradicionalmente en gran medida en el diseño de arquitecturas de modelos particulares que ofrezcan un mejor rendimiento en una amplia gama de aplicaciones y trabajen con una cantidad limitada de datos gracias a conjuntos de datos a pequeña escala. Sin embargo, estudios recientes han intentado explorar la posibilidad de utilizar un preentrenamiento escalable en 3D, pero no hubo resultados importantes gracias a la disponibilidad de datos 3D limitados. Para resolver el problema de escalabilidad de los marcos 3D, el marco Uni3D aprovecha el poder de una estructura de transformador básico que casi refleja un Vision Transformer y puede resolver los problemas de escala mediante el uso de estrategias de escalamiento unificadas 2D o NLP para escalar el tamaño del modelo. 

Inicializando Uni3D

Otro desafío importante encontrado por trabajos anteriores tuvo que ver con el escalado de representaciones 3D, las dificultades de convergencia y el sobreajuste que fueron resultado del gran tamaño de los modelos. Un enfoque eficaz para superar este obstáculo es entrenar previamente las redes troncales 3D individuales con tareas de pretexto 3D específicas e inicializar los parámetros previamente entrenados. Sin embargo, el enfoque conlleva altos costos de capacitación y también es difícil establecer una inicialización sólida para el aprendizaje intermodal gracias a la cantidad limitada de datos 3D disponibles para fines de capacitación. 

El marco Uni3D aprovecha un transformador básico, cuya estructura se parece mucho a ViT. Con este enfoque, el marco Uni3D puede adoptar naturalmente los modelos grandes previamente entrenados con otras modalidades para inicializar el marco Uni3D. 

Alineación multimodal

El marco Uni3D intenta aprender alineaciones de múltiples modelos en imágenes, lenguajes y nubes de puntos mediante el uso de paradigmas similares a los marcos OpenShape y ULIP. Además, para garantizar una comparación justa con otros métodos, el marco Uni3D utiliza el conjunto de datos 3D ensamblados de OpenShape con fines de capacitación. Este conjunto de datos ensamblado de OpenShape consta de 4 conjuntos de datos 3D: 

  1. Objaverso. 
  2. ShapeNet. 
  3. 3D-FUTURO. 
  4. SUSCRIPCIÓN 

Experimentos y resultados

El marco Uni3D se prueba en diferentes entornos y en varias tareas de clasificación, incluido su rendimiento en entornos de disparo cero y de pocos disparos, resultados en torno a la comprensión del mundo abierto y más. Echemos un vistazo detallado a estos resultados.

Clasificación de forma de disparo cero

Para evaluar el rendimiento del marco Uni3D en tareas de clasificación de formas de disparo cero, los desarrolladores realizan experimentos en tres puntos de referencia, incluidos los conjuntos de datos de referencia ModelNet, ScanObjNN y Objaverse-LVIS. ModelNet y ScanObjNN son conjuntos de datos ampliamente utilizados para tareas de clasificación y constan de 15 y 40 categorías de objetos respectivamente, mientras que el punto de referencia Objaverse-LVIS es un conjunto de datos limpio y anotado que consta de más de 40,000 1,100 objetos en más de 3 categorías. La comparación entre los marcos se demuestra en la imagen a continuación y, como se puede ver, el marco UniXNUMXD supera significativamente a los marcos de última generación anteriores en diferentes configuraciones. 

Sondeo lineal de pocos disparos

En IA, Linear Probing es un método común utilizado para evaluar las representaciones que aprende un marco o modelo. Para evaluar la capacidad de sondeo lineal de Uni3D, los desarrolladores congelan los parámetros del marco Uni3D utilizando la configuración común como OpenShape. A continuación, los desarrolladores entrenan un clasificador lineal para Uni3D utilizando etiquetas de clases de pocos disparos. La siguiente figura demuestra la capacidad de sondeo lineal de diferentes marcos en el conjunto de datos Objaverse-LVIS y demuestra el rendimiento promedio del modelo en 10 semillas aleatorias. Como puede verse, el marco Uni3D supera significativamente a los métodos existentes en diferentes configuraciones de pocos disparos. 

Comprensión del mundo abierto

Para evaluar la capacidad del marco Uni3D para comprender formas y objetos del mundo real en tiempo real, los desarrolladores utilizan conjuntos de datos ScanNet y CLIP para explorar el rendimiento de Uni3D. Vale la pena señalar que la segmentación instantánea de la verdad fundamental está disponible y el motivo principal es reconocer la categoría del instante individual de cada escena en una configuración de disparo cero. Los resultados se demuestran en la imagen a continuación. Como puede verse, el marco Uni3D ofrece resultados excepcionales al realizar comprensión y reconocimiento del mundo real. El marco Uni3D supera a los marcos existentes por un margen significativo a pesar de que nunca se entrenó en conjuntos de datos del mundo real. 

Recuperación multimodal

Las representaciones multimodales aprendidas por el marco Uni3D pueden permitir que el marco recupere formas 3D de forma natural, ya sea a partir de textos o imágenes. Para recuperar las formas 3D, el modelo calcula la similitud del coseno entre las incrustaciones de formas 3D y las incrustaciones de un mensaje de texto de consulta o una imagen de consulta. Luego, el marco utiliza el algoritmo KNN o K Nearest Neighbor para generar formas 3D que se parecen más a la consulta, y los resultados se demuestran en la siguiente figura. Como puede verse, el marco Uni3D utiliza con éxito imágenes del mundo real para recuperar formas 3D. Además, vale la pena señalar que las imágenes de entrenamiento son solo para fines de renderizado, y la brecha entre las imágenes del mundo real y las de entrenamiento es sustancial. Además, el modelo también toma dos imágenes de entrada y recupera formas similares a ambas imágenes de entrada utilizando la similitud del coseno entre los promedios de incrustación de ambas imágenes y sus formas 3D incrustadas. Los resultados son interesantes ya que demuestran la capacidad de Uni3D para aprender diversas representaciones 3D y percibir múltiples señales 2D. 

En la primera columna, el marco utiliza 2 imágenes de consulta para devolver formas 3D que son más similares a las imágenes de consulta. En la segunda columna, el marco utiliza dos imágenes de entrada para recuperar formas 3D que se parecen a ambas imágenes de entrada. Finalmente, en la columna final, el modelo utiliza textos de consulta y devuelve formas 3D que se parecen al máximo al texto de consulta. 

Consideraciones Finales:

En este artículo, hemos hablado de Uni3D, un marco 3D de preentrenamiento escalable y unificado desarrollado con el objetivo de aprender representaciones 3D a gran escala que pone a prueba sus límites en una escala de más de mil millones de parámetros, más de 10 millones de imágenes combinadas con más de 70 millones. textos y más de un millón de formas 3D. Los desarrolladores del marco han incluido un transformador básico con una estructura equivalente a ViT que les permite ampliar el marco Uni3D utilizando estrategias de escalado unificadas 2D o NLP. Además, el marco Uni3D puede aprovechar una amplia gama de marcos 2D previamente entrenados y estrategias 2D para el mundo 3D. Los resultados experimentales ya han demostrado el enorme potencial del marco Uni3D, ya que proporciona resultados precisos y eficientes en una amplia gama de entornos y supera a los marcos de última generación existentes. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.