부본 Uni3D: 대규모 통합 3D 표현 탐색 - Unite.AI
소셜 네트워크

인공 지능

Uni3D: 대규모 통합 3D 표현 탐색

mm
업데이트 on

텍스트와 시각적 표현의 확장은 최근 몇 년간 연구의 주요 초점이었습니다. 최근에 수행된 개발과 연구는 언어 학습과 비전에 수많은 혁명을 가져왔습니다. 그러나 텍스트와 시각적 표현의 스케일링이 널리 사용되고 있음에도 불구하고 3D 장면과 객체에 대한 표현의 스케일링에 대해서는 충분히 논의되지 않았습니다.

오늘은 통합된 3D 표현을 탐색하는 것을 목표로 하는 3D 기반 모델인 Uni3D에 대해 논의하겠습니다. Uni3D 프레임워크는 이미지-텍스트 기능을 해당 2D 포인트 클라우드 기능과 정렬하기 위해 사전 학습된 3D 초기화 ViT 프레임워크를 사용합니다.

Uni3D 프레임워크는 사전 학습된 2D 모델과 이미지-텍스트 정렬 모델을 각각 초기화 및 대상으로 활용하기 위해 프리텍스트 작업과 간단한 아키텍처를 사용합니다. 이러한 접근 방식은 2D 모델의 잠재력을 최대한 활용하고 이를 3D 세계로 확장하는 전략을 제공합니다.

이번 글에서는 3D에 대해 좀 더 자세히 알아보겠습니다. 컴퓨터 비전 Uni3D 프레임워크를 통해 모델의 필수 개념과 아키텍처를 탐구합니다. 그럼 시작해 보겠습니다.

Uni3D 및 3D 표현 학습: 소개

지난 몇 년 동안 컴퓨터 비전은 AI 산업에서 가장 많은 투자를 받은 분야 중 하나로 떠올랐습니다. 2D 컴퓨터 비전 프레임워크의 상당한 발전에 따라 개발자들은 초점을 3D 컴퓨터 비전으로 전환했습니다. 이 분야, 특히 3D 표현 학습은 컴퓨터 그래픽의 측면을 병합합니다. 기계 학습, 컴퓨터 비전 및 수학을 통해 3D 기하학의 처리 및 이해를 자동화합니다. LiDAR와 같은 3D 센서의 급속한 발전과 AR/VR 산업에서의 광범위한 적용으로 인해 3D 표현 학습이 더욱 주목을 받고 있습니다. 잠재적인 응용 분야는 매일 계속 증가하고 있습니다.

기존 프레임워크는 3D 모델 아키텍처, 작업 중심 모델링 및 학습 목표에서 놀라운 발전을 보였지만 대부분은 제한된 데이터, 매개변수 및 작업 시나리오를 사용하여 상대적으로 작은 규모로 3D 아키텍처를 탐색합니다. 다양한 환경의 실시간 애플리케이션에 적용할 수 있는 확장 가능한 3D 표현을 학습하는 과제는 아직까지 탐구되지 않은 상태로 남아 있습니다.

지난 몇 년 동안 계속해서 규모를 확장하고 있습니다. 큰 언어 모델 사전 훈련된 것은 혁신을 이루는 데 도움이 되었습니다. 자연어 처리 도메인 및 최근 연구에서는 개발자가 실제 세계의 응용 프로그램으로 확장 및 전송할 수 있는 2D 표현을 배우기 위해 이러한 성공을 시도하고 재시도할 수 있는 데이터 및 모델 스케일링을 사용하여 언어에서 3D로의 변환이 진행되고 있음을 나타냈습니다. 

Uni3D는 3억 개가 넘는 매개변수, 3천만 개가 넘는 텍스트와 쌍을 이루는 10천만 개가 넘는 이미지, 70만 개가 넘는 3D 모양의 규모에서 한계를 테스트하는 대규모 3D 표현을 학습하기 위한 목적으로 개발된 확장 가능하고 통합된 사전 학습 3D 프레임워크입니다. . 아래 그림은 Uni3D 프레임워크의 매개변수와 제로샷 정확도를 비교합니다. Uni6D 프레임워크는 XNUMXD 표현을 XNUMX만 개에서 XNUMX억 개 이상으로 성공적으로 확장합니다. 

Uni3D 프레임워크는 2D ViT 또는 비전 변압기 이미지-텍스트 정렬 기능을 3D 포인트 클라우드 기능과 정렬하기 위해 사전 훈련된 3D 인코더로 사용됩니다. Uni3D 프레임워크는 사전 학습된 2D 모델과 이미지 텍스트 정렬 모델을 각각 초기화 및 대상으로 활용하기 위해 프리텍스트 작업과 간단한 아키텍처를 활용하여 2D 모델의 잠재력을 최대한 활용하고 이를 3D 세계로 확장하는 전략을 제공합니다. Uni3D 프레임워크의 유연성과 확장성은 다음과 같은 측면에서 측정됩니다.

  1. 모델 확장 6만 개에서 XNUMX억 개가 넘는 매개변수까지. 
  2. 시각적으로 감독되는 텍스트로 2D 초기화 자기지도 학습
  3. 150억 XNUMX천만 개에서 XNUMX억 개 이상의 매개변수로 확장되는 텍스트 이미지 대상 모델입니다. 

Uni3D가 제공하는 유연하고 통합된 프레임워크에서 개발자는 각 구성 요소를 확장할 때 성능이 일관되게 향상되는 것을 관찰합니다. 대규모 3D 표현 학습은 공유 가능한 2D 및 확장 전략을 통해 엄청난 이점을 얻습니다. 

아래 그림에서 볼 수 있듯이 Uni3D 프레임워크는 퓨샷 및 제로샷 설정에서 이전 기술에 비해 성능이 향상되었습니다. Uni3D 프레임워크가 ModelNet에서 88%가 넘는 제로 샷 분류 정확도 점수를 반환한다는 점은 주목할 가치가 있습니다. 이는 여러 최첨단 감독 방법의 성능과 동등합니다. 

또한 Uni3D 프레임워크는 부품 분할 및 개방형 세계 이해와 같은 다른 대표적인 3D 작업을 수행할 때 최고의 정확성과 성능을 제공합니다. Uni3D 프레임워크는 다양한 작업에서 보다 강력한 2D 표현을 학습하기 위한 통합적이면서도 간단한 사전 학습 접근 방식으로 3D 기본 모델을 확장함으로써 3D 비전과 3D 비전 간의 격차를 해소하는 것을 목표로 하며, 이는 궁극적으로 2D 융합에 도움이 될 수 있습니다. 다양한 양식에 걸친 3D 비전을 제공합니다.

Uni3D : 관련 작품

Uni3D 프레임워크는 영감을 얻고 이전 3D 표현 학습과 특히 다양한 양식에 따른 기초 모델을 통해 개발된 내용을 학습합니다. 

3D 표현 학습

3D 표현 학습 방법은 객체의 3차원 이해를 위해 클라우드 포인트를 사용하는데, 이 분야는 최근 개발자들에 의해 많이 연구되었으며, 이러한 클라우드 포인트는 특정 기술을 사용하여 자기 감독 하에 사전 학습될 수 있다는 것이 관찰되었습니다. 마스크 포인트 모델링, 자기 재구성, 대조 학습을 포함한 3D 프리텍스트 작업입니다. 

이러한 방법은 제한된 데이터로 작동하며 3D 또는 NLP에서 2D로의 다중 모드 표현을 조사하지 않는 경우가 많다는 점은 주목할 가치가 있습니다. 그러나 최근에는 대조 학습 방법을 사용하여 원시 텍스트에서 시각적 개념을 학습하는 데 높은 효율성을 반환하고 더 나아가 동일한 대조 학습 방법을 사용하여 이미지, 텍스트 및 클라우드 포인트 특징을 정렬하여 3D 표현을 학습하는 CLIP 프레임워크가 성공했습니다. 

기초 모델

개발자들은 다중 모드 표현을 확장하고 통합하기 위해 기초 모델을 설계하는 데 철저하게 노력해 왔습니다. 예를 들어, NLP 도메인에서 개발자들은 사전 훈련된 언어 모델을 확장할 수 있는 프레임워크를 개발해 왔으며 이는 천천히 NLP 산업에 혁명을 일으키고 있습니다. 또한, 개발자들이 언어를 2D 모델로 발전시키는 데 도움이 되는 데이터 및 모델 스케일링 기술을 사용하는 프레임워크를 개발하고 있기 때문에 2D 비전 영역에서도 발전을 볼 수 있습니다. 3D 데이터의 제한된 가용성, 3D 프레임워크 통합 및 확장 시 직면하는 문제. 

위의 두 가지 작업 영역을 학습하여 개발자는 Uni3D 프레임워크는 개발자가 모델 확장을 위한 통합 3D 또는 NLP 전략을 사용하여 Uni3D 모델을 확장할 수 있도록 하는 통합 ViT 또는 Vision Transformer 아키텍처를 사용하는 3억 개가 넘는 매개변수를 갖춘 최초의 3D 기반 모델입니다. 개발자들은 이 방법을 통해 Uni2D 프레임워크가 현재 3D와 XNUMXD 비전을 분리하는 격차를 해소하고 다중 모드 융합을 촉진할 수 있기를 바랍니다.

Uni3D : 방법 및 아키텍처

위 이미지는 대규모 3D 표현 학습을 위한 확장 가능하고 통합된 사전 학습 3D 프레임워크인 Uni3D 프레임워크의 일반적인 개요를 보여줍니다. 개발자는 Uni70D 프레임워크를 10억 ​​개가 넘는 매개변수로 확장하기 위해 3천만 개 이상의 텍스트와 3천만 개가 넘는 이미지를 백만 개 이상의 3D 모양과 결합하여 활용합니다. Uni2D 프레임워크는 3D ViT 또는 Vision Transformer를 3D 인코더로 사용하고 텍스트 이미지 데이터를 3D 클라우드 포인트 기능과 정렬하기 위해 엔드투엔드 학습을 통해 Uni3D 프레임워크가 전체에 걸쳐 원하는 효율성과 정확성을 제공할 수 있도록 합니다. 다양한 벤치마크. 이제 UniXNUMXD 프레임워크의 작동을 자세히 살펴보겠습니다. 

Uni3D 프레임워크 확장

클라우드 포인트 표현 학습에 대한 이전 연구는 전통적으로 광범위한 애플리케이션에서 더 나은 성능을 제공하고 소규모 데이터 세트 덕분에 제한된 양의 데이터를 처리하는 특정 모델 아키텍처를 설계하는 데 중점을 두었습니다. 그러나 최근 연구에서는 3D에서 확장 가능한 사전 훈련을 사용할 수 있는 가능성을 탐색하려고 시도했지만 제한된 3D 데이터의 가용성으로 인해 큰 결과는 없었습니다. 3D 프레임워크의 확장성 문제를 해결하기 위해 Uni3D 프레임워크는 Vision Transformer를 거의 미러링하는 바닐라 변환기 구조의 성능을 활용하고 통합 2D 또는 NLP 확장 전략을 사용하여 모델 크기를 확장함으로써 확장 문제를 해결할 수 있습니다. 

클라우드 포인트 표현 학습에 대한 이전 연구는 전통적으로 광범위한 애플리케이션에서 더 나은 성능을 제공하고 소규모 데이터 세트 덕분에 제한된 양의 데이터를 처리하는 특정 모델 아키텍처를 설계하는 데 중점을 두었습니다. 그러나 최근 연구에서는 3D에서 확장 가능한 사전 훈련을 사용할 수 있는 가능성을 탐색하려고 시도했지만 제한된 3D 데이터의 가용성으로 인해 큰 결과는 없었습니다. 3D 프레임워크의 확장성 문제를 해결하기 위해 Uni3D 프레임워크는 Vision Transformer를 거의 미러링하는 바닐라 변환기 구조의 성능을 활용하고 통합 2D 또는 NLP 확장 전략을 사용하여 모델 크기를 확장함으로써 확장 문제를 해결할 수 있습니다. 

Uni3D 초기화

3D 표현의 크기 조정, 수렴의 어려움, 모델의 큰 크기로 인한 과적합과 관련된 이전 작업에서 직면한 또 다른 주요 과제입니다. 이 장애물을 극복하기 위한 효과적인 접근 방식은 지정된 3D 프리텍스트 작업으로 개별 3D 백본을 사전 학습하고 사전 학습된 매개변수를 초기화하는 것입니다. 그러나 이 접근 방식에는 높은 훈련 비용이 수반되며 훈련 목적으로 사용할 수 있는 3D 데이터의 양이 제한되어 있기 때문에 교차 모달 학습을 위한 강력한 초기화를 설정하는 것도 어렵습니다. 

Uni3D 프레임워크는 구조가 ViT와 매우 유사한 바닐라 변환기를 활용합니다. 이 접근 방식을 사용하면 Uni3D 프레임워크는 Uni3D 프레임워크를 초기화하기 위해 다른 양식과 함께 사전 훈련된 대형 모델을 자연스럽게 채택할 수 있습니다. 

다중 모드 정렬

Uni3D 프레임워크는 OpenShape 및 ULIP 프레임워크와 유사한 패러다임을 사용하여 이미지, 언어 및 포인트 클라우드 전반에 걸쳐 다중 모델 정렬을 학습하려고 합니다. 또한 다른 방법과의 공정한 비교를 보장하기 위해 Uni3D 프레임워크는 교육 목적으로 OpenShape의 앙상블 3D 데이터 세트를 사용합니다. OpenShape의 이 앙상블 데이터세트는 4개의 3D 데이터세트로 구성됩니다. 

  1. 객체. 
  2. ShapeNet. 
  3. 3D-미래. 
  4. ABO. 

실험 및 결과

Uni3D 프레임워크는 다양한 설정과 제로 샷 및 소수 샷 설정의 성능, 개방형 세계 이해에 대한 결과 등을 포함한 다양한 분류 작업에 걸쳐 테스트되었습니다. 이 결과를 자세히 살펴보겠습니다.

제로샷 형상 분류

제로샷 모양 분류 작업 전반에 걸쳐 Uni3D 프레임워크의 성능을 평가하기 위해 개발자는 ModelNet, ScanObjNN 및 Objaverse-LVIS 벤치마크 데이터 세트를 포함한 세 가지 벤치마크에서 실험을 수행합니다. ModelNet 및 ScanObjNN은 분류 작업에 널리 사용되는 데이터 세트이며 각각 15개 및 40개 개체 범주로 구성되는 반면 Objaverse-LVIS 벤치마크는 40,000개 이상의 범주에 걸쳐 1,100개 이상의 개체로 구성된 정리 및 주석이 달린 데이터 세트입니다. 프레임워크 간의 비교는 아래 이미지에 나와 있으며, 볼 수 있듯이 Uni3D 프레임워크는 다양한 설정에서 이전의 최신 프레임워크보다 훨씬 뛰어난 성능을 발휘합니다. 

퓨샷 선형 프로빙

AI에서 선형 프로빙은 프레임워크나 모델이 학습하는 표현을 평가하는 데 사용되는 일반적인 방법입니다. Uni3D의 선형 프로빙 기능을 평가하기 위해 개발자는 OpenShape와 같은 일반 설정을 사용하여 Uni3D 프레임워크의 매개변수를 고정합니다. 그 후 개발자는 퓨샷 클래스 레이블을 사용하여 Uni3D용 선형 분류기를 교육합니다. 아래 그림은 Objaverse-LVIS 데이터 세트에서 다양한 프레임워크의 선형 프로빙 기능을 보여주고 10개의 무작위 시드에 대한 모델의 평균 성능을 보여줍니다. 보시다시피 Uni3D 프레임워크는 다양한 소수 샷 설정에서 기존 방법보다 훨씬 뛰어난 성능을 발휘합니다. 

오픈 월드 이해

실제 모양과 물체를 실시간으로 이해하는 Uni3D 프레임워크의 기능을 평가하기 위해 개발자는 ScanNet 및 CLIP 데이터 세트를 사용하여 Uni3D의 성능을 탐색합니다. Ground Truth 인스턴트 분할이 가능하며 기본 동기는 제로샷 설정에서 모든 장면의 개별 순간의 범주를 인식하는 것입니다. 결과는 아래 이미지에 나와 있습니다. 보시다시피 Uni3D 프레임워크는 실제 이해 및 인식을 수행할 때 탁월한 결과를 제공합니다. Uni3D 프레임워크는 실제 데이터세트에 대한 교육을 전혀 하지 않았음에도 불구하고 기존 프레임워크보다 훨씬 뛰어난 성능을 발휘합니다. 

교차 모달 검색

Uni3D 프레임워크에서 학습된 다중 모드 표현을 통해 프레임워크는 텍스트나 이미지에서 자연스럽게 3D 모양을 검색할 수 있습니다. 3D 모양을 검색하기 위해 모델은 3D 모양의 임베딩과 쿼리 텍스트 프롬프트 또는 쿼리 이미지의 임베딩 간의 코사인 유사성을 계산합니다. 그런 다음 프레임워크는 KNN 또는 K Nearest Neighbor 알고리즘을 사용하여 쿼리와 가장 유사한 3D 모양을 생성하며 그 결과는 아래 그림에 나와 있습니다. 보시다시피 Uni3D 프레임워크는 실제 이미지를 성공적으로 사용하여 3D 모양을 검색합니다. 또한 훈련 이미지는 렌더링 목적으로만 사용되며 실제 이미지와 훈련 이미지 사이의 차이가 크다는 점에 주목할 가치가 있습니다. 또한 모델은 두 개의 입력 이미지를 가져와 두 이미지의 임베딩 평균과 임베딩된 3D 모양 간의 코사인 유사성을 사용하여 두 입력 이미지와 유사한 모양을 검색합니다. 결과는 다양한 3D 표현을 학습하고 여러 3D 신호를 인식하는 Uni2D의 능력을 보여주므로 흥미롭습니다. 

첫 번째 열에서 프레임워크는 2개의 쿼리 이미지를 사용하여 쿼리 이미지와 가장 유사한 3D 모양을 반환합니다. 두 번째 열에서 프레임워크는 두 개의 입력 이미지를 사용하여 두 입력 이미지와 유사한 3D 모양을 검색합니다. 마지막으로 마지막 열에서는 모델이 쿼리 텍스트를 사용하고 텍스트 쿼리와 최대한 유사한 3D 모양을 반환합니다. 

최종 생각

이 기사에서는 3억 개 이상의 매개변수, 3천만 개 이상의 이미지와 쌍을 이루는 3천만 개 이상의 이미지 규모에서 한계를 테스트하는 대규모 10D 표현을 학습하기 위한 목적으로 개발된 확장 가능하고 통합된 사전 훈련 70D 프레임워크인 Uni3D에 대해 이야기했습니다. 텍스트 및 백만 개 이상의 3D 도형. 프레임워크 개발자는 통합 2D 또는 NLP 확장 전략을 사용하여 Uni3D 프레임워크를 확장할 수 있는 ViT와 동일한 구조의 바닐라 변환기를 포함했습니다. 또한 Uni2D 프레임워크는 사전 학습된 다양한 2D 프레임워크와 3D 전략을 3D 세계에 활용할 수 있습니다. Uni3D 프레임워크는 다양한 설정에서 정확하고 효율적인 결과를 반환하고 기존 최첨단 프레임워크보다 성능이 뛰어나기 때문에 실험 결과는 이미 UniXNUMXD 프레임워크의 엄청난 잠재력을 보여주었습니다. 

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.