заглушки Uni3D: Дослідження уніфікованого 3D-представлення в масштабі - Unite.AI
Зв'язатися з нами

Artificial Intelligence

Uni3D: Дослідження уніфікованого тривимірного представлення в масштабі

mm
оновлений on

Розширення репрезентацій тексту та візуальних зображень було основним напрямком досліджень останніх років. Розробки та дослідження, проведені в недавньому минулому, призвели до численних революцій у вивченні мови та бачення. Однак, незважаючи на популярність масштабування текстових і візуальних представлень, масштабування представлень для 3D-сцен і об’єктів обговорювалося недостатньо.

Сьогодні ми обговоримо Uni3D, базову тривимірну модель, спрямовану на дослідження уніфікованих тривимірних представлень. Фреймворк Uni3D використовує 3D-ініціалізований фреймворк ViT, попередньо підготовлений наскрізний, для вирівнювання функцій зображення та тексту з відповідними функціями 3D-хмари точок.

Фреймворк Uni3D використовує претекстові завдання та просту архітектуру для використання великої кількості попередньо підготовлених 2D-моделей і моделей, вирівняних із зображенням і текстом, як ініціалізацію та цілі відповідно. Цей підхід розкриває весь потенціал 2D-моделей і стратегій їх масштабування до 3D-світу.

У цій статті ми глибше заглибимося в 3D комп'ютерне бачення і фреймворк Uni3D, досліджуючи основні концепції та архітектуру моделі. Отже, почнемо.

Uni3D і 3D Representation Learning: Вступ

За останні кілька років комп’ютерний зір став однією з найбільш інвестованих областей у індустрії ШІ. Після значного прогресу в рамках 2D комп’ютерного зору розробники перемістили свою увагу на 3D комп’ютерне зір. Ця галузь, зокрема вивчення тривимірного представлення, об’єднує аспекти комп’ютерної графіки, навчання за допомогою машини, комп’ютерного зору та математики для автоматизації обробки та розуміння 3D-геометрії. Швидкий розвиток 3D-сенсорів, таких як LiDAR, разом із їх широким застосуванням у індустрії AR/VR призвели до того, що навчання 3D-представленню привернуло все більшу увагу. Його потенціал застосування продовжує зростати щодня.

Хоча існуючі фреймворки продемонстрували значний прогрес у архітектурі 3D-моделі, орієнтованому на завдання моделюванні та цілях навчання, більшість досліджують 3D-архітектуру у відносно невеликому масштабі з обмеженими даними, параметрами та сценаріями завдань. Завдання вивчення масштабованих тривимірних представлень, які потім можуть бути застосовані до програм реального часу в різноманітних середовищах, залишається в основному невивченим.

Продовжуючи, за останні кілька років, масштабування великі мовні моделі які попередньо навчені допомогли в революції обробка природного мови домену, а останні роботи вказують на перехід у прогрес у 2D з мови з використанням даних і масштабування моделі, що дає можливість розробникам спробувати та повторно спробувати цей успіх, щоб вивчити 3D-представлення, яке можна масштабувати та передавати до програм у реальному світі. 

Uni3D — це масштабована та уніфікована 3D-платформа для попереднього навчання, розроблена з метою вивчення великомасштабних 3D-представлень, яка перевіряє свої межі в масштабі понад мільярд параметрів, понад 10 мільйонів зображень у поєднанні з понад 70 мільйонами текстів і понад мільйон 3D-фігур. . На малюнку нижче порівнюється точність нульового пострілу з параметрами в рамках Uni3D. Фреймворк Uni3D успішно масштабує 3D-представлення від 6 мільйонів до понад мільярда. 

Фреймворк Uni3D складається з 2D ViT або Трансформатор бачення як 3D-кодер, який потім наскрізно навчений для вирівнювання елементів зображення та тексту з функціями 3D-хмари точок. Фреймворк Uni3D використовує претекстові завдання та просту архітектуру для використання великої кількості попередньо підготовлених 2D-моделей і моделей із вирівняним текстом зображень як ініціалізації та цілей відповідно, таким чином розкриваючи весь потенціал 2D-моделей і стратегій їх масштабування до 3D-світу. Гнучкість і масштабованість фреймворку Uni3D вимірюється в термінах

  1. Масштабування моделі від 6 млн до понад мільярда параметрів. 
  2. Ініціалізація 2D до тексту контролюється візуально самоконтрольне навчання
  3. Цільова модель тексту й зображення масштабується від 150 мільйонів до понад мільярда параметрів. 

Завдяки гнучкій уніфікованій структурі, запропонованій Uni3D, розробники спостерігають узгоджене підвищення продуктивності, коли справа доходить до масштабування кожного компонента. Навчання великомасштабного 3D-представлення також отримує величезну користь від спільного використання 2D і стратегій масштабування. 

Як видно на малюнку нижче, фреймворк Uni3D демонструє приріст продуктивності порівняно з попереднім рівнем техніки в налаштуваннях кількох і нульових кадрів. Варто зазначити, що фреймворк Uni3D повертає показник точності класифікації з нульовим ударом понад 88% на ModelNet, що відповідає продуктивності кількох найсучасніших методів спостереження. 

Крім того, фреймворк Uni3D також забезпечує найвищу точність і продуктивність під час виконання інших репрезентативних 3D-завдань, таких як сегментація частин і розуміння відкритого світу. Фреймворк Uni3D має на меті подолати розрив між двовимірним баченням і тривимірним баченням шляхом масштабування основних тривимірних моделей за допомогою уніфікованого, але простого підходу до навчання, щоб вивчити більш надійні тривимірні представлення в широкому спектрі завдань, що в кінцевому підсумку може допомогти в конвергенції 2D і 3D бачення в широкому спектрі модальностей.

Uni3D : пов’язана робота

Фреймворк Uni3D черпає натхнення та вчиться з розробок, зроблених попереднім вивченням 3D-представництва, і базових моделей, особливо в різних модальностях. 

Навчання тривимірним представленням

Метод навчання 3D-представлення використовує хмарні точки для 3D-розуміння об’єкта, і ця сфера була досліджена розробниками в нещодавньому минулому, і було помічено, що ці хмарні точки можна попередньо навчити під самоконтролем за допомогою спеціальних Тривимірні завдання з претекстами, включаючи моделювання точок маски, самовідновлення та контрастне навчання. 

Варто зазначити, що ці методи працюють з обмеженими даними, і вони часто не досліджують багатомодальне представлення 3D з 2D або NLP. Однак недавній успіх фреймворку CLIP забезпечує високу ефективність вивчення візуальних концепцій із необробленого тексту за допомогою контрастного методу навчання, а також спрямований на вивчення тривимірних зображень шляхом вирівнювання зображення, тексту та елементів хмарності за допомогою того самого контрастного методу навчання. 

Моделі основи

Розробники наполегливо працювали над розробкою базових моделей для розширення та уніфікації мультимодальних представлень. Наприклад, у сфері НЛП розробники працюють над фреймворками, які можуть масштабувати попередньо підготовлені мовні моделі, і це повільно революціонізує індустрію НЛП. Крім того, можна спостерігати прогрес у сфері двовимірного бачення, оскільки розробники працюють над фреймворками, які використовують методи масштабування даних і моделей, щоб допомогти у прогресі мови до 2D-моделей, хоча такі фреймворки важко відтворити для 2D-моделей через обмежена доступність 3D-даних і проблеми, які виникають під час уніфікації та розширення 3D-фреймворків. 

Вивчаючи два вищенаведені робочі домени, розробники створили фреймворк Uni3D, перша базова 3D-модель із понад мільярдом параметрів, яка використовує уніфіковану архітектуру ViT або Vision Transformer, що дозволяє розробникам масштабувати модель Uni3D за допомогою уніфікованих стратегій 3D або NLP для збільшення моделей. Розробники сподіваються, що цей метод дозволить фреймворку Uni3D подолати розрив, який зараз розділяє двовимірне та тривимірне бачення, а також сприяти мультимодальній конвергенції

Uni3D: метод і архітектура

Зображення вище демонструє загальний огляд фреймворку Uni3D, масштабованого та уніфікованого 3D-фреймворку перед навчанням для навчання великомасштабного 3D-представлення. Розробники використовують понад 70 мільйонів текстів і 10 мільйонів зображень у поєднанні з понад мільйоном 3D-фігур, щоб масштабувати структуру Uni3D до понад мільярда параметрів. Фреймворк Uni3D використовує 2D ViT або Vision Transformer як 3D-кодер, який потім наскрізно навчається для узгодження даних текстових зображень із функціями 3D-точок хмари, що дозволяє фреймворку Uni3D забезпечувати бажану ефективність і точність у широкий набір тестів. Давайте тепер детально розглянемо роботу фреймворку Uni3D. 

Масштабування Uni3D Framework

Попередні дослідження вивчення представлення точок хмари традиційно зосереджувались на розробці конкретних архітектур моделей, які забезпечують кращу продуктивність у широкому діапазоні програм і працюють з обмеженою кількістю даних завдяки невеликим наборам даних. Однак нещодавні дослідження намагалися вивчити можливість використання масштабованого попереднього навчання в 3D, але не було значних результатів завдяки наявності обмежених 3D-даних. Щоб вирішити проблему масштабованості 3D-фреймворків, Uni3D-фреймворк використовує потужність ванільної трансформаційної структури, яка майже віддзеркалює Vision Transformer, і може вирішити проблеми масштабування за допомогою уніфікованих стратегій масштабування 2D або NLP для масштабування розміру моделі. 

Попередні дослідження вивчення представлення точок хмари традиційно зосереджувалися на розробці конкретних архітектур моделей, які забезпечують кращу продуктивність у широкому діапазоні програм і працюють з обмеженою кількістю даних завдяки невеликим наборам даних. Однак нещодавні дослідження намагалися вивчити можливість використання масштабованого попереднього навчання в 3D, але не було значних результатів завдяки наявності обмежених 3D-даних. Щоб вирішити проблему масштабованості 3D-фреймворків, Uni3D-фреймворк використовує потужність ванільної трансформаційної структури, яка майже віддзеркалює Vision Transformer, і може вирішити проблеми масштабування за допомогою уніфікованих стратегій масштабування 2D або NLP для масштабування розміру моделі. 

Ініціалізація Uni3D

Інша серйозна проблема, з якою зіткнулися попередні роботи, пов’язана з масштабуванням 3D-представлень, труднощами конвергенції та переобладнанням, які були результатом великого розміру моделей. Ефективним підходом до подолання цієї перешкоди є попереднє навчання окремих 3D магістралей за допомогою заданих завдань 3D претексту та ініціалізація попередньо навчених параметрів. Однак цей підхід супроводжується високими витратами на навчання, а також важко встановити надійну ініціалізацію для крос-модального навчання завдяки обмеженій кількості тривимірних даних, доступних для цілей навчання. 

Фреймворк Uni3D використовує ванільний трансформатор, структура якого дуже нагадує ViT. Завдяки такому підходу фреймворк Uni3D може природно адаптувати попередньо навчені великі моделі з іншими модальностями для ініціалізації фреймворка Uni3D. 

Мультимодальне вирівнювання

Фреймворк Uni3D намагається вивчити багатомодельне вирівнювання між зображеннями, мовою та хмарами точок, використовуючи парадигми, подібні до фреймворків OpenShape та ULIP. Крім того, щоб забезпечити справедливе порівняння з іншими методами, фреймворк Uni3D використовує набір тривимірних даних OpenShape для навчальних цілей. Цей об’єднаний набір даних від OpenShape складається з 3 наборів 4D-даних: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-МАЙБУТНЄ. 
  4. ABO. 

Експерименти та результати

Фреймворк Uni3D тестується в різних налаштуваннях і в різних завданнях класифікації, включно з його продуктивністю в налаштуваннях нульового і небагатьох кадрів, результатів навколо розуміння відкритого світу тощо. Давайте детально розглянемо ці результати.

Класифікація форми нульового удару

Щоб оцінити продуктивність фреймворку Uni3D у задачах класифікації форми без нуля, розробники проводять експерименти з трьома тестами, включаючи ModelNet, ScanObjNN і набори даних для еталонних тестів Objaverse-LVIS. ModelNet і ScanObjNN — це набори даних, які широко використовуються для завдань класифікації, і вони складаються з 15 і 40 категорій об’єктів відповідно, тоді як еталонний тест Objaverse-LVIS — це очищений і анотований набір даних, що складається з понад 40,000 1,100 об’єктів у 3+ категоріях. Порівняння між фреймворками показано на зображенні нижче, і, як видно, фреймворк UniXNUMXD значно перевершує попередні сучасні фреймворки в різних налаштуваннях. 

Кілька кадрів лінійного зондування

У штучному інтелекті лінійне дослідження є поширеним методом, який використовується для оцінки уявлень, які вивчає фреймворк або модель. Щоб оцінити здатність лінійного зондування Uni3D, розробники заморозили параметри фреймворку Uni3D, використовуючи загальні параметри OpenShape. Після цього розробники навчають лінійний класифікатор для Uni3D, використовуючи кілька міток класів. На малюнку нижче показано здатність лінійного зондування різних фреймворків на наборі даних Objaverse-LVIS і демонструє середню продуктивність моделі для 10 випадкових початкових значень. Як можна побачити, фреймворк Uni3D значно перевершує існуючі методи за різних налаштувань кількох кадрів. 

Розуміння відкритого світу

Щоб оцінити здатність фреймворку Uni3D розуміти форми та об’єкти реального світу в режимі реального часу, розробники використовують набори даних ScanNet і CLIP для дослідження продуктивності Uni3D. Варто зазначити, що доступна базова миттєва сегментація, і основним мотивом є розпізнавання категорії окремого моменту кожної сцени в налаштуваннях нульового кадру. Результати показано на зображенні нижче. Як можна побачити, фреймворк Uni3D забезпечує виняткові результати під час виконання реального розуміння та розпізнавання. Фреймворк Uni3D значно перевершує існуючі фреймворки, незважаючи на те, що він ніколи не навчався на реальних наборах даних. 

Крос-модальний пошук

Мультимодальні представлення, отримані фреймворком Uni3D, можуть дозволити фреймворку природним чином отримувати тривимірні форми з текстів або зображень. Щоб отримати 3D-фігури, модель обчислює косинусну подібність між вставленнями 3D-фігур і вставленнями текстової підказки або зображення запиту. Потім структура використовує алгоритм KNN або K Nearest Neighbor для створення 3D-фігур, які найбільше нагадують запит, і результати продемонстровані на малюнку нижче. Як видно, фреймворк Uni3D успішно використовує зображення реального світу для отримання 3D-фігур. Крім того, варто зазначити, що навчальні зображення призначені лише для візуалізації, а розрив між реальними та навчальними зображеннями є значним. Крім того, модель також отримує два вхідних зображення та отримує форми, подібні до обох вхідних зображень, використовуючи косинусну подібність між вбудованими середніми значеннями обох зображень і їхніх вбудованих 3D-фігур. Результати цікаві, оскільки вони демонструють здатність Uni3D вивчати різноманітні 3D-представлення та сприймати численні 3D-сигнали. 

У першому стовпці структура використовує 2 зображення запиту, щоб повернути 3D-фігури, найбільш схожі на зображення запиту. У другому стовпці структура використовує два вхідних зображення для отримання 3D-фігур, які нагадують обидва вхідні зображення. Нарешті, в останньому стовпці модель використовує тексти запитів і повертає 3D-фігури, які максимально нагадують текстовий запит. 

Заключні думки

У цій статті ми говорили про Uni3D, масштабовану та уніфіковану 3D-платформу для попереднього навчання, розроблену з метою вивчення великомасштабних 3D-представлень, яка перевіряє свої межі в масштабі понад мільярд параметрів, понад 10 мільйонів зображень у поєднанні з понад 70 мільйонами тексти та понад мільйон 3D-фігур. Розробники фреймворку включили ванільний трансформатор зі структурою, еквівалентною ViTs, що дозволяє їм масштабувати фреймворк Uni3D за допомогою єдиних стратегій масштабування 2D або NLP. Крім того, фреймворк Uni3D може використовувати широкий спектр попередньо підготовлених 2D-фреймворків і 2D-стратегій для 3D-світу. Експериментальні результати вже продемонстрували величезний потенціал фреймворка Uni3D, оскільки фреймворк Uni3D повертає точні й ефективні результати в широкому спектрі налаштувань і перевершує існуючі найсучасніші фреймворки. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.