Вештачка интелигенција

Uni3D: Истражување на унифицирана 3D репрезентација на скала

Ажурирани on Октомври 28, 2023

Зголемувањето на претставите на текстот и визуелните слики е главен фокус на истражувањето во последниве години. Случувањата и истражувањата спроведени во неодамнешното минато доведоа до бројни револуции во учењето и визијата на јазикот. Сепак, и покрај популарноста на скалирање на текст и визуелни претстави, скалирањето на претставите за 3D сцени и објекти не е доволно дискутирано.

Денес, ќе разговараме за Uni3D, 3D модел на основа кој има за цел да истражува унифицирани 3D претстави. Рамката Uni3D користи 2D-иницијализирана ViT рамка, претходно обучена од крај до крај, за да ги усогласи карактеристиките на текстот на сликата со нивните соодветни карактеристики на облакот за 3D точки.

Рамката Uni3D користи задачи за претекст и едноставна архитектура за да го искористи изобилството на претходно обучени 2D модели и модели порамнети со текст со слика како иницијализација и цели, соодветно. Овој пристап го ослободува целосниот потенцијал на 2D моделите и стратегиите за нивно размерување на 3D светот.

Во оваа статија, ќе навлеземе подлабоко во 3D компјутерска визија и Uni3D рамката, истражувајќи ги суштинските концепти и архитектурата на моделот. Значи, да започнеме.

Учење со Uni3D и 3D претставување: вовед

Во изминатите неколку години, компјутерската визија се појави како еден од најинвестираните домени во индустријата за вештачка интелигенција. Следејќи го значителниот напредок во рамки за 2D компјутерска визија, програмерите го префрлија својот фокус на 3D компјутерска визија. Ова поле, особено учењето со 3D претставување, ги спојува аспектите на компјутерската графика, машинско учење, компјутерска визија и математика за автоматизирање на обработката и разбирањето на 3Д геометријата. Брзиот развој на 3D сензори како LiDAR, заедно со нивните широко распространети апликации во индустријата за AR/VR, резултираше со учењето за 3D претставување привлекува зголемено внимание. Неговите потенцијални апликации продолжуваат да растат секојдневно.

Иако постоечките рамки покажаа извонреден напредок во архитектурата на 3D модели, моделирањето ориентирано кон задачи и целите за учење, повеќето ја истражуваат 3D архитектурата во релативно мал обем со ограничени податоци, параметри и сценарија за задачи. Предизвикот за учење на скалабилни 3D претстави, кои потоа може да се применат на апликации во реално време во различни средини, останува во голема мера неистражен.

Движејќи се заедно, во изминатите неколку години, скалирање големи јазични модели кои се претходно обучени помогнаа во револуционизирање на обработка на природен јазик доменот, а неодамнешните дела укажаа на превод во напредокот во 2D од јазик со користење податоци и скалирање на модели, што им овозможува на програмерите да се обидат и повторно да се обидат со овој успех да научат 3D претстава што може да се намали и да се пренесе на апликации во реалниот свет.

Uni3D е скалабилна и унифицирана 3D рамка за предобука, развиена со цел да научи 3D претстави од големи размери што ги тестира нејзините граници на скала од преку милијарда параметри, преку 10 милиони слики спарени со над 70 милиони текстови и над милион 3D форми . Сликата подолу ја споредува прецизноста на нула истрели со параметрите во рамката Uni3D. Рамката Uni3D успешно ги зголемува 3D претставите од 6 милиони на преку милијарда.

Рамката Uni3D се состои од 2D ViT или Визија трансформатор како 3D енкодер кој потоа е претходно обучен од крај до крај за да ги усогласи карактеристиките порамнети со слика-текст со карактеристиките на облакот за 3D точка. Рамката Uni3D користи задачи за изговор и едноставна архитектура за да го искористи изобилството на претходно обучени 2D модели и модели порамнети со текст на слики како иницијализација и цели, соодветно, со што се ослободува целосниот потенцијал на 2D моделите и стратегии за нивно размерување во 3D светот. Флексибилноста и приспособливоста на рамката Uni3D се мери во однос на

Скалирање на моделот од 6M до над милијарда параметри.
2D иницијализација на текст надгледуван од визуелен само-надгледувано учење.
Целен модел на текст-слика со скалирање од 150 милиони до над милијарда параметри.

Според флексибилната и унифицирана рамка понудена од Uni3D, програмерите забележуваат кохерентно зголемување на перформансите кога станува збор за скалирање на секоја компонента. Учењето со 3D претставување со големи размери, исто така, има огромна корист од споделените 2D и стратегии за зголемување.

Како што може да се види на сликата подолу, рамката Uni3D покажува зголемување на перформансите во споредба со претходната уметност во поставките за неколку и нула снимки. Вреди да се напомене дека Uni3D рамката враќа оценка за точноста на класификација со нула снимка од над 88% на ModelNet што е на исто ниво со перформансите на неколку најсовремени методи за надзор.

Понатаму, Uni3D рамката, исто така, обезбедува врвна прецизност и перформанси при извршување на други репрезентативни 3D задачи како сегментација на делови и разбирање на отворен свет. Рамката Uni3D има за цел да го премости јазот помеѓу 2D визија и 3D визија со скалирање на основните 3D модели со унифициран, но едноставен пристап за пред-тренинг за да научи повеќе робусни 3D репрезентации низ широк спектар на задачи, што на крајот може да помогне во конвергенцијата на 2D и 3D визија низ широк спектар на модалитети.

Uni3D: Поврзана работа

Рамката Uni3D црпи инспирација и учи од развојот на претходното учење за 3D претставување и Основните модели особено под различни модалитети.

Учење со 3D претставување

Методот на учење со 3D претставување користи облак точки за 3D разбирање на објектот, а ова поле беше многу истражувано од страна на програмерите во неодамнешното минато, и забележано е дека овие точки на облак може да се претходно обучени под само-надзор користејќи специфични Задачи со 3D изговор, вклучувајќи моделирање на точка на маска, самореконструкција и контрастно учење.

Вреди да се напомене дека овие методи работат со ограничени податоци и тие често не истражуваат мултимодални претстави на 3D од 2D или NLP. Сепак, неодамнешниот успех на рамката CLIP која враќа висока ефикасност во учењето визуелни концепти од необработен текст користејќи го методот на контрастно учење и понатаму се обидува да научи 3D претстави со усогласување на карактеристиките на сликата, текстот и облакот со користење на истиот метод на контрастно учење.

Модели на основа

Програмерите исцрпно работеа на дизајнирање модели на темели за зголемување и обединување на мултимодалните претстави. На пример, во доменот НЛП, програмерите работеа на рамки кои можат да ги зголемат претходно обучените јазични модели и полека ја револуционизира индустријата на НЛП. Понатаму, напредокот може да се забележи и во доменот на 2D визија, бидејќи програмерите работат на рамки кои користат техники за скалирање податоци и модели за да помогнат во напредокот на јазикот во 2D модели, иако таквите рамки е тешко да се реплицираат за 3D моделите поради ограничена достапност на 3D податоци и предизвиците со кои се соочуваат при обединување и зголемување на 3D рамки.

Со учење од горенаведените два работни домени, програмерите создадоа рамката Uni3D, првиот 3D модел на основа со преку милијарда параметри што користи унифицирана архитектура ViT или Vision Transformer што им овозможува на програмерите да го размерат Uni3D моделот користејќи унифицирани 3D или NLP стратегии за зголемување на моделите. Програмерите се надеваат дека овој метод ќе и овозможи на Uni3D рамката да го премости јазот што моментално ги одвојува 2D и 3D визија заедно со олеснување на мултимодалната конвергенција.

Uni3D: Метод и архитектура

Горенаведената слика го демонстрира генеричкиот преглед на рамката Uni3D, скалабилна и унифицирана 3D рамка за пред-тренинг за учење со 3D претставување од големи размери. Програмерите користат преку 70 милиони текстови и 10 милиони слики спарени со над милион 3D форми за да ја размерат рамката Uni3D на преку милијарда параметри. Рамката Uni3D користи 2D ViT или Vision Transformer како 3D енкодер кој потоа е обучен од крај до крај за да ги усогласи податоците од текст-слика со карактеристиките на 3D облак точка, дозволувајќи ѝ на Uni3D рамката да ја испорача саканата ефикасност и точност низ широк спектар на одредници. Дозволете ни сега да погледнеме детално во работата на Uni3D рамката.

Скалирање на рамката Uni3D

Претходните студии за учењето за претставување на точки во облак традиционално се фокусираа многу на дизајнирање на архитектури на одредени модели кои обезбедуваат подобри перформанси во широк опсег на апликации и работат на ограничена количина на податоци благодарение на збирките на податоци од мал обем. Сепак, неодамнешните студии се обидоа да ја истражат можноста за користење на скалабилни пред-тренинг во 3D, но немаше големи резултати благодарение на достапноста на ограничени 3D податоци. За да се реши проблемот со приспособливоста на 3D рамки, рамката Uni3D ја користи моќта на структурата на трансформаторот од ванила која речиси го отсликува Vision Transformer и може да ги реши проблемите со скалирање со користење на унифицирани стратегии за зголемување на 2D или NLP за да ја зголеми големината на моделот.

Иницијализирање на Uni3D

Друг голем предизвик со кој се соочуваат претходните работи вклучени во скалирањето на 3D претставите, тешкотиите во конвергенцијата и преоптоварувањето што беа резултат на големата големина на моделите. Ефективен пристап за надминување на оваа пречка е претходно да се обучат поединечни 3D столбови со одредени задачи за 3D изговор и да се иницијализираат претходно обучените параметри. Сепак, пристапот е проследен со високи трошоци за обука, а исто така е тешко да се воспостави робусна иницијализација за меѓумодално учење благодарение на ограничениот број на 3D податоци достапни за целите на обуката.

Рамката Uni3D користи трансформатор од ванила, чија структура многу наликува на ViT. Со овој пристап, Uni3D рамката природно може да ги усвои претходно обучените големи модели со други модалитети за иницијализирање на Uni3D рамката.

Мулти-модално усогласување

Рамката Uni3D се обидува да научи порамнувања на повеќе модели низ облаците на слики, јазик и точки со користење на парадигми слични на рамки на OpenShape и ULIP. Понатаму, за да се обезбеди правична споредба со другите методи, рамката Uni3D ја користи збирната 3D база на податоци од OpenShape за цели на обука. Оваа збирна база на податоци од OpenShape се состои од 4 3D сетови на податоци:

Објаверс.
ShapeNet.
3D-ИДНИНА.
АБО.

Експерименти и резултати

Рамката Uni3D се тестира низ различни поставки и низ различни задачи за класификација, вклучувајќи ги неговите перформанси во поставките за нула и неколку снимки, резултати околу разбирањата за отворен свет и многу повеќе. Ајде детално да ги разгледаме овие резултати.

Нулта шут форма класификација

За да се оценат перформансите на рамката Uni3D низ задачите за класификација на формата со нула снимка, програмерите спроведуваат експерименти на три одредници, вклучувајќи ги сетови на податоци за репери од ModelNet, ScanObjNN и Objaverse-LVIS. ModelNet и ScanObjNN се збирки на податоци кои широко се користат за задачи за класификација и се состојат од 15, односно 40 категории на објекти, додека реперот Objaverse-LVIS е исчистена и означена база на податоци која се состои од над 40,000 објекти во 1,100+ категории. Споредбата помеѓу рамките е прикажана на сликата подолу, и како што може да се види, Uni3D рамката значително ги надминува претходните најсовремени рамки во различни поставки.

Линеарно љубопитство со неколку снимки

Во вештачката интелигенција, линеарното сондирање е вообичаен метод што се користи за евалуација на претставите што рамката или моделот ги учи. За да ја проценат способноста за линеарно сондирање на Uni3D, програмерите ги замрзнуваат параметрите на рамката Uni3D користејќи ги заедничките поставки како OpenShape. Следејќи го ова, програмерите обучуваат линеарен класификатор за Uni3D користејќи ознаки за класи со неколку снимки. Сликата подолу ја покажува способноста за линеарно испитување на различни рамки на базата на податоци Objaverse-LVIS и ја демонстрира просечната изведба на моделот на 10 случајни семиња. Како што може да се види, Uni3D рамката значително ги надминува постоечките методи при различни поставки за неколку снимки.

Разбирање на отворен свет

За да се процени способноста на рамката Uni3D да ги разбере облиците и објектите од реалниот свет во реално време, програмерите користат ScanNet и CLIP сетови на податоци за да ги истражат перформансите на Uni3D. Вреди да се напомене дека е достапна инстант сегментација на земјената вистина, а примарниот мотив е да се препознае категоријата на индивидуалниот момент на секоја сцена во поставка со нула кадар. Резултатите се прикажани на сликата подолу. Како што може да се види, рамката Uni3D дава исклучителни резултати при изведување на разбирање и препознавање во реалниот свет. Рамката Uni3D ги надминува постојните рамки со значителна маргина и покрај тоа што никогаш не тренирала за бази на податоци од реалниот свет.

Вкрстено-модално пребарување

Мулти-модалните претстави научени од Uni3D рамката можат да ѝ овозможат на рамката природно да враќа 3D форми или од текстови или слики. За да ги врати 3Д формите, моделот ја пресметува косинусната сличност помеѓу вградувањето на 3Д формите и вградувањето на текстот за барање или сликата за барање. Рамката потоа го користи алгоритмот KNN или K Најблискиот сосед за да генерира 3Д форми кои најмногу наликуваат на барањето, а резултатите се прикажани на сликата подолу. Како што може да се види, Uni3D рамката успешно користи слики од реалниот свет за да ги врати 3D формите. Понатаму, вреди да се напомене дека сликите за обука се само за цели на рендерирање, а јазот помеѓу сликите од реалниот свет и сликите за обука е значителен. Дополнително, моделот зема и две влезни слики и враќа облици слични на двете влезни слики користејќи ја косинусната сличност помеѓу просеците за вградување на двете слики и нивните вградени 3D форми. Резултатите се интересни бидејќи ја демонстрираат способноста на Uni3D да учи различни 3D претстави и да перципира повеќе 2D сигнали.

Во првата колона, рамката користи 2 слики за пребарување за да врати 3D форми кои се најслични на сликите за пребарување. Во втората колона, рамката користи две влезни слики за да добие 3Д форми што личат на двете влезни слики. Конечно, во последната колона, моделот користи текстови за барање и враќа 3Д форми кои максимално личат на барањето за текст.

Последни мисли

Во оваа статија, зборувавме за Uni3D, скалабилна и унифицирана 3D рамка за предобука, развиена со цел да научиме 3D претстави од големи размери што ги тестираат нејзините граници на скала од над милијарда параметри, над 10 милиони слики спарени со над 70 милиони. текстови и над милион 3Д форми. Развивачите на рамката вклучија трансформатор од ванила со неговата структура еквивалентна на ViTs што им овозможува да ја зголемат рамката Uni3D користејќи унифицирани 2D или NLP стратегии за скалирање. Понатаму, Uni3D рамката може да користи широк спектар на претходно обучени 2D рамки и 2D стратегии во 3D светот. Експерименталните резултати веќе го покажаа огромниот потенцијал на рамката Uni3D бидејќи Uni3D рамката враќа точни и ефикасни резултати низ широк спектар на поставки и ги надминува постоечките најсовремени рамки.

Поврзани теми:Компјутерска визија Uni3D

Следно

Стратешка експанзија на Google во вештачката интелигенција: облог од 2 милијарди долари на Anthropic

Не ја пропуштајте

Како вештачката интелигенција може да го подобри корисничкото искуство на уредите за VR

Кунал Кејривал

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.

Обединете се.AI

Uni3D: Истражување на унифицирана 3D репрезентација на скала

Вештачка интелигенција

Uni3D: Истражување на унифицирана 3D репрезентација на скала

Содржина

Учење со Uni3D и 3D претставување: вовед