výhonek Uni3D: Prozkoumání jednotné 3D reprezentace v měřítku - Unite.AI
Spojte se s námi

Umělá inteligence

Uni3D: Prozkoumání jednotné 3D reprezentace v měřítku

mm
aktualizováno on

Zvětšení reprezentace textu a vizuálů bylo v posledních letech hlavním cílem výzkumu. Vývoj a výzkumy provedené v nedávné minulosti vedly k četným revolucím ve výuce jazyků a vizi. Navzdory popularitě změny měřítka textu a vizuálních reprezentací však nebyla dostatečně probrána změna měřítka reprezentací pro 3D scény a objekty.

Dnes budeme diskutovat o Uni3D, 3D základním modelu, jehož cílem je prozkoumat jednotné 3D reprezentace. Uni3D framework využívá 2D inicializovaný ViT framework, předem připravený end-to-end, aby sladil prvky obrazu a textu s jejich odpovídajícími funkcemi 3D mračna bodů.

Rámec Uni3D využívá pretextové úlohy a jednoduchou architekturu k využití množství předem připravených 2D modelů a modelů zarovnaných s obrazem a textem jako inicializací a cílů. Tento přístup uvolňuje plný potenciál 2D modelů a strategií pro jejich škálování do 3D světa.

V tomto článku se budeme hlouběji zabývat 3D počítačového vidění a Uni3D framework, zkoumající základní koncepty a architekturu modelu. Takže, začněme.

Uni3D a učení 3D reprezentace: Úvod

V posledních několika letech se počítačové vidění stalo jednou z nejvíce investovaných domén v odvětví umělé inteligence. Po významném pokroku v rámcích 2D počítačového vidění se vývojáři zaměřili na 3D počítačové vidění. Tento obor, zejména učení 3D reprezentace, spojuje aspekty počítačové grafiky, strojové učení, počítačové vidění a matematika pro automatizaci zpracování a pochopení 3D geometrie. Rychlý vývoj 3D senzorů, jako je LiDAR, spolu s jejich rozšířenými aplikacemi v průmyslu AR/VR vedly k tomu, že učení 3D reprezentace získává zvýšenou pozornost. Jeho potenciální aplikace každým dnem rostou.

Přestože stávající rámce prokázaly pozoruhodný pokrok v architektuře 3D modelů, modelování zaměřeném na úkoly a cílech učení, většina zkoumá 3D architekturu v relativně malém měřítku s omezenými daty, parametry a scénáři úloh. Výzva naučit se škálovatelné 3D reprezentace, které lze následně aplikovat na aplikace v reálném čase v různých prostředích, zůstává do značné míry neprozkoumaná.

Pohybující se v posledních letech, škálování velké jazykové modely které jsou pre-trénované pomohl v revoluci zpracování přirozeného jazyka a nedávné práce naznačují postupný přechod do 2D z jazyka využívajícího škálování dat a modelů, což umožňuje vývojářům zkusit a znovu se o tento úspěch pokusit naučit se 3D reprezentaci, kterou lze škálovat a přenést do aplikací v reálném světě. 

Uni3D je škálovatelný a jednotný předtrénovací 3D rámec vyvinutý s cílem naučit se rozsáhlé 3D reprezentace, které testují své limity v měřítku více než miliardy parametrů, více než 10 milionů obrázků spárovaných s více než 70 miliony textů a více než milion 3D tvarů. . Obrázek níže porovnává přesnost nulového výstřelu s parametry v rámci Uni3D. Rámec Uni3D úspěšně škáluje 3D reprezentace z 6 milionů na více než miliardu. 

Uni3D framework se skládá z 2D ViT resp Vision Transformer jako 3D kodér, který je poté od začátku do konce předtrénován k zarovnání prvků zarovnaných mezi obrazem a textem s prvky 3D mračna bodů. Rámec Uni3D využívá pretextové úlohy a jednoduchou architekturu k využití velkého množství předtrénovaných 2D modelů a modelů zarovnaných s obrazovým textem jako inicializace a cílů, čímž se uvolňuje plný potenciál 2D modelů a strategií pro jejich škálování do 3D světa. Flexibilita a škálovatelnost rámce Uni3D se měří v termínech

  1. Změna měřítka modelu od 6M až po více než miliardu parametrů. 
  2. 2D inicializace na text pod dohledem z vizuálu samokontrolované učení
  3. Měřítko cílového modelu textového obrázku ze 150 milionů na více než miliardu parametrů. 

V rámci flexibilního a jednotného rámce nabízeného Uni3D vývojáři pozorují koherentní zvýšení výkonu, pokud jde o škálování každé komponenty. Učení ve velkém měřítku 3D reprezentace také nesmírně těží ze sdílených 2D a škálovatelných strategií. 

Jak je vidět na obrázku níže, rámec Uni3D vykazuje zvýšení výkonu ve srovnání s předchozím stavem v nastavení několika snímků a nulových snímků. Stojí za zmínku, že rámec Uni3D vrací na ModelNet skóre přesnosti klasifikace s nulovým výstřelem přes 88 %, což je na stejné úrovni s výkonem několika nejmodernějších metod dohledu. 

Kromě toho Uni3D framework také poskytuje špičkovou přesnost a výkon při provádění dalších reprezentativních 3D úkolů, jako je segmentace dílů a porozumění otevřenému světu. Rámec Uni3D si klade za cíl překlenout propast mezi 2D viděním a 3D viděním škálováním základních 3D modelů pomocí jednotného, ​​ale jednoduchého předtréninkového přístupu, abyste se naučili robustnější 3D reprezentace napříč širokou řadou úkolů, což by mohlo v konečném důsledku pomoci při konvergenci 2D. a 3D vidění v celé řadě modalit.

Uni3D : Související práce

Rámec Uni3D čerpá inspiraci a učí se z vývoje provedeného předchozím učením se 3D reprezentace a základními modely, zejména v různých modalitách. 

Učení 3D reprezentace

Metoda učení 3D reprezentace využívá body mraku pro 3D pochopení objektu a toto pole bylo v nedávné minulosti hodně prozkoumáno vývojáři a bylo pozorováno, že tyto body mračna lze předem trénovat pod sebekontrolou pomocí specifických 3D pretextové úlohy včetně modelování bodů masky, seberekonstrukce a kontrastního učení. 

Stojí za zmínku, že tyto metody pracují s omezenými daty a často nezkoumají multimodální reprezentace do 3D z 2D nebo NLP. Nicméně nedávný úspěch rámce CLIP, který vrací vysokou efektivitu při učení vizuálních konceptů z nezpracovaného textu pomocí kontrastní metody učení a dále se snaží naučit 3D reprezentace zarovnáním prvků obrazu, textu a bodu zákalu pomocí stejné kontrastní metody učení. 

Modely nadace

Vývojáři vyčerpávajícím způsobem pracovali na navrhování základních modelů pro škálování a sjednocení multimodálních reprezentací. Například v doméně NLP vývojáři pracovali na rámcích, které dokážou škálovat předem trénované jazykové modely, a to pomalu přináší revoluci v odvětví NLP. Kromě toho lze pokroky pozorovat také v doméně 2D vidění, protože vývojáři pracují na rámcích, které využívají techniky škálování dat a modelů, aby pomohly při vývoji jazyka k 2D modelům, ačkoli takové rámce je obtížné replikovat pro 3D modely kvůli omezená dostupnost 3D dat a problémy, se kterými se setkáváme při sjednocování a rozšiřování 3D rámců. 

Učením se z výše uvedených dvou pracovních domén vývojáři vytvořili Uni3D framework, první 3D základní model s více než miliardou parametrů, který využívá sjednocenou architekturu ViT nebo Vision Transformer, která umožňuje vývojářům škálovat Uni3D model pomocí sjednocených 3D nebo NLP strategií pro zvětšování modelů. Vývojáři doufají, že tato metoda umožní Uni3D frameworku překlenout mezeru, která v současnosti odděluje 2D a 3D vidění, a zároveň usnadní multimodální konvergenci.

Uni3D: Metoda a architektura

Výše uvedený obrázek ukazuje obecný přehled Uni3D frameworku, škálovatelného a jednotného předtréninkového 3D rámce pro rozsáhlé učení 3D reprezentace. Vývojáři využívají více než 70 milionů textů a 10 milionů obrázků spárovaných s více než milionem 3D tvarů, aby škálovali rámec Uni3D na více než miliardu parametrů. Rámec Uni3D používá 2D ViT nebo Vision Transformer jako 3D kodér, který je následně trénován od začátku do konce, aby sladil textová obrazová data s funkcemi 3D bodu zákalu, což umožňuje Uni3D frameworku poskytovat požadovanou efektivitu a přesnost v celém širokou škálu benchmarků. Podívejme se nyní podrobně na fungování rámce Uni3D. 

Škálování Uni3D Framework

Dřívější studie o učení se reprezentace bodů mraku se tradičně silně zaměřovaly na navrhování konkrétních modelových architektur, které poskytují lepší výkon v celé řadě aplikací a pracují s omezeným množstvím dat díky malým datovým sadám. Nedávné studie se však pokusily prozkoumat možnost použití škálovatelného předtréninku ve 3D, ale vzhledem k dostupnosti omezených 3D dat nedošlo k žádným zásadním výsledkům. K vyřešení problému škálovatelnosti 3D frameworků využívá Uni3D framework sílu vanilkové transformační struktury, která téměř zrcadlí Vision Transformer, a může vyřešit problémy se škálováním pomocí unifikovaných 2D nebo NLP škálovacích strategií pro škálování velikosti modelu. 

Dřívější studie o učení se reprezentace bodů mraku se tradičně silně zaměřovaly na navrhování konkrétních modelových architektur, které poskytují lepší výkon v celé řadě aplikací a pracují s omezeným množstvím dat díky malým datovým sadám. Nedávné studie se však pokusily prozkoumat možnost použití škálovatelného předtréninku ve 3D, ale vzhledem k dostupnosti omezených 3D dat nedošlo k žádným zásadním výsledkům. K vyřešení problému škálovatelnosti 3D frameworků využívá Uni3D framework sílu vanilkové transformační struktury, která téměř zrcadlí Vision Transformer, a může vyřešit problémy se škálováním pomocí unifikovaných 2D nebo NLP škálovacích strategií pro škálování velikosti modelu. 

Inicializace Uni3D

Dalším velkým problémem, s nímž se setkaly předchozí práce týkající se škálování 3D reprezentací, byly potíže s konvergencí a přesazením, které byly výsledkem velké velikosti modelů. Efektivním přístupem k překonání této překážky je předtrénovat jednotlivé 3D páteře pomocí specifikovaných 3D pretextových úloh a inicializovat předtrénované parametry. Tento přístup je však doprovázen vysokými náklady na školení a je také obtížné vytvořit robustní inicializaci pro crossmodální učení díky omezenému množství 3D dat dostupných pro účely školení. 

Rámec Uni3D využívá vanilkový transformátor, jehož struktura se velmi podobá ViT. S tímto přístupem může Uni3D framework přirozeně převzít předem trénované velké modely s dalšími modalitami pro inicializaci Uni3D frameworku. 

Multimodální zarovnání

Rámec Uni3D se pokouší naučit zarovnání více modelů napříč obrazem, jazykem a mračny bodů pomocí paradigmat podobných rámcům OpenShape a ULIP. Kromě toho, aby bylo zajištěno spravedlivé srovnání s jinými metodami, používá rámec Uni3D pro účely školení soubor 3D dat od OpenShape. Tato souborová datová sada od OpenShape se skládá ze 4 3D datových sad: 

  1. Objeverse. 
  2. ShapeNet. 
  3. 3D-BUDOUCNOST. 
  4. ABO. 

Experimenty a výsledky

Rámec Uni3D je testován v různých nastaveních a v různých klasifikačních úlohách, včetně jeho výkonu v nastaveních zero-shot a few-shot, výsledků týkajících se porozumění otevřenému světu a dalších. Pojďme se na tyto výsledky podrobně podívat.

Klasifikace tvaru nulového výstřelu

Pro vyhodnocení výkonu Uni3D frameworku v rámci úloh klasifikace tvaru zero-shot provádějí vývojáři experimenty se třemi benchmarky včetně datových sad ModelNet, ScanObjNN a Objaverse-LVIS. ModelNet a ScanObjNN jsou datové sady široce používané pro klasifikační úlohy a skládají se z 15, respektive 40 kategorií objektů, zatímco benchmark Objaverse-LVIS je vyčištěná a anotovaná datová sada skládající se z více než 40,000 1,100 objektů ve více než 3 XNUMX kategoriích. Srovnání mezi frameworky je znázorněno na obrázku níže, a jak je vidět, UniXNUMXD framework výrazně překonává předchozí nejmodernější frameworky napříč různými nastaveními. 

Lineární snímání s několika výstřely

V AI je lineární sondování běžnou metodou používanou k vyhodnocení reprezentací, které se framework nebo model učí. Aby bylo možné vyhodnotit schopnost lineárního snímání Uni3D, vývojáři zmrazili parametry rámce Uni3D pomocí běžných nastavení jako OpenShape. Následně vývojáři trénují lineární klasifikátor pro Uni3D pomocí několikanásobných štítků tříd. Obrázek níže ukazuje lineární schopnost sondování různých rámců na datovém souboru Objaverse-LVIS a ukazuje průměrný výkon modelu v 10 náhodných semenech. Jak je vidět, Uni3D framework výrazně překonává stávající metody v různých nastaveních několika snímků. 

Porozumění otevřenému světu

K vyhodnocení schopnosti Uni3D frameworku porozumět skutečným tvarům a objektům v reálném čase používají vývojáři ScanNet a CLIP datové sady k prozkoumání výkonu Uni3D. Stojí za zmínku, že je k dispozici okamžitá segmentace podle základní pravdy a primárním motivem je rozpoznat kategorii individuálního okamžiku každé scény v nastavení nulového záběru. Výsledky jsou znázorněny na obrázku níže. Jak je vidět, Uni3D framework poskytuje výjimečné výsledky při provádění porozumění a rozpoznávání v reálném světě. Rámec Uni3D výrazně překonává stávající rámce, přestože nikdy nebyl trénován na reálných datových sadách. 

Cross-Modal Retrieval

Multimodální reprezentace naučené frameworkem Uni3D mohou umožnit frameworku získávat 3D tvary přirozeně buď z textů nebo obrázků. K načtení 3D tvarů model vypočítá kosinusovou podobnost mezi vloženými 3D tvary a vloženými textovými výzvami dotazu nebo obrazem dotazu. Rámec pak využívá algoritmus KNN nebo K Nearest Neighbor ke generování 3D tvarů, které se nejvíce podobají dotazu, a výsledky jsou znázorněny na obrázku níže. Jak je vidět, Uni3D framework úspěšně používá obrázky z reálného světa k načtení 3D tvarů. Dále stojí za zmínku, že tréninkové obrázky slouží pouze pro účely vykreslování a rozdíl mezi reálnými a tréninkovými obrázky je značný. Kromě toho model také vezme dva vstupní obrázky a načte tvary podobné oběma vstupním obrázkům pomocí kosinové podobnosti mezi průměry vložení obou obrázků a jejich vložených 3D tvarů. Výsledky jsou zajímavé, protože demonstrují schopnost Uni3D učit se různé 3D reprezentace a vnímat více 2D signálů. 

V prvním sloupci framework používá 2 obrázky dotazu k vrácení 3D tvarů, které jsou nejvíce podobné obrázkům dotazu. Ve druhém sloupci framework používá dva vstupní obrázky k načtení 3D tvarů, které se podobají oběma vstupním obrázkům. Nakonec v posledním sloupci model používá texty dotazů a vrací 3D tvary, které se maximálně podobají textovému dotazu. 

Závěrečné myšlenky

V tomto článku jsme hovořili o Uni3D, škálovatelném a jednotném předtrénovacím 3D rámci vyvinutém s cílem naučit se rozsáhlé 3D reprezentace, které testují své limity v měřítku více než miliardy parametrů, více než 10 milionů obrázků spárovaných s více než 70 miliony texty a více než milion 3D tvarů. Vývojáři frameworku zahrnuli vanilkový transformátor se strukturou ekvivalentní ViTs, který jim umožňuje škálovat Uni3D framework pomocí unifikovaných 2D nebo NLP škálovacích strategií. Kromě toho může Uni3D framework využít širokou škálu předem vyškolených 2D frameworků a 2D strategií do 3D světa. Experimentální výsledky již prokázaly obrovský potenciál Uni3D frameworku, protože Uni3D framework vrací přesné a efektivní výsledky v široké škále nastavení a překonává stávající nejmodernější frameworky. 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.