csonk Uni3D: Az egyesített 3D-s ábrázolás nagyszabású felfedezése – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Uni3D: Az egyesített 3D-s ábrázolás nagyszabású felfedezése

mm
korszerűsített on

A szöveg és a képi megjelenítések felnagyítása az elmúlt évek kutatásának fő fókuszába került. A közelmúlt fejlesztései és kutatásai számos forradalomhoz vezettek a nyelvtanulásban és a látásmódban. A szöveg- és vizuális ábrázolások méretezésének népszerűsége ellenére azonban a 3D-s jelenetek és objektumok reprezentációinak méretezését nem tárgyalták kellőképpen.

Ma az Uni3D-ről fogunk beszélni, egy 3D-s alapmodellről, amely az egységes 3D-s ábrázolások feltárását célozza. Az Uni3D keretrendszer 2D-s inicializált ViT keretrendszert alkalmaz, végponttól végpontig előképzett, hogy a kép-szöveg jellemzőket hozzáigazítsa a megfelelő 3D pontfelhő jellemzőihez.

Az Uni3D keretrendszer ürügyfeladatokat és egyszerű architektúrát használ az előképzett 2D modellek és a kép-szöveghez igazított modellek rengetegének kihasználására inicializálásként, illetve célként. Ez a megközelítés felszabadítja a 2D-s modellekben és stratégiákban rejlő teljes potenciált, hogy a 3D-s világra méretezze őket.

Ebben a cikkben részletesebben foglalkozunk a 3D-vel számítógépes látás és a Uni3D keretrendszer, amely feltárja a modell alapvető koncepcióit és architektúráját. Szóval, kezdjük.

Uni3D és 3D ábrázolás tanulása: Bevezetés

Az elmúlt néhány évben a számítógépes látás az AI-ipar egyik legerőteljesebben befektetett területévé vált. A 2D számítógépes képi keretrendszerek terén elért jelentős előrelépést követően a fejlesztők a 3D számítógépes látásra helyezték a hangsúlyt. Ez a terület, különösen a 3D ábrázolás tanulása, egyesíti a számítógépes grafika szempontjait, gépi tanulás, számítógépes látás és matematika a 3D geometria feldolgozásának és megértésének automatizálására. A 3D-s érzékelők, például a LiDAR gyors fejlődése, valamint az AR/VR-iparban széles körben elterjedt alkalmazásaik azt eredményezték, hogy a 3D-s ábrázolás tanulása egyre nagyobb figyelmet kapott. Potenciális alkalmazásai naponta bővülnek.

Bár a meglévő keretrendszerek figyelemreméltó előrehaladást mutattak a 3D-s modellarchitektúra, a feladatorientált modellezés és a tanulási célok terén, legtöbbjük viszonylag kis léptékben, korlátozott adatokkal, paraméterekkel és feladat-forgatókönyvekkel fedezi fel a 3D-s architektúrát. A skálázható 3D-reprezentációk megtanulásának kihívása, amelyeket aztán különféle környezetekben valós idejű alkalmazásokhoz lehet alkalmazni, nagyrészt feltáratlan marad.

Az elmúlt néhány évben skálázás nagy nyelvi modellek amelyek előre kiképzettek segítettek forradalmasítani a természetes nyelvfeldolgozás tartományban, és a legújabb munkák azt mutatják, hogy az adatok és a modellskálázás segítségével a nyelvről a 2D-re való áttérés folyamatban van, ami lehetővé teszi a fejlesztők számára, hogy megpróbálják és újra megkíséreljék ezt a sikert, hogy megtanuljanak egy méretezhető és valós alkalmazásokba átvihető 3D-s ábrázolást. 

Az Uni3D egy méretezhető és egységes képzés előtti 3D keretrendszer, amelyet azzal a céllal fejlesztettek ki, hogy megtanuljanak nagyméretű 3D reprezentációkat, amelyek több mint egymilliárd paraméter skáláján, több mint 10 millió képen, több mint 70 millió szöveggel párosítva és több mint egy millió 3D alakzaton tesztelik határait. . Az alábbi ábra összehasonlítja a nullapontos pontosságot az Uni3D keretrendszer paramétereivel. Az Uni3D keretrendszer sikeresen méretezi a 3D-s ábrázolásokat 6 millióról egy milliárd fölé. 

Az Uni3D keretrendszer egy 2D ViT ill Vision Transformer mint a 3D kódoló, amelyet azután végponttól végpontig előtanítanak, hogy a kép-szöveghez igazított jellemzőket a 3D pontfelhő jellemzőihez igazítsa. Az Uni3D keretrendszer ürügyfeladatokat és egyszerű architektúrát használ az előre betanított 2D modellek és a képszöveghez igazított modellek rengetegének kihasználására inicializálásként és célként, így szabadjára engedi a 2D modellekben rejlő teljes potenciált és stratégiákat, amelyekkel a 3D-s világra méretezheti őket. Az Uni3D keretrendszer rugalmasságát és méretezhetőségét a következőkkel mérjük

  1. A modell méretezése 6 milliótól több mint egymilliárd paraméterig. 
  2. 2D inicializálás a szöveghez vizuális felügyelettel önfelügyelt tanulás
  3. Szöveg-kép célmodell skálázása 150 millióról több mint egymilliárd paraméterre. 

Az Uni3D által kínált rugalmas és egységes keretrendszerben a fejlesztők koherens teljesítménynövekedést tapasztalnak az egyes komponensek méretezésekor. A nagyszabású 3D-s ábrázolás tanulása szintén óriási előnyökkel jár a megosztható 2D-s és a nagyítási stratégiákból. 

Amint az az alábbi ábrán is látható, az Uni3D keretrendszer teljesítménynövekedést mutat a korábbi technikához képest néhány felvételes és nulla felvételes beállításokban. Érdemes megjegyezni, hogy az Uni3D keretrendszer nullapontos, 88%-ot meghaladó osztályozási pontossági pontszámot ad vissza a ModelNet-en, ami megfelel számos korszerű felügyeleti módszer teljesítményének. 

Ezen túlmenően az Uni3D keretrendszer kiváló pontosságot és teljesítményt nyújt más reprezentatív 3D-s feladatok, például az alkatrészszegmentálás és a nyitott világ megértése során. Az Uni3D keretrendszer célja, hogy áthidalja a szakadékot a 2D-s látás és a 3D-s látás között azáltal, hogy 3D-s alapmodelleket skáláz egy egységes, de egyszerű előképzési megközelítéssel, hogy robusztusabb 3D-s ábrázolásokat tanulhasson meg a feladatok széles skáláján, ami végső soron segítheti a 2D konvergenciáját. és 3D-s látás módozatok széles skáláján.

Uni3D : Kapcsolódó munka

Az Uni3D keretrendszer ihletet merít, és tanul a korábbi 3D-s ábrázolási tanulás fejlesztéseiből, valamint az alapozó modellekből, különösen a különböző módokon. 

3D-s ábrázolás tanulása

A 3D-s ábrázolás tanulási módszere felhőpontokat használ az objektum 3D-s megértéséhez, és ezt a területet a fejlesztők sokat vizsgálták az elmúlt időszakban, és megfigyelték, hogy ezek a felhőpontok önfelügyelet mellett előre betaníthatóak speciális 3D ürügyfeladatok, beleértve a maszkpont-modellezést, az önrekonstrukciót és a kontrasztív tanulást. 

Érdemes megjegyezni, hogy ezek a módszerek korlátozott adatokkal működnek, és gyakran nem vizsgálják a 3D-ből vagy NLP-ből származó 2D-s multimodális reprezentációkat. Mindazonáltal a CLIP keretrendszer közelmúltbeli sikere, amely nagy hatékonyságot biztosít a vizuális fogalmak nyers szövegből való tanulásában a kontrasztív tanulási módszerrel, és a 3D-s ábrázolások elsajátítására törekszik a kép, a szöveg és a felhőpont jellemzőinek összehangolásával, ugyanazzal a kontrasztív tanulási módszerrel. 

Alapozó modellek

A fejlesztők kimerítően dolgoztak alapmodellek tervezésén a multimodális reprezentációk felnagyítása és egységesítése érdekében. Például az NLP tartományban a fejlesztők olyan keretrendszereken dolgoztak, amelyek az előre betanított nyelvi modelleket bővíthetik, és ez lassan forradalmasítja az NLP-ipart. Ezen túlmenően a 2D-s látás területén is megfigyelhető fejlődés, mivel a fejlesztők olyan keretrendszereken dolgoznak, amelyek adat- és modellskálázási technikákat használnak a nyelv 2D-s modellekké való előrehaladásának elősegítésére, bár az ilyen keretrendszereket nehéz reprodukálni a 3D-s modellekhez, mert a 3D-s adatok korlátozott elérhetősége, valamint a 3D-s keretrendszerek egységesítése és bővítése során felmerülő kihívások. 

A fenti két munkaterületből tanulva a fejlesztők létrehoztak az Uni3D keretrendszer, az első 3D alapmodell több mint egymilliárd paraméterrel, amely egységes ViT vagy Vision Transformer architektúrát használ, amely lehetővé teszi a fejlesztők számára az Uni3D modell méretezését egységes 3D vagy NLP stratégiák segítségével a modellek felskálázásához. A fejlesztők azt remélik, hogy ez a módszer lehetővé teszi az Uni3D keretrendszer számára, hogy áthidalja azt a szakadékot, amely jelenleg elválasztja a 2D-s és 3D-s látást, valamint elősegíti a multimodális konvergenciát.

Uni3D: Módszer és architektúra

A fenti kép az Uni3D keretrendszer általános áttekintését mutatja be, amely egy méretezhető és egységes képzés előtti 3D keretrendszer a nagyszabású 3D ábrázolás tanulásához. A fejlesztők több mint 70 millió szöveget és 10 millió képet használnak, amelyek több mint egymillió 3D alakzattal párosulnak, hogy az Uni3D keretrendszert több mint egymilliárd paraméterre méretezzék. Az Uni3D keretrendszer 2D ViT-t vagy Vision Transformert használ 3D kódolóként, amelyet végpontok között betanítanak, hogy a szöveges képadatokat a 3D felhőpont jellemzőihez igazítsák, lehetővé téve az Uni3D keretrendszer számára, hogy a kívánt hatékonyságot és pontosságot biztosítsa a teljes felületen. benchmarkok széles skálája. Nézzük most részletesen az Uni3D keretrendszer működését. 

Az Uni3D Framework méretezése

A felhőpont-ábrázolás tanulásával kapcsolatos korábbi tanulmányok hagyományosan nagy hangsúlyt fektettek bizonyos modellarchitektúrák tervezésére, amelyek jobb teljesítményt nyújtanak az alkalmazások széles körében, és a kisméretű adatkészleteknek köszönhetően korlátozott mennyiségű adaton dolgoznak. A közelmúltban végzett tanulmányok azonban megpróbálták feltárni a méretezhető előképzés alkalmazásának lehetőségét 3D-ben, de a korlátozott 3D-s adatoknak köszönhetően nem volt jelentős eredmény. A 3D keretrendszerek skálázhatósági problémájának megoldására az Uni3D keretrendszer kihasználja egy vanília transzformátor szerkezet erejét, amely szinte tükrözi a Vision Transformert, és meg tudja oldani a méretezési problémákat az egységes 2D vagy NLP skálázási stratégiák használatával a modell méretének skálázásához. 

A felhőpont-ábrázolás tanulásával kapcsolatos korábbi tanulmányok hagyományosan nagy hangsúlyt fektettek bizonyos modellarchitektúrák tervezésére, amelyek jobb teljesítményt nyújtanak az alkalmazások széles körében, és a kisméretű adatkészleteknek köszönhetően korlátozott mennyiségű adaton dolgoznak. A közelmúltban végzett tanulmányok azonban megpróbálták feltárni a méretezhető előképzés alkalmazásának lehetőségét 3D-ben, de a korlátozott 3D-s adatoknak köszönhetően nem volt jelentős eredmény. A 3D keretrendszerek skálázhatósági problémájának megoldására az Uni3D keretrendszer kihasználja egy vanília transzformátor szerkezet erejét, amely szinte tükrözi a Vision Transformert, és meg tudja oldani a méretezési problémákat az egységes 2D vagy NLP skálázási stratégiák használatával a modell méretének skálázásához. 

Uni3D inicializálása

Egy másik nagy kihívás, amellyel a 3D-s ábrázolások skálázásával kapcsolatos korábbi munkák szembesültek, a konvergencia nehézségei és a túlillesztés, amelyek a modellek nagy méretéből adódnak. Ennek az akadálynak a leküzdésének hatékony módja az egyes 3D gerinchálózatok előre betanítása meghatározott 3D ürügyfeladatokkal, és az előre betanított paraméterek inicializálása. A megközelítés azonban magas képzési költségekkel jár, és nehéz robusztus inicializálást létrehozni a keresztmodális tanuláshoz a képzési célokra rendelkezésre álló korlátozott mennyiségű 3D adat miatt. 

Az Uni3D keretrendszer egy vanília transzformátort használ, amelynek szerkezete nagyon hasonlít a ViT-re. Ezzel a megközelítéssel az Uni3D keretrendszer természetesen át tudja venni az előre betanított nagy modelleket más modalitásokkal az Uni3D keretrendszer inicializálásához. 

Multi-Modal Alignment

Az Uni3D keretrendszer az OpenShape-hoz és az ULIP-keretrendszerekhez hasonló paradigmák felhasználásával próbálja megtanulni a képek, nyelvek és pontfelhők közötti többmodelles igazításokat. Továbbá a más módszerekkel való tisztességes összehasonlítás érdekében az Uni3D keretrendszer az OpenShape által összeállított 3D adatkészletet használja képzési célokra. Ez az OpenShape által készített összesített adatkészlet 4 3D adatkészletből áll: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-JÖVŐ. 
  4. ABO. 

Kísérletek és eredmények

Az Uni3D keretrendszert különböző beállításokban és különféle osztályozási feladatokban tesztelik, beleértve a nulla és néhány felvételes beállításokban nyújtott teljesítményét, a nyílt világra vonatkozó eredményeket és egyebeket. Nézzük meg részletesen ezeket az eredményeket.

Nullalövés Alak besorolása

Az Uni3D keretrendszer nullapontos alakosztályozási feladatokon belüli teljesítményének értékeléséhez a fejlesztők három benchmarkon végeznek kísérleteket, beleértve a ModelNet, a ScanObjNN és ​​az Objaverse-LVIS benchmark adatkészleteket. A ModelNet és a ScanObjNN olyan adatkészletek, amelyeket széles körben használnak osztályozási feladatokhoz, és 15, illetve 40 objektumkategóriából állnak, míg az Objaverse-LVIS benchmark egy tisztított és megjegyzésekkel ellátott adatkészlet, amely több mint 40,000 1,100 objektumot tartalmaz 3+ kategóriában. A keretrendszerek összehasonlítása az alábbi képen látható, és amint látható, az UniXNUMXD keretrendszer jelentősen felülmúlja a korábbi korszerű keretrendszereket a különböző beállítások között. 

Kevés lövésű lineáris szondázás

Az AI-ban a Lineáris szondázás egy általános módszer a keretrendszer vagy modell által megtanult reprezentációk értékelésére. Az Uni3D lineáris vizsgálóképességének értékeléséhez a fejlesztők az OpenShape néven általános beállításokat használva lefagyasztják az Uni3D keretrendszer paramétereit. Ezt követően a fejlesztők egy lineáris osztályozót képeznek ki Uni3D-hez, néhány felvételes osztálycímkék segítségével. Az alábbi ábra bemutatja a különböző keretrendszerek lineáris vizsgáló képességét az Objaverse-LVIS adatkészleten, és bemutatja a modell átlagos teljesítményét 10 véletlenszerű magon keresztül. Amint látható, az Uni3D keretrendszer jelentősen felülmúlja a meglévő módszereket különböző néhány felvételes beállítások mellett. 

Nyílt világ megértése

Az Uni3D keretrendszer valós alakzatok és objektumok valós idejű megértésére való képességének értékeléséhez a fejlesztők ScanNet és CLIP adatkészleteket használnak az Uni3D teljesítményének feltárására. Érdemes megjegyezni, hogy elérhető az alapigazság azonnali szegmentálása, és az elsődleges motívum az, hogy minden jelenet egyedi pillanatának kategóriáját felismerjük nulla-lövésben. Az eredményeket az alábbi kép mutatja be. Mint látható, az Uni3D keretrendszer kivételes eredményeket hoz a valós világ megértése és felismerése során. Az Uni3D keretrendszer jelentős mértékben felülmúlja a meglévő keretrendszereket, annak ellenére, hogy soha nem tanított valós adatkészletekre. 

Cross-Modal Retrieval

Az Uni3D keretrendszer által megtanult multimodális ábrázolások lehetővé teszik a keretrendszer számára, hogy természetes módon 3D alakzatokat nyerjen ki akár szövegekből, akár képekből. A 3D alakzatok lekéréséhez a modell kiszámítja a koszinusz hasonlóságot a 3D alakzatok beágyazásai és a lekérdezési szöveges prompt vagy lekérdezési kép beágyazásai között. A keretrendszer ezután a KNN vagy K Nearest Neighbor algoritmust használja a lekérdezésre leginkább hasonlító 3D alakzatok generálására, és az eredményeket az alábbi ábra mutatja be. Amint látható, az Uni3D keretrendszer sikeresen használja a valós képeket a 3D alakzatok lekérésére. Ezenkívül érdemes megjegyezni, hogy a képzési képek csak renderelési célokat szolgálnak, és a valós és a képzési képek közötti különbség jelentős. Ezenkívül a modell két bemeneti képet is készít, és mindkét bemeneti képhez hasonló alakzatokat kér le mindkét kép beágyazási átlagai és beágyazott 3D alakzatai közötti koszinusz hasonlóság használatával. Az eredmények érdekesek, mivel bemutatják, hogy az Uni3D képes megtanulni különféle 3D-s ábrázolásokat, és több 2D-s jelet is érzékel. 

Az első oszlopban a keretrendszer 2 lekérdezési képet használ a lekérdezési képekhez leginkább hasonló 3D alakzatok visszaadásához. A második oszlopban a keretrendszer két bemeneti képet használ a 3D alakzatok lekéréséhez, amelyek mindkét bemeneti képre hasonlítanak. Végül az utolsó oszlopban a modell lekérdezési szövegeket használ, és olyan 3D alakzatokat ad vissza, amelyek maximálisan hasonlítanak a szöveges lekérdezésre. 

Záró gondolatok

Ebben a cikkben beszéltünk az Uni3D-ről, egy méretezhető és egységes képzés előtti 3D-s keretrendszerről, amelyet azzal a céllal fejlesztettek ki, hogy nagyméretű 3D-reprezentációkat tanuljanak meg, és több mint egymilliárd paraméter skálán tesztelik határait, több mint 10 millió kép párosítva több mint 70 millióval. szövegek és több mint egymillió 3D alakzat. A keretrendszer fejlesztői beépítettek egy vanília transzformátort, amelynek felépítése egyenértékű a ViT-ekkel, amely lehetővé teszi számukra, hogy egységes 3D vagy NLP skálázási stratégiák használatával bővítsék az Uni2D keretrendszert. Ezenkívül az Uni3D keretrendszer az előre betanított 2D keretrendszerek és 2D stratégiák széles skáláját tudja hasznosítani a 3D világban. A kísérleti eredmények már bizonyították az Uni3D keretrendszerben rejlő hatalmas lehetőségeket, mivel az Uni3D keretrendszer pontos és hatékony eredményeket ad a beállítások széles skáláján, és felülmúlja a meglévő, legmodernebb keretrendszereket. 

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.