stub Uni3D: Нэгдсэн 3D төлөөллийг өргөн хүрээнд судлах нь - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Uni3D: Нэгдсэн 3D дүрслэлийг өргөн хүрээнд судлах

mm
шинэчлэгдсэн on

Текст болон дүрслэлийн дүрслэлийг өргөжүүлэх нь сүүлийн жилүүдэд судалгааны гол чиглэл болоод байна. Сүүлийн үед хийгдсэн бүтээн байгуулалт, судалгаа нь хэл сурах, алсын хараанд олон тооны хувьсгал хийхэд хүргэсэн. Гэсэн хэдий ч текст болон визуал дүрслэлийг масштаблах нь түгээмэл байсан ч 3D үзэгдэл, объектын дүрслэлийн масштабын талаар хангалттай хэлэлцэгдээгүй байна.

Өнөөдөр бид нэгдмэл 3D дүрслэлийг судлах зорилготой 3D суурь загвар болох Uni3D-ийн талаар ярилцах болно. Uni3D хүрээ нь зургийн текстийн онцлогийг 2D цэгийн үүлний онцлогтой уялдуулахын тулд 3D-ээр эхлүүлсэн ViT хүрээг ашигладаг бөгөөд төгсгөлөөс нь төгсгөл хүртэл бэлтгэдэг.

Uni3D хүрээ нь урьдчилан бэлтгэсэн олон тооны 2D загварууд болон зураг текстэд нийцсэн загваруудыг эхлүүлэх болон зорилт болгон ашиглахын тулд шалтаг даалгавар, энгийн архитектурыг ашигладаг. Энэхүү арга нь 2 хэмжээст загварууд болон тэдгээрийг 3 хэмжээст ертөнцөд өргөжүүлэх стратегиудын бүрэн боломжуудыг нээж өгдөг.

Энэ нийтлэлд бид 3D-ийн талаар илүү гүнзгий судлах болно компьютерийн алсын хараа болон Uni3D хүрээ, загварын үндсэн ойлголт, архитектурыг судлах. За ингээд эхэлцгээе.

Uni3D ба 3D дүрслэлд суралцах: Танилцуулга

Сүүлийн хэдэн жилийн хугацаанд компьютерийн хараа нь хиймэл оюун ухааны салбарт хамгийн их хөрөнгө оруулалт хийсэн салбаруудын нэг болсон. 2D компьютерийн харааны тогтолцоонд томоохон дэвшил гарсны дараа хөгжүүлэгчид 3D компьютерийн хараанд анхаарлаа хандуулсан. Энэ талбар, ялангуяа 3D дүрслэлд суралцах нь компьютер графикийн талуудыг нэгтгэдэг. машин суралцах, 3D геометрийн боловсруулалт, ойлголтыг автоматжуулахын тулд компьютерийн хараа, математик. LiDAR гэх мэт 3D мэдрэгчийг хурдацтай хөгжүүлж, AR/VR салбарт өргөн хэрэглэгдэж байгаа нь 3D дүрслэлийг судлахад ихээхэн анхаарал хандуулж байна. Түүний боломжит хэрэглээ өдөр бүр нэмэгдсээр байна.

Хэдийгээр одоо байгаа хүрээнүүд нь 3D загварын архитектур, даалгаварт чиглэсэн загварчлал, сургалтын зорилгын талаар гайхалтай ахиц дэвшлийг харуулсан ч ихэнх нь 3D архитектурыг харьцангуй бага хэмжээгээр, хязгаарлагдмал өгөгдөл, параметрүүд болон даалгаврын хувилбаруудыг судалж үздэг. Дараа нь янз бүрийн орчинд бодит цагийн хэрэглээнд хэрэглэгдэх боломжтой 3D дүрслэлийг сурах сорилт бараг судлагдаагүй хэвээр байна.

Сүүлийн хэдэн жил урагшилж байна хэлний том загварууд Урьдчилан бэлтгэгдсэн нь хувьсгал хийхэд тусалсан байгалийн хэл боловсруулах домэйн болон сүүлийн үеийн бүтээлүүд нь өгөгдөл болон загварын масштабыг ашиглан хэлнээс 2D хэлбэрт шилжих ахиц дэвшлийг харуулж байгаа бөгөөд энэ нь хөгжүүлэгчид бодит ертөнц дэх 3D дүрслэлийг масштабтай болгож, програм руу шилжүүлж сурахын тулд энэхүү амжилтыг туршиж, дахин оролдох боломжийг олгодог. 

Uni3D нь том хэмжээний 3D дүрслэлийг сурах зорилготойгоор бүтээгдсэн, нэг тэрбум гаруй параметр, 3 сая гаруй тексттэй хослуулсан 10 сая гаруй зураг, сая гаруй 70D дүрсийг туршиж үзэх зорилготой өргөтгөх боломжтой, нэгдмэл бэлтгэлийн өмнөх 3D хүрээ юм. . Доорх зураг нь 3 цохилтын нарийвчлалыг Uni3D хүрээн дэх параметрүүдтэй харьцуулсан болно. Uni3D хүрээ нь 6D дүрслэлийг XNUMX саяас тэрбум гаруй хүртэл амжилттай өргөжүүлсэн. 

Uni3D хүрээ нь 2D ViT буюу Алсын хараа хувиргагч 3D кодлогчийн хувьд дүрс-текстийн зэрэгцүүлсэн функцуудыг 3D цэгийн үүлний онцлогтой уялдуулахын тулд төгсгөлөөс төгсгөлд нь урьдчилан бэлтгэгддэг. Uni3D хүрээ нь урьдчилан бэлтгэсэн олон тооны 2D загварууд болон зургийн текстийн зэрэгцүүлсэн загваруудыг эхлүүлэх болон зорилт болгон ашиглахын тулд шалтаг даалгавар, энгийн архитектурыг ашигладаг бөгөөд ингэснээр 2D загваруудын бүрэн боломж, тэдгээрийг 3D ертөнцөд өргөжүүлэх стратегийг нээж өгдөг. Uni3D хүрээний уян хатан байдал, өргөтгөх чадварыг дараах байдлаар хэмждэг

  1. Загварыг масштаблах 6 саяас тэрбум гаруй параметр хүртэл. 
  2. Визуал хяналттай текст рүү 2D эхлүүлэх бие даасан сургалт
  3. Текст зургийн зорилтот загвар нь 150 саяас тэрбум гаруй параметр хүртэл масштабтай. 

Uni3D-ийн санал болгож буй уян хатан, нэгдмэл тогтолцооны дагуу хөгжүүлэгчид бүрэлдэхүүн хэсэг бүрийг өргөтгөхөд гүйцэтгэл нь уялдаатай нэмэгдэж байгааг ажигладаг. Том хэмжээний 3D дүрслэлд суралцах нь хуваалцах боломжтой 2D болон томруулах стратегиас асар их ашиг тус хүртдэг. 

Доорх зургаас харахад Uni3D хүрээ нь өмнөх үеийнхтэй харьцуулахад хэд хэдэн удаагийн болон тэг буудлагын тохиргоонд гүйцэтгэлийн өсөлтийг харуулж байна. Uni3D хүрээ нь ModelNet дээр 88% -иас дээш онооны ангиллын нарийвчлалын оноог өгдөг бөгөөд энэ нь хэд хэдэн орчин үеийн хяналтын аргуудын гүйцэтгэлтэй тэнцэж байгааг тэмдэглэх нь зүйтэй. 

Цаашилбал, Uni3D хүрээ нь хэсэгчилсэн сегментчилэл, нээлттэй ертөнцийг ойлгох зэрэг бусад төлөөлөх 3D даалгавруудыг гүйцэтгэх үед дээд зэргийн нарийвчлал, гүйцэтгэлийг өгдөг. Uni3D хүрээ нь 2 хэмжээст алсын хараа болон 3 хэмжээст алсын хараа хоёрын хоорондох ялгааг арилгах зорилготой бөгөөд 3 хэмжээст үндсэн загваруудыг сургалтын өмнөх нэгдсэн арга барилаар томруулж, 3 хэмжээст дүрслэлийг нэгтгэхэд тус дөхөм болох өргөн хүрээний даалгаврын хүрээнд илүү бат бөх 2D дүрслэлийг сурахад чиглэгддэг. болон 3D алсын харааг өргөн хүрээний арга хэлбэрээр ашиглах боломжтой.

Uni3D: Холбогдох ажил

Uni3D хүрээ нь урам зоригийг татаж, өмнөх 3D дүрслэлийн сургалт, суурь загварууд, ялангуяа өөр өөр аргуудын дагуу хийгдсэн хөгжүүлэлтээс суралцдаг. 

3D төлөөлөх сургалт

3D дүрслэлд суралцах арга нь объектыг 3 хэмжээстээр ойлгоход үүлэн цэгүүдийг ашигладаг бөгөөд энэ талбарыг сүүлийн үед хөгжүүлэгчид маш их судалж үзсэн бөгөөд эдгээр үүл цэгүүдийг тусгай зориулалтын тусламжтайгаар бие даан хяналтан дор урьдчилан сургах боломжтой болох нь ажиглагдсан. Маскийн цэгийн загварчлал, өөрийгөө сэргээн босгох, ялгаатай суралцах зэрэг 3D шалтаг даалгаврууд. 

Эдгээр аргууд нь хязгаарлагдмал өгөгдөлтэй ажилладаг бөгөөд ихэнхдээ 3D эсвэл NLP-ээс 2D хүртэлх мультимодаль дүрслэлийг судалдаггүй гэдгийг тэмдэглэх нь зүйтэй. Гэсэн хэдий ч, CLIP тогтолцооны сүүлийн үеийн амжилт нь ялгаатай сургалтын аргыг ашиглан түүхий текстээс харааны ойлголтыг сурахад өндөр үр ашигтай, мөн ижил ялгаатай сургалтын аргыг ашиглан зураг, текст болон үүл цэгийн онцлогуудыг зэрэгцүүлэн 3D дүрслэлийг сурахыг эрмэлздэг. 

Суурийн загварууд

Хөгжүүлэгчид олон загварт дүрслэлийг өргөжүүлэх, нэгтгэхийн тулд суурийн загвар зохион бүтээх дээр бүрэн ажиллаж байна. Жишээлбэл, NLP домэйн дээр хөгжүүлэгчид урьдчилан бэлтгэгдсэн хэлний загваруудыг өргөжүүлэх боломжтой хүрээ дээр ажиллаж байгаа бөгөөд энэ нь NLP салбарыг аажмаар өөрчилж байна. Цаашилбал, хөгжүүлэгчид хэлийг 2 хэмжээст загварт шилжүүлэхэд туслах өгөгдөл, загварчлалын арга техникийг ашигладаг фреймворкүүд дээр ажиллаж байгаа тул 2 хэмжээст харааны талбарт ахиц дэвшил гарч байгаа боловч ийм хүрээг 3D загварт хуулбарлахад хэцүү байдаг. 3D өгөгдлийн хязгаарлагдмал хүртээмж, 3D хүрээг нэгтгэх, өргөжүүлэхэд тулгардаг бэрхшээлүүд. 

Дээрх хоёр ажлын домэйноос суралцсанаар хөгжүүлэгчид бий болгосон Uni3D хүрээ нь тэрбум гаруй параметр бүхий анхны 3D суурийн загвар бөгөөд нэгдмэл ViT эсвэл Vision Transformer архитектурыг ашигладаг бөгөөд хөгжүүлэгчдэд загваруудыг өргөжүүлэхийн тулд нэгдсэн 3D эсвэл NLP стратеги ашиглан Uni3D загварыг масштаблах боломжийг олгодог. Хөгжүүлэгчид энэхүү арга нь Uni3D хүрээ нь 2D болон 3D харааг тусгаарлаж байгаа цоорхойг нөхөх боломжийг олгохын зэрэгцээ мультимодаль нэгдэлтийг хөнгөвчлөх боломжийг олгоно гэж хөгжүүлэгчид найдаж байна.

Uni3D: Архитектур ба арга

Дээрх зураг нь Uni3D хүрээний ерөнхий тоймыг харуулж байна, том хэмжээний 3D дүрслэлийг сурахад зориулсан өргөтгөх боломжтой, сургалтын өмнөх нэгдсэн 3D хүрээ. Хөгжүүлэгчид Uni70D хүрээг тэрбум гаруй параметрт хүргэхийн тулд 10 сая гаруй текст, 3 сая зургийг сая гаруй 3D дүрстэй хослуулан ашигладаг. Uni3D хүрээ нь 2D ViT эсвэл Vision Transformer-ийг 3D кодлогч болгон ашигладаг бөгөөд дараа нь текст дүрсний өгөгдлийг 3D үүлэн цэгийн функцтэй уялдуулахын тулд төгсгөл хүртэл нь сургадаг бөгөөд Uni3D хүрээ нь хүссэн үр ашиг, нарийвчлалыг хангах боломжийг олгодог. өргөн хүрээний жишиг үзүүлэлтүүд. Одоо Uni3D фреймворкийн ажлыг нарийвчлан авч үзье. 

Uni3D Framework-ийг масштаблах

Үүлэн цэгийн дүрслэлийг судлах чиглэлээр хийсэн өмнөх судалгаанууд нь өргөн хүрээний хэрэглээний программуудад илүү сайн гүйцэтгэлийг үзүүлэх, бага хэмжээний өгөгдлийн багцын ачаар хязгаарлагдмал хэмжээний өгөгдөл дээр ажиллах тодорхой загварын архитектурыг зохион бүтээхэд ихээхэн анхаарч ирсэн. Гэсэн хэдий ч сүүлийн үеийн судалгаанууд 3D-д өргөтгөх боломжтой урьдчилсан сургалтыг ашиглах боломжийг судлахыг оролдсон боловч хязгаарлагдмал 3D өгөгдөл байгаа тул томоохон үр дүнд хүрээгүй. 3D фреймворкуудын өргөтгөх чадварын асуудлыг шийдэхийн тулд Uni3D хүрээ нь Vision Transformer-ийн бараг тусгал болох ванилийн трансформаторын бүтцийн хүчийг ашигладаг бөгөөд загварын хэмжээг масштаблахын тулд нэгдсэн 2D эсвэл NLP томруулах стратеги ашиглан масштабын асуудлыг шийдэж чадна. 

Үүлэн цэгийн дүрслэлд суралцах өмнөх судалгаанууд нь өргөн хүрээний хэрэглээний программуудад илүү сайн гүйцэтгэлийг үзүүлэх, жижиг хэмжээний өгөгдлийн багцын ачаар хязгаарлагдмал хэмжээний өгөгдөл дээр ажиллах тодорхой загварын архитектурыг зохион бүтээхэд ихээхэн анхаарч ирсэн. Гэсэн хэдий ч сүүлийн үеийн судалгаанууд 3D-д өргөтгөх боломжтой урьдчилсан сургалтыг ашиглах боломжийг судлахыг оролдсон боловч хязгаарлагдмал 3D өгөгдөл байгаа тул томоохон үр дүнд хүрээгүй. 3D фреймворкуудын өргөтгөх чадварын асуудлыг шийдэхийн тулд Uni3D хүрээ нь Vision Transformer-ийн бараг тусгал болох ванилийн трансформаторын бүтцийн хүчийг ашигладаг бөгөөд загварын хэмжээг масштаблахын тулд нэгдсэн 2D эсвэл NLP томруулах стратеги ашиглан масштабын асуудлыг шийдэж чадна. 

Uni3D-г эхлүүлж байна

Өмнөх ажлуудад тулгарч байсан өөр нэг томоохон сорилт бол 3D дүрслэлийг масштабжуулах, нэгдэхэд хүндрэлтэй байх, загваруудын том хэмжээтэйгээс шалтгаална. Энэхүү саад бэрхшээлийг даван туулах үр дүнтэй арга бол 3D шалтаг даалгавраар бие даасан 3D нурууг урьдчилан бэлтгэх, урьдчилан бэлтгэсэн параметрүүдийг эхлүүлэх явдал юм. Гэсэн хэдий ч энэ арга нь сургалтын өндөр өртөгтэй бөгөөд сургалтын зориулалтаар ашиглах боломжтой 3D өгөгдлийн хязгаарлагдмал тооны ачаар кросс-модаль сургалтын найдвартай эхлэлийг бий болгоход хэцүү байдаг. 

Uni3D хүрээ нь бүтэц нь ViT-тэй төстэй ванилийн трансформаторыг ашигладаг. Энэхүү аргын тусламжтайгаар Uni3D хүрээ нь урьдчилан бэлтгэгдсэн том загваруудыг бусад горимуудтай хамт Uni3D хүрээг эхлүүлэх боломжтой. 

Multi-Modal Alignment

Uni3D хүрээ нь OpenShape болон ULIP фреймворктой төстэй парадигмуудыг ашиглан зураг, хэл, цэгийн үүл хоорондын олон загварт тохируулгыг сурахыг оролддог. Цаашилбал, бусад аргуудтай шударга харьцуулах үүднээс Uni3D хүрээ нь сургалтын зорилгоор OpenShape-ийн нэгдсэн 3D өгөгдлийн багцыг ашигладаг. OpenShape-ийн энэхүү нэгдсэн мэдээллийн багц нь 4 3D өгөгдлийн багцаас бүрдэнэ: 

  1. Сөрөг. 
  2. ShapeNet. 
  3. 3D-ИРЭЭДҮЙ. 
  4. ABO. 

Туршилт ба үр дүн

Uni3D хүрээг өөр өөр тохиргоо, ангиллын янз бүрийн ажлууд, түүний дотор тэг цохилт, цөөн удаагийн тохиргоо, нээлттэй ертөнцийг ойлгох үр дүн гэх мэт янз бүрийн ангиллын ажлуудад туршиж үздэг. Эдгээр үр дүнг нарийвчлан авч үзье.

Zero Shot хэлбэрийн ангилал

Uni3D фрэймворкийн гүйцэтгэлийг 15-shot хэлбэрийн ангиллын даалгавруудад үнэлэхийн тулд хөгжүүлэгчид ModelNet, ScanObjNN, Objaverse-LVIS жишиг өгөгдлийн багц зэрэг гурван жишиг дээр туршилт хийдэг. ModelNet болон ScanObjNN нь ангиллын даалгавруудад өргөн хэрэглэгддэг өгөгдлийн багц бөгөөд тэдгээр нь тус бүр 40 ба 40,000 объектын ангиллаас бүрддэг бол Objaverse-LVIS жишиг нь 1,100 гаруй ангилалд хамаарах 3 гаруй объектоос бүрдсэн, цэвэрлэсэн, тэмдэглэсэн өгөгдлийн багц юм. Фреймворкуудын харьцуулалтыг доорх зурган дээр харуулсан бөгөөд үүнийг харж байгаагаар UniXNUMXD хүрээ нь өөр өөр тохиргоонуудын өмнөх урлагийн хүрээнүүдээс хамаагүй илүү байна. 

Цөөн сумтай шугаман шалгалт

AI-д Linear Probing нь хүрээ эсвэл загвар сурсан дүрслэлийг үнэлэхэд ашигладаг нийтлэг арга юм. Uni3D-ийн шугаман шалгах чадварыг үнэлэхийн тулд хөгжүүлэгчид OpenShape шиг нийтлэг тохиргоог ашиглан Uni3D хүрээний параметрүүдийг царцаадаг. Үүний дараа хөгжүүлэгчид Uni3D-д зориулсан шугаман ангилагчийг цөөн тооны ангийн шошго ашиглан сургадаг. Доорх зураг нь Objaverse-LVIS өгөгдлийн багц дээрх янз бүрийн хүрээнүүдийн шугаман шалгах чадварыг харуулсан ба 10 санамсаргүй үрийн дагуух загварын дундаж гүйцэтгэлийг харуулж байна. Эндээс харахад Uni3D хүрээ нь хэд хэдэн удаа буудсан янз бүрийн тохиргоон дээр байгаа аргуудаас хамаагүй илүү байдаг. 

Нээлттэй ертөнцийн ойлголт

Uni3D хүрээний бодит ертөнцийн дүрс, объектыг бодит цаг хугацаанд нь ойлгох чадварыг үнэлэхийн тулд хөгжүүлэгчид Uni3D-ийн гүйцэтгэлийг судлахын тулд ScanNet болон CLIP мэдээллийн багцыг ашигладаг. Үндсэн үнэн агшин зуурын сегментчилэл боломжтой гэдгийг тэмдэглэх нь зүйтэй бөгөөд үндсэн сэдэл нь үзэгдэл бүрийн бие даасан агшин зуурын ангиллыг тэг буудлагын нөхцөлд таних явдал юм. Үр дүнг доорх зурган дээр харуулав. Эндээс харахад Uni3D хүрээ нь бодит ертөнцийг ойлгох, таних үед онцгой үр дүнг өгдөг. Uni3D хүрээ нь бодит өгөгдлийн багцын талаар хэзээ ч сургаж байгаагүй ч одоо байгаа хүрээнүүдээс ихээхэн хэмжээгээр давж гардаг. 

Cross-modal Retrieval

Uni3D хүрээний сурсан олон загварт дүрслэл нь текст эсвэл зургаас 3D дүрсийг байгалийн аргаар олж авах боломжийг олгодог. 3D дүрсүүдийг сэргээхийн тулд загвар нь 3D дүрсийн оруулга болон асуулгын текстийн мөр эсвэл асуулгын зургийн суулгацын хоорондох косинусын ижил төстэй байдлыг тооцдог. Дараа нь уг хүрээ нь KNN эсвэл K хамгийн ойрын хөршийн алгоритмыг ашиглан асуулгатай хамгийн их төстэй 3D дүрс үүсгэх бөгөөд үр дүнг доорх зурагт үзүүлэв. Эндээс харахад Uni3D хүрээ нь 3D дүрсийг сэргээхийн тулд бодит зургуудыг амжилттай ашигладаг. Цаашилбал, сургалтын зургууд нь зөвхөн үзүүлэх зорилготой бөгөөд бодит ертөнц болон сургалтын зургуудын хоорондох ялгаа ихээхэн байгааг тэмдэглэх нь зүйтэй. Нэмж дурдахад, загвар нь хоёр оролтын дүрсийг авч, хоёр зургийн дундаж болон тэдгээрийн суулгасан 3D дүрсүүдийн косинусын ижил төстэй байдлыг ашиглан оролтын хоёр зурагтай ижил төстэй хэлбэрийг олж авдаг. Үр дүн нь Uni3D-ийн янз бүрийн 3D дүрслэлийг сурч, олон 2D дохиог хүлээн авах чадварыг харуулж байгаагаараа сонирхолтой юм. 

Эхний баганад хүрээ нь асуулгын зургуудтай хамгийн төстэй 2D дүрсийг буцаахын тулд асуулгын 3 зургийг ашигладаг. Хоёрдахь баганад хүрээ нь оролтын хоёр дүрсийг хоёуланг нь санагдуулдаг 3D дүрсийг олж авахын тулд ашигладаг. Эцэст нь, эцсийн баганад загвар нь асуулгын текстийг ашигладаг бөгөөд хамгийн ихдээ текстийн асуулгатай төстэй 3D дүрсүүдийг буцаана. 

Final бодол

Энэ нийтлэлд бид 3 сая гаруй 3 сая зурагтай хослуулсан тэрбум гаруй параметрийн масштабаар хязгаарыг нь туршиж үздэг том хэмжээний 3D дүрслэлийг сурах зорилготой Uni10D, өргөтгөх боломжтой, нэгдсэн бэлтгэлийн өмнөх 70D хүрээний талаар ярилцсан. текст, сая гаруй 3D дүрс. Энэхүү хүрээг хөгжүүлэгчид ViT-тэй тэнцэх бүтэцтэй ванилийн трансформаторыг оруулсан бөгөөд энэ нь нэгдсэн 3D эсвэл NLP масштабын стратеги ашиглан Uni2D хүрээг томруулах боломжийг олгодог. Цаашилбал, Uni3D хүрээ нь 2D ертөнцөд урьдчилан бэлтгэгдсэн 2 хэмжээст хүрээ болон 3 хэмжээст стратегиудын өргөн хүрээг ашиглах боломжтой. Туршилтын үр дүн нь Uni3D хүрээ нь өргөн хүрээний тохиргоонд үнэн зөв, үр дүнтэй үр дүнг өгч, одоо байгаа орчин үеийн хүрээнүүдээс давж гардаг тул Uni3D хүрээний асар их боломжийг харуулсан. 

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.