ກ້ານໃບ Uni3D: ການສຳຫຼວດການເປັນຕົວແທນ 3D ແບບຮວມຕົວກັນຢູ່ທີ່ຂະໜາດ - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

Uni3D: ການສຳຫຼວດການເປັນຕົວແທນ 3D ແບບຮວມຕົວກັນຢູ່ທີ່ຂະໜາດ

mm
ການປັບປຸງ on

ການຂະຫຍາຍການເປັນຕົວແທນຂອງຂໍ້ຄວາມແລະພາບແມ່ນເປັນຈຸດສຸມທີ່ສໍາຄັນຂອງການຄົ້ນຄວ້າໃນຊຸມປີມໍ່ໆມານີ້. ການ​ພັດ​ທະ​ນາ​ແລະ​ການ​ຄົ້ນ​ຄວ້າ​ທີ່​ດໍາ​ເນີນ​ການ​ໃນ​ໄລ​ຍະ​ຜ່ານ​ມາ​ໄດ້​ນໍາ​ໄປ​ສູ່​ການ​ປະ​ຕິ​ວັດ​ຈໍາ​ນວນ​ຫລາຍ​ໃນ​ການ​ຮຽນ​ຮູ້​ພາ​ສາ​ແລະ​ວິ​ໄສ​ທັດ​. ຢ່າງໃດກໍ່ຕາມ, ເຖິງວ່າຈະມີຄວາມນິຍົມຂອງການປັບຂະຫນາດຂໍ້ຄວາມແລະການສະແດງພາບ, ຂະຫນາດຂອງການເປັນຕົວແທນສໍາລັບ scenes ແລະວັດຖຸ 3D ບໍ່ໄດ້ຖືກປຶກສາຫາລືຢ່າງພຽງພໍ.

ມື້ນີ້, ພວກເຮົາຈະປຶກສາຫາລື Uni3D, ຮູບແບບພື້ນຖານ 3D ທີ່ມີຈຸດປະສົງເພື່ອຄົ້ນຫາການເປັນຕົວແທນ 3D ທີ່ເປັນເອກະພາບ. ກອບຂອງ Uni3D ນຳໃຊ້ໂຄງຮ່າງການ ViT ແບບ 2D ເບື້ອງຕົ້ນ, ທີ່ໄດ້ຝຶກມາຕັ້ງແຕ່ຕອນທ້າຍຈົນເຖິງຈຸດຈົບ, ເພື່ອຈັດຮຽງລັກສະນະຂໍ້ຄວາມຂອງຮູບພາບກັບຄຸນສົມບັດຄລາວຂອງຈຸດ 3D ທີ່ສອດຄ້ອງກັນ.

ກອບຂອງ Uni3D ໃຊ້ວຽກ pretext ແລະສະຖາປັດຕະຍະກໍາທີ່ງ່າຍດາຍເພື່ອໃຊ້ຄວາມອຸດົມສົມບູນຂອງແບບຈໍາລອງ 2D ທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງຫນ້າແລະແບບຈໍາລອງການຈັດຮູບພາບຂໍ້ຄວາມເປັນການເລີ່ມຕົ້ນແລະເປົ້າຫມາຍຕາມລໍາດັບ. ວິທີການນີ້ເປີດເຜີຍທ່າແຮງອັນເຕັມທີ່ຂອງແບບຈໍາລອງ 2 ມິຕິ ແລະຍຸດທະສາດເພື່ອຂະຫຍາຍພວກມັນໄປສູ່ໂລກ 3 ມິຕິ.

ໃນບົດຄວາມນີ້, ພວກເຮົາຈະເຈາະເລິກເຂົ້າໄປໃນ 3D ວິໄສທັດຄອມພິວເຕີ ແລະໂຄງຮ່າງການ Uni3D, ຄົ້ນຫາແນວຄວາມຄິດທີ່ສໍາຄັນແລະສະຖາປັດຕະຍະກໍາຂອງຕົວແບບ. ດັ່ງນັ້ນ, ໃຫ້ເລີ່ມຕົ້ນ.

ການຮຽນຮູ້ການເປັນຕົວແທນຂອງ Uni3D ແລະ 3D: ການແນະນໍາ

ໃນຊຸມປີມໍ່ໆມານີ້, ວິໄສທັດຄອມພິວເຕີໄດ້ກາຍເປັນຫນຶ່ງໃນໂດເມນທີ່ລົງທຶນຫຼາຍທີ່ສຸດໃນອຸດສາຫະກໍາ AI. ປະຕິບັດຕາມຄວາມກ້າວຫນ້າທີ່ສໍາຄັນໃນກອບວິໄສທັດຄອມພິວເຕີ 2D, ນັກພັດທະນາໄດ້ປ່ຽນຈຸດສຸມຂອງພວກເຂົາໄປສູ່ວິໄສທັດຄອມພິວເຕີ 3D. ສາຂານີ້, ໂດຍສະເພາະການຮຽນຮູ້ການເປັນຕົວແທນ 3D, ປະສົມປະສານລັກສະນະຂອງຮູບພາບຄອມພິວເຕີ, ການຮຽນຮູ້ເຄື່ອງຈັກ, ວິໄສທັດຄອມພິວເຕີ, ແລະຄະນິດສາດເພື່ອອັດຕະໂນມັດການປະມວນຜົນແລະຄວາມເຂົ້າໃຈຂອງເລຂາຄະນິດ 3D. ການພັດທະນາຢ່າງໄວວາຂອງເຊັນເຊີ 3D ເຊັ່ນ LiDAR, ພ້ອມກັບແອັບພລິເຄຊັນທີ່ແຜ່ຫຼາຍໃນອຸດສາຫະກໍາ AR/VR, ໄດ້ສົ່ງຜົນໃຫ້ການຮຽນຮູ້ການເປັນຕົວແທນ 3D ໄດ້ຮັບຄວາມສົນໃຈເພີ່ມຂຶ້ນ. ຄໍາຮ້ອງສະຫມັກທີ່ມີທ່າແຮງຂອງມັນຍັງສືບຕໍ່ເຕີບໂຕປະຈໍາວັນ.

ເຖິງແມ່ນວ່າກອບທີ່ມີຢູ່ແລ້ວໄດ້ສະແດງໃຫ້ເຫັນຄວາມກ້າວຫນ້າທີ່ໂດດເດັ່ນໃນສະຖາປັດຕະຍະກໍາແບບ 3D, ການສ້າງແບບຈໍາລອງວຽກງານ, ແລະຈຸດປະສົງການຮຽນຮູ້, ສ່ວນໃຫຍ່ຄົ້ນຫາສະຖາປັດຕະຍະກໍາ 3D ໃນລະດັບຂະຫນາດນ້ອຍທີ່ມີຂໍ້ມູນຈໍາກັດ, ພາລາມິເຕີແລະສະຖານະການວຽກງານ. ສິ່ງທ້າທາຍຂອງການຮຽນຮູ້ການເປັນຕົວແທນ 3D ທີ່ສາມາດປັບຂະ ໜາດ ໄດ້, ເຊິ່ງຫຼັງຈາກນັ້ນສາມາດຖືກ ນຳ ໃຊ້ກັບແອັບພລິເຄຊັນໃນເວລາຈິງໃນສະພາບແວດລ້ອມທີ່ຫຼາກຫຼາຍ, ຍັງບໍ່ຖືກຄົ້ນຫາ.

ການເຄື່ອນຍ້າຍຕາມ, ໃນສອງສາມປີຜ່ານມາ, ຂະຫນາດ ຮູບແບບພາສາຂະຫນາດໃຫຍ່ ທີ່​ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ​ລ່ວງ​ຫນ້າ​ໄດ້​ຊ່ວຍ​ໃນ​ການ​ປະ​ຕິ​ວັດ​ ການປຸງແຕ່ງພາສາທໍາມະຊາດ ໂດເມນ, ແລະວຽກງານທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນການແປພາສາໃນຄວາມຄືບຫນ້າເປັນ 2D ຈາກພາສາໂດຍໃຊ້ຂໍ້ມູນແລະຮູບແບບການປັບຂະຫນາດຊຶ່ງເຮັດໃຫ້ວິທີການສໍາລັບນັກພັດທະນາທີ່ຈະພະຍາຍາມແລະພະຍາຍາມສົບຜົນສໍາເລັດນີ້ເພື່ອຮຽນຮູ້ການເປັນຕົວແທນ 3D ທີ່ສາມາດປັບຂະ ໜາດ ແລະຖືກໂອນໄປຫາແອັບພລິເຄຊັນໃນໂລກທີ່ແທ້ຈິງ. 

Uni3D ເປັນກອບ 3D pretraining ທີ່ສາມາດປັບຂະໜາດໄດ້ ແລະເປັນເອກະພາບທີ່ສ້າງຂຶ້ນໂດຍມີຈຸດປະສົງເພື່ອຮຽນຮູ້ການເປັນຕົວແທນ 3D ຂະຫນາດໃຫຍ່ທີ່ທົດສອບຂອບເຂດຈໍາກັດຂອງມັນໃນຂະຫນາດຫຼາຍກວ່າຫນຶ່ງຕື້ພາລາມິເຕີ, ຫຼາຍກວ່າ 10 ລ້ານຮູບພາບທີ່ຈັບຄູ່ກັບຫຼາຍກວ່າ 70 ລ້ານບົດເລື່ອງ, ແລະຫຼາຍກວ່າຫນຶ່ງລ້ານຮູບຮ່າງ 3D. . ຕົວເລກຂ້າງລຸ່ມນີ້ປຽບທຽບຄວາມຖືກຕ້ອງຂອງສູນການສັກຢາກັບພາລາມິເຕີໃນກອບ Uni3D. ໂຄງຮ່າງການ Uni3D ປະສົບຜົນສໍາເລັດໃນການຂະຫຍາຍການເປັນຕົວແທນ 3D ຈາກ 6 ລ້ານໄປຫາຫຼາຍກວ່າຫນຶ່ງຕື້. 

ກອບ Uni3D ປະກອບດ້ວຍ 2D ViT ຫຼື Vision Transformer ເປັນຕົວເຂົ້າລະຫັດ 3 ມິຕິທີ່ຜ່ານການຝຶກອົບຮົມກ່ອນຈົບຈາກຈຸດຈົບເພື່ອຈັດລຽງຮູບພາບຂໍ້ຄວາມໃຫ້ສອດຄ່ອງກັນກັບຄຸນສົມບັດຄລາວຂອງຈຸດ 3D. ກອບຂອງ Uni3D ນໍາໃຊ້ວຽກງານ pretext ແລະສະຖາປັດຕະຍະກໍາທີ່ງ່າຍດາຍເພື່ອນໍາໃຊ້ຄວາມອຸດົມສົມບູນຂອງແບບຈໍາລອງ 2D ທີ່ໄດ້ຝຶກອົບຮົມໄວ້ກ່ອນແລະຕົວແບບຂໍ້ຄວາມຮູບພາບທີ່ສອດຄ່ອງກັນເປັນການເລີ່ມຕົ້ນແລະເປົ້າຫມາຍຕາມລໍາດັບ, ດັ່ງນັ້ນການເປີດເຜີຍທ່າແຮງອັນເຕັມທີ່ຂອງແບບຈໍາລອງ 2D, ແລະຍຸດທະສາດທີ່ຈະຂະຫຍາຍພວກມັນໄປສູ່ໂລກ 3D. ຄວາມຍືດຫຍຸ່ນ & ຂະຫນາດຂອງກອບ Uni3D ແມ່ນການວັດແທກໃນແງ່ຂອງ

  1. ການຂະຫຍາຍຕົວແບບ ຈາກ 6M ຫາຫຼາຍກວ່າພັນລ້ານຕົວກໍານົດການ. 
  2. ການເລີ່ມຕົ້ນ 2D ເປັນຂໍ້ຄວາມທີ່ຄວບຄຸມຈາກສາຍຕາ ການຮຽນຮູ້ດ້ວຍຕົນເອງ
  3. ຮູບ​ແບບ​ເປົ້າ​ຫມາຍ​ຂໍ້​ຄວາມ​ຂະ​ຫນາດ​ຈາກ 150 ລ້ານ​ໄປ​ເປັນ​ຫຼາຍ​ກວ່າ​ພັນ​ຕົວ​ກໍາ​ນົດ​ການ​. 

ພາຍໃຕ້ກອບທີ່ມີຄວາມຍືດຫຍຸ່ນແລະເປັນເອກະພາບທີ່ສະເຫນີໂດຍ Uni3D, ນັກພັດທະນາສັງເກດເຫັນການຊຸກຍູ້ທີ່ສອດຄ່ອງໃນການປະຕິບັດໃນເວລາທີ່ມັນມາກັບການຂະຫຍາຍແຕ່ລະອົງປະກອບ. ການຮຽນຮູ້ການເປັນຕົວແທນ 3D ຂະຫນາດໃຫຍ່ຍັງໄດ້ຮັບຜົນປະໂຫຍດຢ່າງຫຼວງຫຼາຍຈາກຍຸດທະສາດ 2D ທີ່ສາມາດແບ່ງປັນໄດ້ແລະຂະຫນາດ. 

ດັ່ງທີ່ມັນສາມາດເຫັນໄດ້ໃນຮູບຂ້າງລຸ່ມນີ້, ກອບ Uni3D ສະແດງໃຫ້ເຫັນການເພີ່ມປະສິດທິພາບເມື່ອປຽບທຽບກັບສິນລະປະກ່ອນຫນ້າໃນການຕັ້ງຄ່າບໍ່ຫຼາຍປານໃດແລະສູນການສັກຢາ. ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າກອບ Uni3D ໃຫ້ຄະແນນຄວາມຖືກຕ້ອງຂອງການຈັດປະເພດສູນຫຼາຍກວ່າ 88% ໃນ ModelNet ເຊິ່ງທຽບເທົ່າກັບການປະຕິບັດຂອງວິທີການຊີ້ນໍາຫຼາຍລັດ. 

ຍິ່ງໄປກວ່ານັ້ນ, ກອບ Uni3D ຍັງໃຫ້ຄວາມຖືກຕ້ອງແລະປະສິດທິພາບສູງສຸດໃນເວລາທີ່ປະຕິບັດວຽກງານ 3D ຕົວແທນອື່ນໆເຊັ່ນການແບ່ງສ່ວນ, ແລະຄວາມເຂົ້າໃຈເປີດໂລກ. ກອບ Uni3D ມີຈຸດປະສົງເພື່ອສ້າງຊ່ອງຫວ່າງລະຫວ່າງວິໄສທັດ 2D ແລະວິໄສທັດ 3 ມິຕິໂດຍການຂະຫຍາຍຮູບແບບພື້ນຖານ 3D ດ້ວຍວິທີການຝຶກອົບຮົມເບື້ອງຕົ້ນທີ່ປະສົມປະສານແຕ່ງ່າຍດາຍເພື່ອຮຽນຮູ້ການເປັນຕົວແທນ 3D ທີ່ເຂັ້ມແຂງກວ່າໃນທົ່ວຫຼາຍ array ຂອງວຽກງານ, ໃນທີ່ສຸດອາດຈະຊ່ວຍໃນການປະສົມປະສານຂອງ 2D. ແລະວິໄສທັດ 3 ມິຕິໃນທົ່ວ array ກ້ວາງຂອງ modalities.

Uni3D: ວຽກທີ່ກ່ຽວຂ້ອງ

ກອບຂອງ Uni3D ດຶງດູດແຮງບັນດານໃຈ, ແລະຮຽນຮູ້ຈາກການພັດທະນາທີ່ສ້າງຂຶ້ນໂດຍການຮຽນຮູ້ການເປັນຕົວແທນ 3D ທີ່ຜ່ານມາ, ແລະຮູບແບບພື້ນຖານໂດຍສະເພາະພາຍໃຕ້ຮູບແບບທີ່ແຕກຕ່າງກັນ. 

ການຮຽນຮູ້ການເປັນຕົວແທນ 3D

ວິທີການຮຽນຮູ້ການເປັນຕົວແທນ 3D ໃຊ້ຈຸດຄລາວເພື່ອຄວາມເຂົ້າໃຈ 3D ຂອງວັດຖຸ, ແລະພາກສະຫນາມນີ້ໄດ້ຖືກຄົ້ນຫາໂດຍນັກພັດທະນາຫຼາຍໃນໄລຍະຜ່ານມາ, ແລະມັນໄດ້ຖືກສັງເກດເຫັນວ່າຈຸດ cloud ເຫຼົ່ານີ້ສາມາດໄດ້ຮັບການຝຶກອົບຮົມລ່ວງຫນ້າພາຍໃຕ້ການຄວບຄຸມຕົນເອງໂດຍໃຊ້ສະເພາະ. ວຽກງານ pretext 3D ລວມທັງການສ້າງແບບຈໍາລອງຈຸດຫນ້າກາກ, ການສ້າງໃຫມ່ດ້ວຍຕົນເອງ, ແລະການຮຽນຮູ້ກົງກັນຂ້າມ. 

ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າວິທີການເຫຼົ່ານີ້ເຮັດວຽກກັບຂໍ້ມູນຈໍາກັດ, ແລະພວກເຂົາມັກຈະບໍ່ສືບສວນການເປັນຕົວແທນ multimodal ກັບ 3D ຈາກ 2D ຫຼື NLP. ຢ່າງໃດກໍ່ຕາມ, ຜົນສໍາເລັດທີ່ຜ່ານມາຂອງກອບ CLIP ທີ່ກັບຄືນມາປະສິດທິພາບສູງໃນການຮຽນຮູ້ແນວຄວາມຄິດພາບຈາກຂໍ້ຄວາມດິບໂດຍໃຊ້ວິທີການຮຽນຮູ້ແບບກົງກັນຂ້າມ, ແລະພະຍາຍາມຮຽນຮູ້ການເປັນຕົວແທນຂອງ 3D ຕື່ມອີກໂດຍການຈັດຕໍາແຫນ່ງຮູບພາບ, ຂໍ້ຄວາມ, ແລະຈຸດເມຄໂດຍໃຊ້ວິທີການຮຽນຮູ້ແບບກົງກັນຂ້າມ. 

ຮູບແບບພື້ນຖານ

ນັກພັດທະນາໄດ້ເຮັດວຽກຢ່າງສິ້ນເຊີງໃນການອອກແບບຕົວແບບພື້ນຖານເພື່ອຂະຫຍາຍແລະປະສົມປະສານການເປັນຕົວແທນ multimodal. ຕົວຢ່າງ, ໃນໂດເມນ NLP, ນັກພັດທະນາໄດ້ເຮັດວຽກກ່ຽວກັບກອບທີ່ສາມາດຂະຫຍາຍຕົວແບບພາສາທີ່ຜ່ານການຝຶກອົບຮົມ, ແລະມັນກໍາລັງປະຕິວັດອຸດສາຫະກໍາ NLP ຊ້າໆ. ນອກຈາກນັ້ນ, ຄວາມກ້າວຫນ້າສາມາດສັງເກດເຫັນໄດ້ໃນໂດເມນວິໄສທັດ 2D ເຊັ່ນດຽວກັນເພາະວ່ານັກພັດທະນາກໍາລັງເຮັດວຽກຢູ່ໃນກອບທີ່ໃຊ້ຂໍ້ມູນແລະເຕັກນິກການຂະຫຍາຍແບບຈໍາລອງເພື່ອຊ່ວຍໃນຄວາມຄືບຫນ້າຂອງພາສາກັບຕົວແບບ 2D, ເຖິງແມ່ນວ່າກອບດັ່ງກ່າວມີຄວາມຫຍຸ້ງຍາກທີ່ຈະເຮັດຊ້ໍາສໍາລັບແບບ 3D ເນື່ອງຈາກວ່າ. ຂໍ້ມູນ 3 ມິຕິມີຈຳກັດ, ແລະສິ່ງທ້າທາຍທີ່ພົບໃນເວລາລວມ ແລະຂະຫຍາຍກອບວຽກ 3 ມິຕິ. 

ໂດຍການຮຽນຮູ້ຈາກສອງໂດເມນທີ່ເຮັດວຽກຂ້າງເທິງ, ນັກພັດທະນາໄດ້ສ້າງ ກອບ Uni3D, ຮູບແບບພື້ນຖານ 3D ທໍາອິດທີ່ມີຫຼາຍກວ່າຫນຶ່ງຕື້ຕົວກໍານົດການທີ່ນໍາໃຊ້ສະຖາປັດຕະຍະກໍາ ViT ຫຼື Vision Transformer ປະສົມປະສານທີ່ອະນຸຍາດໃຫ້ນັກພັດທະນາສາມາດປັບຂະຫນາດຂອງຕົວແບບ Uni3D ໂດຍໃຊ້ຍຸດທະສາດ 3D ຫຼື NLP ແບບປະສົມປະສານສໍາລັບການຂະຫຍາຍຕົວແບບ. ນັກພັດທະນາຫວັງວ່າວິທີການນີ້ຈະຊ່ວຍໃຫ້ກອບຂອງ Uni3D ເປັນຂົວຕໍ່ຊ່ອງຫວ່າງທີ່ແຍກອອກຈາກວິໄສທັດ 2D ແລະ 3D ໃນປະຈຸບັນພ້ອມກັບການອໍານວຍຄວາມສະດວກໃນການປະສົມປະສານຫຼາຍຮູບແບບ.

Uni3D​: ວິ​ທີ​ການ​ແລະ​ສະ​ຖາ​ປັດ​ຕະ​

ຮູບພາບຂ້າງເທິງສະແດງໃຫ້ເຫັນພາບລວມທົ່ວໄປຂອງກອບ Uni3D, ກອບ 3D ກ່ອນການຝຶກອົບຮົມທີ່ສາມາດຂະຫຍາຍໄດ້ແລະເປັນເອກະພາບສໍາລັບການຮຽນຮູ້ການເປັນຕົວແທນ 3D ຂະຫນາດໃຫຍ່. ຜູ້ພັດທະນາໃຊ້ຫຼາຍກວ່າ 70 ລ້ານບົດເລື່ອງ, ແລະ 10 ລ້ານຮູບທີ່ຈັບຄູ່ກັບຫຼາຍກວ່າຫນຶ່ງລ້ານຮູບຊົງ 3D ເພື່ອຂະຫຍາຍກອບ Uni3D ຫຼາຍກວ່າຫນຶ່ງຕື້ຕົວກໍານົດການ. ກອບ Uni3D ໃຊ້ 2D ViT ຫຼື Vision Transformer ເປັນຕົວເຂົ້າລະຫັດ 3D ທີ່ຜ່ານການຝຶກອົບຮົມຈາກຈຸດຈົບເພື່ອຈັດຮຽງຂໍ້ມູນຂໍ້ຄວາມຮູບພາບດ້ວຍຄຸນສົມບັດຈຸດຄລາວຂອງ 3D, ຊ່ວຍໃຫ້ກອບຂອງ Uni3D ສະໜອງປະສິດທິພາບ ແລະຄວາມຖືກຕ້ອງຕາມທີ່ຕ້ອງການໃນທົ່ວ. array ກ້ວາງຂອງ benchmarks. ຕອນນີ້ໃຫ້ພວກເຮົາເບິ່ງລາຍລະອຽດກ່ຽວກັບການເຮັດວຽກຂອງກອບ Uni3D. 

ການຂະຫຍາຍຂອບເຂດຂອງ Uni3D

ການສຶກສາກ່ອນຫນ້າກ່ຽວກັບການຮຽນຮູ້ການເປັນຕົວແທນຂອງຈຸດເມຄໄດ້ສຸມໃສ່ຢ່າງຫນັກແຫນ້ນໃນການອອກແບບສະຖາປັດຕະຍະກໍາແບບຈໍາລອງໂດຍສະເພາະທີ່ສະຫນອງການປະຕິບັດທີ່ດີກວ່າໃນທົ່ວຄໍາຮ້ອງສະຫມັກທີ່ກວ້າງຂວາງ, ແລະເຮັດວຽກໃນຈໍານວນຈໍາກັດຂອງຂໍ້ມູນຍ້ອນຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ. ຢ່າງໃດກໍ່ຕາມ, ການສຶກສາທີ່ຜ່ານມາໄດ້ພະຍາຍາມຄົ້ນຫາຄວາມເປັນໄປໄດ້ຂອງການນໍາໃຊ້ການຝຶກອົບຮົມເບື້ອງຕົ້ນທີ່ສາມາດຂະຫຍາຍໄດ້ໃນ 3D ແຕ່ບໍ່ມີຜົນໄດ້ຮັບທີ່ສໍາຄັນຍ້ອນການມີຂໍ້ມູນ 3D ທີ່ຈໍາກັດ. ເພື່ອແກ້ໄຂບັນຫາການປັບຂະ ໜາດ ຂອງກອບ 3D, ກອບ Uni3D ໄດ້ ນຳ ໃຊ້ພະລັງງານຂອງໂຄງສ້າງການຫັນເປັນ vanilla ທີ່ເກືອບສະທ້ອນເຖິງ Vision Transformer, ແລະສາມາດແກ້ໄຂບັນຫາການປັບຂະ ໜາດ ໄດ້ໂດຍການໃຊ້ຍຸດທະສາດການຂະຫຍາຍ 2D ຫຼື NLP ແບບປະສົມປະສານເພື່ອປັບຂະ ໜາດ ຕົວແບບ. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

ການທົດລອງແລະຜົນໄດ້ຮັບ

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

ຄວາມຄິດສຸດທ້າຍ

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"ວິສະວະກອນໂດຍອາຊີບ, ນັກຂຽນດ້ວຍຫົວໃຈ". Kunal ເປັນນັກຂຽນດ້ານວິຊາການທີ່ມີຄວາມຮັກແລະຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບ AI ແລະ ML, ອຸທິດຕົນເພື່ອງ່າຍແນວຄວາມຄິດທີ່ສັບສົນໃນຂົງເຂດເຫຼົ່ານີ້ໂດຍຜ່ານເອກະສານທີ່ມີສ່ວນຮ່ວມແລະໃຫ້ຂໍ້ມູນຂອງລາວ.