ဆောင်းပါးတို Uni3D- အတိုင်းအတာဖြင့် စုစည်းထားသော 3D ကိုယ်စားပြုမှုကို ရှာဖွေနေသည် - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

Uni3D- စကေးတွင် စုစည်းထားသော 3D ကိုယ်စားပြုမှုကို စူးစမ်းခြင်း။

mm
နောက်ဆုံးရေးသားချိန် on

စာသားနှင့် ရုပ်ပုံများ၏ ကိုယ်စားပြုမှုများကို ချဲ့ထွင်ခြင်းသည် မကြာသေးမီနှစ်များအတွင်း သုတေသန၏ အဓိကအာရုံစိုက်မှုတစ်ခုဖြစ်သည်။ မကြာသေးမီက ပြုလုပ်ခဲ့သော တိုးတက်မှုများနှင့် သုတေသနများသည် ဘာသာစကား သင်ယူမှုနှင့် အမြင်အာရုံတွင် တော်လှန်ပြောင်းလဲမှုများစွာကို ဖြစ်ပေါ်စေခဲ့သည်။ သို့သော်၊ စာသားနှင့် ရုပ်ပုံဖော်ပြချက်များကို ချဲ့ထွင်ခြင်း၏ လူကြိုက်များသော်လည်း၊ 3D မြင်ကွင်းများနှင့် အရာဝတ္ထုများအတွက် ကိုယ်စားပြုမှုများ ချဲ့ထွင်ခြင်းမှာ လုံလောက်သော ဆွေးနွေးမှုမရှိသေးပါ။

ယနေ့တွင်၊ တစ်စုတစ်စည်းတည်းရှိသော 3D ကိုယ်စားပြုမှုများကို စူးစမ်းလေ့လာရန် ရည်ရွယ်သည့် 3D အခြေခံပုံစံ Uni3D ကို ဆွေးနွေးပါမည်။ Uni3D framework သည် ရုပ်ပုံ-စာသားအင်္ဂါရပ်များကို သက်ဆိုင်ရာ 2D point cloud အင်္ဂါရပ်များနှင့် ချိန်ညှိရန် 3D-အစပြုထားသော ViT မူဘောင်ကို အသုံးပြုထားသည်။

Uni3D မူဘောင်သည် ကြိုတင်ပြင်ဆင်ထားသော 2D မော်ဒယ်များနှင့် ရုပ်ပုံ-စာသား-ချိန်ညှိထားသော မော်ဒယ်များ၏ များပြားမှုကို ကနဦးအစပြုခြင်းနှင့် ပစ်မှတ်များအဖြစ် အသုံးချရန် ဟန်ချက်ပြလုပ်ဆောင်စရာများနှင့် ရိုးရှင်းသောဗိသုကာကို အသုံးပြုထားသည်။ ဤချဉ်းကပ်မှုသည် 2D မော်ဒယ်များနှင့် မဟာဗျူဟာများကို 3D ကမ္ဘာသို့ အတိုင်းအတာအထိ ချဲ့ထွင်နိုင်စေပါသည်။

ဤဆောင်းပါးတွင်၊ ကျွန်ုပ်တို့သည် 3D ကိုပိုမိုနက်ရှိုင်းစွာလေ့လာပါမည်။ ကွန်ပျူတာရူပါရုံကို နှင့် Uni3D မူဘောင် ၊ မရှိမဖြစ် အယူအဆများနှင့် မော်ဒယ်၏ တည်ဆောက်ပုံ ကို စူးစမ်းပါ။ ဒါဆို စလိုက်ရအောင်။

Uni3D နှင့် 3D ကိုယ်စားပြုသင်ကြားခြင်း- နိဒါန်း

လွန်ခဲ့သည့်နှစ်အနည်းငယ်အတွင်း၊ ကွန်ပျူတာအမြင်သည် AI လုပ်ငန်းတွင် ရင်းနှီးမြုပ်နှံမှုအများဆုံး ဒိုမိန်းများထဲမှတစ်ခုအဖြစ် ပေါ်ထွက်လာခဲ့သည်။ 2D ကွန်ပြူတာအမြင်ဘောင်များတွင် သိသာထင်ရှားသောတိုးတက်မှုများရရှိပြီးနောက် developer များသည် ၎င်းတို့၏အာရုံစူးစိုက်မှုကို 3D ကွန်ပျူတာအမြင်သို့ ပြောင်းလဲခဲ့ကြသည်။ ဤနယ်ပယ်၊ အထူးသဖြင့် 3D ကိုယ်စားပြုသင်ကြားမှုတွင်၊ ကွန်ပြူတာဂရပ်ဖစ်ဆိုင်ရာ ကဏ္ဍများကို ပေါင်းစပ်ထားသည်။ စက်သင်ယူမှု3D ဂျီသြမေတြီ၏ လုပ်ဆောင်မှုနှင့် နားလည်မှုကို အလိုအလျောက်လုပ်ရန် ကွန်ပျူတာအမြင်နှင့် သင်္ချာပညာ။ LiDAR ကဲ့သို့ 3D အာရုံခံကိရိယာများ၏ လျင်မြန်စွာ ဖွံ့ဖြိုးတိုးတက်လာမှုကြောင့် AR/VR လုပ်ငန်းတွင် ၎င်းတို့၏ ကျယ်ပြန့်သော အပလီကေးရှင်းများနှင့်အတူ 3D ကိုယ်စားပြုမှု သင်ယူမှုကို အာရုံစူးစိုက်မှု တိုးမြင့်လာစေသည်။ ၎င်း၏ အလားအလာရှိသော အသုံးချပလီကေးရှင်းများသည် နေ့စဉ်နှင့်အမျှ တိုးတက်လျက်ရှိသည်။

ရှိပြီးသားဘောင်များသည် 3D မော်ဒယ်ဗိသုကာ၊ လုပ်ငန်းကို ဦးတည်သော မော်ဒယ်လ်နှင့် သင်ယူခြင်း ရည်ရွယ်ချက်များတွင် သိသိသာသာ တိုးတက်မှုကို ပြသထားသော်လည်း အများစုသည် အကန့်အသတ်ရှိသော ဒေတာ၊ ကန့်သတ်ချက်များနှင့် အလုပ်အခြေအနေများနှင့်အတူ 3D ဗိသုကာလက်ရာများကို စူးစမ်းလေ့လာကြသည်။ ကွဲပြားခြားနားသောပတ်ဝန်းကျင်များတွင် အချိန်နှင့်တပြေးညီအသုံးချနိုင်သည့် အရွယ်အစားရှိ 3D ကိုယ်စားပြုမှုများကို သင်ယူခြင်း၏စိန်ခေါ်မှုမှာ စူးစမ်းလေ့လာခြင်းမခံရသေးပါ။

လွန်ခဲ့သည့် နှစ်အနည်းငယ်အတွင်း အရှိန်အဟုန်ဖြင့် ရွေ့လျားနေသည်။ ကြီးမားသောဘာသာစကားမော်ဒယ်များ ကြိုတင်လေ့ကျင့်ထားမှုများသည် တော်လှန်ရန် အထောက်အကူဖြစ်သည်။ သဘာဝဘာသာစကားအပြောင်းအလဲနဲ့ ဒိုမိန်းနှင့် မကြာသေးမီက လုပ်ဆောင်ချက်များသည် ဒေတာနှင့် မော်ဒယ်စကေးကို အသုံးပြု၍ ဘာသာစကားမှ 2D သို့ ဘာသာပြန်ဆိုမှု တိုးတက်မှုကို ညွှန်ပြခဲ့ပြီး လက်တွေ့ကမ္ဘာရှိ အပလီကေးရှင်းများထံ ပြောင်းရွှေ့နိုင်သည့် 3D ကိုယ်စားပြုမှုအား လေ့လာရန် ဤအောင်မြင်မှုကို ကြိုးစားပြီး ပြန်လည်ကြိုးစားရန် နည်းလမ်းဖြစ်စေသည်။ 

Uni3D သည် အတိုင်းအတာ တစ်ဘီလီယံကျော်၊ စာသားပေါင်း သန်း 3 ကျော်နှင့် 3D ပုံသဏ္ဍာန်ပေါင်း တစ်သန်းကျော်နှင့် 10D ပုံသဏ္ဍာန်ပေါင်း တစ်သန်းကျော်ကို စမ်းသပ်သည့် အရွယ်အစားကြီးမားပြီး ပေါင်းစပ်ထားသော 70D မူဘောင်ကို လေ့လာရန် ရည်ရွယ်ချက်ဖြင့် တီထွင်ထားသည့် Uni3D ဘောင်တစ်ခုဖြစ်သည်။ . အောက်ဖော်ပြပါပုံသည် Uni3D framework ရှိ parameters များနှင့် သုည-ရိုက်ချက် တိကျမှုကို နှိုင်းယှဉ်ပါသည်။ Uni3D မူဘောင်သည် 3D ကိုယ်စားပြုမှုများကို 6 သန်းမှ တစ်ဘီလီယံကျော်အထိ အောင်မြင်စွာ ချိန်ညှိနိုင်ခဲ့သည်။ 

Uni3D မူဘောင်တွင် 2D ViT သို့မဟုတ် ပါဝင်သည်။ Vision Transformer 3D point cloud အင်္ဂါရပ်များနှင့် ပုံ-စာသား ချိန်ညှိထားသည့် အင်္ဂါရပ်များကို ချိန်ညှိရန် 3D ကုဒ်နံပါတ်ကို အဆုံးမှ အဆုံးအထိ ကြိုတင်လေ့ကျင့်ထားသည်။ Uni3D framework သည် ကြိုတင်လေ့ကျင့်ထားသော 2D မော်ဒယ်များနှင့် ပုံစာသားချိန်ညှိထားသော မော်ဒယ်များ၏ အမြောက်အမြားကို ကနဦးနှင့် ပစ်မှတ်များအဖြစ် အသုံးချရန် အကြောင်းပြချက်နှင့် လုပ်ဆောင်စရာများကို ရိုးရှင်းစွာ အသုံးပြုစေပြီး၊ ထို့ကြောင့် 2D မော်ဒယ်များ၏ အလားအလာအပြည့်နှင့် ၎င်းတို့ကို 3D ကမ္ဘာသို့ ချဲ့ထွင်ရန် ဗျူဟာများကို အသုံးပြုပါသည်။ Uni3D framework ၏ ပြောင်းလွယ်ပြင်လွယ်နှင့် အရွယ်အစားကို သတ်မှတ်ချက်များဖြင့် တိုင်းတာသည်။

  1. မော်ဒယ်ကို ချဲ့ထွင်ခြင်း။ 6M မှ ဘောင်ဘောင်တစ်ခုကျော်အထိ။ 
  2. ရုပ်မြင်သံကြားမှ ကြီးကြပ်ထားသော စာသားသို့ 2D အစပြုခြင်း ကိုယ်တိုင်ကြီးကြပ်သင်ကြားခြင်း။
  3. စာသား-ရုပ်ပုံပစ်မှတ်မော်ဒယ်သည် သန်း ၁၅၀ မှ ကန့်သတ်ဘောင်တစ်ဘီလီယံကျော်အထိ အတိုင်းအတာ။ 

Uni3D မှ ပေးဆောင်သော ပြောင်းလွယ်ပြင်လွယ်နှင့် စုစည်းထားသော မူဘောင်အောက်တွင်၊ developer များသည် အစိတ်အပိုင်းတစ်ခုစီကို ချဲ့ထွင်သည့်အခါ စွမ်းဆောင်ရည်တွင် ပေါင်းစပ်တိုးတက်မှုကို သတိပြုမိကြသည်။ ကြီးမားသော 3D ကိုယ်စားပြုမှု သင်ယူမှုသည် မျှဝေနိုင်သော 2D နှင့် အတိုင်းအတာအထိ မဟာဗျူဟာများမှ အကျိုးကျေးဇူးများစွာ ရရှိပါသည်။ 

အောက်ဖော်ပြပါပုံတွင် မြင်တွေ့နိုင်သကဲ့သို့ Uni3D framework သည် အနည်းငယ်ရိုက်ချက်နှင့် သုည-ရိုက်ချက်ဆက်တင်များတွင် ယခင်အနုပညာနှင့် နှိုင်းယှဉ်ပါက စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးပါသည်။ Uni3D framework သည် အနုပညာကြီးကြပ်မှုနည်းလမ်းများစွာ၏ စွမ်းဆောင်ရည်နှင့် တန်းတူဖြစ်သည့် ModelNet တွင် သုည-ရိုက်ချက် အမျိုးအစားခွဲခြားမှု တိကျမှုရမှတ် 88% ကျော်ကို ပြန်ပေးသည်မှာ မှတ်သားထိုက်ပါသည်။ 

ထို့အပြင် Uni3D framework သည် အပိုင်းခွဲခွဲခြားခြင်း နှင့် open world နားလည်မှုကဲ့သို့သော အခြားသော ကိုယ်စားလှယ် 3D အလုပ်များကို လုပ်ဆောင်ရာတွင် ထိပ်တန်းထစ်ဖြင့် တိကျမှုနှင့် စွမ်းဆောင်ရည်ကို ပေးဆောင်ပါသည်။ Uni3D framework သည် 2D အမြင်နှင့် 3D အမြင်အကြား ကွာဟချက်ကို ပေါင်းစပ်ပြီး ရိုးရှင်းသော အကြိုလေ့ကျင့်ရေးချဉ်းကပ်မှုဖြင့် 3D အခြေခံမော်ဒယ်များကို ချဲ့ထွင်ခြင်းဖြင့် လုပ်ဆောင်စရာများစွာကို ကျယ်ပြန့်သော array တစ်လျှောက်တွင် ပိုမိုခိုင်မာသော 3D ကိုယ်စားပြုမှုများကို လေ့လာရန် ရည်ရွယ်ပါသည်။ ပုံစံမျိုးစုံဖြင့် 2D အမြင်အာရုံ။

Uni3D - ဆက်စပ်အလုပ်

Uni3D မူဘောင်သည် စိတ်ကူးဉာဏ်ကို ဆွဲယူကာ ယခင် 3D ကိုယ်စားပြု သင်ယူမှုမှ ပြုလုပ်ထားသော တိုးတက်မှုများနှင့် အထူးသဖြင့် မတူညီသော ပုံစံများအောက်တွင် အခြေခံပုံစံများ သင်ယူသည်။ 

3D ကိုယ်စားပြုမှု သင်ယူခြင်း။

3D ကိုယ်စားပြု သင်ယူမှုနည်းလမ်းသည် အရာဝတ္တုကို 3D နားလည်မှုအတွက် cloud အမှတ်များကို အသုံးပြုပြီး ဤနယ်ပယ်ကို မကြာသေးမီက ဆော့ဖ်ဝဲရေးသားသူများက စူးစမ်းလေ့လာခဲ့ပြီး၊ ဤ cloud အမှတ်များကို သီးခြားအသုံးပြု၍ ကိုယ်တိုင်ကြီးကြပ်မှုအောက်တွင် ကြိုတင်လေ့ကျင့်ထားနိုင်သည်ကို သတိပြုမိပါသည်။ မျက်နှာဖုံးအမှတ်ပုံစံပြုလုပ်ခြင်း၊ ကိုယ်တိုင်ပြန်လည်တည်ဆောက်ခြင်းနှင့် ဆန့်ကျင်ဘက်ဆိုင်ရာ သင်ယူခြင်းအပါအဝင် 3D အကြောင်းပြချက် လုပ်ဆောင်စရာများ။ 

ဤနည်းလမ်းများသည် အကန့်အသတ်ရှိသော ဒေတာဖြင့် အလုပ်လုပ်ကြောင်း၊ ၎င်းတို့သည် 3D သို့မဟုတ် NLP မှ 2D သို့ multimodal ကိုယ်စားပြုမှုများကို မကြာခဏ စုံစမ်းလေ့မရှိပါ။ သို့သော်လည်း၊ ဆန့်ကျင်ဘက် သင်ယူမှုနည်းလမ်းကို အသုံးပြု၍ စာသားကြမ်းမှ အမြင်အာရုံဆိုင်ရာ အယူအဆများကို လေ့လာရာတွင် မြင့်မားသော ထိရောက်မှုရှိသော CLIP မူဘောင်၏ မကြာသေးမီက အောင်မြင်မှုရရှိခဲ့ပြီး တူညီသော ဆန့်ကျင်ဘက်သင်ယူမှုနည်းလမ်းကို အသုံးပြု၍ ပုံ၊ စာသားနှင့် cloud point အင်္ဂါရပ်များကို ချိန်ညှိခြင်းဖြင့် 3D ကိုယ်စားပြုမှုများကို ဆက်လက်လေ့လာရန် ကြိုးစားသည်။ 

ဖောင်ဒေးရှင်းမော်ဒယ်များ

developer များသည် multimodal ကိုယ်စားပြုမှုများကို ချဲ့ထွင်ရန်နှင့် ပေါင်းစပ်ရန်အတွက် အခြေခံမော်ဒယ်များကို ဒီဇိုင်းဆွဲရန် လုံးလုံးလျားလျား လုပ်ဆောင်နေပါသည်။ ဥပမာအားဖြင့်၊ NLP ဒိုမိန်းတွင်၊ developer များသည် ကြိုတင်လေ့ကျင့်သင်ကြားထားသော ဘာသာစကားပုံစံများကို ချဲ့ထွင်နိုင်သည့် မူဘောင်များပေါ်တွင် လုပ်ဆောင်နေပြီး ၎င်းသည် NLP လုပ်ငန်းကို ဖြည်းဖြည်းချင်း တော်လှန်လျက်ရှိသည်။ ထို့အပြင်၊ developer များသည် 2D မော်ဒယ်များဆီသို့ ဘာသာစကားတိုးတက်မှုအတွက် အထောက်အကူဖြစ်စေရန် ဒေတာနှင့် မော်ဒယ်စကေးချဲ့ခြင်းနည်းပညာများကို အသုံးပြုသည့် မူဘောင်များကို 2D vision ဒိုမိန်းတွင် တိုးတက်မှုများကို တွေ့မြင်နိုင်သောကြောင့်၊ ထိုသို့သော မူဘောင်များသည် 3D မော်ဒယ်များအတွက် ပုံတူကူးရန် ခက်ခဲသော်လည်း၊ 3D ဒေတာရရှိနိုင်မှု အကန့်အသတ်နှင့် 3D မူဘောင်များကို ပေါင်းစည်းပြီး ချဲ့ထွင်သောအခါတွင် ကြုံတွေ့ရသော စိန်ခေါ်မှုများ။ 

အထက်ဖော်ပြပါ အလုပ်ဒိုမိန်းနှစ်ခုမှ သင်ယူခြင်းဖြင့် developer များက ဖန်တီးခဲ့သည်။ Uni3D framework သည် မော်ဒယ်များကို ချဲ့ထွင်ရန်အတွက် ပေါင်းစည်းထားသော 3D သို့မဟုတ် NLP နည်းဗျူဟာများကို အသုံးပြု၍ developer များအား Uni3D မော်ဒယ်ကို စကေးချခွင့်ပြုသည့် ပေါင်းစည်းထားသော ViT သို့မဟုတ် Vision Transformer ဗိသုကာကို အသုံးပြုသည့် ဘောင်ဘောင်တစ်ခုကျော်ရှိသော ပထမဆုံး 3D အခြေခံ မော်ဒယ်ဖြစ်သည်။ ဤနည်းလမ်းသည် Uni3D မူဘောင်ကို လက်ရှိ 2D နှင့် 3D အမြင်ကို ပိုင်းခြားထားသည့် ကွာဟချက်ကို ပေါင်းကူးနိုင်စေရန် ဘက်စုံသုံးဖက်စုံပေါင်းစည်းမှုကို ပံ့ပိုးပေးမည်ဟု တီထွင်သူများက မျှော်လင့်ပါသည်။

Uni3D: နည်းလမ်းနှင့် ဗိသုကာ

အထက်ဖော်ပြပါပုံသည် ကြီးမားသော 3D ကိုယ်စားပြုသင်ကြားမှုအတွက် အရွယ်အစားကြီးမားပြီး စုစည်းနိုင်သော အကြိုလေ့ကျင့်ရေး 3D မူဘောင်တစ်ခု Uni3D မူဘောင်၏ ယေဘုယျခြုံငုံသုံးသပ်ချက်ကို သရုပ်ပြသည်။ Developer များသည် စာသားပေါင်း သန်း 70 ကျော်ကို အသုံးပြုကြပြီး Uni10D framework ကို ဘောင်ဘောင်တစ်ခုကျော်အထိ အတိုင်းအတာတစ်ခုအထိ ချဲ့ထွင်ရန်အတွက် 3D ပုံသဏ္ဍာန်ပေါင်း တစ်သန်းကျော်နှင့် တွဲထားသည့် ပုံ 3 သန်းကျော်ကို အသုံးပြုကြသည်။ Uni3D framework သည် 2D ViT သို့မဟုတ် Vision Transformer ကို အသုံးပြု၍ စာသား-ပုံဒေတာကို 3D cloud point အင်္ဂါရပ်များနှင့် ချိန်ညှိရန် လေ့ကျင့်ထားသော 3D ကုဒ်ဒါတစ်ခုအဖြစ် 3D ViT သို့မဟုတ် Vision Transformer ကို အသုံးပြုကာ Uni3D မူဘောင်အား လိုချင်သောထိရောက်မှုနှင့် တိကျမှုကို ပေးဆောင်နိုင်စေပါသည်။ ကျယ်ပြန့်သောစံနှုန်းများ။ UniXNUMXD framework ၏လုပ်ဆောင်ပုံကို ယခုအသေးစိတ်ကြည့်ကြပါစို့။ 

Uni3D Framework ကို ချဲ့ထွင်ခြင်း။

cloud point ကိုယ်စားပြုခြင်းဆိုင်ရာ သင်ယူခြင်းဆိုင်ရာ မတိုင်မီလေ့လာမှုများသည် အပလီကေးရှင်းများစွာတွင် ပိုမိုကောင်းမွန်သောစွမ်းဆောင်ရည်ကိုပေးဆောင်သည့် သီးခြားမော်ဒယ်ဗိသုကာများကို ဒီဇိုင်းဆွဲကာ သေးငယ်သောဒေတာအတွဲများကြောင့် ဒေတာပမာဏအကန့်အသတ်ဖြင့် လုပ်ဆောင်ပါသည်။ သို့သော်လည်း မကြာသေးမီက လေ့လာမှုများက 3D တွင် အရွယ်တင်နိုင်သော အကြိုလေ့ကျင့်မှုကို အသုံးပြုရန် ကြိုးပမ်းခဲ့သော်လည်း အကန့်အသတ်ရှိသော 3D ဒေတာ ရရှိမှုကြောင့် ကြီးမားသောရလဒ်များ မရရှိခဲ့ပေ။ 3D framework များ၏ scalability ပြဿနာကို ဖြေရှင်းရန်အတွက် Uni3D framework သည် Vision Transformer ကို ထင်ဟပ်လုနီးပါးဖြစ်သော vanilla transformer တည်ဆောက်ပုံ၏ ပါဝါကို အသုံးချပြီး မော်ဒယ်အရွယ်အစားကို တိုင်းတာရန်အတွက် 2D သို့မဟုတ် NLP စကေးချဲ့နည်းဗျူဟာများကို အသုံးပြုခြင်းဖြင့် အတိုင်းအတာပြဿနာများကို ဖြေရှင်းပေးနိုင်ပါသည်။ 

cloud point ကိုယ်စားပြုခြင်းဆိုင်ရာ သင်ယူခြင်းဆိုင်ရာ ကြိုတင်လေ့လာမှုများသည် အပလီကေးရှင်းများစွာတွင် ပိုမိုကောင်းမွန်သောစွမ်းဆောင်ရည်ကိုပေးဆောင်သည့် သီးခြားမော်ဒယ်ဗိသုကာများကို ဒီဇိုင်းဆွဲခြင်းနှင့် အသေးစားဒေတာအတွဲများကြောင့် ဒေတာပမာဏအကန့်အသတ်ဖြင့် လုပ်ဆောင်ခြင်းဖြစ်သည်။ သို့သော်၊ မကြာသေးမီက လေ့လာမှုများသည် 3D တွင် အရွယ်တင်နိုင်သော အကြိုလေ့ကျင့်မှုကို အသုံးပြုရန် ကြိုးပမ်းခဲ့သော်လည်း အကန့်အသတ်ရှိသော 3D ဒေတာရရှိနိုင်မှုကြောင့် ကြီးမားသောရလဒ်များ မရရှိခဲ့ပါ။ 3D frameworks များ၏ scalability problem ကိုဖြေရှင်းရန်အတွက် Uni3D framework သည် Vision Transformer ကိုထင်ဟပ်စေမည့် vanilla transformer ဖွဲ့စည်းပုံ၏ ပါဝါကို အသုံးချပြီး မော်ဒယ်အရွယ်အစားကိုတိုင်းတာရန်အတွက် 2D သို့မဟုတ် NLP စကေးချဲ့နည်းဗျူဟာများကို အသုံးပြုခြင်းဖြင့် အတိုင်းအတာပြဿနာများကို ဖြေရှင်းပေးနိုင်ပါသည်။ 

Uni3D ကို စတင်ခြင်း။

3D ကိုယ်စားပြုမှုများကို အတိုင်းအတာချဲ့ထွင်ခြင်း၊ မော်ဒယ်များ၏ အရွယ်အစားကြီးမားခြင်းကြောင့် ပေါင်းစပ်ခြင်းဆိုင်ရာ အခက်အခဲများနှင့် အံဝင်ခွင်ကျဖြစ်ခြင်းတို့တွင် ပါ၀င်သော ယခင်လက်ရာများဖြင့် ကြုံတွေ့ခဲ့ရသော နောက်ထပ် အဓိကစိန်ခေါ်မှု။ ဤအခက်အခဲကို ကျော်လွှားရန် ထိရောက်သောချဉ်းကပ်နည်းမှာ သတ်မှတ်ထားသော 3D အကြောင်းပြချက်ဖြင့် လုပ်ဆောင်ထားသော 3D ကျောရိုးများကို ကြိုတင်လေ့ကျင့်ရန်နှင့် ကြိုတင်လေ့ကျင့်ထားသော ကန့်သတ်ဘောင်များကို စတင်ရန်ဖြစ်သည်။ သို့သော်၊ ချဉ်းကပ်မှုသည် မြင့်မားသော လေ့ကျင့်ရေးစရိတ်များဖြင့် ပါ၀င်ပြီး လေ့ကျင့်ရေးရည်ရွယ်ချက်အတွက် ရရှိနိုင်သော 3D ဒေတာပမာဏအကန့်အသတ်ကြောင့် ဖြတ်ပိုင်းပုံစံသင်ယူမှုအတွက် ခိုင်မာသောကနဦးစတင်ခြင်းတစ်ခုကို ထူထောင်ရန်မှာလည်း ခက်ခဲပါသည်။ 

Uni3D framework သည် ViT နှင့် အနီးစပ်ဆုံးတူသော vanilla transformer ကို အသုံးပြုထားသည်။ ဤချဉ်းကပ်မှုဖြင့် Uni3D မူဘောင်သည် Uni3D မူဘောင်ကို အစပြုရန် အခြားနည်းလမ်းများဖြင့် ကြိုတင်လေ့ကျင့်ထားသော ကြီးမားသော မော်ဒယ်များကို သဘာဝအတိုင်း လက်ခံနိုင်သည်။ 

Multi-Modal Alignment

Uni3D framework သည် OpenShape နှင့် ULIP frameworks တို့နှင့်ဆင်တူသော ပါရာဒိုင်းများကို အသုံးပြုခြင်းဖြင့် ရုပ်ပုံ၊ ဘာသာစကားနှင့် point clouds များတစ်လျှောက် မော်ဒယ်ပေါင်းများစွာ ချိန်ညှိမှုများကို လေ့လာရန် ကြိုးပမ်းသည်။ ထို့အပြင်၊ အခြားနည်းလမ်းများနှင့် မျှတသောနှိုင်းယှဉ်မှုကို သေချာစေရန်၊ Uni3D မူဘောင်သည် လေ့ကျင့်ရေးရည်ရွယ်ချက်အတွက် OpenShape မှ ပေါင်းစပ်ထားသော 3D ဒေတာအတွဲကို အသုံးပြုသည်။ OpenShape မှ ပေါင်းစပ်ထားသော ဤဒေတာအတွဲ 4 3D ဒေတာအတွဲများ ပါဝင်သည်။ 

  1. ဆန့်ကျင်ဘက်။ 
  2. ShapeNet 
  3. 3D-FUTURE။ 
  4. ABO 

စမ်းသပ်မှုများနှင့် ရလဒ်များ

Uni3D မူဘောင်ကို မတူညီသော ဆက်တင်များတွင် စမ်းသပ်ထားပြီး သုည-ရိုက်ချက်နှင့် အနည်းငယ်မျှသော ဆက်တင်များတွင် ၎င်း၏စွမ်းဆောင်ရည်အပါအဝင် အမျိုးအစားခွဲခြင်းဆိုင်ရာ လုပ်ဆောင်ချက်များ၊ ပွင့်လင်းကမ္ဘာ၏ နားလည်မှုရလဒ်များနှင့် အခြားအရာများအပါအဝင် အမျိုးမျိုးသော အမျိုးအစားခွဲခြားလုပ်ဆောင်မှုများတွင် UniXNUMXD မူဘောင်ကို စမ်းသပ်ထားသည်။ ဒီရလဒ်တွေကို အသေးစိတ်လေ့လာကြည့်ရအောင်။

Zero Shot Shape အမျိုးအစားခွဲခြားခြင်း။

သုညပုံသဏ္ဍာန် အမျိုးအစား ခွဲခြားခြင်း လုပ်ငန်းများတွင် Uni3D မူဘောင်၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်၊ ဆော့ဖ်ဝဲအင်ဂျင်နီယာများသည် ModelNet၊ ScanObjNN နှင့် Objaverse-LVIS စံနှုန်းဒေတာအတွဲများအပါအဝင် စံညွှန်းသုံးခုတွင် စမ်းသပ်မှုများကို ပြုလုပ်ပါသည်။ ModelNet နှင့် ScanObjNN တို့သည် အမျိုးအစားခွဲခြင်းလုပ်ငန်းအတွက် အသုံးများသော ဒေတာအတွဲများဖြစ်ပြီး ၎င်းတို့တွင် 15 နှင့် 40 အရာဝတ္ထုအမျိုးအစားများ အသီးသီးပါဝင်ပြီး Objaverse-LVIS စံနှုန်းသည် အမျိုးအစားပေါင်း 40,000+ ကျော်ရှိ အရာဝတ္ထု 1,100 ကျော်ပါ၀င်သော ရှင်းလင်းပြီး မှတ်ကျောက်တင်ထားသော ဒေတာအတွဲတစ်ခုဖြစ်သည်။ မူဘောင်များကြား နှိုင်းယှဉ်ချက်ကို အောက်ဖော်ပြပါပုံတွင် ပြသထားပြီး၊ ၎င်းကို မြင်တွေ့နိုင်သကဲ့သို့ Uni3D မူဘောင်သည် မတူညီသော ဆက်တင်များတစ်လျှောက် အနုပညာဘောင်များ၏ ယခင်အခြေအနေနှင့် သိသိသာသာ ပိုမိုကောင်းမွန်ပါသည်။ 

အနည်းငယ်-Shot Linear Probing

AI တွင်၊ Linear Probing သည် မူဘောင်တစ်ခု သို့မဟုတ် မော်ဒယ်တစ်ခုလေ့လာသင်ယူသည့် ကိုယ်စားပြုဖော်ပြချက်များကို အကဲဖြတ်ရန် အသုံးပြုလေ့ရှိသောနည်းလမ်းတစ်ခုဖြစ်သည်။ Uni3D ၏ linear probing စွမ်းရည်ကို အကဲဖြတ်ရန်၊ developer များသည် OpenShape အဖြစ် ဘုံဆက်တင်များကို အသုံးပြု၍ Uni3D framework ၏ parameters များကို အေးခဲစေသည်။ ယင်းနောက်တွင်၊ developer များသည် အနည်းငယ်မျှသာရိုက်ချက်အတန်းအစား အညွှန်းများကို အသုံးပြု၍ Uni3D အတွက် linear classifier တစ်ခုကို လေ့ကျင့်ပေးပါသည်။ အောက်ဖော်ပြပါပုံသည် Objaverse-LVIS ဒေတာအတွဲရှိ မတူညီသောဘောင်များ၏ မျဉ်းဖြောင့်စမ်းသပ်နိုင်စွမ်းကို သရုပ်ပြပြီး ကျပန်းမျိုးစေ့ 10 ခုတွင် မော်ဒယ်၏ ပျမ်းမျှစွမ်းဆောင်ရည်ကို ပြသသည်။ ၎င်းကိုတွေ့မြင်နိုင်သကဲ့သို့ Uni3D framework သည် မတူညီသောရိုက်ချက်အနည်းငယ်ဆက်တင်များအောက်တွင် ရှိပြီးသားနည်းလမ်းများကို သိသိသာသာ ပိုမိုကောင်းမွန်စေသည်။ 

Open-World နားလည်မှု

Uni3D မူဘောင်၏ စွမ်းဆောင်ရည်ကို အချိန်နှင့်တပြေးညီ သိရှိနားလည်နိုင်ရန်၊ developer များသည် Uni3D ၏ စွမ်းဆောင်ရည်ကို ရှာဖွေရန် ScanNet နှင့် CLIP ဒေတာအတွဲများကို အသုံးပြုပါသည်။ မြေပြင်အမှန်တရား လက်ငင်း အပိုင်းခွဲခွဲခြားခြင်း ရရှိနိုင်သည်ကို သတိပြုသင့်ပြီး အဓိက ရည်ရွယ်ချက်မှာ ရှုခင်းတိုင်း၏ တစ်ခဏချင်း အမျိုးအစားကို သုည-ရိုက်ချက်ဖြင့် မှတ်သားရန် ဖြစ်သည်။ ရလဒ်များကိုအောက်ပါပုံတွင်ပြသထားသည်။ ၎င်းကိုတွေ့မြင်နိုင်သည်အတိုင်း Uni3D မူဘောင်သည် လက်တွေ့ကမ္ဘာကို နားလည်မှုနှင့် အသိအမှတ်ပြုမှုကို လုပ်ဆောင်သည့်အခါ ထူးခြားသည့်ရလဒ်များကို ပေးဆောင်သည်။ Uni3D မူဘောင်သည် လက်တွေ့ကမ္ဘာဒေတာအတွဲများကို လေ့ကျင့်မှုတစ်ခါမှမပြုလုပ်သော်လည်း သိသာထင်ရှားသောအနားသတ်ဖြင့် ရှိပြီးသားဘောင်များကို ပိုမိုကောင်းမွန်စေသည်။ 

Cross-Modal ပြန်လည်ရယူခြင်း။

Uni3D framework မှလေ့လာထားသော multi-modal ကိုယ်စားပြုမှုများသည် framework အား 3D ပုံသဏ္ဍာန်များကို စာသားများ သို့မဟုတ် ပုံများမှ သဘာဝအတိုင်း ပြန်လည်ရယူရန် ခွင့်ပြုနိုင်သည်။ 3D ပုံသဏ္ဍာန်များကို ပြန်လည်ရယူရန်၊ မော်ဒယ်သည် 3D ပုံသဏ္ဍာန်များ မြှုပ်နှံမှုနှင့် query text prompt သို့မဟုတ် query image တစ်ခု၏ မြှုပ်နှံမှုများအကြား cosine တူညီမှုကို တွက်ချက်ပါသည်။ ထို့နောက် framework သည် KNN သို့မဟုတ် K Nearest Neighbor algorithm ကို အသုံးပြုပြီး query အများဆုံးနှင့် ဆင်တူသည့် 3D ပုံသဏ္ဍာန်များကို ဖန်တီးကာ ရလဒ်များကို အောက်ပါပုံတွင် ပြသထားသည်။ ၎င်းကိုတွေ့မြင်နိုင်သည်အတိုင်း Uni3D framework သည် 3D ပုံသဏ္ဍာန်များကိုရယူရန် လက်တွေ့ကမ္ဘာပုံများကို အောင်မြင်စွာအသုံးပြုသည်။ ထို့အပြင် လေ့ကျင့်ရေးပုံရိပ်များသည် တင်ဆက်ရန် ရည်ရွယ်ချက်အတွက်သာဖြစ်ပြီး လက်တွေ့ကမ္ဘာနှင့် လေ့ကျင့်ရေးပုံများကြား ကွာဟချက်မှာ များပြားသည်ကို သတိပြုသင့်ပါသည်။ ထို့အပြင်၊ မော်ဒယ်သည် ပုံနှစ်ခုလုံး၏ ထည့်သွင်းမှုပျမ်းမျှများနှင့် ၎င်းတို့၏ထည့်သွင်းထားသော 3D ပုံသဏ္ဍာန်များကြား ကိုsine တူညီမှုကို အသုံးပြုခြင်းဖြင့် ထည့်သွင်းပုံနှစ်ခုလုံးနှင့် ဆင်တူသော ပုံသဏ္ဍာန်များကို ထုတ်ယူသည်။ မတူကွဲပြားသော 3D ကိုယ်စားပြုမှုများကို လေ့လာနိုင်ပြီး 3D အချက်ပြမှုများကို ခံစားသိရှိနိုင်စေရန် Uni2D ၏စွမ်းရည်ကို ပြသခြင်းဖြင့် ရလဒ်များသည် စိတ်ဝင်စားစရာကောင်းပါသည်။ 

ပထမကော်လံတွင်၊ framework သည် query images နှင့် အနီးစပ်ဆုံးဖြစ်သော 2D ပုံသဏ္ဍာန်များကို ပြန်ပေးရန်အတွက် query images 3 ခုကို အသုံးပြုသည်။ ဒုတိယကော်လံတွင်၊ framework သည် input images နှစ်ခုလုံးနှင့်ဆင်တူသည့် 3D ပုံသဏ္ဍာန်များကို ပြန်လည်ရယူရန် ထည့်သွင်းထားသောပုံနှစ်ပုံကို အသုံးပြုသည်။ နောက်ဆုံးတွင်၊ နောက်ဆုံးကော်လံတွင်၊ မော်ဒယ်သည် စုံစမ်းမှုစာသားများကို အသုံးပြုပြီး အများဆုံးမေးသော စာသားနှင့်ဆင်တူသည့် 3D ပုံစံများကို ပြန်ပေးသည်။ 

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင်၊ ကျွန်ုပ်တို့သည် အတိုင်းအတာ တစ်ဘီလီယံကျော်၊ သန်း ၇၀ ကျော်နှင့် တွဲဖက်ထားသော ရုပ်ပုံ ၁၀ သန်းကျော်၊ သန်း ၇၀ ကျော်နှင့် တွဲဖက်ထားသော ပုံ ၁၀ သန်းကျော်ကို ဤဆောင်းပါးတွင် ဤဆောင်းပါးတွင်၊ ဤဆောင်းပါးတွင် ကျွန်ုပ်တို့သည် ကြီးမားသော 3D ကိုယ်စားပြုမှုများကို လေ့လာရန် ရည်ရွယ်ချက်ဖြင့် တီထွင်ထားသော အတိုင်းအတာနှင့် စုစည်းနိုင်သော 3D မူဘောင်ကို ဆွေးနွေးထားပါသည်။ စာသားများနှင့် 3D ပုံသဏ္ဍာန်ပေါင်း တစ်သန်းကျော်။ မူဘောင်၏ developer များသည် တစ်စုတစ်စည်းတည်း 10D သို့မဟုတ် NLP စကေးချဲ့ခြင်းဗျူဟာများကို အသုံးပြု၍ Uni70D မူဘောင်ကို ချဲ့ထွင်နိုင်စေမည့် ViTs များနှင့် တူညီသော ၎င်း၏ဖွဲ့စည်းပုံနှင့် ညီမျှသော vanilla transformer ကို ထည့်သွင်းထားပါသည်။ ထို့အပြင် Uni3D framework သည် ကြိုတင်လေ့ကျင့်ထားသော 3D framework များနှင့် 2D ဗျူဟာများကို 3D ကမ္ဘာသို့ ကျယ်ပြန့်စွာအသုံးချနိုင်သည်။ Uni2D framework သည် ကျယ်ပြန့်သော ဆက်တင်များတစ်လျှောက် တိကျပြီး ထိရောက်သောရလဒ်များကို ပြန်ပေးကာ လက်ရှိခေတ်ပေါ်ခေတ်မီသော မူဘောင်များကို စွမ်းဆောင်နိုင်သောကြောင့် စမ်းသပ်မှုရလဒ်များသည် Uni2D မူဘောင်၏ ကြီးမားသောအလားအလာကို သက်သေပြခဲ့ပြီးဖြစ်သည်။ 

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။