• туг

OpenAI Point E: Нэг GPU дээр хэдэн минутын дотор нарийн төвөгтэй долгионы хэлбэрүүдээс 3D цэгийн үүлийг үүсгээрэй

Point-E: Нарийн төвөгтэй дохионоос 3D цэгийн үүлийг үүсгэх систем гэсэн шинэ нийтлэлд OpenAI судалгааны баг нийлмэл текстээр удирдуулсан олон янзын, нарийн төвөгтэй 3D хэлбэрийг бий болгохын тулд тархалтын загваруудыг ашигладаг 3D цэгийн үүл текстийн нөхцөлт синтезийн систем болох Point E-ийг танилцуулав. дохио.нэг GPU дээр хэдэн минутын дотор.
Орчин үеийн хамгийн сүүлийн үеийн зураг үүсгэх загваруудын гайхалтай гүйцэтгэл нь 3D текст объектыг бүтээх судалгааг идэвхжүүлсэн.Гэсэн хэдий ч хэдэн минут, бүр секундын дотор гаралт үүсгэж чаддаг 2D загваруудаас ялгаатай нь объект үүсгэгч загварууд нь нэг дээжийг үүсгэхийн тулд GPU-ийн хэдэн цаг ажиллах шаардлагатай байдаг.
OpenAI судалгааны баг Point-E: Нарийн төвөгтэй дохионоос 3D цэгийн үүлийг үүсгэх систем гэсэн шинэ өгүүлэлд 3D цэгийн үүлэнд зориулсан текстийн нөхцөлт синтезийн систем болох Point·E-ийг танилцуулав.Энэхүү шинэ арга нь нэг GPU дээр ганц хоёр минутын дотор нарийн төвөгтэй текст дохионоос олон янзын, нарийн төвөгтэй 3D дүрс үүсгэхийн тулд тархалтын загварыг ашигладаг.
Тус баг нь виртуал бодит байдал, тоглоом тоглохоос эхлээд үйлдвэрлэлийн дизайн хүртэлх бодит ертөнцийн хэрэглээний 3D контент бүтээхийг ардчилахад чухал ач холбогдолтой текстийг 3D болгон хөрвүүлэх сорилтод анхаарлаа хандуулж байна.Текстийг 3D болгон хөрвүүлэх одоо байгаа аргууд нь хоёр төрөлд хуваагддаг бөгөөд тус бүр нь сул талуудтай: 1) үүсгүүрийн загварууд нь дээжийг үр ашигтайгаар үүсгэх боломжтой боловч олон янзын, нарийн төвөгтэй текст дохионы хувьд үр ашигтай масштабтай байж чадахгүй;2) нарийн төвөгтэй, олон янзын текстийн дохиог боловсруулахын тулд урьдчилан бэлтгэгдсэн текст зургийн загвар боловч энэ арга нь тооцооллын хувьд эрчимтэй бөгөөд загвар нь утга учиртай эсвэл уялдаатай 3D объектуудтай тохирохгүй орон нутгийн минимумд амархан гацах боломжтой.
Тиймээс баг нь текст-зураг хосын том багц дээр сургагдсан (төрөл бүрийн, нарийн төвөгтэй дохиог зохицуулах боломжийг олгодог) текстээс зураг руу тархах загварыг ашиглан дээрх хоёр аргын давуу талыг нэгтгэх өөр аргыг судалжээ. Текст-зураг хосын жижиг багц дээр сургагдсан 3D дүрсний тархалтын загвар.зураг-3D хос өгөгдлийн багц.Текстээс зураг руу шилжих загвар нь эхлээд нэг синтетик дүрслэл үүсгэхийн тулд оролтын зургийг түүвэрлэн, зураг-3D загвар нь сонгосон зураг дээр үндэслэн 3D цэгийн үүл үүсгэдэг.
Тушаалын үүсгэгч стек нь текстээс зургийг нөхцөлт үүсгэхэд зориулагдсан саяхан санал болгож буй үүсгэгч хүрээнүүдэд суурилдаг (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Тэд 3 тэрбум GLIDE параметр бүхий GLIDE загварыг (Nichol et al., 2021) дүрсэлсэн 3D загвар дээр нарийн тааруулж, текстийг дүрс болгон хувиргах загвар болгон ашигладаг бөгөөд RGB цэгийн үүлийг үүсгэдэг тархалтын загваруудыг ашигладаг. хувиргах загвар.зургуудаас зураг.3D загварууд.
Өмнөх ажил нь цэгийн үүлийг боловсруулахад 3D архитектурыг ашигласан бол судлаачид үр ашгийг дээшлүүлэхийн тулд энгийн хувиргагч дээр суурилсан загварыг (Vaswani нар, 2017) ашигласан.Тэдний тархалтын загварын архитектурт цэгийн үүлний дүрсийг эхлээд урьдчилан бэлтгэгдсэн ViT-L/14 CLIP загварт оруулж, дараа нь гаралтын торыг хувиргагч руу маркер болгон нийлүүлдэг.
Эмпирик судалгаагаар багийнхан санал болгож буй Point·E аргыг COCO объект илрүүлэх, сегментлэх, гарын үсэг зурах өгөгдлийн багцаас оноо авах дохионы бусад үүсгэгч 3D загваруудтай харьцуулсан.Үр дүн нь Point·E нь нарийн төвөгтэй текст дохионоос олон янзын, нарийн төвөгтэй 3D дүрс үүсгэж, дүгнэлт хийх хугацааг нэгээс хоёр дарааллаар хурдасгах чадвартай болохыг баталж байна.Багийнхан тэдний ажил 3D текстийн синтезийн талаархи цаашдын судалгаанд урам зориг өгнө гэж найдаж байна.
Урьдчилан бэлтгэгдсэн цэгийн үүл тархалтын загвар болон үнэлгээний кодыг төслийн GitHub дээр авах боломжтой.Document Point-E: Нарийн төвөгтэй шинж тэмдгүүдээс 3D цэгийн үүл үүсгэх систем arXiv дээр байна.
Та ямар ч мэдээ, шинжлэх ухааны нээлтийг алдахыг хүсэхгүй байгааг бид мэднэ.Манай алдартай Synced Global AI долоо хоног тутмын мэдээллийн товхимолд бүртгүүлж, долоо хоног бүр хиймэл оюун ухааны шинэчлэлтүүдийг хүлээн аваарай.


Шуудангийн цаг: 2022 оны 12-р сарын 28