• asia

OpenAI Point E: Ṣẹda awọsanma aaye 3D lati awọn ọna igbi ti o nipọn ni awọn iṣẹju lori GPU kan

Ninu nkan tuntun Point-E: Eto kan fun ṣiṣẹda awọn awọsanma aaye 3D lati awọn ifihan agbara eka, ẹgbẹ iwadii OpenAI ṣafihan Point E, eto isọdọkan ọrọ awọsanma 3D kan ti o lo awọn awoṣe itọka lati ṣẹda awọn apẹrẹ 3D ti o yatọ ati eka ti a mu nipasẹ ọrọ eka. awọn ifẹnule.ni iṣẹju lori kan nikan GPU.
Iṣe iyalẹnu ti awọn awoṣe iran aworan ti ode oni ti ru iwadii soke ni iran ti awọn nkan ọrọ 3D.Sibẹsibẹ, ko dabi awọn awoṣe 2D, eyiti o le ṣe agbejade iṣelọpọ ni awọn iṣẹju tabi paapaa awọn aaya, awọn awoṣe ipilẹṣẹ ohun kan nilo awọn wakati pupọ ti iṣẹ GPU lati ṣe agbekalẹ apẹẹrẹ kan.
Ninu nkan tuntun Point-E: Eto kan fun ṣiṣẹda awọn awọsanma aaye 3D lati awọn ifihan agbara eka, ẹgbẹ iwadii OpenAI ṣafihan Point · E, eto isọdọkan ọrọ ọrọ fun awọn awọsanma aaye 3D.Ọna tuntun yii nlo awoṣe ikede kan lati ṣẹda oniruuru ati awọn apẹrẹ 3D eka lati awọn ifihan agbara ọrọ idiju ni iṣẹju kan tabi meji lori GPU kan.
Ẹgbẹ naa ni idojukọ lori ipenija ti yiyipada ọrọ si 3D, eyiti o ṣe pataki si tiwantiwa ẹda akoonu 3D fun awọn ohun elo agbaye gidi ti o wa lati otito foju ati ere si apẹrẹ ile-iṣẹ.Awọn ọna ti o wa tẹlẹ fun yiyipada ọrọ si 3D ṣubu si awọn ẹka meji, kọọkan ninu eyiti o ni awọn abawọn rẹ: 1) awọn awoṣe ipilẹṣẹ le ṣee lo lati ṣe agbekalẹ awọn apẹẹrẹ daradara, ṣugbọn ko le ṣe iwọn daradara fun awọn ifihan agbara ọrọ oniruuru ati eka;2) awoṣe aworan-ọrọ ti a ti kọkọ tẹlẹ lati mu idiju ati awọn ifẹnukonu ọrọ ti o yatọ, ṣugbọn ọna yii jẹ aladanla iṣiro ati awoṣe le ni irọrun di ni minima agbegbe ti ko ni ibamu si awọn nkan 3D ti o nilari tabi isomọ.
Nitorinaa, ẹgbẹ naa ṣawari ọna yiyan ti o ni ero lati darapo awọn agbara ti awọn ọna meji ti o wa loke, ni lilo awoṣe itọka ọrọ-si-aworan ti ikẹkọ lori titobi nla ti awọn orisii aworan-ọrọ (gbigba lati mu awọn ifihan agbara oniruuru ati eka) ati awoṣe itanka aworan 3D ti ikẹkọ lori eto kekere ti awọn orisii aworan-ọrọ.image-3D bata dataset.Awoṣe ọrọ-si-aworan akọkọ awọn ayẹwo aworan titẹ sii lati ṣẹda aṣoju sintetiki kan, ati awoṣe aworan-si-3D ṣẹda awọsanma aaye 3D ti o da lori aworan ti o yan.
Iṣakojọpọ ipilẹṣẹ ti aṣẹ naa da lori awọn ilana ipilẹṣẹ ti a dabaa laipẹ fun ṣiṣẹda awọn aworan ni majemu lati ọrọ (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Wọn lo awoṣe GLIDE kan pẹlu awọn iwọn 3 bilionu GLIDE (Nichol et al., 2021), aifwy-ti o dara lori awọn awoṣe 3D ti a ṣe, gẹgẹ bi awoṣe iyipada ọrọ-si-aworan wọn, ati ṣeto awọn awoṣe itankale ti o ṣe ina awọn awọsanma aaye RGB bi wọn. awoṣe iyipada.awọn aworan si aworan.Awọn awoṣe 3D.
Lakoko ti iṣẹ iṣaaju lo awọn ile-iṣẹ 3D lati ṣe ilana awọn awọsanma aaye, awọn oniwadi lo awoṣe ti o da lori transducer ti o rọrun (Vaswani et al., 2017) lati mu ilọsiwaju ṣiṣẹ.Ninu faaji awoṣe itankale wọn, awọn aworan awọsanma ojuami ni akọkọ jẹ ifunni sinu awoṣe ViT-L/14 CLIP ti a ti kọ tẹlẹ ati lẹhinna awọn meshes ti o jade jẹ ifunni sinu oluyipada bi awọn asami.
Ninu iwadi ikẹkọ wọn, ẹgbẹ naa ṣe afiwe ọna Point · E ti a dabaa pẹlu awọn awoṣe 3D miiran ti ipilẹṣẹ lori awọn ifihan agbara igbelewọn lati wiwa ohun elo COCO, ipin, ati awọn iwe data ibuwọlu.Awọn esi jerisi pe Point · E ni anfani lati se ina oniruuru ati eka 3D ni nitobi lati eka ọrọ awọn ifihan agbara ati titẹ soke inference akoko nipa ọkan si meji bibere ti titobi.Ẹgbẹ naa nireti pe iṣẹ wọn yoo fun iwadii siwaju sii sinu iṣelọpọ ọrọ 3D.
Awoṣe itankale awọsanma ti a ti kọkọ tẹlẹ ati koodu igbelewọn wa lori GitHub ti iṣẹ akanṣe naa.Ojuami Iwe-E: Eto kan fun ṣiṣẹda awọn awọsanma aaye 3D lati awọn ami idiju wa lori arXiv.
A mọ pe o ko fẹ lati padanu eyikeyi iroyin tabi awari ijinle sayensi.Alabapin si iwe iroyin Ọsẹ-ọsẹ Synced Global AI olokiki wa lati gba awọn imudojuiwọn AI ọsẹsẹ.


Akoko ifiweranṣẹ: Oṣu kejila-28-2022