Kompiuterinės vizijos ir robotikos sekančio numatymo ir vaizdo sklaidos derinimas | MIT naujienos
Pagal dabartinį AI geistą sekos modeliai labai išpopuliarėjo dėl jų gebėjimo analizuoti duomenis ir numatyti, ką daryti toliau. Pavyzdžiui, tikriausiai naudojote kito prieigos rakto numatymo modelius, pvz., „ChatGPT“, kurie numato kiekvieną žodį (žetoną) iš eilės, kad sudarytų atsakymus į vartotojų užklausas. Taip pat yra visos sekos sklaidos modelių, pvz., „Sora“, kurie žodžius paverčia akinančiais, tikroviškais vaizdais, paeiliui „nutildydami“ visą vaizdo įrašų seką.
Mokslininkai iš MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) pasiūlė paprastą difuzijos mokymo schemos pakeitimą, dėl kurio ši seka tampa daug lankstesnė.
Pritaikius tokioms sritims kaip kompiuterinis matymas ir robotika, kito ženklo ir visos sekos sklaidos modeliai turi kompromisų. Next token modeliai gali išspjauti įvairaus ilgio sekas. Tačiau jie sukuria šias kartas, nežinodami apie pageidaujamas būsenas tolimoje ateityje, pvz., nukreipti jos sekos generavimą į tam tikrą tikslą 10 žetonų atstumu, todėl reikia papildomų mechanizmų ilgalaikiam (ilgalaikiam) planavimui. Difuzijos modeliai gali atlikti tokį ateities sąlyginį mėginių ėmimą, tačiau jiems trūksta kitų žetonų modelių galimybės generuoti kintamo ilgio sekas.
Tyrėjai iš CSAIL nori sujungti abiejų modelių stipriąsias puses, todėl sukūrė sekos modelio mokymo techniką, pavadintą „Diffusion Forcing“. Pavadinimas kilęs iš „Teacher Forcing“ – įprastos mokymo schemos, kuri išskaido visą sekos generavimą į mažesnius, lengvesnius naujos kartos etapus (panašiai kaip geras mokytojas, supaprastinantis sudėtingą koncepciją).
Difuzijos prievarta rado bendrą pagrindą tarp difuzijos modelių ir mokytojo priverstinio: jie abu naudoja mokymo schemas, kurios apima užmaskuotų (triukšmingų) žetonų numatymą iš demaskuotų. Difuzijos modelių atveju jie palaipsniui prideda prie duomenų triukšmo, kuris gali būti vertinamas kaip trupmeninis maskavimas. MIT mokslininkų difuzijos prievartos metodas treniruoja neuroninius tinklus, kad išvalytų žetonų kolekciją, pašalintų skirtingą triukšmo kiekį kiekviename iš jų, tuo pačiu metu numatant keletą artimiausių žetonų. Rezultatas: lankstus, patikimas sekos modelis, kuris leido sukurti aukštesnės kokybės dirbtinius vaizdo įrašus ir tiksliau priimti sprendimus robotams ir AI agentams.
Rūšiuodama triukšmingus duomenis ir patikimai numatydama tolesnius užduoties veiksmus, „Diffusion Forcing“ gali padėti robotui nepaisyti vaizdinių trukdžių, kad būtų galima atlikti manipuliavimo užduotis. Jis taip pat gali generuoti stabilias ir nuoseklias vaizdo įrašų sekas ir netgi nukreipti AI agentą per skaitmeninius labirintus. Šis metodas gali padėti buitiniams ir gamykliniams robotams apibendrinti naujas užduotis ir pagerinti AI sukurtas pramogas.
„Sekų modeliais siekiama sąlygoti žinomą praeitį ir numatyti nežinomą ateitį, dvejetainio maskavimo tipą. Tačiau maskavimas nebūtinai turi būti dvejetainis“, – sako pagrindinis autorius, MIT elektros inžinerijos ir kompiuterių mokslų (EECS) doktorantas ir CSAIL narys Boyuanas Chenas. „Naudodami difuzijos prievartą, mes pridedame skirtingus triukšmo lygius prie kiekvieno žetono, efektyviai veikiant kaip trupmeninio maskavimo tipas. Bandymo metu mūsų sistema gali „demaskuoti“ žetonų rinkinį ir artimiausiu metu paskleisti seką žemesniu triukšmo lygiu. Ji žino, kuo pasitikėti savo duomenimis, kad įveiktų neplatinamus duomenis.
Keliuose eksperimentuose Diffusion Forcing klestėjo ignoruodama klaidinančius duomenis, kad būtų galima atlikti užduotis, tuo pačiu numatant būsimus veiksmus.
Pavyzdžiui, įdiegtas į roboto ranką, jis padėjo sukeisti du žaislinius vaisius ant trijų apskritų kilimėlių, o tai yra minimalus ilgo horizonto užduočių, kurioms reikia prisiminimų, šeimos pavyzdys. Tyrėjai apmokė robotą valdydami jį per atstumą (arba nuotoliniu būdu) virtualioje realybėje. Robotas yra išmokytas imituoti vartotojo judesius iš savo fotoaparato. Nepaisant to, kad pradėjo nuo atsitiktinių pozicijų ir matė, kad blaškymasis, pavyzdžiui, pirkinių krepšys blokuoja žymeklius, jis pastatė objektus į tikslines vietas.
Norėdami sukurti vaizdo įrašus, jie mokė „Diffusion Forcing“ žaisti „Minecraft“ žaidimus ir spalvingą skaitmeninę aplinką, sukurtą naudojant „Google DeepMind Lab Simulator“. Suteikus vieną filmuotos medžiagos kadrą, taikant metodą buvo sukurti stabilesni, didesnės raiškos vaizdo įrašai nei palyginami baziniai modeliai, pvz., „Sora“ tipo visos sekos sklaidos modelis ir „ChatGPT“ tipo kito rakto modeliai. Taikant šiuos metodus buvo sukurti vaizdo įrašai, kurie atrodė nenuoseklūs, o pastariesiems kartais nepavykdavo sukurti veikiančio vaizdo įrašo, viršijančio vos 72 kadrus.
„Diffusion Forcing“ ne tik sukuria įmantrius vaizdo įrašus, bet ir gali būti judesių planavimo priemonė, nukreipianti link norimų rezultatų ar atlygio. Dėl savo lankstumo „Diffusion Forcing“ gali unikaliai generuoti įvairaus horizonto planus, atlikti medžio paiešką ir įtraukti intuiciją, kad tolima ateitis yra neaiškesnė nei artimiausia. Sprendžiant 2D labirintą, „Diffusion Forcing“ pranoko šešias bazines linijas, sugeneruodama greitesnius planus, vedančius į tikslo vietą, o tai rodo, kad ateityje tai gali būti efektyvus robotų planuotojas.
Kiekvienoje demonstracinėje versijoje „Diffusion Forcing“ veikė kaip visos sekos modelis, kito žetono numatymo modelis arba abu. Anot Cheno, šis universalus metodas galėtų būti galingas „pasaulio modelio“ – AI sistemos, galinčios imituoti pasaulio dinamiką, treniruojant milijardus interneto vaizdo įrašų, stuburas. Tai leistų robotams atlikti naujas užduotis, įsivaizduodami, ką jiems reikia daryti pagal aplinką. Pvz., Jei paprašytumėte roboto atidaryti duris, jums nemokant, kaip tai padaryti, modelis galėtų sukurti vaizdo įrašą, kuriame mašina parodys, kaip tai padaryti.
Šiuo metu komanda siekia išplėsti savo metodą iki didesnių duomenų rinkinių ir naujausių transformatorių modelių, kad pagerintų našumą. Jie ketina išplėsti savo darbą, kad sukurtų į ChatGPT panašias roboto smegenis, kurios padėtų robotams atlikti užduotis naujoje aplinkoje be žmogaus demonstravimo.
„Naudodami difuzijos prievartą žengiame žingsnį, kad vaizdo įrašų generavimą ir robotiką suartintume“, – sako vyresnysis autorius Vincentas Sitzmannas, MIT docentas ir CSAIL narys, kur jis vadovauja scenos atstovavimo grupei. „Galų gale tikimės, kad galėsime panaudoti visas žinias, sukauptas vaizdo įrašuose internete, kad robotai galėtų padėti kasdieniame gyvenime. Liko daug daugiau įdomių mokslinių tyrimų iššūkių, pavyzdžiui, kaip robotai gali išmokti mėgdžioti žmones stebėdami juos net tada, kai jų kūnai labai skiriasi nuo mūsų!
Chen ir Sitzmann parašė darbą kartu su neseniai MIT kviestiniu tyrėju Diego Martí Monsó ir CSAIL filialais: Yilun Du, EECS absolventu; Max Simchowitz, buvęs postdoc ir būsimasis Carnegie Mellon universiteto docentas; ir Russ Tedrake, Toyota EECS, aeronautikos ir astronautikos bei mechanikos inžinerijos profesorius MIT, Toyota tyrimų instituto robotikos tyrimų viceprezidentas ir CSAIL narys. Jų darbą iš dalies parėmė JAV nacionalinis mokslo fondas, Singapūro gynybos mokslo ir technologijų agentūra, žvalgybos pažangių tyrimų projektų veikla per JAV vidaus reikalų departamentą ir Amazon mokslo centras. Gruodžio mėnesį jie pristatys savo tyrimus NeurIPS.