Padėti robotams susivokti apie svarbius objektus | MIT naujienos
Įsivaizduokite, kad reikia sutvarkyti netvarkingą virtuvę, pradedant nuo prekystalio, nukrauto padažų pakeliais. Jei jūsų tikslas yra nuvalyti skaitiklį, galite sušluoti paketus kaip grupė. Tačiau jei norėtumėte iš pradžių išsirinkti garstyčių pakelius, prieš išmesdami likusius, rūšiuotumėte atidžiau pagal padažo rūšį. Ir jei tarp garstyčių trokštate pilkojo poupono, norint rasti šį konkretų prekės ženklą, tektų atidžiau ieškoti.
MIT inžinieriai sukūrė metodą, kuris leidžia robotams priimti panašiai intuityvius, su užduotimi susijusius sprendimus.
Naujas komandos požiūris, pavadintas Clio, leidžia robotui nustatyti svarbias scenos dalis, atsižvelgiant į atliekamas užduotis. Naudodamas „Clio“, robotas priima užduočių, aprašytų natūralia kalba, sąrašą ir, remdamasis šiomis užduotimis, nustato detalumo lygį, reikalingą jo aplinkai interpretuoti ir „atsiminti“ tik tas scenos dalis, kurios yra svarbios.
Atlikdama tikrus eksperimentus nuo netvarkingos kabinos iki penkių aukštų pastato MIT miestelyje, komanda naudojo Clio, kad automatiškai segmentuotų sceną skirtingais detalumo lygiais, remdamasi užduočių rinkiniu, nurodytų natūralios kalbos raginimuose, pvz., „perkelti stovą“. žurnalų“ ir „Gaukite pirmosios pagalbos vaistinėlę“.
Komanda taip pat realiu laiku paleido „Clio“ keturkoju robotu. Robotui tyrinėjant biurų pastatą, Clio identifikavo ir nubrėžė tik tas scenos dalis, kurios buvo susijusios su roboto užduotimis (pavyzdžiui, šuns žaislo paėmimu, nekreipdamas dėmesio į krūvas biuro reikmenų), leisdamas robotui suvokti dominančius objektus.
Clio pavadintas Graikijos istorijos mūzos vardu dėl gebėjimo atpažinti ir atsiminti tik elementus, kurie yra svarbūs atliekant tam tikrą užduotį. Tyrėjai numato, kad „Clio“ būtų naudingas daugelyje situacijų ir aplinkų, kuriose robotas turėtų greitai apžiūrėti ir suprasti aplinką, atlikdamas užduotį.
„Paieška ir gelbėjimas yra motyvuojanti taikymas šiam darbui, tačiau „Clio“ taip pat gali varyti buitinius robotus ir robotus, dirbančius gamyklos aukšte kartu su žmonėmis“, – sako Luca Carlone, MIT Aeronautikos ir astronautikos katedros (AeroAstro) docentas, vyriausiasis tyrėjas. Informacijos ir sprendimų sistemų laboratorija (LIDS) ir MIT SPARK laboratorijos direktorius. „Tai iš tikrųjų yra padėti robotui suprasti aplinką ir tai, ką jis turi atsiminti, kad galėtų atlikti savo misiją.
Komanda išsamiai apibūdina savo rezultatus tyrime, kuris šiandien pasirodo žurnale Robotikos ir automatikos laiškai. Tarp Carlone bendraautorių yra SPARK laboratorijos nariai: Dominicas Maggio, Yun Chang, Nathan Hughes ir Lukas Schmid; ir MIT Linkolno laboratorijos nariai: Matthew Trangas, Danas Griffithas, Carlyn Dougherty ir Ericas Cristofalo.
Atviri laukai
Didžiulė pažanga kompiuterinio matymo ir natūralios kalbos apdorojimo srityse leido robotams atpažinti objektus jų aplinkoje. Tačiau dar visai neseniai robotai galėjo tai padaryti tik „uždarose“ scenarijuose, kai jie yra užprogramuoti dirbti kruopščiai kuruojamoje ir kontroliuojamoje aplinkoje su ribotu skaičiumi objektų, kuriuos robotas buvo iš anksto išmokytas atpažinti.
Pastaraisiais metais mokslininkai ėmėsi „atviresnio“ požiūrio, kad robotai galėtų atpažinti objektus tikroviškesnėmis sąlygomis. Atvirojo atpažinimo srityje mokslininkai panaudojo gilaus mokymosi įrankius, kad sukurtų neuroninius tinklus, galinčius apdoroti milijardus vaizdų iš interneto, kartu su kiekvienu vaizdu susietu tekstu (pvz., draugo Facebook nuotrauka su šunimi, antrašte „Susipažinkite“). mano naujas šuniukas!“).
Iš milijonų vaizdo ir teksto porų neuroninis tinklas mokosi iš tų scenos segmentų, kurie būdingi tam tikriems terminams, pavyzdžiui, šuniui, ir tada identifikuoja juos. Tada robotas gali pritaikyti šį neuroninį tinklą, kad pastebėtų šunį visiškai naujoje scenoje.
Tačiau vis dar išlieka iššūkis, kaip išanalizuoti sceną naudingu būdu, kuris yra svarbus konkrečiai užduočiai.
„Tipiniai metodai pasirenka tam tikrą savavališką, fiksuotą detalumo lygį, kad būtų galima nustatyti, kaip sujungti scenos segmentus į tai, ką galite laikyti vienu „objektu“, – sako Maggio. „Tačiau to, ką jūs vadinate „objektu“, detalumas iš tikrųjų yra susijęs su tuo, ką robotas turi daryti. Jei šis detalumas bus pataisytas neatsižvelgiant į užduotis, robotas gali gauti žemėlapį, kuris nėra naudingas jo užduotims atlikti.
Informacijos kliūtis
Su Clio MIT komanda siekė, kad robotai galėtų interpretuoti savo aplinką tokiu detalumo lygiu, kuris gali būti automatiškai suderintas su atliekamomis užduotimis.
Pavyzdžiui, gavęs užduotį perkelti knygų šūsnį į lentyną, robotas turėtų sugebėti nustatyti, kad visa knygų krūva yra su užduotimi susijęs objektas. Panašiai, jei užduotis būtų perkelti tik žalią knygą iš likusios krūvos, robotas turėtų atskirti žaliąją knygą kaip vieną tikslinį objektą ir nepaisyti likusios scenos dalies, įskaitant kitas krūvoje esančias knygas.
Komandos metodas sujungia pažangiausią kompiuterinę viziją ir didelius kalbos modelius, apimančius neuroninius tinklus, kurie užmezga ryšius tarp milijonų atvirojo kodo vaizdų ir semantinio teksto. Juose taip pat yra žemėlapių sudarymo įrankiai, kurie automatiškai padalija vaizdą į daug mažų segmentų, kurie gali būti įvesti į neuroninį tinklą, siekiant nustatyti, ar tam tikri segmentai yra semantiškai panašūs. Tada mokslininkai pasitelkia klasikinės informacijos teorijos idėją, vadinamą „informacijos kliūtimi“, kurią jie naudoja norėdami suspausti daugybę vaizdo segmentų taip, kad būtų atrenkami ir išsaugomi segmentai, kurie semantiškai yra tinkamiausi tam tikrai užduočiai.
„Pavyzdžiui, tarkime, kad scenoje yra krūva knygų, o mano užduotis yra tik gauti žaliąją knygą. Tokiu atveju mes išstumiame visą šią informaciją apie sceną per šią kliūtį ir galiausiai gauname segmentų, reprezentuojančių žaliąją knygą, grupę“, – aiškina Maggio. „Visi kiti nesusiję segmentai tiesiog sugrupuojami į grupę, kurią galime tiesiog pašalinti. Ir mums lieka tinkamo detalumo objektas, reikalingas mano užduočiai atlikti.
Tyrėjai pademonstravo Clio įvairiose realiose aplinkose.
„Mes manėme, kad eksperimentas būtų tikrai nesąmoningas – „Clio“ būtų paleistas savo bute, kur iš anksto nevaliau jokio valymo“, – sako Maggio.
Komanda sudarė užduočių natūralia kalba sąrašą, pvz., „perkelti drabužių krūvą“, o tada pritaikė „Clio“ netvarkingo Maggio buto vaizdams. Tokiais atvejais „Clio“ sugebėjo greitai segmentuoti buto scenas ir tiekti segmentus naudodama „Information Bottleneck“ algoritmą, kad nustatytų segmentus, kurie sudarė drabužių krūvą.
Jie taip pat valdė „Clio“ „Boston Dynamic“ keturkoju robotu „Spot“. Jie davė robotui atliktinų užduočių sąrašą, o robotui tyrinėjant biurų pastato vidų ir kartojant jo žemėlapį, Clio realiuoju laiku bėgo ant „Spot“ sumontuoto borto kompiuterio, kad atrinktų atvaizduotų scenų segmentus. vizualiai susieti su duota užduotimi. Metodas sukūrė dengiantį žemėlapį, kuriame rodomi tik tiksliniai objektai, kuriuos robotas panaudojo priartėdamas prie nustatytų objektų ir fiziškai atlikdamas užduotį.
„Paleisti Clio realiuoju laiku buvo didelis komandos pasiekimas“, – sako Maggio. „Daugelis ankstesnių darbų gali užtrukti kelias valandas.
Ateityje komanda planuoja pritaikyti Clio, kad būtų galima atlikti aukštesnio lygio užduotis ir remtis naujausiais fotorealistinio vaizdo scenų vaizdavimo pasiekimais.
„Mes vis dar suteikiame Clio užduotis, kurios yra šiek tiek specifinės, pavyzdžiui, „rasti kortų kaladę“, – sako Maggio. „Paieškos ir gelbėjimo tikslais turite duoti daugiau aukšto lygio užduočių, pvz., „rasti išgyvenusius žmones“ arba „atgauti maitinimą“. Taigi, mes norime labiau suprasti, kaip atlikti sudėtingesnes užduotis.
Šį tyrimą iš dalies palaikė JAV nacionalinis mokslo fondas, Šveicarijos nacionalinis mokslo fondas, MIT Linkolno laboratorija, JAV karinio jūrų laivyno tyrimų biuras ir JAV armijos tyrimų laboratorijos paskirstytų ir bendradarbiaujančių intelektualių sistemų ir technologijų bendradarbiavimo tyrimų aljansas.