Tyrėjai abejoja AI „protavimo“ gebėjimu, nes modeliai suklumpa dėl matematikos problemų dėl nereikšmingų pokyčių

Tyrėjai abejoja AI „protavimo“ gebėjimu, nes modeliai suklumpa dėl matematikos


Kaip mašininio mokymosi modeliai daro tai, ką daro? Ir ar jie tikrai „galvoja“ ar „samprotauja“ taip, kaip mes suprantame tuos dalykus? Tai yra tiek filosofinis, tiek praktinis klausimas, tačiau penktadienį paskelbtas naujas dokumentas rodo, kad atsakymas bent jau kol kas yra gana aiškus „ne“.

Grupė AI tyrinėtojų iš Apple ketvirtadienį paskelbė savo darbą „Matematinio mąstymo apribojimų supratimas dideliuose kalbų modeliuose“ ketvirtadienį. Nors gilesnės simbolinio mokymosi ir modelio atkūrimo sąvokos yra šiek tiek piktžolės, pagrindinė jų tyrimo koncepcija yra labai lengvai suvokiama.

Tarkime, aš paprašiau jūsų išspręsti paprastą matematikos uždavinį, kaip šis:

Penktadienį Oliveris nuskynė 44 kivius. Tada jis šeštadienį skina 58 kivius. Sekmadienį jis skina dvigubai daugiau kivių, kiek jis išleido penktadienį. Kiek kivių turi Oliveris?

Akivaizdu, kad atsakymas yra 44 + 58 + (44 * 2) = 190. Nors didelių kalbų modeliai iš tikrųjų yra dėmėti dėl aritmetikos, jie gali gana patikimai išspręsti kažką panašaus. Bet kas būtų, jei įmesčiau šiek tiek atsitiktinės papildomos informacijos, pavyzdžiui:

Penktadienį Oliveris nuskynė 44 kivius. Tada jis šeštadienį skina 58 kivius. Sekmadienį jis renkasi dvigubai daugiau kivių, nei išleido penktadienį, bet penki iš jų buvo šiek tiek mažesni nei vidutiniai. Kiek kivių turi Oliveris?

Tai ta pati matematikos problema, tiesa? Ir, žinoma, net klasės mokinys žinotų, kad net mažas kivis vis tiek yra kivis. Tačiau, kaip paaiškėja, šis papildomas duomenų taškas klaidina net ir naujausius LLM. Štai GPT-o1-mini pavyzdys:

… sekmadienį 5 iš šių kivių buvo mažesni nei vidutiniai. Turime juos atimti iš sekmadienio sumos: 88 (sekmadienio kiviai) – 5 (mažesni kiviai) = 83 kiviai

Tai tik paprastas pavyzdys iš šimtų klausimų, kuriuos tyrėjai nežymiai pakeitė, tačiau beveik visi jie lėmė milžinišką jų bandančių modelių sėkmės rodiklių sumažėjimą.

Vaizdo kreditai:Mirzadeh ir kt

Kodėl taip turėtų būti? Kodėl modelį, kuris supranta problemą, taip lengvai išmuštų atsitiktinė, nereikšminga detalė? Tyrėjai siūlo, kad šis patikimas gedimo būdas reiškia, kad modeliai iš tikrųjų nesupranta problemos. Jų mokymo duomenys tam tikrose situacijose leidžia jiems atsakyti teisingu atsakymu, tačiau kai tik prireikia menkiausio faktinio „samprotavimo“, pavyzdžiui, ar skaičiuoti mažus kivius, jie pradeda duoti keistų, neintuityvių rezultatų.

Kaip savo darbe teigia mokslininkai:

(W) ištirti šių modelių matematinių samprotavimų pažeidžiamumą ir parodyti, kad jų veikimas žymiai pablogėja, kai klausime daugėja sakinių. Manome, kad šis nuosmukis atsirado dėl to, kad dabartiniai LLM nesugeba iš tikrųjų logiškai samprotauti; vietoj to jie bando pakartoti samprotavimo žingsnius, pastebėtus jų mokymo duomenyse.

Šis pastebėjimas atitinka kitas savybes, kurios dažnai priskiriamos LLM dėl jų kalbos gebėjimo. Kai statistiškai po frazės „aš tave myliu“ seka „aš taip pat tave myliu“, LLM gali lengvai tai pakartoti, tačiau tai nereiškia, kad jis tave myli. Ir nors jis gali sekti sudėtingas samprotavimo grandines, su kuriomis jis buvo susidūręs anksčiau, faktas, kad šią grandinę gali nutraukti net paviršutiniški nukrypimai, rodo, kad ji iš tikrųjų ne tiek samprotauja, kiek atkartoja modelius, kuriuos pastebėjo savo mokymo duomenyse.

Mehrdadas Farajtabaras, vienas iš bendraautorių, labai gražiai išskaido popierių šioje X gijoje.

„OpenAI“ tyrėjas, girdamas Mirzadeh ir kt. darbą, prieštaravo jų išvadoms, sakydamas, kad visais šiais gedimų atvejais greičiausiai būtų galima pasiekti teisingų rezultatų, jei reikia šiek tiek greitos inžinerijos. Faradžtabaras (atsakydamas į tipišką, tačiau žavingą draugiškumą, kurį linkę naudoti tyrėjai) pažymėjo, kad nors geresnis raginimai gali būti naudingi esant paprastiems nukrypimams, modeliui gali prireikti eksponentiškai daugiau kontekstinių duomenų, kad būtų išvengta sudėtingų blaškymų – tų, kuriuos vaikas gali nereikšmingai nurodyti. išeiti.

Ar tai reiškia, kad LLM nemąsto? Galbūt. Kad jie nemoka samprotauti? Niekas nežino. Tai nėra tiksliai apibrėžtos sąvokos, o klausimai dažniausiai atsiranda AI tyrimų krašte, kur naujausios technologijos keičiasi kasdien. Galbūt LLM „priežastis“, bet tam tikra prasme mes dar nepripažįstame arba nežinome, kaip kontroliuoti.

Tai yra patraukli mokslinių tyrimų riba, tačiau tai taip pat yra įspėjamasis pasakojimas apie tai, kaip AI parduodamas. Ar ji tikrai gali padaryti tai, ką jie teigia, ir jei taip, kaip? Kadangi dirbtinis intelektas tampa kasdieniu programinės įrangos įrankiu, toks klausimas nebėra akademinis.



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -