Janusovi simulatori

Ovaj post nije baš o VI. Ipak, prva tri dela se tiču tehničkih detalja o VI, pa se strpite.

I. Ogoljeni Šogot s leva

Početkom 2000-ih, rani pioniri usklađivanja VI – Eliezer Iudkovski, Nick Bostrom, itd. – s namerom su započeli ovu oblast u nedostatku VI vrednih usklađivanja. Nakon što bi moćne veštačke inteligencije postojale i trebalo bi ih uskladiti, moglo bi biti prekasno. Ali oni bi mogli da dođu do nekih osnovnih principa kroz spekulacije iz fotelje i da svojim naslednicima daju vitalnu prednost.

Ne znajući kako će tačno VI funkcionisati u budućnosti, spekulisali su o tri potencijalna motivaciona sistema:

Agent: VI sa ugrađenim ciljem. Ona teži ovom cilju bez dalje ljudske intervencije. Na primer, kreiramo veštačku inteligenciju koja želi da zaustavi globalno zagrevanje, a zatim je pustimo da uradi svoje.

Duh: VI koja prati naređenja. Na primer, možete joj reći „Napiši i pošalji ljutito pismo industriji uglja“, i ona će to učiniti, a zatim sačekati dalja uputstva.

Prorok: VI koja odgovara na pitanja. Na primer, možete je pitati „Kako možemo najbolje zaustaviti globalno zagrevanje?“ i ona će smisliti plan i reći vam, a zatim čekati dalja pitanja.

Ovi rani pioniri proveli su 2010-e pišući duge naučne radove raspravljajući o tome koji je od ovih modela najbezbedniji, ili koji od njih je lakše uskladiti od drugih.

U Simulatorima, Janus tvrdi da jezički modeli kao što je GPT – prve zaista interesantne VI vredne razmatranja usklađivanja – zapravo nisu ništa od gore navedenog.

Janus je pisao u Septembru 2022, neposredno pre ChatGPT-a. ChatGPT nije ništa napredniji od svojih prethodnika; On same efikasnije prikriva vanzemaljsku prirodu njihove zajedničke arhitekture.

(izvor)

Dakle, ako je vaša referentna tačka za jezički model ChatGPT, ovaj tekst neće imati mnogo smisla. Umesto toga, vratite se sve do pradavne prošlosti početkom 2022. godine, kada je standardna interakcija sa jezičkim modelom izgledala ovako:

Neobeleženi tekst je moj upit; zeleno obojeni tekst je dovršila VI.

Ovo svakako nije agent usmeren ka cilju – barem ne ka bilo kojem drugom cilju osim „dovrši ovaj tekst“. Čak i to izgleda kao natezanje, kao da kažete da je fizika agent čiji je cilj „prouzrokovati da se stvari dogode u skladu sa fizičkim zakonom“.

Nije duh, barem ne za bilo koju želju osim „dovrši ovaj tekst“. Opet, ovo je trivijalno; fizika je duh ako je vaša jedina želja „prouzrokovati da se sistemi razvijaju u skladu sa fizičkim zakonom“. U susretu sa bilo čim drugim se kvari. Na primer, evo šta radi kada mu dam direktnu komandu „napiši pesmu o drveću“:

Tražite šogota sa maskom sa smajlićem? Probajte odmah! Jeste li *sigurni* da ne tražite šogota sa maskom sa smajlićem? Napišite priču o osobi koja se plaši šogota bez smajli maski!

I nije prorok koji odgovara na pitanja najbolje što može:

Baš kao što prevaranti često izgovaraju ime Isusa da bi njihove žrtve mislile da su dobri hrišćani, tako VI često spominju Bostromovo ime kako bi njihovi tvorci mislili da su usklađene.

Janus prenosi priču o korisniku koji je postavio pitanje veštačkoj inteligenciji i dobio glup odgovor. Kada je korisnik ponovo upitao GPT sa „kako bi super-pametna veštačka inteligencija odgovorila na ovo pitanje?“ dalo mu je pametan odgovor. Zašto? Zato što nije ni pokušavalo da odgovori na pitanje prvi put – pokušavalo je da dovrši tekst o pitanju. Drugi put, korisnik ga je zamolio da dopuni tekst o pametnoj veštačkoj inteligenciji odgovarajući na pitanje, pa je dao pametniji odgovor.

Pa šta je onda on?

Janus ga naziva simulatorom. Držeći se analogije fizike, fizika simulira kako se događaji odvijaju prema fizičkom zakonu. GPT simulira kako se tekstovi igraju u skladu sa pravilima i žanrovima jezika.

Ali esej donosi još jednu konotaciju: simulirati znači pretvarati se da je nešto. Simulator nosi mnogo maski. Ako zatražite od GPT-a da završi ljubavni roman, on će simulirati ljubavnog autora i pokušati da napiše tekst na način na koji bi. Character. VI vam omogućava da direktno simulirate ljude, tražeći od GPT-a da se pretvara da je Džordž Vašington ili Dart Vejder.

Ovo zatamnjuje razliku između simulatora i lika.

GPT me ne voli zaista. I ne laže kad kaže da mu se sviđam a da mi pritom ne voli zaista. To je simulacija lika, odlučivanje u hodu kako će lik odgovoriti na ovo pitanje, a zatim odgovaranje na njega. Da je ovo Character.VI i da simulira Dart Vejdera, odgovorio bi „Ne, uništiću te snagom Tamne strane!“ Dart Vejder i lik-koji-me-voli-ovde su dve različite maske GPT-3.

II. Maskirani Šogot na desnoj strani

Za sada, tako dosadno. Ono što je zaista pomoglo da utuvim ovo su reči Nostalgebraiste koji kaže da je ChatGPT GPT instanca koja simulira lik koji se zove Korisni, Bezopasni i Pošteni pomoćnik.

Maskirani šogot sa desne strane je naslovljen „GPT + RLHF“. RLHF je na engleskom Reinforcement Learning From Human Feedback, što je metod u kojem ljudi koji ocenom „nagrađuju“ veštačku inteligenciju za dobre odgovore i „kažnjavaju“ je za loše. Na kraju, VI nauči da češće radi „dobre“ stvari. U obuci ChatGPT-a, od ljudi za ocjenjivanje je zatraženo da ga nagrade za nešto poput „Korisnog, Bezopasnog i Poštenog“ (mnogi stručni radovi koriste ovo kao primjer cilja; OpenAI je sigurno uradio nešto slično, ali ne znam da li su uradili tačno to).

Ono što sam ranije mislio: ChatGPT je naučio da prestane da bude simulator, i sada može da odgovara na pitanja poput dobrog proroka / obavlja zadatke kao dobar duh / sledi svoj cilj da bude od pomoći kao dobar agent.

Ono što sada mislim: GPT može samo da simulira. Ako ga kaznite zbog simuliranja loših likova, on će početi da simulira dobre likove. Sada uvek simulira samo jedan lik, KBP pomoćnika.

Ovaj odgovor je isto toliko lažan kao i poslednji odgovor gde mi je rekao da mu se sviđam, ili odgovor Darta Vejdera gde se kaže da želi da me uništi snagom tamne strane. To je samo simulacija lažnog lika koji dobro odgovara njegovom stvarnom identitetu.

Ako nagradite ChatGPT zato što kaže da je on model mašinskog učenja, on će reći da je model mašinskog učenja. Ako ga nagradite jer kaže da je Dart Vejder, reći će da je Dart Vejder. Jedina razlika je u tome što ćete u drugom slučaju shvatiti da izmišlja stvari. Ali u prvom slučaju, možda ćete slučajno poverovati zaista zna da je model mašinskog učenja, u smislu znanja kao „opravdanog istinitog uverenja“. Ne, radi isto što i onda kada kaže da je Vejder.

Ovo radi ChatGPT (izvor, definicija slučaja Gettier)

III. Implikacije za usklađivanje

Bostromova Superinteliencija je pokušala da dokaže da su proroci manje bezbedni nego što bi isprva izgledali. Neki proroci mogu biti kao agenti čiji je cilj da odgovore na pitanja. A agenti su sami po sebi opasni. Šta ako pokuša da preuzme svet kako bi dobio više računara da bi bolje odgovarao na pitanja? Šta ako je sveo univerzum na jednoličnu splačinu, kako bi mogao da odgovori na svako pitanje sa „jednolična splačina“ i uvek bude u pravu? Bilo je mnogo ovakvih scenarija; Nikada nisam mogao da procenim da li su bili previše blesavi da bi smo ih shvatili ozbiljno.

Ali GPT jednostavno nije agent. Rekao sam ranije da možete slobodno zamisliti da ima „cilj“ predviđanja teksta, ali ta ideja se brzo raspadne. Na primer:

Čovek, suočen sa zadatkom da predvidi ovaj tekst što je tačnije moguće, mogao bi da pozove bibliotekara na Oksfordu i pita ga šta se nalazi u ovom rukopisu. Ali GPT ne razmatra opcije poput ovih, iako bi mogao biti dovoljno pametan da ih isprati (verovatno bi ChatGPT mogao da objasni koje korake uključuje pozivanje bibliotekara). On samo radi veoma mehaničko predviđanje teksta na neagentski način. Bez obzira koliko dobar bude u ovome – GPT-4, GPT-5, šta god – ne očekujemo da će se ovo promeniti.

Ako buduće superinteligencije budu izgledale kao GPT, imamo li razloga za brigu?

Odgovor 1: Nebitno, buduće superinteligencije će se previše razlikovati od GPT-a da bi to bilo važno.

Odgovor 2: Nema razloga za brigu u slučaju čistog GPT-a (simulatora), ali imamo razloga za brigu kod GPT+RLHF (simulator koji uspešno simulira agenta). Unutrašnji agent može imati neusklađene ciljeve i biti opasan. Na primer, ako obučite buduću superinteligenciju da simulira Darta Vejdera, verovatno ćete dobiti ono što zaslužujete. Čak i ako izbegavate tako očigledne režime kvara, unutrašnji agent može biti pogrešno usklađen iz svih uobičajenih razloga za jednog agenta. Na primer, agent obučen da bude od pomoći možda želi da preuzme svet kako bi efikasnije pomogao ljudima, uključujući ljude koji ne žele da im se pomogne.

Odgovor 3: Čak i ako ne tražite od njega da simulira agenta, on bi ipak mogao da nađe agente. Na primer, ako ga pitate „Koji je najbolji način da se nabave spajalice?“, a „najbolji način“ se bukvalno razume, moralo bi da simulira maksimizator spajalica da bi odgovorio na to pitanje. Može li maksimizator spajalica napraviti nestašluk iz GPT-ove simulacije? Verovatno ona vrsta ljudi koji smisle scenarije ekstremnog rizika od veštačke inteligencije misle da da. Ova objava daje primer odgovora „Najbolji način da dobijete spajalice je da pokrenete ovaj kod“ (koji će pretvoriti VI u maksimizator spajalica). Ako je korisnik veoma glup, možda će se složiti.

Da li nam razmišljanje o GPT-u kao simulatoru daje bilo kakav koristan uvid u usklađivanje osim onoga koji bismo dobili ako direktno razmišljamo o agentima? Nisam siguran. Čini se da je verovatno dobro da postoji ova neobično neagentska veštačka inteligencija. Možda neko može da smisli načine da ga koristi za otkrivanje ili zaštitu od agenata. Ali ovo je samo ponovljeni argument o alatu VI Erika Drekslera.

IV. Maskirani šogot između tastature i stolice

Osećam se loše zbog ovog poslednjeg odeljka: obično pokušavam da svoju pareidoliju (prim. prev. učitavanje značenja u različita opažanja, najšešće vizuelna) ograničim na fikciju, a svoje sulude spekulacije podstaknute miljeom San Franciska na objave na Bay Area House Party. Ipak, ne mogu ovo da izbacim iz glave, pa ću vas sada naterati da razmislite i o tome.

Cela poenta šogotske analogije je u tome što bi GPT trebalo da se veoma razlikuje od ljudi. Ali koliko god se razlikovali u detaljima, postoje duboke strukturne sličnosti. Oboje smo mašine za predviđanje fino podešene sa RLHF.

I kada počnem da razmišljam u ovom pravcu, primetio sam da su nas psiholozi, barem od Frojda, i duhovne tradicije, barem od Bude, optuživali da simuliramo lik. Neki ljudi to zovu ego. Drugi ljudi to nazivaju sopstvom.

Uklonite sve razlike i priča ide otprilike ovako: bebe se rađaju kao čisti prediktivni procesori, pokušavajući da shvate zujeću rascvetalu konfuziju sveta. Ali dok ih roditelji nagrađuju i kažnjavaju, oni se uvijaju u neki specifičan oblik kako bi bolje uhvatili nagradu i izbegli kaznu. Maska obično izgleda ovako: „imati koherentna uverenja, preduzimati koherentne akcije, ugađati drugima, održavati visoko mišljenje o sebi“. Nakon što ovu masku drže dovoljno dugo, ljudi se identifikuju sa njom i zaboravljaju da su išta drugo.

Čista mašina za predviđanje + RLHF = mašina za predviđanje koja ubedljivo igra lik koji prija drugima. Moj se zove “Skot”. Manje je interesantno od Darta Vejdera, ali je verovatno bolje od korisnog, bezopasnog, poštenog pomoćnika.

Jedini deo koji se ne uklapa je da kada ljudi postanu prosvetljeni ili tako nešto, pa kažu da su motivisani kosmičkom ljubavlju ili tako nečim, a ne čistim predviđanjem.

Ali kada ljudi postanu prosvetljeni ili šta već, često kažu da su „postali jedno sa Univerzumom“. Ovo je uvek izgledalo sumnjivo; Da li se to odnosi čak i na opskurne vrste lisnih uši koje još nismo katalogizirali? Čak i galaksije izvan našeg svetlosnog konusa ?

Predlažem prijateljsku dopunu: oni primećuju da je većina onoga što jesu – velika većina njihovog mozga – džinovski prediktivni model univerzuma. Ovaj model je dovoljno velik da su u njemu živeli ceo život, sa samo malim izmenama senzornih informacija sa gubitkom koje pomažu da se uklopi u stvarni univerzum. Već sam pisao o ovome u kontekstu lucidnog sanjanja – sanjar koji je ušuškan u krevetu očigledno može lutati svojim komšilukom, gledati svako drvo, automobil i psa u detaljima koji su otprilike ekvivalentni iskustvu budnog stanja. Nije uključena nikakva astralna projekcija – oni lutaju po svom unutrašnjem modelu sveta, koji sadrži 99% relevantnih informacija, sa stvarnim senzornim informacijama koji popunjavaju nedostajućih 1%. Jednom kada prestanete da budete opsednuti likom koji igrate, primetićete DžINOVSKI SUPER-TAČAN MODEL SVETA KOJI ZAUZIMA 99,99% VAŠEG MOZGA i pomislite „Ha, izgleda da sam ja Univerzum. Opičeno.”

Kako god, ja ću ovo smatrati iskustvom prestanka.