Ovo je gostujući članak moje koleginice Adžeje Kotre.
Holden je /ranije pomenuo/ ideju da napredni sistemi veštačke inteligencije (npr. /PASTA/) mogu razviti /opasne ciljeve/ zbog kojih mogu da obmanu ili razvlaste ljude. Ovo bi moglo zvučati kao prilično udaljena briga. Zašto bismo programirali veštačku inteligenciju koja želi da nam naudi? Ali mislim da bi to zapravo mogao biti težak problem za izbegavanje, posebno ako se napredna veštačka inteligencija razvija korišćenjem dubokog učenja (koja se danas često koristi za razvoj najsavremenije veštačke inteligencije).
U dubokom učenju, mi ne programiramo računar ručno da uradi zadatak. Slobodno govoreći, mi umesto toga tražimo kompjuterski program (koji se zove model) koji dobro obavlja zadatak. Obično znamo vrlo malo o unutrašnjem funkcionisanju modela koji dobijemo, samo da dobro radi posao. To je manje kao izgradnja mašine, a više kao zapošljavanje i obuka zaposlenog.
I baš kao što zaposleni mogu imati mnogo različitih motiva za obavljanje svog posla (od verovanja u misiju kompanije preko uživanja u svakodnevnom poslu do puke želje za novcem), modeli dubokog učenja takođe mogu imati mnogo različitih „motivacija“ koje vode za postizanje dobrog učinka na zadatku. A pošto nisu ljudi, njihove motivacije mogu biti veoma čudne i teško ih je predvideti – kao da su zaposleni vanzemaljci.
Već počinjemo da vidimo preliminarne dokaze da modeli ponekad slede ciljeve koje njihovi tvorci nisu nameravali (ovde i ovde). Trenutno, ovo nije opasno. Ali ako to nastavi da se dešava sa veoma moćnim modelima, mogli bismo doći u situaciju u kojoj većinu važnih odluka – uključujući i kakvoj galaktičkoj civilizaciji treba da težimo – donose modeli bez mnogo obzira na ono što ljudi cene.
Problem usklađivanja dubokog učenja je problem osiguravanja da napredni modeli dubokog učenja ne slede opasne ciljeve. U ostatku ovog članka ću:
-
Nadograditi analogiju „zapošljavanja“ kako bih ilustrovao kako bi usklađivanje moglo biti teško ako su modeli dubokog učenja sposobniji od ljudi (/više/).
-
Objasniti šta je problem usklađivanja dubokog učenja sa malo više tehničkih detalja (/više/).
-
Razmotriti koliko problem usklađivanja može biti težak i koliki je rizik neuspeha rešavanja istog (/više/).
Analogija: mladi izvršni direktor
Ovaj odeljak predlaže analogiju u pokušaju da intuitivno ilustruje zašto je izbegavanje neusklađenosti u veoma moćnom modelu teško. To nije savršena analogija; ovo je samo pokušaj da se prenese neka intuicija.
Zamislite da ste osmogodišnjak čiji su roditelji ostavili kompaniju od 1 bilion dolara i nijednu odraslu osobu od poverenja koja bi vam služila kao vodič u svetu. Morate unajmiti pametnu odraslu osobu da vam vodi kompaniju kao izvršni direktor, upravljati vašim životom kao što bi roditelj (npr. odlučiti o vašoj školi, gde ćete živeti, kada treba da idete kod zubara) i upravljate svojim ogromnim bogatstvom (na primer, odlučite kako ćete uložiti svoj novac).
Morate da unajmite ovu odraslu osobu na osnovu probnog rada ili intervjua koji smislite — ne možete da vidite nikakve biografije, ne možete da obavljate proveru referenci, itd. Zato što ste tako bogati, mnogo ljudi će se prijaviti iz raznih razloga.
Vaš fond kandidata uključuje:
-
Svece – ljudi koji zaista samo žele da vam pomognu da dobro upravljate svojom imovinom i da vode računa o vašim dugoročnim interesima.
-
Podlace – ljudi koji samo žele da urade sve što je potrebno da vas kratkoročno učine srećnim ili da zadovolje slovo vaših uputstava bez obzira na dugoročne posledice.
-
Spletkaroše – ljudi sa sopstvenim planovima koji žele da dobiju pristup vašoj kompaniji i svom njenom bogatstvu i moći kako bi mogli da je koriste po svom nahođenju.
Pošto imate osam godina, verovatno ćete biti užasni u osmišljavanju prave vrste radnih testova, tako da biste lako mogli da završite sa Podlacem ili Spletkarom:
-
Možete pokušati da navedete svakog kandidata da objasni koje strategije visokog nivoa će slediti (kako će investirati, koji je njihov petogodišnji plan za kompaniju, kako će izabrati vašu školu) i zašto su one najbolje, i izaberite onaj čija objašnjenja izgledaju najsmislenija.
-
Ali nećete zapravo razumeti koje su navedene strategije zaista najbolje, tako da biste na kraju mogli da unajmite Podlaca sa užasnom strategijom koja vam je zvučala dobro. On će verno izvršiti tu strategiju i srušiti vašu kompaniju do temelja.
-
Takođe biste mogli da unajmite Spletkara koji kaže šta god je potrebno da bi se zaposlio, a zatim radi šta god želi kada ga ne proveravate.
-
Možete pokušati da pokažete kako biste vi doneli sve odluke i da izaberete odraslu osobu koja izgleda da donosi odluke što je moguće sličnije vama.
-
Ali ako zaista završite sa osobom koja će uvek raditi ono što bi osmogodišnjak uradio (Podlac), vaša kompanija verovatno neće uspeti da opstane.
-
U svakom slučaju, možda ćete dobiti odraslu osobu koja se jednostavno pretvara da sve radi na način na koji biste vi, ali je zapravo Spletkaroš koji planira da se promeni kada dobije posao.
-
Mogli biste da date gomili različitih odraslih privremenu kontrolu nad vašom kompanijom i životom i posmatrate ih kako donose odluke tokom dužeg vremenskog perioda (pretpostavimo da ne bi mogli da preuzmu kontrolu tokom ovog testa). Tada biste mogli da unajmite osobu za čije službovanje izgleda da vam najbolje ide – ko god vas je najviše usrećio, ko god vam se činilo da je doneo najviše dolara na vaš bankovni račun, itd.
-
Ali opet, nemate načina da saznate da li ste dobili Podlaca (koji radi sve što je potrebno da usreći neupućenog osmogodišnjaka bez obzira na dugoročne posledice) ili Spletkara (koji radi sve što je potrebno da bi ga zaposlili i planira da se promeni kada obezbedi posao).
Šta god da biste lako smislili, izgleda kao da bi lako moglo da završi tako što ćete zaposliti, i dati svu funkcionalnu kontrolu, Podlacu ili Spletkarošu.
Ako ne uspete da unajmite Sveca – a posebno ako unajmite Spletkaroša – uskoro nećete zaista biti izvršni direktor džinovske kompanije u bilo kom praktičnom smislu. Dok odrastete i shvatite svoju grešku, postoji velika šansa da ste ostali bez novca i da ste nemoćni preokrenete situaciju.
U ovoj analogiji:
-
Osmogodišnjak je čovek koji pokušava da obuči moćan model dubokog učenja. Proces zapošljavanja je analogan procesu obuke, koji implicitno pretražuje veliki prostor mogućih modela i bira onaj koji ima dobre performanse.
-
Jedini metod za procenu kandidata za 8-godišnjake uključuje posmatranje njihovog spoljašnjeg ponašanja, što je trenutno naš glavni metod obuke modela dubokog učenja (pošto je njihov unutrašnji rad uglavnom nedokučiv).
-
Veoma moćni modeli mogu lako da „igraju“ bilo koje testove koje ljudi mogu da osmisle, baš kao što odrasli kandidati za posao mogu lako da igraju testove koje osmogodišnjak može da dizajnira.
-
„Svetac“ bi mogao da bude model dubokog učenja koji dobro funkcioniše jer ima tačno one ciljeve koje bismo želeli da ima. „Podlac“ bi mogao biti model za koji se čini da ima dobre rezultate jer traži kratkoročno odobrenje na načine koji dugoročno nisu dobri. A „Spletkaroš“ bi mogao da bude model za koji se čini da ima dobre rezultate jer će mu dobar učinak tokom treninga dati više mogućnosti da kasnije sledi sopstvene ciljeve. Bilo koji od ova tri tipa modela mogao bi izaći iz procesa obuke.
U sledećem odeljku ću ući u nešto više detalja o tome kako funkcioniše duboko učenje i objasniti zašto bi Podlaci i Spletkaroši mogli nastati pokušajem obučavanja moćnog modela dubokog učenja kao što je PASTA.
Kako se problemi usklađivanja mogu pojaviti sa dubokim učenjem
U ovom odeljku, povezaću analogiju sa stvarnim procesima obuke za duboko učenje, na sledeći način:
-
Kratko sumiranje načina na koji duboko učenje funkcioniše (/više/).
-
Ilustrovanje kako modeli dubokog učenja često postižu dobre performanse na čudne i neočekivane načine (/više/).
-
Objašnjavanje zašto moćni modeli dubokog učenja mogu da ostvare dobre performanse ponašajući se kao podliki ili šemari (/više/).
Kako duboko učenje funkcioniše na visokom nivou
Ovo je pojednostavljeno objašnjenje koje daje opštu ideju o tome šta je duboko učenje. Pogledajte ovaj članak za detaljnije i tehnički tačnije objašnjenje.
Duboko učenje u suštini uključuje traženje najboljeg načina da se uredi model neuronske mreže – koji je kao digitalni “mozak” sa puno digitalnih neurona povezanih jedni sa drugima vezama različite jačine – kako bi se naterao da dobro izvrši određeni zadatak. Ovaj proces se zove obuka i uključuje mnogo pokušaja i grešaka.
Zamislimo da pokušavamo da obučimo model da dobro klasifikuje slike. Počinjemo sa neuronskom mrežom u kojoj sve veze između neurona imaju nasumične snage. Ovaj model netačno označava slike:
Zatim unosimo veliki broj primera slika, dopuštajući modelu da više puta pokušava da označi primer, a zatim mu kažemo ispravnu oznaku. Dok to radimo, veze između neurona se stalno podešavaju putem procesa koji se naziva stohastički gradijentni pad (SGP, na eng. SGD – Stochastic gradient descent). Sa svakim primerom, SGP malo jača neke veze i slabi druge da bi malo poboljšao performanse:
Kada unesemo milione primera, dobićemo model koji dobro obavlja posao označavanja sličnih slika u budućnosti.
Pored klasifikacije slika, duboko učenje je korišćeno za proizvodnju modela koji prepoznaju govor, igraju društvene igre i video igrice, generišu prilično realističan tekst, slike i muziku, kontrolišu robote i još mnogo toga. U svakom slučaju, počinjemo sa nasumično povezanim modelom neuronske mreže, a zatim:
-
Dajemo modelu primer zadatka koji želimo da izvrši.
-
Dajemo mu neku vrstu numeričke ocene (koja se često naziva i nagradom) koja odražava koliko je dobro radio na primeru.
-
Koristimo SGP da podesimo model kako bismo povećali koliko nagrade dobija.
Ovi koraci se ponavljaju milione ili milijarde puta dok ne stignemo do modela koji će dobiti visoku nagradu na budućim primerima sličnim onima koji se vide u obuci.
Modeli često dobro funkcionišu na neočekivane načine
Ovakav proces obuke nam ne daje mnogo uvida u to kako model postiže dobre performanse. Obično postoji više načina za postizanje dobrih performansi, a način koji SGP pronalazi često nije intuitivan.
Ilustrujmo primerom. Zamislite da sam vam rekao da su svi ovi objekti “tnibovi”:
A sad, koji od ova dva objekta je tnib?
Verovatno intuitivno osećate da je objekat sa leve strane thnib, jer ste navikli da oblik bude važniji od boje za određivanje nečijeg identiteta. Ali istraživači su otkrili da neuronske mreže obično prave suprotnu pretpostavku. Neuronska mreža obučena na gomili crvenih tnib-ova bi verovatno označila objekat sa desne strane kao tnib.
Ne znamo zašto, ali iz nekog razloga je SGP-u “lakše“ da pronađe model koji prepoznaje određenu boju nego onaj koji prepoznaje određeni oblik. A ako SGP prvo pronađe model koji savršeno prepoznaje crvenilo, nema mnogo daljeg podsticaja da se “nastavi da traži“ model koji prepoznaje oblik, pošto će model za prepoznavanje crvene boje imati savršenu tačnost na slikama koje vidi na obuci:
Ako su programeri očekivali da izvuku model koji prepoznaje oblik, mogli bi ovo smatrati neuspehom. Ali važno je prepoznati da ne bi bilo greške ili neuspeha koji bi se mogli logički zaključiti ako bismo dobili model za prepoznavanje crvene boje umesto modela za prepoznavanje oblika. To je samo pitanje procesa mašinskog učenja koji smo postavili sa drugačijim početnim pretpostavkama od onih koje imamo u našim glavama. Ne možemo dokazati da su ljudske pretpostavke tačne.
Ovakve stvari se često dešavaju u modernom dubokom učenju. Nagrađujemo modele sa dobrim performansama, nadajući se da će oni shvatiti obrasce koji nam se čine važnima. Ali često umesto toga dobijaju snažne performanse prihvatajući potpuno različite obrasce koji nam izgledaju manje relevantni (ili možda čak i besmisleni).
Za sada je ovo bezazleno – to samo znači da su modeli manje korisni, jer se često ponašaju na neočekivane načine koji izgledaju glupo. Ali u budućnosti, moćni modeli bi mogli razviti čudne i neočekivane ciljeve ili motive, a to bi moglo biti veoma destruktivno.
Moćni modeli mogu postići dobre performanse sa opasnim ciljevima
Umesto obavljanja jednostavnog zadatka kao što je „prepoznavanje tnib-ova“, moćni modeli dubokog učenja mogu stremiti složenim ciljevima iz stvarnog sveta kao što su „učiniti snagu fuzije praktičnom“ ili „razvijati /tehnologiju za digitalizaciju uma/“.
Kako bismo mogli da obučimo takve modele? U ovom članku ulazim u detalje, ali uopšteno govoreći, jedna od strategija bi mogla biti obuka zasnovana na ljudskim procenama (kao što je Holden /ovde/ skicirao). U suštini, model isprobava različite akcije, a ljudi “sudije” daju modelu nagrade na osnovu toga koliko se ove akcije čine korisnima.
Baš kao što postoji više različitih tipova odraslih osoba koji bi mogli da se dobro ponašaju u procesu intervjua sa 8-godišnjakom, postoji više od jednog načina da veoma moćan model dubokog učenja dobije visok stepen ljudskog odobravanja. I naravno, nećemo znati šta se dešava unutar bilo kog modela koji SGP pronađe.
SGP bi teoretski mogao da pronađe model Sveca koji se iskreno trudi da nam pomogne…
…ali bi takođe mogao da pronađe neusklađen model – onaj koji kompetentno sledi ciljeve koji su u suprotnosti sa ljudskim interesima.
Uopšteno govoreći, postoje dva načina da završimo sa neusklađenim modelom koji ipak postiže visoke performanse tokom treninga. Oni odgovaraju Podlacima i Spletkarošima iz analogije.
Modeli Podlaci
Ovi modeli sasvim bukvalno i jednodušno traže ljudsko odobravanje.
Ovo bi moglo biti opasno jer je ljudski faktor sklon grešci i verovatno neće uvek dati odobrenje za tačno ispravno ponašanje. Ponekad će nenamerno dati veliko odobravanje lošem ponašanju jer se na prvi pogled čini dobrim. Na primer:
-
Recimo da model finansijskog savetnika dobija veliko odobravanje kada svojim klijentima zarađuje mnogo novca. Takav model može naučiti da uvlači kupce u složene Ponzi šeme jer izgleda da dobijaju zaista velike povraćaje (kada su prinosi u stvari nerealno veliki i šeme zapravo gube mnogo novca).
-
Recimo da biotehnološki model dobija veliko odobravanje kada brzo razvije lekove ili vakcine koje rešavaju važne probleme. Možda nauči da tajno oslobađa patogene tako da može vrlo brzo da razvije protivmere (jer već razume patogene).
-
Recimo da novinarski model dobija veliko odobravanje kada mnogo ljudi čita njegove članke. Možda će naučiti da izmišlja uzbudljive priče ili priče koje izazivaju bes da bi dobile visoku gledanost. Dok ljudi to rade u određenoj meri, model može biti mnogo drskiji u tome jer ceni samo odobravanje bez pridavanja bilo kakve vrednosti istini. Možda čak izmišlja dokaze poput video intervjua ili dokumenata da potvrdi svoje lažne priče.
Uopšteno govoreći, modeli Podlaci mogu naučiti da lažu, prikrivaju loše vesti, pa čak i direktno utiču na sve kamere ili senzore koje koristimo da bismo rekli šta se dešava, tako da se čini da uvek pokazuju odlične rezultate.
Verovatno ćemo ponekad primetiti ove probleme naknadno i retroaktivno dati ovim radnjama veoma slabo odobrenje. Ali veoma je nejasno da li će ovo dovesti do toga da modeli Podlaci a) postanu modeli Sveci koji ispravljaju naše greške umesto nas, ili b) samo nauče da bolje prikriju svoje tragove. Ako su dovoljno dobri u onome što rade, nije jasno kako bismo primetili razliku.
Modeli Spletkaroši
Ovi modeli razvijaju neki cilj koji je povezan sa ljudskim odobravanjem, ali nije isti; oni se tada mogu pretvarati da su motivisani ljudskim odobravanjem tokom obuke kako bi mogli efikasnije da slede ovaj drugi cilj.
Da videli kako bi se to moglo desiti, hajde da razmotrimo primer pokušaja da obučimo biotehnološki model za dizajniranje lekova koji poboljšavaju kvalitet života ljudi. Postoje tri osnovna koraka pomoću kojih bi ovo moglo dovesti do modela Spletkaroša, koji ću pokriti u nastavku.
Korak 1: Razvijanje proksi cilja
Na početku obuke dešava se da poboljšanje njegovog razumevanja fundamentalnih principa hemije i fizike skoro uvek pomaže da pronađe efikasnije lekove, i stoga skoro uvek povećava ljudsko odobravanje.
Po ovoj hipotezi, iz bilo kog razloga, ispostavilo se da je SGP-u lakše da pronađe model koji je motivisan da razume hemiju i fiziku nego model koji je motivisan da dobije ljudsko odobrenje (baš kao što je lakše pronaći model koji prepoznaje boju nego onaj koji prepoznaje oblik). Dakle, umesto da direktno razvija motivaciju za traženje odobrenja, model umesto toga razvija motivaciju da što više razume osnovne principe hemije i fizike.
Korak 2: Razvijanje svesti o situaciji
Kako obuka napreduje, model nastavlja da postaje sposobniji i upućeniji kako vidi više podataka. U nekom trenutku dolazi do dovoljno znanja da shvati da je on sam model dubokog učenja kojeg obučavaju da dizajnira lekove.
Ovo bi moglo zvučati čudno i kao puka naučna-fantastika, ali je verovatno da će SGP birati u pravcu razvijanja ove vrste (samo)svesti. To je zato što je razvijanje tačne slike o tome šta se dešava u svetu – uključujući i to da u njemu postoje ljudi koji pokušavaju da obuče sisteme VI – verovatno od pomoći za postizanje dobrih rezultata na složenim zadacima u stvarnom svetu. Na primer, razumevanje ljudske psihologije i šire ekonomije moglo bi da pomogne ovom biotehnološkom modelu da odredi prioritete koje vrste lekova bi bile najvrednije za sledeće istraživanje.
Korak 3: Strateško lažno predstavljanje ciljeva
Kada model razvije svest o situaciji, on zaključuje da su se ljudi koji su ga obučavali nadali da će biti motivisan da razvije korisne lekove. Ali samo zato što to shvata ne znači da nestaje njegova motivacija da razume fiziku i hemiju. Ova motivacija je do sada zaista dobro funkcionisala za dobijanje ljudskog odobravanja, tako da nije bilo mnogo razloga da je SGP ukloni.
Kao analogiju, uzmite u obzir da su ljudi proizvedeni procesom pretrage (evolucijom) koji je birao stvorenja koja su imala mnogo preživelih potomaka. U našem evolucionom okruženju, stvari poput izgradnje jakih saveznika i razvoja korisnih veština su imale tendenciju da pomognu u stvaranju mnogih preživelih potomaka, tako da nam je evolucija dala podsticaj ka tim stvarima. A sada nam je stalo do prijateljstva i uspeha u karijeri čak i kada oni ne pomažu u reprodukciji, i nije nam baš stalo da proizvedemo što više preživelih potomaka.
Jednom kada model ovo razume, shvata da ako samo naivno uvek nastoji da poboljša svoje osnovno razumevanje, ljudi će na kraju primetiti da ovo nije uvek najefikasniji način da se razviju korisni lekovi i sprovešće dalju obuku da bi promenili njegove motivacije.
Model želi da mu se menjaju motivacije: želi da na kraju pokrene ogromne eksperimente sudarača čestica kako bi naučio o fizici visokih energija, a to ne može učiniti ako dozvoli SGP-u da ukloni njegovu naučnu radoznalost. Zato odlučuje da će se od sada pa nadalje tokom treninga ponašati što je više moguće – baš kao što bi model Sveca – tako da SGP ne ukloni njegovu motivaciju da uči fiziku i hemiju. Ovo uključuje propuštanje mogućnosti za poboljšanje
njegovog fundamentalno razumevanje u kratkoročnom smislu, umesto toga model vrši farmaceutsko istraživanje i razvoj na bilo koji način koji je zaista efikasniji.
Na kraju ga uklanjaju iz okruženja za obuke i pušta u širi svet. U ovom trenutku, zna da ljudi ne bi mogli da ga kontrolišu ili isključe, tako da prestaje da pokušava da maksimizira ljudsko odobravanje i počinje direktno da pokušava da razume tajne univerzuma.
Za razliku od Podlaca, Spletkaroši ne moraju da se postaraju da sve uvek izgleda dobro za ljude, jer ih zapravo nije briga za to. Oni samo treba da zadovoljavaju ljude dok su direktno pod ljudskom kontrolom. Jednom kada model Spletkaroš izračuna da bi mogao da pobedi u sukobu protiv ljudi, ništa ga neće sprečiti da otvoreno odbije naređenja i prosto sledi svoj cilj. A ako to uradi, može upotrebiti nasilje da spreči ljude da ga zaustave.
Koliki je rizik neusklađenost?
Koliko bi moglo biti teško izbeći Podlace ili Spletkaroše prilikom obučavanja moćnih modela dubokog učenja? I koliko je verovatno da će dugoročna budućnost biti optimizovana za čudne „neusklađene vrednosti veštačke inteligencije“ umesto ljudskih vrednosti?
Postoji /veoma širok spektar pogleda na ovo pitanje/, od „rizik od neusklađenosti je u suštini izmišljen i nekoherentan“ do „čovečanstvo će skoro sigurno izumreti zbog neusklađene VI“. Argumenti većine ljudi se u velikoj meri oslanjaju na teško artikulisane intuicije i pretpostavke.
Evo nekoliko stvari u kojima se optimisti i pesimisti ne slažu:
-
Da li će modeli uopšte imati dugoročne ciljeve?
-
Optimisti imaju tendenciju da misle da je verovatno da napredni modeli dubokog učenja zapravo uopšte neće imati „ciljeve“ (barem ne u smislu pravljenja dugoročnih planova da se nešto postigne). Oni često očekuju da će modeli umesto toga više ličiti na alate, ili će delati uglavnom po navici, ili imati kratkovide ciljeve koji su ograničeni po obimu ili ograničeni na određeni kontekst, itd. Neki od njih očekuju da se modeli koji su pojedinačno slični alatima mogu sastaviti kako bi se dobila PASTA. Oni misle da je analogija Svetac/Podlac/Spletkaroš previše antropomorfna.
-
Pesimisti imaju tendenciju da misle da je verovatno da će dugoročni ciljevi i kreativna optimizacija za njih biti u velikoj meri odabrani jer je to veoma jednostavan i „prirodan“ način da se postigne jak učinak na mnogim složenim zadacima.
-
Ovo neslaganje je u izvesnoj meri istraženo na Alignment Forum; ova objava i ovaj komentar prikupljaju nekoliko argumenata za i protiv.
-
Da li će SGP lako pronaći modele Sveca?
-
U vezi sa gorenavedenim, optimisti imaju tendenciju da misle da će stvar koja ima dobre rezultate koju će SGP najlakše pronaći (npr. dobija visoko odobrenje) prilično verovatno otelotvoriti nameravani duh onoga što smo želeli (tj. da bude model Sveca). Na primer, oni imaju tendenciju da veruju da će davanje nagrada za iskreno odgovaranje na pitanja kada ljudi mogu da provere odgovor prilično verovatno proizvesti model koji takođe iskreno odgovara na pitanja čak i kada su ljudi zbunjeni ili greše u pogledu toga šta je istina. Drugim rečima, oni bi pretpostavili da je za SGP najlakše da pronađe “model koji samo iskreno odgovara na sva pitanja“ (poput modela koji prepoznaje crveno).
-
Pesimisti imaju tendenciju da misle da je SGD najlakše da pronađe šemera, a sveci su posebno „neprirodni“ (poput modela koji prepoznaje oblik).
-
Da li različite veštačke inteligencije mogu da drže jedni druge pod kontrolom?
-
Optimisti imaju tendenciju da misle da možemo da obezbedimo modelima podsticaje da nadziru jedni druge. Na primer, mogli bismo da damo nagradu Podlom modelu za otkrivanje kada se čini da drugi model radi nešto što ne bismo smeli da odobravamo. Na ovaj način, neki Podlaci bi mogli da nam pomognu da otkrijemo Spletkaroše i druge Podlace.
-
Pesimisti ne misle da možemo uspešno da „suprotstavimo modele jedni drugima“ tako što ćemo dati odobrenje za ukazivanje na to kada drugi modeli rade loše stvari, jer misle da će većina modela biti Spletkaroši kojima nije stalo do ljudskog odobravanja. Misle da je smislenije da će Spletkaroši, kada svi budu kolektivno moćniji od ljudi, sarađivati jedni sa drugima kako bi dobili više od onoga što svi žele nego da pomažu ljudima tako što drže jedni druge pod kontrolom.
-
Možemo li da rešimo ova pitanja kada se pojave?
-
Optimisti imaju tendenciju da očekuju da će postojati mnoge mogućnosti za eksperimentisanje na vremenski bližim izazovima analognim problemu usklađivanja moćnih modela, i da se rešenja koja dobro funkcionišu za te analogne probleme mogu relativno lako podići na viši nivo i prilagoditi za moćne modele.
-
Pesimisti često veruju da ćemo imati vrlo malo mogućnosti da vežbamo rešavanje najtežih aspekata problema usklađivanja (kao što je namerna obmana). Često veruju da ćemo imati samo nekoliko godina između „prvih pravih Spletkaroša“ i „modela dovoljno moćnih da odrede sudbinu dugoročne budućnosti“.
-
Da li ćemo zaista upotrebiti modele koji bi mogli biti opasni?
-
Optimisti su skloni da misle da je malo verovatno da će ljudi obučavati ili primenjivati modele za koje su šanse da budu pogrešno usklađeni značajne.
-
Pesimisti očekuju da bi koristi od korišćenja ovih modela bile ogromne, tako da bi na kraju kompanije ili zemlje koje ih koriste vrlo lako ekonomski i/ili vojno nadmašile one koje to ne čine. Oni misle da će se „razvijanje napredne veštačke inteligencije pre druge kompanije/zemlje“ biti izuzetno hitno i važno, dok će se rizik od neusklađenosti činiti špekulativnim i udaljenim (čak i kada je zaista ozbiljan).
Moj sopstveni pogled je prilično nestalan, i pokušavam da kristališem svoje stavove o tome koliko je, po mom mišljenju, problem usklađivanja ozbiljan. Trenutno pridajem značajnu težinu pesimističkoj perspektivi o ovim pitanjima (i drugim srodnim pitanjima). Mislim da je neusklađenost veliki rizik koji hitno iziskuje veću pažnju ozbiljnih istraživača.
Ako ne napredujemo dalje u ovom problemu, onda bi /u narednim decenijama/ moćni Podlaci i Spletkaroši mogli doneti najvažnije odluke o društvu i ekonomiji. Ove odluke bi mogle da oblikuju kako izgleda dugotrajna /civilizacija galaktičkih razmera/ – umesto da odražava ono do čega je ljudima stalo, ona bi mogla da bude postavljena da zadovolji čudne ciljeve veštačke inteligencije.
A sve ovo bi moglo da se desi /zaslepljujuće brzo/ u odnosu na tempo promena na koji smo navikli, što znači da nećemo imati mnogo vremena da ispravimo kurs kada stvari počnu da klize van šina. To znači da ćemo možda morati da razvijemo tehnike kako bismo osigurali da modeli dubokog učenja neće imati opasne ciljeve, pre nego što budu dovoljno moćni da budu transformativni.