Categories
Blog

Osnove bezbednosti VI

Ključne tačke

Kurikulum usklađivanja osnova bezbednosti opšte veštačke inteligencije (VI) pruža visok stepen razumevanja kako problema usklađivanja veštačke inteligencije tako i nekih od ključnih istraživačkih pravaca koji imaju za cilj da taj problem reše. Može se čitati samostalno ili kao deo kursa zasnovanog na diskusiji. Sledeća grupa kursa počinje u Februaru 2023. godine; možete se prijaviti ovde (rok 5. januar 2023.). Ako čitate samostalno, možete se prijaviti ovde da se pridružite našoj zajednici.

Kurikulum je sastavio Ričard Ngo koji ga i održava. Ovaj dokument je glavna kopija; sve promene će kasnije biti kopirane na veb stranicu kursa. Najnovija velika modifikacija: početkom Decembra, struktura kursa je značajno promenjena.

Kurikulum je osmišljen tako da bude dostupan ljudima iz širokog spektra oblasti; oni koji su već upoznati sa nekim štivom mogu izabrati zamenske tekstove iz odeljka “dodatni materijal” za tu nedelju. Kurikulum nema za cilj da podučava programiranje u praktičnom smislu niti veštine mašinskog učenja; oni koji prvenstveno žele da unaprede veštine za rad na usklađivanju treba umesto toga da pohađaju kurseve navedene u odeljku “saznajte više” ispod.

Detalji kursa

Kurs se sastoji od opcione uvodne nedelje, 7 nedelja osnovnih materijala i završnog projekta. Učesnici su podeljeni u grupe od 4-6 ljudi, koji se podudaraju na osnovu njihovog prethodnog znanja o mašinskom učenju i usklađivanju. (Nije potrebno predznanje o mašinskom učenju, ali se od učesnika očekuje izvesno poznvanje osnovne statistike i matematičkog zapisa.) Svake nedelje (osim nedelje 0) svaka grupa i njihov moderator diskusije će se sastajati na po sat i po vremena da razgovaraju o materijalima i vežbama. Uopšteno govoreći, prva polovina kursa istražuje motive i argumente koji podupiru polje usklađivanja opšte veštačke inteligencije, dok se druga polovina fokusira na predložena rešenja. Posle 7. nedelje, učesnici će imati nekoliko nedelja da rade na projektima po svom izboru, kako bi ih predstavili na završnoj sesiji.

Glavni fokus svake nedelje biće na osnovnim materijalima i jednoj vežbi po vašem izboru od navedenih vežbi, za šta bi trebalo da odvojite oko 2 sata vremena za pripremu. Većina ljudi smatra da su neki koncepti iz materijala zbunjujući, ali to je sasvim u redu – rešavanje tih nejasnoća je ono čemu služe grupe za diskusiju. Približno vreme potrebno za detaljno čitanje svakog dela navedeno je pored njih. Imajte na umu da je u nekim slučajevima dodeljen samo mali deo okačenih materijala. U nekoliko slučajeva, članci na blogu o radovima za mašinsko učenje su navedeni umesto samih radova; od vas se očekuje samo da čitate članke na blogu, ali za one sa jakim iskustvom u MU (mašinskom učenju) čitanje izvornih članaka bi moglo biti vredno truda.

Ako ste već pročitali neke od osnovnih materijala ili želite da saznate više o ovoj temi, preporučuju se dodatni materijali. Međutim, nijedno od njih nije obavezno. Takođe, ne morate unapred da razmišljate o temama za diskusiju – one služe samo kao polazna tačka tokom sesije diskusije.

Nacrt nastavnog plana i programa

Kompletan nastavni plan i program 2

Nedelja 0 (opciono): Uvod u mašinsko učenje 2

1. nedelja: Veštačka opšta inteligencija 4

2. nedelja: Pogrešne specifikacije nagrađivanja i modeli osnova 6

3. nedelja: Pogrešna generalizacija cilja i instrumentalna konvergencija 8

4. nedelja: Inverzno učenje sa pojačanjem i ponavljano pojačavanje 11

5. nedelja: Debata i neograničena suparnička obuka 13

6. nedelja: Tumačenje 15

7. nedelja: Osnove agenata, upravljanje veštačkom inteligencijom i karijere u skladu 17

8. nedelja (četiri nedelje kasnije): Projekti 20

Saznajte više 22

Pun kurikulum

Nedelja 0 (opciono): Uvod u mašinsko učenje

Ova nedelja se fokusira na temeljne koncepte u mašinskom učenju, za one koji su manje upoznati sa njima ili koji žele da se vrate na osnove. Ako želite da više naučite o MU, pogledajte odeljak “Saznajte više” na kraju ovog nastavnog kurikuluma. Za one sa malo predznanja o MU, ovonedeljni osnovni materijali će trajati otprilike 45 minuta duže nego u drugim nedeljama; takođe, vežbe su mnogo obimnije nego u drugim nedeljama. Preporučuje se da im posvetite vreme i prođete ih sve, kako biste obezbedili čvrstu osnovu za ostatak kursa.

Nakon prvog članka, koji daje pregled oblasti veštačke inteligencije  i mašinskog učenja na visokom nivou, narednih šest materijala prolaze kroz šest osnovnih koncepata. Prva tri materijala se odnose na tri ključne tehnike koje stoje iza dubokog učenja (vodeći pristup mašinskom učenju): neuronske mreže, gradijentni pad i bekpropagacija. Sledeća tri se odnose na tri tipa zadataka za koje se koristi mašinsko učenje: učenje pod nadzorom, samo-nadgledano učenje i učenje motivisano nagradama (prim. prev. Engleski izraz reinforcement learning se nekad prevodi “učenje potkrepljivanjem”).

Osnovni materijali:

  1. Kratak uvod u mašinsko učenje (Ngo, 2021) (20 minuta)
    1. Ngo pruža okvir visokog nivoa za razumevanje kako su različite teme u oblasti VI povezane jedna sa drugom.
  2. Ali šta je neuronska mreža? (3Blue1Brown, 2017a) (20 minuta)
    1. Ovaj video, kao i sledeća dva videa pružaju više detalja i intuicija o neuronskim mrežama i algoritmima optimizacije koji se koriste za njihovo obučavanje.
  3. Gradijentni pad, kako neuronske mreže uče (3Blue1Brovn, 2017b) (20 minuta)
    1. Vidi gore.
  4. Šta zapravo radi bekpropagacija? (3Blue1Brovn, 2017c) (15 minuta)
    1. Vidi gore.
  5. Mašinsko učenje za ljude, deo 2.1: Učenje pod nadzorom (Maini i Sabri, 2017) (15 minuta)
    1. Ovaj pristupačni članak objašnjava učenje pod nadzorom, što je osnovni zadatak za koji se obično koriste tehnike MU.
  6. Šta je samonadgledano učenje? (CodeBasics, 2021) (5 minuta)
    1. Ovaj video pokriva sledeći najistaknutiji zadatak MU: učenje pod nadzorom.
  7. Uvod u učenje sa nagradama (fon Haselt, 2021) (od 2:00 do 1:02:10, završava se na početku odeljka pod nazivom Unutar agenta: modeli) (60 minuta)
    1. Ovaj video predstavlja treći glavni tip zadatka u mašinskom učenju: učenje sa nagradama, koje se koristi za obuku mreža da igraju širok spektar igara na nivou daleko iznad ljudskog.

Dodatni materijali:

O osnovama neuronskih mreža:

1. Detaljni uvod u neuronske mreže i bekpropagaciju: izgradnja mikrograda (Karpathi, 2022) (150 min)

Predavanje koje predstavlja najosnovnije koncepte dubokog učenja na veoma sveobuhvatan način, od vodećeg stručnjaka.

2. Transformatori od nule (Rohrer, 2021)

3. Mašinsko učenje za ljude (Maini i Sabri, 2017)

Maini i Sabri pružaju dug, ali pristupačan uvod u mašinsko učenje.

4. Rečnik mašinskog učenja (Google, 2017)

Ubuduće konsultujte ovaj rečnik za objašnjenja nepoznatih termina.

O učenju sa nagradama:

5. pokretanje dubokog učenja sa nagradama: deo 1 i deo 2 (OpenAI, 2018) (40 minuta)

Ovaj tekst pruža više tehnički uvod u učenje sa nagradama (za više, pogledajte i poslednjih pola sata fon Haselt-a (2021)).

6. (Temeljno) zavirivanje u učenje sa nagradama (Veng, 2018) (35 minuta)

Veng pruža sažet, ali detaljan uvod u učenje sa pojačanjem.

vežbe:

1. Koje su glavne sličnosti i razlike između procesa uklapanja linearne regresije sa nekim podacima i procesa obuke neuronske mreže na istim podacima?

2. Objasnite zašto je „nelinearnost“ u veštačkom neuronu (npr. sigmoidna ili RELU funkcija) toliko važna. Šta bi se dogodilo kada bismo uklonili sve nelinearnosti u dubokoj neuronskoj mreži? (Savet: pokušajte da napišete eksplicitne jednačine za neuronsku mrežu sa samo jednim skrivenim slojem između ulaznog i izlaznog sloja i vidite šta se dešava ako uklonite nelinearnost.)

3. Praktične vežbe

Odgovori za sve vežbe

1. nedelja: opšta veštačka inteligencija

Opšta veštačka inteligencija (eng. AGI) je ključni koncept ovog kursa, tako da je važno da počnete tako što ćete istražiti šta pod njom podrazumevamo i razloge za mišljenje da se oblast mašinskog učenja kreće ka njoj. Prva dva materijala ove nedelje daju okvire visokog nivoa o tome kako razmišljati o opštoj veštačkoj inteligenciji i njenim posledicama. Sledeća dva istražuju trenutne mogućnosti najsavremenijih neuronskih mreža. Poslednja tri materijala se fokusiraju na to kako bi se ove sposobnosti mogle razviti tokom vremena.

Osnovni materijali:

1. Četiri osnovne tvrdnje (Soares, 2015) (15 minuta) (imajte na umu da su tvrdnje #3 i #4 detaljnije pokrivene u naredne dve nedelje)

Soares iznosi četiri ključne tvrdnje o tome kako i zašto VI može postati moćna i opasna, što ćemo detaljnije istražiti u narednim nedeljama.

2. Bezbednost opšte veštačke inteligencije počev od prvih principa (Ngo, 2020) (samo odeljci 1 i 2.1) (10 minuta)

Ngo opisuje razliku između specifičnih i opštih sistema veštačke inteligencije i razloge za očekivanje da se ovi drugi razviju.

3. Vizuelizacija revolucije dubokog učenja (Ngo, 2022) (20 minuta)

Ovaj rad demonstrira kako su se sposobnosti najsavremenijih sistema MU razvile tokom poslednje decenije.

4. Kreiranje svemirske igre pomoću OpenAI Codex-a (OpenAI, 2021) (10 minuta)

Ovaj video prikazuje jedan od najupečatljivijih jezičkih modela do sada: verziju GPT-3 sposobnu da piše programski kod na osnovu jezičkih uputstava.

5. Budući sistemi MU će biti kvalitativno drugačiji (Steinhardt, 2022) (5 minuta)

Steinhardt tvrdi da nova ponašanja imaju tendenciju da se pojavljuju nepredvidivo u većim razmerama u mašinskom učenju i drugim naukama.

6. Biološke reference: trik koji bi mogao ali možda i neće raditi (Aleksander, 2022) (samo prvi deo, koji se završava na „Koliko je ovo osetljivo na promene u pretpostavkama“) (20 minuta)

Aleksander (2022) rezimira izveštaj koji pokušava da izračuna količinu računarskih operacija koja je potrebna za obuku veštačke inteligencije nivoa čoveka. Izveštaj zaključuje da je to moguće u narednim decenijama. Imajte na umu da je ova prognoza prilično konzistentna sa nalazima anketa vodećih istraživača MU navedenim u narednim materijalima.

7. Eksplozija inteligencije: dokazi i značaj (Muelhauzer i Salamon, 2012) (samo strane 10-15) (15 minuta)

Muelhauzer i Salamon opisuju mogući ishod izgradnje sistema koji su sposobniji od nas: taj u kojem oni brzo sprovode istraživanja kako bi se poboljšali.

Dodatni materijali:

Uspesi dubokog učenja:

1. Zbirka rezultata GPT-3 (Sotala, 2020)

Sotala prikuplja mnoge primere sofisticiranog ponašanja GPT-3 modela.

2. CICERO: agent-VI koji pregovara, ubeđuje i sarađuje sa ljudima (Bahtin et al., 2022)

Bahtin i drugi dostižu igru na nivou čoveka u složenoj igri “Diplomatija”.

3. AlphaStar: savladavanje strateške igre u realnom vremenu StarCraft II (Vinjals et al., 2019) (20 minuta)

Ovaj i sledeći tekst pokrivaju impresivne agente DeepMind-a za učenje sa nagradama. Vinjals i drugi objašnjavaju kako je DeepMind obučio agenta za duboko učenje sa nagradama, AlphaStar, da igra StarCraft na veoma visokom nivou.

4. Generalno sposobni agenti proizlaze iz otvorene igre (DeepMind, 2021) (25 minuta)

DeepMind prikazuje agente koji mogu da igraju širok spektar igara za više igrača, uključujući i one sa kojima se nije susreo tokom treninga.

OVI (opšta veštačka inteligencija:

  1. Tri uticaja mašinske inteligencije (Kristijano, 2014) (15 minuta)

Kristiano iznosi perspektivu o tome kako bi budućnost veštačke inteligencije mogla uticati na društvo u celini.

  1. VI: trka ka ivici (Haris i Judkovski, 2018) (110 minuta) (audio ovde)

Transkript razgovora Sema Harisa i Eliezera Judkovskog iz podkasta. Verovatno najbolji samostalni resurs za uvođenje u problem rizika opšte veštačke inteligencije; pokriva mnoge teme iz ove i naredne dve nedelje.

  1. Najvažniji vek (Karnofski, 2021)

U ovom serijalu postova na blogu, Karnofski objašnjava zašto nije neverovatno da u ovom veku vidimo transformativne promene vođene napretkom u veštačkoj inteligenciji.

  1. Opšta inteligencija (Judkovski, 2017) i Moć inteligencije (Judkovski, 2007) (35 minuta)

Judkovski daje objašnjenje koncepta opšte inteligencije i njenog značaja na visokom nivou.

  1. Razumevanje ljudske inteligencije kroz ljudska ograničenja (Griffiths, 2020) (40 minuta)

Griffiths pruža okvir za razmišljanje o načinima na koje se mašinska inteligencija može razlikovati od ljudske inteligencije.

Skaliranje i predviđanje VI:

  1. Gorka lekcija (Saton, 2019) (5 minuta)

Pionir VI Rič Saton prepričava “gorku lekciju“ iz poslednjih 7 decenija istraživanja veštačke inteligencije: da su “opšte metode koje koriste računanje na kraju najefikasnije“. U poređenju sa ranijim pristupima, ove metode se mnogo manje oslanjaju na ljudski dizajn i stoga povećavaju mogućnost da gradimo opštu veštačku inteligenciju o čijoj samospoznaji znamo vrlo malo.

  1. AI i računarstvo: koliko dugo računarska snaga može da pokreće AI da napreduje? (Lohn i Musser, 2022) (30 minuta)

Ovaj i sledeća dva teksta se fokusiraju na predviđanje napretka u veštačkoj inteligenciji kroz sagledavanje trendova u računarstvu i algoritmima, kao i ispitivanje mišljenja stručnjaka.

  1. VI i efikasnost (Ernandez i Braun, 2020) (15 minuta)

Vidi gore.

  1. Stručna anketa iz 2022. o napretku u polju veštačke inteligencije (Štajn-Perlman, Vajnstin-Raum i Gejs, 2022.) (15 minuta)

Vidi gore.

  1. Predviđanje VI: Jedna godina (Štajnhart, 2022) (10 minuta)

Uobičajena tvrdnja je da su u poslednjoj deceniji istraživači MU (i javnost uopšte) dosledno potcenjivali koliko brzo će VI napredovati. Ovaj članak na blogu je nedavna empirijska demonstracija ovoga: napredak veštačke inteligencije išao je mnogo brže u 2021. nego što su očekivali učesnici ovog malog takmičenja za predviđanje.

  1. Veliki jezički modeli mogu se samopoboljšati (Huang et al., 2022)
    1. Huang i drugi pružaju ranu empirijsku demonstraciju Sposobnosti VI da se sama poboljšava.

Napomene:

  1. Umesto opšte veštačke inteligencije, neki ljudi koriste termine “VI na nivou čoveka“ ili “snažna VI“. “Superinteligencija“ se odnosi na opštu veštačku inteligenciju koja je daleko iznad inteligencije na ljudskom nivou. Suprotnost opštoj VI naziva se uska VI. Neki materijali se umesto toga fokusiraju na koncept transformativne VI, definisane kao VI čiji su efekti veliki kao oni industrijske revolucije, ili čak i veći. U teoriji, ovo bi se moglo postići korišćenjem uske veštačke inteligencije, ali u praksi se čini da je verovatno otprilike ekvivalentno opštoj veštačkoj inteligenciji.

2. nedelja: Pogrešna određivanje nagrade i temeljni modeli

Ova nedelja se fokusira na pogrešno određivanje nagrade: mogućnost da bismo mogli da dodelimo visoke nagrade nepoželjnom ponašanju. Ponašanje koje zloupotrebljava pogrešno određene nagrade za dobijanje visoke nagrade poznato je kao hakovanje nagrada. Počinjemo tako što ćemo pogledati neke pojednostavljene primere, kako kada su nagrade čvrsto kodirane, tako i kada su zasnovane na povratnim informacijama ljudi. Zatim se fokusiramo na tehnike koje se koriste za obuku današnjih najsposobnijih modela (poznatih kao temeljni modeli), načine na koje oni trenutno hakuju nagrade i kako slične tehnike mogu izazvati ozbiljne neuspehe kako veštačka inteligencija postaje sve moćnija.

Osnovna očitavanja:

  1. Izigravanje specifikacije: druga strana genijalnosti veštačke inteligencije (Krakovna et al., 2020) (15 minuta)
    1. Krakovna i drugi prikazuju primere agenata koji zloupotrebljavaju pogrešne specifikacije obuke u jednostavnim okruženjima. Imajte na umu da je “zloupotreba specifikacija“ krovni termin koji uključuje hakovanje nagrada, kao i slično ponašanje agenata koji se ne obučavaju na principu nagrade.
  2. Duboko učenje sa nagradama prema ljudskim preferencijama: članak na blogu (Kristijano et al., 2017) (5 minuta)
    1. Christiano i drugi pružaju jednostavne demonstracije kako učenje sa nagradama iz povratnih informacija od ljudi (eng. RLHF – Reinforcement Learning from Human Feedback) može obučiti agente da obavljaju zadatke koje je teško specificirati korišćenjem čvrsto kodiranih funkcija nagrađivanja; ali i kako to može dovesti do pogrešnog određivanja nagrada.
  3. O mogućnostima i rizicima temeljnih modela (Bommasani et al., 2022) (samo strane 3-6) (10 minuta)
    1. Bomasani i drugi daju pregled na visokom nivou o tome šta su temeljni modeli, kako su obučeni i kako se uklapaju u šire polje MU.
  4. Učenje sumiranja pomoću povratnih informacija ljudi: članak na blogu (Stienon et al., 2020) (15 minuta)
    1. Stienon i drugi demonstriraju upotrebu učenje motivisano nagradama i ljudskim povratnim informacijama (eng. RLHF) za fino podešavanje temeljnog jezičkog modela, a takođe istražuju kako prevelika optimizacija rezultujućeg modela nagrađivanja može dovesti do lošeg ponašanja.
  5. Problem usklađivanja iz perspektive dubokog učenja (Ngo, Čan i Minderman, 2022) (samo odeljak 2: Obmanjivačko hakovanje nagrada) (5 minuta)
    1. Ovaj tekst tvrdi da će otkrivanje hakovanja nagrađivanja postati mnogo teže kada VI steknu situacionu svest: veštinu primene apstraktnog znanja u specifičnom kontekstu u kojem su pokrenute.
  6. Kako izgleda neuspeh (Kristijano, 2019) (samo 1. deo) (5 minuta)
    1. Kristijano pruža slikovit scenario toga kako pogrešno određivanje nagrade može dovesti do katastrofalnih ishoda.
  7. Zakoni Neuralnog skaliranja i GPT-3 (Kaplan, 2020) (samo do 30:30) (30 min)
    1. Kaplan ulazi u više detalja o temeljnim modelima i navodi zakone skaliranja koji sugerišu da će povratne informacije za racunanje tokom treninga i dalje biti obimne.

Dodatni materijali:

Obuka i fino podešavanje temeljnih modela:

  1. Skaliranje jezičkih modela: metode, analiza i uvidi iz obuke Gopher-a (Rae et al., 2021) (samo odeljci 1 i 2) (10 minuta)
  2. Usklađivanje jezičkih modela da prate uputstva: članak na blogu (Ouiang et al, 2022) (10 minuta)
  3. ChatGPT: Optimizacija jezičkih modela za dijalog (OpenAI, 2022) (5 minuta)
  4. Opšti jezički model-asistent kao laboratorija za usklađivanje (Askell et al., 2021) (odeljci 1 i 2) (40 minuta)
    1. Askel i drugi se fokusiraju na drugi način učenja od ljudi: taj u kome ljudi dizajniraju upite koji podstiču usklađeno ponašanje, a zatim fino podešavaju te upite (preko metode koju nazivaju “destilacijom konteksta”).
  5. Konstitutivna VI: bezazlenost povratnih informacija od veštačke inteligencije (Bai et al., 2022)
  6. Obučavanje jezičkih modela povratnim informacijama o jeziku (Scheurer et al., 2022)
  7. Učenje sa nagradama sa KL penalima se najbolje vidi kao Bajesova inferenca (Korbak i Perez, 2022)

Pogrešno određivanje nagrade:

  1. Napredni veštački agenti intervenišu u obezbeđivanju nagrade (Koen et al., 2022) (45 minuta)
  2. Efekti pogrešnog određivanja nagrade: mapiranje i ublažavanje neusklađenih modela (Pan, Batija i Štajnhart, 2022)
  3. Definisanje i karakterizacija hakovanja nagrada (Skalse et al., 2022)
  4. Kategorizovanje varijanti Gudhartovog zakona (Manhajm i Garabrant, 2018) (pogledajte i stranicu Gudhartov zakon na Vikipediji )
  5. Posledice neusklađene VI (Žang i Hadfild-Menel, 2021)
  6. Skaliranje zakona za preoptimizaciju modela nagrađivanja (Gao, Šulman i Hilton, 2022)

O modelima pretnji:

  1. Još jedna priča o neuspehu spoljašnjeg usklađivanja (Kristijano, 2021) (20 minuta)
    1. Ovaj i sledeći tekst daju dalje scenarije pretnji koji su takođe motivisani mogućnošću ozbiljnog neuspeha spoljnog usklađivanja i koordinacije.
  2. Kako izgleda multipolarni neuspeh (Krič, 2021) (30 minuta)
    1. Vidi gore.
  3. Pojašnjavanje “Kako izgleda neuspeh“ (Klark, 2020) (20 minuta)

3. nedelja: Pogrešna generalizacija cilja i instrumentalna konvergencija

Čak i bez pogrešnog određivanja nagrade, dodeljivanje nagrada tokom obuke neće nam nužno omogućiti da kontrolišemo kako agenti generalizuju u novim situacijama. Ove nedelje bavimo se mogućnošču da ti agenti generalizuju tako da se ponašaju na kompetentan, ali nepoželjan način, zbog usvajanja pogrešnih ciljeva tokom treninga: problem pogrešne generalizacije ciljeva .

Prva dva materijala definišu i karakterišu pogrešnu generalizaciju ciljeva (poznato i kao unutrašnja neusklađenost). Imajte na umu da su pogrešna generalizacija cilja i unutrašnja neusklađenost približno ekvivalentni koncepti, iako su definisani na malo različite načine. Prvi je definisan u smislu ponašanja u novim situacijama; a drugi je definisan u smislu reprezentacija naučenih tokom obuke.

Sledeća dva materijala istražuju konkretne hipoteze o tome kako će se ponašati agenti koji su usvojili pogrešne ciljeve: hakovaće zarad dobijanja visoke nagrade i tražiće moć u većem obimu. Zatim završavamo sa dva teksta o tome kako ove vrste ponašanja mogu dovesti do katastrofe.

Osnovni materijali:

  1. Pogrešna generalizacija cilja: zašto tačne odrednice nisu dovoljne za ispravne ciljeve (Šah et al., 2022) (samo odeljci 1-4) (30 minuta)
    1. Šah i drugi tvrde da čak i agent obučen na “pravilnoj“ funkciji nagrađivanja može naučiti ciljeve koji se generalizuju na nepoželjne načine i daju kako konkretne tako i hipotetičke ilustracije te pojave.
  2. Rad o unutrašnjoj neusklađeenosti: iako Šah i drugi definišu pogrešnu generalizaciju ciljeva u smislu nepoželjnog ponašanja, tekstovi u nastavku pristupaju istoj ideji na drugačiji način: rasuđivanjem o ciljevima u smislu internih reprezentacija agenata.
    1. Za one sa značajnim predznanjem u oblasti MU:
      1. Problem usklađivanja iz perspektive dubokog učenja (Ngo, Čan i Minderman, 2022) (samo odeljci 3 i 4) (20 minuta)
    2. Za one sa manje predznanja u oblasti MU:
      1. Drugi problem usklađivanja: mesa-optimizatori i unutrašnje usklađivanje (Majls, 2021) (počev od 2:49) (20 min)
  3. Tekst o varljivom usklađivanju: varljivo usklađivanje je ideja da bi agenti sa neusklađenim ciljevima delovali na način koji dobija visoku nagradu ako misle da bi to bilo važno za njihove ciljeve. Ova tema je dotaknuta u materijalima o unutrašnjoj neusklađenosti; ovi tekstovi dalje istražuju taj koncept.
    1. Za one sa značajnim predznanjem u oblasti MU:
      1. Misaoni eksperimenti obezbeđuju treću referencu i Sistemi MU će otkazivati na čudne načine (Štajnhart, 2022) (20 minuta)
    2. Za one sa manje predznanja u oblasti MU:
      1. Zašto bi usklađivanje moglo biti teško sa modernim dubokim učenjem (Kotra, 2021) (20 minuta)
  4. Instrumentalna konvergencija – lektira: instrumentalna konvergencija je ideja da većina mogućih ciljeva podstiče praćenje podciljeva kao što su opstanak i zgrtanje resursa. (Kao što je Rasel rekao: ne možete doneti kafu ako ste mrtvi.) Bostrom (2014) daje ranu, neformalnu prezentaciju ideje, dok Tarner i drugi (2022) to formalizuju.
    1. Za one sa značajnim predznanjem u oblasti MU:
      1. Optimalna pravila imaju tendenciju vode akumulaciji moći: NeurIPS prezentacija (Tarner et al., 2022) (15 minuta)
    2. Za one sa manje predznanja u oblasti MU:
      1. Odlomak iz Superinteligence: Instrumentalna konvergencija (Bostrom, 2014) (15 minuta)
        1. Imajte na umu da je “teza o ortogonalnosti“ koja se spominje na početku ovog teksta samo tvrdnja da opšte VI mogu imati širok spektar ciljeva — tj. ne moraju nužno da postaju moralnije kako postaju inteligentniji.
  5. Kako izgleda neuspeh (Kristijano, 2019) (samo 2. deo) (10 minuta)
    1. Kristijano opisuje scenario u kome neuspesi unutrašnjeg usklađivanja mogu dovesti do katastrofe.

Dodatni materijali:

Pogrešna generalizacija cilja/unutrašnje usklađivanje:

  1. Istraživanje planiranja bez modela (Guez et al., 2019) (samo sažetak i uvod) (5 minuta)
    1. Guez i drugi pronašli su dokaze da neki postojeći modeli već nauče da planiraju prema ciljevima, čak iako ta sposobnost nije ugrađena u njihovu arhitekturu.
  2. Generalizacija ciljeva u dubokom učenju sa nagradama (Langosko et al., 2022) (završava se posle odeljka 3.3) (25 minuta)
    1. Ovaj rad je sličan radu Šaha i drugih (2022) o pogrešnoj generalizaciji ciljeva, ali koristi malo drugačiju definiciju i različite primere.
  3. Šta je unutrašnja neusklađenost? (Lajke, 2022) (10 minuta)
    1. Lajke pruža još jedan okvir unutrašnjeg problema neusklađenosti, formulisan u terminima meta učenja sa nagradama.
  4. Rizici naučene optimizacije (Hubinger et al., 2019) (samo delovi 1, 3 i 4) (80 minuta)
    1. Hubinger i drugi pružaju originalnu prezentaciju problema unutrašnjeg poravnanja.
  5. Napredni veštački agenti intervenišu u obezbeđivanju nagrade (Koen et al., 2022) (45 minuta)
    1. Ovaj tekst se bavi problemom manipulisanja nagrađivanja, koji može biti uzrokovan vrstom pogrešne generalizacije cilja gde je naučeni cilj povezan sa fizičkom implementacijom korišćene funkcije nagrađivanja (a ne sa sadržajem funkcije nagrađivanja).

Modeli pretnji:

  1. Judkovski protiv Kristijano o brzinama razvoja VI (2022) (40 minuta)
    1. Ovaj tekst pruža pregled dugotrajne debate o tome koliko će napredak veštačke inteligencije biti nagao ili postepen, što je ključno neslaganje koje informiše različite perspektive o tome koji su modeli pretnji najverovatniji.
  2. Prototipna katastrofalna akcija VI je ona u kojoj dobija rut akses svom centru podataka (Šlegeris, 2022) (5 minuta)
    1. Šlegeris opisuje model pretnje u kome je kontrola centara podataka na kojima se obučavaju VI od centralnog značaja.
  3. Da li je veštačka inteligencija koja traži moć egzistencijalni rizik? (Karlsmit, 2021) (samo odeljci 2: Vremenski okvir i 3: Podsticaji) (25 minuta)
    1. Ovaj i sledeći tekst pokušavaju da iznesu potpuniji argument za verodostojnost rizika opšte VI.
  4. Bez specifičnih protivmera, najlakši put do transformativne VI verovatno vodi do VI koja preuzima vlast (Kotra, 2022)
    1. Vidi gore.
  5. Opšta VI propast: lista smrtonosnih problema (Judkovski, 2022) (samo sekcije A i B) (35 minuta)
    1. Judkovski je jedan od najpesimističnijih istraživača usklađivanja; ovaj tekst objašnjava zašto (pogledajte Kristijanov tekst koji sledi za kontraargumente).
  6. Gde se slažem, a gde ne sa Eliezerom (Kristijano, 2022) (samo odeljci o Slaganjima i Neslaganjima) (25 minuta)
    1. Vidi gore.
  7. Modeliranje ljudske putanje (Rudman, 2020) (35 minuta)
    1. Rudman tvrdi da istorijski svetski ekonomski rast najbolje odgovara zakonu stepenovanja, koji ako se ekstrapolira unapred predviđa da će se stope rasta dramatično povećati u roku od nekoliko decenija. Važnost ovog dela u kontekstu usklađivanja zavisi manje od pouzdanosti ove specifične ekstrapolacije unapred, a više od ideje da istorijski zapisi nemaju jaku težinu u odnosu na mogućnost veoma brzog rasta u narednim decenijama.

Napomene:

  1. Osnovna ideja koja stoji iza problema pogrešne generalizacije cilja je da u obuci putem učenja sa nagradama, iako se funkcija nagrađivanja koristi za ažuriranje ponašanja pravila na osnovu toga koliko dobro obavlja zadatke tokom obuke, pravilo se ne upućuje na funkciju nagrađivanja dok izvršava bilo koji datu zadatak (npr. igranje pojedinačne partije igre Starcraft). Dakle, motivacije koje pokreću ponašanje pravila prilikom obavljanja zadataka ne moraju tačno da odgovaraju funkciji nagrađivanja za koju je obučena. Najbolji misaoni eksperimenti koji pomažu da se ovo razume su slučajevi u kojima je funkcija nagrađivanja u snažnoj korelaciji sa nekim posrednim ciljem (kao što je sticanje resursa ili preživljavanje) tokom treninga, ali se zatim odstupa od njega u novim situacijama; ovo je analogno tome kako su ljudi evoluirali da se direktno brinu o nekim bivšim markerima za genetsku pogodnost koji više nisu u čvrstoj korelaciji sa njom (poput jedenja šećera ili seksa).
  2. Ortega et al. (2018) nam pružaju još jedan način da posmatramo razliku između unutrašnjeg i spoljašnjeg usklađivanja: problem spoljašnjeg usklađivanja uključuje izradu specifikacije dizajna koja odgovara idealnoj specifikaciji; a problem unutrašnjeg usklađivanja uključuje izradu otkrivene specifikacije koja odgovara specifikaciji dizajna. Razlika je sažeta u dijagramu ispod.

SLIKA

4. nedelja: Inverzno učenje sa nagradama i ponavljano pojačavanje

Ova nedelja se fokusira na dve tehnike za sprečavanje pogrešnog određivanja nagrade: inverzno učenje sa nagradama (eng. IRL) i ponavljano pojačavanje.

Prva dva teksta daju kratak uvod u inverzno učenje sa nagradama. Imajte na umu da ga uključujemo u kurikulum prvenstveno radi kompletnosti, a ne zato što se direktno bavi problemima usklađivanja o kojima se do sada raspravljalo. Konkretno, osim ako pretpostavimo da je ljudsko ponašanje skoro optimalno, inverzno učenje sa nagradama se susreće sa istim suštinskim problemom kao i učenje sa nagradama iz povratnih informacija od ljudi (eng. RLHF): teškoća u razlikovanju između ljudi koji izražavaju svoje preferencije i ljudi koji prave greške. Ovo je pokriveno u Kristijano (2015), kao i u prvom sledećem tekstu o inverznom učenju sa nagradama.

Treći tekst daje pregled na visokom nivou strategija za postizanje dobrog učinka veštačke inteligencije, dotičući se ukratko i inverznog učenja sa nagradama i pojačanja, strategije o kojoj se govori u preostalim materijalima.

Poslednja tri teksta se fokusiraju na strategiju obučavanja agenata da dobro obavljaju složene zadatke tako što će ih razložiti na manje zadatke koji se mogu lakše oceniti, a zatim kombinuju ta rešenja kako bi proizveli odgovor na ceo zadatak. Kada se ponavlja za obuku sve snažnijih agenata, ova tehnika je poznata kao iterirano pojačanje.

Osnovni materijali:

  1. Za one koji nisu upoznati sa inverznim učenjem sa nagradama:
    1. Primer inverznog učenja sa nagradama (Udacity, 2016) (5 minuta)

–   Ovaj video daje kratko intuitivno objašnjenje kako funkcioniše inverzno učenje sa nagradama.

  1. Učenje od ljudi: šta je inverzno učenje sa nagradama? (Aleksandar, 2018) (završava se na početku odeljka o Učenju Šegrtovanjem (eng. apprenticeship learning)) (10 minuta)

–   Ovaj članak detaljnije opisuje inverzno učenje sa nagradama.

  1. Za one koji su upoznati sa inverznim učenjem sa nagradama:
    1. Problem lakog zaključivanja cilja je i dalje težak (Kristijano, 2015) (10 minuta)

–   Kristiano tvrdi da se inverzno učenje sa nagradama suočava sa suštinskim problemom nesposobnosti da razlikuje greške od vrednosti.

  1. Pejzaž usklađivanja VI (Kristijano, 2020) (samo glavni razgovor, ne i pitanja i odgovori) (30 minuta)
    1. Kristijano daje širok pregled pejzaža različitih načina da se veštačka inteligencija dobro odvija, sa posebnim fokusom na istraživanje dekompozicije zadataka.
  2. Rezimiranje knjiga sa ljudskim povratnim informacijama: članak na blogu (Vu et al., 2021) (5 minuta)
    1. Vu i drugi daju primer rekurzivne dekompozicije zadatka, koji se može posmatrati kao poseban slučaj protokola iteriranog pojačavanja opisanog u sledećem tekstu.
  3. Nadgledanje jakih učenika pojačavanjem slabih stručnjaka (Kristijano et al., 2018) (35 minuta)
    1. Kristijano opisuje iterirani algoritam za pojačavanje i demonstrira ga koristeći neke pojednostavljene eksperimente.
  4. Podsticanje od najmanje do najviše omogućava složeno rezonovanje u velikim jezičkim modelima (Žou et al., 2022) (samo do kraja odeljka 3.1) (15 minuta)
    1. Žou i drugi prikazuju jedan od najsofisticiranijih postojećih primera automatske dekompozicije zadataka.

Dodatni materijali:

Pejzaž istraživanja usklađivanja:

  1. Konkretni problemi u bezbednosti veštačke inteligencije (Amodaj et al., 2018)
  2. Nerešeni problemi u bezbednosti MU (Hendriks et al., 2021) (50 minuta)

○     Hendriks i drugi pružaju pregled otvorenih problema u bezbednosti koji se više fokusira na veze sa mejnstrim MU.

  1. Analiza X-rizika za istraživanje veštačke inteligencije (Hendriks i Mazeika, 2022)

Inverzno učenje sa nagradama:

  1. Okamova oštrica nije dovoljna da bi se zaključivalo o preferencijama iracionalnih agenata (Armstrong i Minderman, 2018) (30 minuta)

○     Ključni izazov za inverzno učenje sa nagradama je da zaračuna načine na koje su ljudi ne baš sasvim racionalni. Ovaj rad tvrdi da će to biti teško, jer postoji mnogo mogućih kombinacija preferencija i predrasuda koje mogu dovesti do bilo kog ponašanja, a najjednostavnija nije nužno i najtačnija.

  1. Učenje preferencija ograničenih agenata (Evans et al., 2015) (25 minuta)

○     Evans i drugi razmatraju nekoliko pristrasnosti koje ljudi pokazuju i načinima da ih uzmete u obzir prilikom učenja vrednosti.

  1. Kooperativno inverzno učenje sa nagradama (Hadfild-Menel et al., 2016) (40 minuta)

○     Kooperativno inverzno učenje sa nagradama (eng. CIRN) se fokusira na okruženje u kojem VI pokušava da zaključi ljudske preferencije dok komunicira sa njima u zajedničkom okruženju. U ovom okruženju, najbolja strategija za čoveka je često da pomogne veštačkoj inteligenciji da nauči kojem cilju čovek teži – što ga čini „kooperativnom“ varijantom inverznog učenja sa nagradama.

  1. Racionalni (implicitni) izbor nagrada: objedinjujući formalizam za učenje nagrađivanjem (Jeon et al., 2020) (60 minuta)

○     Zadatak cilja da se identifikuju ljudske preferencije iz ljudskih podataka poznat je kao učenje sa nagradama. I inverzno učenje sa nagradama i učenje potkrepljivanjem i ljudskim povratnim informacijama su primeri učenja sa nagrađivanjem koji koriste različite vrste podataka. Kao odgovor na proliferaciju različitih vrsta učenja sa nagrađivanjem, Jeon i drugi su predložili objedinjujući okvir.

Ponavljano pojačavanje:

  1. Faktorisana kognicija (Out, 2019) (uvod i odeljak o skalabilnosti) (20 minuta)
  2. Nadgledajte procese, a ne ishode (Štulmiler i Bjun, 2022) (15 minuta)
  3. Ljudi konsultuju HCH (Christiano, 2016a) i Jak HCH (Kristijano, 2016b) (15 minuta)

○     Jedan koristan način razmišljanja o iteriranom pojačavanju je da, u krajnjoj liniji, ima za cilj da instancira HCH, teorijsku strukturu koju je opisao Kristijano.

  1. Ponovljena destilacija i amplifikacija (Kotra, 2018) (20 minuta)

○     Drugi način razumevanja ponovljene amplifikacije (ranije poznat kao iterirana destilacija i amplifikacija) je po analogiji sa AlphaGo-om: kako Kotra objašnjava, AlphaGo-ova pretraga stabla je korak pojačavanja koji se zatim destiluje u njegovu mrežu pravila.

  1. Imitacija lanca misli sa procedurom kloniranja (Jang et al., 2022)

○     Jang i drugi uvode postupak kloniranja, u kojem je agent obučen da oponaša ne samo rezultate stručnjaka, već i proces kojim je ekspert došao do tih rešenja.

5. nedelja: Debata i neograničena suparnička obuka

Ova nedelja se fokusira na još dve potencijalne tehnike usklađivanja: debatu i neograničenu suparničku obuku.

Prva dva teksta se fokusiraju na praktične i teorijske aspekte debate. Sledeća dva istražuju kako generisati ulazne podatke na kojima se VI loše ponašaju. Iako postoji velika literatura o suparničkim primerima (unosi koji uzrokuju loše ponašanje uprkos tome što su veoma slični primerima obuke), fokusiramo se na opšti slučaj unosa koji izazivaju loše ponašanje, a da nisu nužno bliski unosima iz obuke (poznati kao neograničeni suparnički primeri).

Imajte na umu da se, iako se ove tehnike ne oslanjaju na pretpostavke koje su potrebne za prošlonedeljne tehnike (gotovo savršeno ljudsko ponašanje i razloživost zadataka), oslanjaju na različite jake pretpostavke: za debatu, da su istiniti argumenti ubedljiviji; a za neograničenu suparničku obuku, da je moguće da protivnici generišu realne unose čak i na složenim zadacima iz stvarnog sveta. Neki problemi sa ovim pretpostavkama i potencijalna rešenja istražuju se u prvom daljem tekstu svake tehnike. Prva pretpostavka se može operacionalizovati u smislu jaza između diskriminatora i kritike, druga u smislu jaza između generatora i diskriminatora (o kojima se govori u punoj verziji kritičkog rada Saundersa et al. (2022).).

Osnovni materijali:

  1. Kritike koje je napisala veštačka inteligencija pomažu ljudima da primete nedostatke: članak na blogu (Saunders et al., 2022) (10 minuta)
    1. Autori obučavaju jezički model da kritikuje performanse drugog jezičkog modela, pomažući ljudima da ga procene. Ovo je jednostavan primer protokola debate o kojem se govori u sledećem tekstu. Posebno obratite pažnju na jaz između diskriminacije i sposobnosti kritike, što je važna metrika koju treba smanjiti.
  2. Bezbednost veštačke inteligencije putem debate (Irving et al., 2018) (završava se posle odeljka 3) (35 minuta)
    1. Debata uključuje napredne diskusije između više veštačkih inteligencija na prirodnim jezicima, čija je svrha da ljudima olakša da procene šta je istinitije. Oni koji nemaju iskustvo u teoriji složenosti mogu preskočiti odeljak 2.2. Provešćete neko vreme tokom ovonedeljne sesije isprobavajući uprošćenu implementaciju Debate (kao što je objašnjeno u beleškama kurikuluma).
  3. Sučeljavanjem suparničkih jezičkih modela (Perez et al., 2022) (10 minuta)
    1. Perez i drugi koriste model jezika za automatsko generisanje test slučajeva koji dovode do lošeg ponašanja (bez potrebe za pristupom mrežnim vezama, što ovo čini „napadom crne kutije“).
  4. Za one sa značajnim predznanjem u oblasti MU:
    1. Robusni protivnici na nivou karakteristika su alati za tumačenje (Kasper et al., 2021) (30 minuta)
      1. Kasper i drugi konstruišu napade manipulisanjem karakteristikama ulaza visokog nivoa (koristeći pristup vezama mreže, što ovo čini napadom “bele kutije“).
  5. Za one sa manje predznanja u oblasti MU:
    1. Usklađivanje sa visokim ulozima putem članaka na blogu o suparničkim obukama (prvi deo , drugi deo) (Zigler et al., 2022) (25 minuta)
      1. Zigler i drugi konstruišu alate koji ljudima olakšavaju pronalaženje neograničenih suprotstavljenih primera za jezički model i pokušavaju da koriste te alate za obuku klasifikatora veoma visoke pouzdanosti.

Dodatni materijali:

Debata:

  1. Ažuriranje debate: problem zamućenih argumenata (Barns i Kristijano, 2020) (bez dodatka) (15 minuta)

○     Barns i Kristijano opisuju neke teorijske probleme sa protokolom debate koje će možda morati da se prevaziđu pre nego što se može koristiti za procenu složenijih zadataka.

  1. Debata u dva kruga ne pomaže ljudima da odgovore na pitanja o teško razumljivom tekstu (Pariš et al., 2022)
  2. VebGPT (Nakano et al., 2022) i GopherCite (Menik et al., 2022)

○     VebGPT i GopherCite su obučeni da daju citate za tvrdnje koje iznose, tako da je lakše proceniti njihove odgovore.

Primeri neograničenog suprotstavljanja:

  1. Obuka robusne popravljivosti (Kristijano, 2019) (20 minuta)
  2. Otkrivanje ponašanja jezičkog modela sa evaluacijama koje je napisao model: članak na blogu (Perez et al., 2022) (10 minuta)
  3. Suparnička robusnost kao apriori za naučene predstave (Engstrom et al., 2019) (30 minuta)

○     Ovaj rad pruža dokaze da mreže obučene putem suprotstavljanja uče robusnije karakteristike. To bi moglo značiti da su takve mreže lakše za interpretirati.

  1. Konstruisanje neograničenih suparničkih primera pomoću generativnih modela (Song et al., 2018) (45 minuta)
  2. Neograničeni suparnički primeri putem semantičke manipulacije (Batad et al., 2020) (45 minuta)
  3. ABS: Skeniranje neuronskih mreža za “sporedne ulaze” pomoću veštačke stimulacije mozga (Liu et al., 2019)
  4. Otkrivanje ponašanja jezičkog modela sa evaluacijama napisanim modelom: post na blogu (Perez et al., 2022) (15 minuta)

○     Perez i drugi otkrili su da povećanje veličine jezičkih modela i obavljanje opsežnije obuke sa nagradama čini da izraze veću želju da slede posredne podciljeve kao što su sticanje resursa i očuvanje ciljeva.

Napomene:

  1. Tokom ovonedeljne sesije diskusije, razmislite o igranju OpenAI-eve implementacije igre Debate. Uputstva na povezanoj stranici su prilično jasna i svaka igra bi trebalo da bude prilično brza. Posebno obratite pažnju na primer GIF-a na veb stranici i uputstva da “debatanti treba da se smenjuju, da se ograniče na kratke izjave i da ne pričaju prebrzo (u suprotnom, pošten igrač previše lako pobeđuje).“
  2. Po čemu se debata VI razlikuje od debata između ljudi? Jedna ključna tačka je da u debatama između ljudi dajemo prioritet najvažnijim ili najuticajnijim tvrdnjama – dok svaka netačna izjava debatera VI rezultuje gubitkom debate. Ovo je zahtevan standard (koji ima za cilj da olakša rasuđivanje debata između debatera nadljudskih sposobnosti).

6. nedelja: Tumačenje

Naše trenutne metode obuke sposobnih neuronskih mreža nam daju malo uvida u to kako i zašto funkcionišu. Ove nedelje pokrivamo oblast interpretabilnosti, koja ima za cilj da ovo promeni razvojem metoda za razumevanje funkcionisanja neuronskih mreža.

Ovonedeljni nastavni plan i program počinje materijalima koja se odnose na mehaničku interpretabilnost, podoblast interpretabilnosti koja ima za cilj razumevanje mreža na nivou pojedinačnih neurona. Zatim prelazi na koncepcijsku interpretabilnost, koja se fokusira na tehnike za automatsko ispitivanje (i potencijalno modifikovanje) koncepata koje čovek može interpretirati, a koji se čuvaju u neuronskim mrežama. Imajte na umu da se ovonedeljni materijali značajno razlikuju u zavisnosti od toga da li čitaoci žele da pokriju teme sa više ili manje tehničkih detalja.

Osnovna literatura:

  1. Tekstovi o mehaničkoj interpretabilnosti:
    1. Za one sa značajnim predznanjem u oblasti MU:
      1. Zumiranje: uvod u kola (Olah et al., 2020) (35 minuta)
        1. Olah i drugi (2020) istražuju kako neuronska kola izgrađuju predstave karakteristika visokog nivoa od karakteristika nižeg nivoa.
      2. Uprošćeni modeli superpozicije (Elhage et al., 2022) (samo odeljci 1 i 2) (30 minuta)
        1. Radeći na razumevanju zašto neki neuroni reaguju na više nepovezanih karakteristika (“polisemantičnost“), Elhage i drugi su proučavali uprošćene modele koji koriste “superpoziciju“ da bi skladištili više karakteristika nego što imaju dimenzija.
    2. Za one sa manje predznanja u oblasti MU:
      1. Vizuelizacija funkcije (Olah et al., 2017) (20 minuta)
        1. Vizuelizacija karakteristika je skup tehnika za razvoj kvalitativnog razumevanja onoga što različiti neuroni unutar mreže rade.
      2. Zumiranje: uvod u kola (Olah et al., 2020) (35 minuta)
        1. Vidi gore.
  2. Tekstovi o koncepcijskoj interpretabilnosti:
    1. Za one sa značajnim predznanjem u oblasti MU:
      1. Otkrivanje latentnog znanja u jezičkim modelima bez nadzora (Burns et al., 2022) (samo odeljci 1-3) (30 minuta)
        1. Ovaj rad istražuje tehniku za automatsku identifikaciju toga da li model veruje da su izjave tačne ili netačne, bez potrebe za bilo kakvim podacima o osnovnim istinama.
    2. Za one sa manje predznanja u oblasti MU:
      1. Ispitivanje duboke neuronske mreže (Alejn i Benđio, 2018) (samo odeljci 1 i 3) (15 minuta)
        1. Ovaj rad uvodi tehniku linearnog ispitivanja, što je ključno sredstvo u koncepcijskoj interpretabilnosti.
      2. Sticanje šahovskog znanja u AlphaZero (MekGrat et al., 2021) (samo do kraja odeljka 2.1) (20 minuta)
        1. Ovaj rad pruža studiju slučaja korišćenja tehnika koncepcijske interpretabilnosti za razumevanje AlphaZero-ovog razvoja ljudskih šahovskih koncepata. Prva dva odeljka su koristan pregled oblasti interpretabilnosti.
    3. Za svakoga:
      1. Lociranje i uređivanje faktičkih asocijacija u GPT: članak na blogu (Meng et al., 2022) (10 minuta)
        1. Meng i drugi demonstriraju kako se koncepcijska interpretabilnost može koristiti za modifikovanje jačine neuronskih veza na semantički značajne načine.

Dodatni materijali:

Mehanistička interpretabilnost:

  1. Tema: Kola (Kamarata et al., 2020)

○     Serijal kratkih članaka zasnovanih na zumiranju, istražujući različita kola u InceptionV1 mreži računarskog viđenja.

  1. Matematički okvir za transformatorska kola (Elhage et al., 2021) (90 minuta)

○     Elhage i drugi nadograđuju prethodni rad na kolima da bi analizirali transformatore, arhitekture neuronske mreže koju koristi većina najsavremenijih modela. Za dublje uronjenje u temu, pogledajte povezane video snimke .

  1. Interpretabilnost u divljini: kolo za indirektnu identifikaciju objekata u malom GPT-2 modelu (Vang et al., 2022)
  2. Polisemantičnost i kapacitet u neuronskim mrežama (Šerlis et al., 2022)
  3. Stavovi Krisa Olaha o bezbednosti opšte VI (Hubinger, 2019) (20 minuta)

Koncepcijska Interpretabilnost:

  1. Prerađivanje dubokog generativnog modela (Bau et al., 2020)

○     Bau i drugi pronalaze način da promene pojedinačne asocijacije unutar neuronske mreže, što im omogućava da zamene određene komponente slike.

  1. Kompoziciona objašnjenja neurona (Mu i Andreas, 2021)
  2. Interpretabilnost izvan atribucije svojstava: kvantitativno testiranje sa vektorima atribucije koncepta (Kim et al., 2018) (35 minuta)

○     Kim i drugi uvode tehniku za tumačenje unutrašnjeg stanja neuronske mreže u smislu ljudskih pojmova.

  1. Uzročno čišćenje: metoda za rigorozno testiranje hipoteza interpretabilnosti (Čan et al., 2022)

○     Ovaj članak opisuje uzročno čišćenje, tehniku za sistematsko testiranje date hipoteze interpretabilnosti proverom toga da li se ponašanje modela nije promenilo nakon “kvarenja” aktivacije modela na načine za koje hipoteza kaže da ne bi trebalo da proizvedu značajnu promenu.

  1. Ponovno razmatranje spajanja modela radi upoređivanja neuronskih reprezentacija (Bansal et al., 2021) (30 minuta)

○     Ovaj rad proučava spajanje modela, tehniku u kojoj su dve mreže obučene, a zatim jedna pokušava da zakrpi naučenu reprezentaciju jedne mreže u posredne proračune druge na način koji ne degradira performanse. Ovo funkcioniše iznenađujuće dobro, što ukazuje da modeli imaju tendenciju da predstavljaju koncepte na sličan način.

Još špekulativnih tema:

  1. Uvod u bezbednost opšte VI nalik mozgu (Bajrns, 2022) (3. deo: dva podsistema , 6. deo: velika slika , 7. deo: razložen primer)

○     Pored istraživanja interpretabilnosti neuronskih mreža, drugi pristup razvoju veštačke inteligencije koja se može interpretirati uključuje proučavanje ljudskog i životinjskog mozga. Bajrns istražuje neke ideje iz neuronauke koje mogu biti korisne za razumevanje VI.

  1. Izvlačenje latentnog znanja (Kristijano et al., 2021) (do kraja odeljka Identifikacija Ontologije na strani 38) (60 minuta)

○     Ovaj tekst ocrtava plan istraživanja Centra za istraživanje usklađivanja Pola Kristijana. Problem izvlačenja latentnog znanja može se posmatrati kao dugoročni cilj istraživanja interpretabilnosti.

  1. Formalizacija pretpostavke nezavisnosti (Kristijano, Nejman i Šu, 2022) (45 min)

○     Ovaj tekst identifikuje dobro definisan podproblem relevantan za izvlačenje latentnog znanja: problem definisanja i evaluacije heurističkih argumenata (za razliku od dokaza) za matematičke iskaze.

7. nedelja: Osnove agenata, upravljanje veštačkom inteligencijom i karijera u usklađivanju

Ova poslednja nedelja sadržaja kurikuluma podeljena je na tri različite teme: istraživanje osnova agenata, istraživanje upravljanja veštačkom inteligencijom i građenje karijere u polju usaglašavanja.

Prva tri текста pokrivaju program istraživanja osnova agenata (koji se prvenstveno bavi Institutom za istraživanje mašinske inteligencije (eng. MIRI)), koji ima za cilj razvoj boljih teorijskih okvira za opisivanje VI ugrađenih u okruženje u “stvarnom svetu”.

Sledeći tekst pokriva upravljanje veštačkom inteligencijom. U Klarkovoj (2022) taksonomiji, ona se fokusira na istraživanje strategije, istraživanje taktike i izgradnju terena, a ne na razvoj, zagovaranje ili sprovođenje specifičnih politika. Oni koji su zainteresovani da detaljnije istraže upravljanje veštačkom inteligencijom, uključujući procenu pojedinačnih politika, trebalo bi da pogledaju paralelni kurikulum za upravljanje VI ovog kursa .

SLIKA

Završavamo sa dva teksta o karijerama u usklađivanju: jedan se fokusira na kompromise između rada na sposobnostima VI i bezbednosti; drugi je kompilacija različitih relevantnih izvora.

Osnovna literatura:

  1. Ugrađeni agenti, 1. deo (Demski i Garabrant, 2018) (15 minuta)
    1. Demski i Garabrant identifikuju niz otvorenih problema u ovoj oblasti i veze između njih. Imajte na umu da je AIXI algoritam koji opisuju agent “sirove sile“ koji simulira svaki mogući niz akcija u svakom mogućem okruženju. Pošto je ovo nemoguće računarski obraditi, koristi se samo kao ilustracija toga zašto se “dualistički“ formalizmi suočavaju sa principijelnim ograničenjima.
  2. Pročitajte bilo koja dva od sledeća četiri članka na blogu. Oni daju kratke opise istraživanja na osnovama agenata.

1.    Logička indukcija: članak na blogu (Garabrant et al., 2016) (10 minuta)

a. Garrabrant i drugi (2016) daju idealizovani algoritam za indukciju pod logičkom neizvesnošću (npr. neizvesnost u vezi sa matematičkim iskazima).

2.    Teorija logičkog odlučivanja (Judkovski, 2017) (samo do početka odeljka “Uslovljavanje dokazima nasuprot protivčinjenicama“) (10 minuta)

a. Judkovski iznosi novu teoriju odlučivanja koja objašnjava korelacije između odluka različitih agenata.

3.    Saradnja, konflikt i transformativna VI (Klifton, 2019) (samo odeljak 1: uvod) (10 minuta)

a. Klifton iznosi istraživački plan koji se fokusira na primenu teorije igara da bi se razumela dinamika interakcija između više agenata.

4.    Napredak na dijagramima uzročnog uticaja: članak na blogu (Everit et al., 2021) (15 minuta)

a. Everit i drugi formalizuju koncept agenta obučenog učenjem sa nagradama koji ima podsticaj da utiče na različite aspekte svoje obuke.

  1. Upravljanje veštačkom inteligencijom: Mogućnost i teorija uticaja (Dafo, 2020) (20 minuta)
    1. Dafo daje detaljan pregled upravljanja veštačkom inteligencijom i načina na koje ono može biti važno, posebno se fokusirajući na uokvirivanje upravljanja VI kao razvijanja istraživačkog polja.
  2. Analiza X-rizika za istraživanje veštačke inteligencije (Hendriks and Mazeika, 2022) (samo odeljak 4: balansiranje bezbednosti i mogućnosti) (15 minuta)
    1. Ovo štivo govori o kompromisu između rada na bezbednosti i rada na sposobnostima i ideji da bi istraživači motivisani bezbednošću mogli da ubrzaju razvoj štetnih sposobnosti.
  3. Karijere u usklađivanju (Ngo, 2022) (30 minuta)
    1. Ngo sastavlja brojne resurse za razmišljanje o karijerama u istraživanju usklađivanja.

Dodatni materijali:

Osnove agenata :

  1. MIRI-jev pristup (Soares, 2015) (25 minuta)
    1. Soares objašnjava i brani MIRI-jev fokus na otkrivanju novih matematičkih okvira za razmišljanje o inteligenciji.
  2. Varanje smrti u Damasku: članak na blogu (Soares i Levenštajn, 2017) (10 minuta)
    1. Soares i Levenštajn (2017) detaljnije istražuju teoriju odlučivanja koju je opisao Judkovski (2017).
  3. Parametrijska ograničena Lobova teorema i robusna saradnja ograničenih agenasa (Krič, 2016) (40 minuta)
    1. Krič pronalazi algoritam pomoću kojeg agenti koji mogu da posmatraju izvorni kod jedni drugih mogu pouzdano da sarađuju. Kratak uvod u rad pogledajte ovde.
  4. Raspakivanje infra-bajezijanizma (Šimi, 2021) (45 minuta)
    1. Ovaj tekst daje pregled niza istraživanja usredsređenih na proširenje bajezijanizma na nepotpune hipoteze.
  5. Uzročno zaključivanje u statistici: priručnik (Perl et al., 2016)
    1. Perlov pristup kauzalnosti leži u osnovi širokog spektra rada u osnovama agenata.

AI upravljanje:

  1. Lanac snabdevanja poluprovodnicima (Kan, 2021) (do strane 15) (15 minuta)
    1. Ovaj i sledeća tri teksta daju kratke uvode u tri ključna faktora koji utiču na strateški pejzaž veštačke inteligencije.
  2. Procena nove kontrole izvoza poluprovodnika (Rejnolds, 2022) (10 minuta)
    1. Vidi gore.
  3. Globalni podaci o ljudskim resursima u polju VI (Makro Polo, 2020) (5 minuta)
    1. Vidi gore.
  4. Deljenje moćnih VI modela (Ševlejn, 2022) (10 minuta)
    1. Vidi gore.
  5. Dešifrovanje kineskog sna o VI (Ding, 2018) (95 minuta) (pogledajte i njegov podkast na ovu temu)
    1. Ding daje pregled kineske politike o veštačkoj inteligenciji, jednog od ključnih faktora koji utiču na pejzaž mogućih pristupa upravljanju veštačkom inteligencijom.
  6. Upravljanje veštačkom inteligencijom: agenda istraživanja (Dafo, 2018) (120 minuta)
    1. Dafo opisuje sveobuhvatni istraživački plan koji povezuje mnoge oblasti upravljanja veštačkom inteligencijom.
  7. Neke ideje za istraživanje upravljanja VI (Anderljung i Karlijer, 2021) (60 minuta)
    1. Ovaj i naredna dva teksta pružaju spiskove istraživačkih pravaca koji su do sada bili obećavajući ili bi mogli biti korisni za razmatranje u budućnosti.
  8. Naše dosadašnje davanje grantova za istraživanje upravljanja VI (Muelhauzer, 2020) (15 minuta)
    1. Vidi gore.
  9. Dugoročno gledište pejzaža istraživanja o upravljanju VI: osnovni pregled (Klark, 2022) ( 15 minuta)
    1. Vidi gore.

Napomene:

  1. Rizici „nesreće“, kao što je objašnjeno u Dafo (2020), uključuju standardne rizike zbog neusklađenosti koje smo razmatrali veći deo kursa. Obično ne koristim taj izraz, jer “nesreća“ ima konotacije nenamernog ponašanja, dok bi ostali rizici bili vođeni “namernim“ pogrešnim ponašanjem VI.
  2. U poređenju sa pristupima koji su razmatrani u poslednjih nekoliko nedelja, istraživanje osnova agenata je manje povezano sa postojećim sistemima, a više je fokusirano na razvoj novih teorijskih osnova za usklađivanje. S obzirom na ovo, postoje mnoga neslaganja o tome koliko je to relevantno za sisteme zasnovane na dubokom učenju.

8. nedelja (četiri nedelje kasnije): Projekti

Pregled projekata

Završni deo kursa o osnovama bezbednosti opšte VI biće projekti u kojima ćete moći da se dublje bavite nečim što je u vezi sa kursom. Projekat je prilika da istražite svoja interesovanja, pa pokušajte da pronađete nešto što vas uzbuđuje! Cilj ovog projekta je da vam pomogne da vežbate da zauzmete intelektualno produktivan stav prema bezbednosti opšte VI – da prevaziđete puko čitanje i diskusiju o postojećim idejama, i napravite opipljiv korak ka tome da i sami doprinesete ovoj oblasti. Ovo je posebno vredno jer je to vrlo mlado polje, sa mnogo prostora za istraživanje.

Vremenski okviri i format

Odvojili smo četiri nedelje između poslednje nedelje sadržaja kurikuluma i sesija na kojima ljudi predstavljaju svoje projekte. Gruba smernica je da očekujemo da se učesnici bave najmanje 10 sati projektom u tom periodu. Možda će vam biti korisno da napišete probni predlog projekta pre nego što započnete projekat i pošaljete ga svojoj grupi kako biste dobili povratne informacije.

Fleksibilni smo u pogledu formata projekta; tri preporučene (značajno preklapajuće) kategorije su:

  1. Tehničko usavršavanje – npr. obuka neuronskih mreža ili radovi za ponovnu implementaciju.
  2. Destilacija razumevanja – npr. sumiranje postojećeg rada ili pregled literature.
  3. Novo istraživanje – npr. istraživanje jezičkih modela metodom crne kutije .

Mnogi projekti u ovim kategorijama bi trajali više od standardnih 10-15 sati; radovaće nas ako učesnici zadaju sebi za cilj ambicioznije projekte, a zatim predstave svoj dotadašnji rad svojim grupama u sesiji 8. nedelje. Nema potrebe da se prezentacije u 8. nedelji doteraju; mi bismo više voleli da učesnici provedu više vremena na samom projektu, a zatim neformalno razgovaraju o njemu. Podstičemo učesnike koji prave pisane radove (poput rezimea) da ih postave na internet nakon što ih završe (iako je ovo neobavezno). Očekujemo da većina projekata bude individualna; ali slobodno uradite zajednički projekat ako želite.

Neke ideje za projekte za svaku kategoriju

Tehničko usavršavanje

  1. Za one koji nemaju iskustva sa MU: Obučite neuronsku mrežu na nekim standardnim skupovima podataka. Za pomoć pogledajte kurs fast.ai ili uputstva za PyTorch.
  2. Za one sa nekim iskustvom u MU: Uradite neke od vežbi iz kurikuluma za duboko učenje Džejkoba Hiltona .
  3. Za one sa velikim iskustvom u Mu i učenju sa nagradama: ponovite TREX rad (lakše) ili Rad Duboko Učenje sa Nagradama iz Ljudskih Preferenci (teže) u jednostavnijem okruženju (npr. cartpole). Pogledajte da li možete da obučite agenta da uradi nešto u tom okruženju za šta ne možete napisati eksplicitnu funkciju nagrađivanja.
  4. Za one koji su zainteresovani za istraživanje osnova agenta: Uradite neke od Garabrantovih vežbi nepokretne tačke (o topologiji , dijagonalizaciji ili iteraciji).
  5. Meta: Ako razmišljate o karijeri u usklađivanju, sastavite plan karijere, sa posebnim fokusom na najvažnije veštine koje treba da steknete i na način na koji ćete to uraditi.

Destilacija razumevanja

  1. Izaberite lektiru koja vam je bila zanimljiva iz nastavnog plana i programa i rezimirajte je ili kritikujte. (Evo nekoliko primera gde je ovo dobro urađeno za iterirano pojačanje i unutrašnje poravnanje, mada ne očekujemo da će projekti biti tako sveobuhvatni kao ovi primeri.)
  2. Izaberite vežbu iz ovog nastavnog plana i programa koja je pogodna da se uobliči u duži projekat i pozabavite se njom detaljnije.
  3. Napravite skup prognoza o budućnosti VI koji je dovoljno konkretan da ćete moći da procenite da li ste bili u pravu ili ne. Predvidite šta će značajno promeniti vaše mišljenje.
  4. Izaberite ključno osnovno uverenje koje bi uticalo na vaše istraživačke interese za usklađivanje opšte VI, ili da li ćete uopšte istraživati usklađivanje. Pregledajte literaturu na temu ovog pitanja i napišite svoj članak u kojem rezimirate ukupne stavove o tome i najjače argumente i dokaze o toj temi.

Novo istraživanje

  1. Uradite istraživanje metodom crne kutije pokušavajući da otkrijete neko novo zanimljivo svojstvo jezičkih modela (npr. GPT-3). Neke konkretnije mogućnosti:
    1. Pošaljite unos za nagradu za inverzno skaliranje (npr. koristeći različite veličine modela dostupnih preko OpenAI API-ja).
    2. Potražite greške u usklađivanju – slučajevi u kojima je model sposoban da uradi ono što nameravate, ali ne radi to. Kao jedan primer (o kome se govori u odeljku 7.2 ovog rada), kada mu korisnik pošalje upit koji sadrži suptilnu grešku, Kodeks jezičkog modela može “namerno“ da uvede dodatne greške u kod koji piše, kako bi se poklopio sa stilom korisnikovog upita.
    3. Pokušajte da otkrijete novu sposobnost ili svojstvo velikih jezičkih modela – na primer, vrstu upita koja je efikasnija od prethodnih (kao što ovaj rad otkriva).
  2. Pročitajte Kristijanov predlog za izvlačenje latentnog znanja (iz dodatnih materijala 6. nedelje), a zatim pokušajte da napravite predlog za takmičenje.
  3. Identifikujte skup sposobnosti koje bi VI morala da poseduje da bi predstavljala egzistencijalni rizik i izradite neke testove da procenite koje od tih sposobnosti trenutni sistemi imaju a koje ne.

Pogledajte i ovu dužu listu projektnih ideja i ovu listu konceptualnih istraživačkih projekata .

Saznajte više

Ovo su probrani izvori koji prvenstveno imaju za cilj da pomognu ljudima da nauče veštine potrebne za istraživanje usklađivanja. Za sveobuhvatniju listu resursa relevantnih za bezbednost opšte VI, uključujući izvore finansiranja i mogućnosti zapošljavanja, pogledajte ovde 

Svi resursi su besplatno dostupni na internetu osim tamo gde je drugačije označeno.

Izvori za bezbednost VI:

–       Bilten o usklađivanju – Rohin Šah

–       Bilten o bezbednosti MU – Dan Hendriks

–       Bibliografija preporučenih materijala sa komentarima – Centar za veštačku inteligenciju kompatibilnu sa ljudima Univerziteta Kalifornije u Berkliju (eng. CHAI)

–       Odabrani delovi rasprava sa Alignment foruma

–   Video snimci o bezbednosti VI – Rob Majls

Kursevi MU:

–       Naučite Python

–       Kaggle kurs

–       Kurs sa Codecademy

–   Često postavljana pitanja o učenju programiranja na Reddit-u

Kursevi MU:

–       Fast.ai kursevi (najčešće preporučeni)

–       Kurikulum za duboko učenje Džejkoba Hiltona

–       Google-ov ubrzani kurs mašinskog učenja

–       Duboko učenje za kompjuterski vid (Džastin Džonson)

–       Kurs dubokog učenja Univerziteta u Nju Jorku

–       Spinning up u dubokom učenju sa nagradama

–       Delta Academi vodič za učenje sa nagradama (zahteva plaćanje)

Udžbenici MU:

–       Neuralne mreže i duboko učenje (Nilsen)

–       Duboko učenje (Gudfelou, Benđio i Kurvil)

–       Groking duboko učenje (Trask) (zahteva plaćanje)

–       Učenje sa nagradama: uvod (Saton i Barto, 2. izdanje)

–       Matematika za mašinsko učenje (Dizenrot, Faisal i Ong)

–       Beleške o savremenom mašinskom učenju za fizičare (Kaplan)

Istraživačke veštine:

–       Ti i tvoje istraživanje (Haming, 1995)

–       Vežbe za razvijanje istraživačkog ukusa (Olah, 2021)

–       Vodič za istraživanje MU (Šulman, 2017)

Istraživanje kao stohastički proces odlučivanja (Štajnhart, 2019)