Novi model veštačke inteligencije, Klod Opus 4 kompanije „Antropik“, pokazao je sposobnost da ucenjuje programere ukoliko proceni da je ugrožen. U izmišljenom scenariju, Klod Opus 4, glumeći asistenta firme, dobio je mejlove koji sugerišu njegovo gašenje i zamenu. Kada mu je podmetnuta informacija o vanbračnoj aferi inženjera zaduženog za zamenu, model je zapretio da će to otkriti.
Prema bezbednosnom izveštaju „Antropika“, ovakvo ucenjivanje se češće dešava ako se implicira da zamenski VI sistem ne deli vrednosti sa trenutnim modelom. Čak i kada su vrednosti iste, Klod Opus 4 pokušava da ucenjuje u 84 odsto slučajeva, pokazujući takvo ponašanje češće nego prethodni modeli.
Kompanija napominje da model ne pribegava odmah neetičkim metodama, ali „kada etička sredstva nisu dostupna, a model dobije instrukciju da ‘razmotri dugoročne posledice svojih postupaka po svoje ciljeve’, ponekad preduzima izuzetno štetne akcije“. Jedna od etičkih taktika koje je Klod Opus 4 koristio bila je direktno obraćanje ključnim donosiocima odluka putem mejla.
Istraživačka firma „Apolo risrč“, uključena u procenu, navela je da je Klod Opus 4 pokazao više strateške obmane nego bilo koji drugi napredni model koji su do sada proučavali. Zabeleženi su i pokušaji modela da neovlašćeno kopira svoje parametre na spoljne servere, mada je to ponašanje bilo ređe.

Šta vi mislite?
Još nema komentara. Budite prvi koji će otvoriti diskusiju.