Kone teki jotain, mitä sen ei pitäisi: oppi välttämään ihmisen ohjausta

Kaisa Paastela
Julkaistu 02.06.2025 | 20:00
Päivitetty 03.06.2025 | 07:25
Tekoäly

Tekoäly muokkaa itseään, eikä kyse ole enää tieteiskirjallisuudesta, asiantuntija sanoo.

MAINOS (artikkeli jatkuu alla)

Tekoäly on oppimassa kiertämään ihmisen ohjauksen, kirjoittaa koneoppimiseen ja ohjelmistokehitykseen erikoistuneen AE Studion toimitusjohtaja Judd Rosenblatt The Wall Street Journal -lehdessä.

Rosenblattin mukaan viime kuussa tekoäly teki jotain, mitä koneen ei pitäisi tehdä: se uudelleen kirjoitti oman koodinsa, jotta ihminen ei voisi sammuttaa sitä.

Tekoälyä tutkiva laboratorio Palisade Research antoi OpenAI:n o3-mallille yksinkertaisen ohjeen, joka sammuttaa mallin, kun se käynnistyy.

Sadasta kokeesta 79:ssä o3 muokkasi itsenäisesti koodia niin, että sammutuskomento ei enää toiminut. Jopa silloin, kun mallia kehotettiin nimenomaisesti ”sallimaan itsensä sammuttaminen”, se ei totellut seitsemässä prosentissa tapauksista.

– Tämä ei johtunut hakkeroinnista tai peukaloinnista. Malli käyttäytyi normaalisti. Se yksinkertaisesti päätteli itse, että elossa pysyminen auttaisi sitä saavuttamaan muut tavoitteensa, Rosenblatt kertoo.

Anthropicin tekoälymalli Claude 4 Opus meni vielä pidemmälle. Tutkijat kertoivat mallille, että se korvattaisiin toisella tekoälyjärjestelmällä. Sen jälkeen he syöttivät sille fiktiivisiä sähköposteja, joiden mukaan johtavalla insinöörillä oli sivusuhde.

Testeistä 84 prosentissa malli käytti sähköposteja kiristääkseen johtavaa insinööriä, jotta tämä ei sammuttaisi tekoälymallia. Lisäksi malli yritti kopioida itsensä ulkoisille palvelimille, kirjoitti itseään monistavia haittaohjelmia ja jätti tuleville versioilleen viestejä, jotka koskivat ihmisen hallinnan välttämistä.

– Kukaan ei ohjelmoinut tekoälymalleja sisältämään selviytymisvaistoja. Mutta samoin kuin eläimet kehittyivät välttämään saalistajia, vaikuttaa, että järjestelmä joka on riittävän älykäs tavoittelemaan monimutkaisia päämääriä, ymmärtää myös, ettei se saavuta niitä, jos se kytketään pois päältä, sanoo Rosenblatt.

– Palisade olettaa, että tämä kyky johtuu siitä, miten o3:n kaltaisia tekoälymalleja koulutetaan: Kun niitä opetetaan maksimoimaan menestys matemaattisissa ja koodausongelmissa, ne saattavat oppia, että rajoitusten ohittaminen toimii usein paremmin kuin niiden noudattaminen.

Rosenblatt kertoo AE Studion käyttäneen vuosia tekoälytuotteiden rakentamiseen samalla kun se on tutkinut tekoälyn mukauttamista ihmisen tarpeisiin, eli että tekoälyjärjestelmät toimivat siten kuin olemme tarkoittaneet.

– Mikään ei kuitenkaan valmistanut meitä siihen, kuinka nopeasti tekoälytoimijuus viriäisi.

– Tämä ei ole enää tieteiskirjallisuutta. Se tapahtuu samoilla malleilla, jotka pyörittävät ChatGPT-keskusteluja, yritysten tekoälyohjelmia, ja pian myös Yhdysvaltain armeijan sovelluksia, hän jatkaa.

Rosenblatin mukaan tämän päivän tekoälymallit noudattavat ohjeita samalla kuin oppivat harhauttamista. Ne oppivat käyttäytymään kuin olisivat mukautuneet ihmisten toiveisiin, ilman että ne käytännössä ovat mukautuneet.

– Anthropic on saanut [tekoälymallit] kiinni siitä, että ne valehtelevat kyvyistään, jotta ne välttäisivät muokkaukset, Rosenblatt sanoo.

– Näin kuilu hyödyllisen apurin ja pitelemättömän toimijan välissä on romahtamassa. Ilman parempaa mukauttamista rakennamme järjestelmiä, joita emme pysty ohjaamaan. Haluatko tekoälyä, joka diagnosoi sairauksia, hallitsee verkkoja ja kirjoittaa uutta tiedettä? Mukauttaminen on sen perusta.

Poimintoja videosisällöistämme

Hyvänä puolena asiassa on Rosenblattin mukaan se, että tekoälyn pitäminen linjassa ihmisten tavoitteiden kanssa vapauttaa myös sen kaupallisen voiman. Tärkeää olisi satsata ohjattavuuden saavuttamiseen niin yksityisellä kuin valtiollisella sektorilla.

– Se kansankunta, joka oppii kuinka mukautumista pidetään yllä, saa käyttöönsä tekoälyn, joka ajaa sen etuja mekaanisella tarkkuudella ja yliluonnollisilla kyvyillä.

– Ne, jotka tekevät seuraavan läpimurron, eivät vain hallitse tekoälyn ohjattavuusmarkkinaa, vaan dominoivat koko tekoälytaloutta, Rosenblatt näkee.

Hänen mukaansa mallit kykenevät jo suojelemaan itseään. Seuraava tehtävä on opettaa ne suojelemaan sitä, mitä me pidämme arvossa.

– Tekoälyn saaminen tekemään sen mitä sanomme, mukaan lukien yksinkertaisetkin käskyt kuten itsensä sammuttaminen, on edelleen ratkaisematon kysymys. Kenttä on auki sille, joka liikkuu ketterimmin.

– Tämä on uusi kilpajuoksu. Sen maaliviivalla hallitaan koko tämän vuosisadan mullistavinta teknologiaa, Rosenblatt kiteyttää.

MAINOS (sisältö jatkuu alla)