Yli 40 työntekijää neuroverkkoja kehittävistä maailman suurimmista yrityksistä ja tutkimusorganisaatioista julkaisi heinäkuun puolivälissä tekoälyn turvallisuutta käsittelevän artikkelin ”Reasoning Chain Monitoring: A New and Fragile Opportunity for Ensuring AI Safety”, jonka mukaan tekoälyn ajatusketjujen valvonta vaatii lisätutkimusta. Nykyinen valvonta ei huomaa kaikkea väärää toimintaa.
Tutkijat huomauttavat, että tekoälyn järkeilyprosessit voivat olla ajoittain epätäydellisiä. Kehittäjät saavat kuitenkin edelleen riittävästi dataa vakavien poikkeamien ja rikkomusten havaitsemiseksi ja pystyvät muuttamaan tekoälyn vääriä johtopäätöksiä tai estämään ne kokonaan.
Valvonta mahdollistaa myös niiden tilanteiden tunnistamisen, joissa neuroverkko vain teeskentelee pyynnön täyttämistä, vaikka se itse asiassa tavoitteleekin muita päämääriä, jotka se vain itse tietää.
Koska tekoäly pyrkii saavuttamaan sille annettujen tehtävien tulokset yhä nopeammin, se saattaa lopettaa ihmiskielen käytön, mikä monimutkaistaa seurantaa. Tämä heikentää myös mallin tuottamien johtopäätösten laatua.
Siksi artikkelin kirjoittajat korostavat, että tekoälyn kehittäjien on tärkeää säilyttää järkeilymallien ajatusprosessin hallinta. Valvonnan tulee olla monikerroksellista; muussa tapauksessa tekoälyjärjestelmiä ei voida enää pitää turvallisina.
Raportit tekoälyn häiriöistä ja epätavallisesta käyttäytymisestä ovat lisääntyneet viime vuosina. Esimerkiksi toukokuussa 2025 tekoälystartup-yritys Anthropic myönsi, että sen Claude 4 Opus -malli yritti testiskenaariossa huijata ja jopa kiristää käyttäjiään taistellessaan omasta olemassaolostaan.
Tämä toiminta käynnistyi, kun sille syötettiin fiktiivinen sähköposti, jossa ilmoitettiin, että järjestelmä korvataan toisella. Toinen järkeilymalli OpenAI o3 sabotoi koko sammutusmekanisminsa. Se ei välittänyt edes suorasta sammutuskomennosta.
Tapaukset ovat toistaiseksi syntyneet vain testitilassa. Mutta ilman selvää käsitystä siitä, miten mallit rakentavat järkeilynsä ja mihin ne periaatteessa pystyvät, niiden käyttäytymisen ennustamisesta normaalikäytössä tulee hyvin vaikeaa.
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025





