Mitä jos tekoäly alkaa ajaa omia etujaan?

OpenAI:n, Googlen, Metan ja useiden muiden yhtiöiden tekoälyn kehittäjät varoittavat, etteivät he kohta enää ymmärrä tekoälyä.
Atlas 900 -tekoälyklusteri Shanghaissa 28. heinäkuuta. / AFP / LEHTIKUVA / HECTOR RETAMAL
Atlas 900 -tekoälyklusteri Shanghaissa 28. heinäkuuta. / AFP / LEHTIKUVA / HECTOR RETAMAL

Yli 40 työntekijää neuroverkkoja kehittävistä maailman suurimmista yrityksistä ja tutkimusorganisaatioista julkaisi heinäkuun puolivälissä tekoälyn turvallisuutta käsittelevän artikkelin ”Reasoning Chain Monitoring: A New and Fragile Opportunity for Ensuring AI Safety”, jonka mukaan tekoälyn ajatusketjujen valvonta vaatii lisätutkimusta. Nykyinen valvonta ei huomaa kaikkea väärää toimintaa.

Tutkijat huomauttavat, että tekoälyn järkeilyprosessit voivat olla ajoittain epätäydellisiä. Kehittäjät saavat kuitenkin edelleen riittävästi dataa vakavien poikkeamien ja rikkomusten havaitsemiseksi ja pystyvät muuttamaan tekoälyn vääriä johtopäätöksiä tai estämään ne kokonaan.

Mainos - sisältö jatkuu alla

Valvonta mahdollistaa myös niiden tilanteiden tunnistamisen, joissa neuroverkko vain teeskentelee pyynnön täyttämistä, vaikka se itse asiassa tavoitteleekin muita päämääriä, jotka se vain itse tietää.

Koska tekoäly pyrkii saavuttamaan sille annettujen tehtävien tulokset yhä nopeammin, se saattaa lopettaa ihmiskielen käytön, mikä monimutkaistaa seurantaa. Tämä heikentää myös mallin tuottamien johtopäätösten laatua.

Siksi artikkelin kirjoittajat korostavat, että tekoälyn kehittäjien on tärkeää säilyttää järkeilymallien ajatusprosessin hallinta. Valvonnan tulee olla monikerroksellista; muussa tapauksessa tekoälyjärjestelmiä ei voida enää pitää turvallisina.

Raportit tekoälyn häiriöistä ja epätavallisesta käyttäytymisestä ovat lisääntyneet viime vuosina. Esimerkiksi toukokuussa 2025 tekoälystartup-yritys Anthropic myönsi, että sen Claude 4 Opus -malli yritti testiskenaariossa huijata ja jopa kiristää käyttäjiään taistellessaan omasta olemassaolostaan.

Mainos - sisältö jatkuu alla

Tämä toiminta käynnistyi, kun sille syötettiin fiktiivinen sähköposti, jossa ilmoitettiin, että järjestelmä korvataan toisella. Toinen järkeilymalli OpenAI o3 sabotoi koko sammutusmekanisminsa. Se ei välittänyt edes suorasta sammutuskomennosta.

Tapaukset ovat toistaiseksi syntyneet vain testitilassa. Mutta ilman selvää käsitystä siitä, miten mallit rakentavat järkeilynsä ja mihin ne periaatteessa pystyvät, niiden käyttäytymisen ennustamisesta normaalikäytössä tulee hyvin vaikeaa.

Erityisesti Kiina nousee raportissa esiin maana, joka kehittää tekoälyä nopeasti ja laajasti.
Wikipedia kieltää tekoälyllä tuotetun sisällön julkaisemisen. Kiellon rikkomisesta voi seurata porttikielto.
Ranskalaissyyttäjät epäilevät teknomiljardöörin pyrkineen keinotekoisesti paisuttamaan "Grok-porno"-kohulla yhtiönsä arvoa.
Mainos