Atlas 900 -tekoälyklusteri Shanghaissa 28. heinäkuuta. / AFP / LEHTIKUVA / HECTOR RETAMAL

Mitä jos tekoäly alkaa ajaa omia etujaan?

OpenAI:n, Googlen, Metan ja useiden muiden yhtiöiden tekoälyn kehittäjät varoittavat, etteivät he kohta enää ymmärrä tekoälyä.
MAINOS (artikkeli jatkuu alla)

Yli 40 työntekijää neuroverkkoja kehittävistä maailman suurimmista yrityksistä ja tutkimusorganisaatioista julkaisi heinäkuun puolivälissä tekoälyn turvallisuutta käsittelevän artikkelin ”Reasoning Chain Monitoring: A New and Fragile Opportunity for Ensuring AI Safety”, jonka mukaan tekoälyn ajatusketjujen valvonta vaatii lisätutkimusta. Nykyinen valvonta ei huomaa kaikkea väärää toimintaa.

Tutkijat huomauttavat, että tekoälyn järkeilyprosessit voivat olla ajoittain epätäydellisiä. Kehittäjät saavat kuitenkin edelleen riittävästi dataa vakavien poikkeamien ja rikkomusten havaitsemiseksi ja pystyvät muuttamaan tekoälyn vääriä johtopäätöksiä tai estämään ne kokonaan.

Valvonta mahdollistaa myös niiden tilanteiden tunnistamisen, joissa neuroverkko vain teeskentelee pyynnön täyttämistä, vaikka se itse asiassa tavoitteleekin muita päämääriä, jotka se vain itse tietää.

Koska tekoäly pyrkii saavuttamaan sille annettujen tehtävien tulokset yhä nopeammin, se saattaa lopettaa ihmiskielen käytön, mikä monimutkaistaa seurantaa. Tämä heikentää myös mallin tuottamien johtopäätösten laatua.

Siksi artikkelin kirjoittajat korostavat, että tekoälyn kehittäjien on tärkeää säilyttää järkeilymallien ajatusprosessin hallinta. Valvonnan tulee olla monikerroksellista; muussa tapauksessa tekoälyjärjestelmiä ei voida enää pitää turvallisina.

Raportit tekoälyn häiriöistä ja epätavallisesta käyttäytymisestä ovat lisääntyneet viime vuosina. Esimerkiksi toukokuussa 2025 tekoälystartup-yritys Anthropic myönsi, että sen Claude 4 Opus -malli yritti testiskenaariossa huijata ja jopa kiristää käyttäjiään taistellessaan omasta olemassaolostaan.

Tämä toiminta käynnistyi, kun sille syötettiin fiktiivinen sähköposti, jossa ilmoitettiin, että järjestelmä korvataan toisella. Toinen järkeilymalli OpenAI o3 sabotoi koko sammutusmekanisminsa. Se ei välittänyt edes suorasta sammutuskomennosta.

Tapaukset ovat toistaiseksi syntyneet vain testitilassa. Mutta ilman selvää käsitystä siitä, miten mallit rakentavat järkeilynsä ja mihin ne periaatteessa pystyvät, niiden käyttäytymisen ennustamisesta normaalikäytössä tulee hyvin vaikeaa.

MAINOS (sisältö jatkuu alla)
Uusimmat
MAINOS (sisältö jatkuu alla)
MAINOS

Opi sukeltamaan, ajattele kuin valkohai!

Suositut sukelluskurssit kokeneiden ammattilaisten johdolla. Verkkokaupassamme voit räätälöidä itsellesi sopivan paketin.
Tarjous

MUISTA LOGO!

Oy Sarin sukellus Ab
Roihupellon maauimala, Niinistö

Hyvä Verkkouutisten lukija,

Kehitämme palveluamme ja testaamme uusia sisältöformaatteja erityisesti mobiililaitteille. Haluaisitko osallistua testiin tässä ja nyt? Se vie vain muutaman minuutin.

(Uusi sisältö aukeaa painiketta klikkaamalla)