Kuvailutulkki poimii videosta tärkeitä yksityiskohtia. Kuvakaappauksessa näkyy myös tyypillisiä konekäännösvirheitä. (Kuva: Aalto-yliopisto)

Tekoäly opetettiin kuvailemaan videoita

Menetelmä yhdistää tekstikuvailuun videolla kuuluvan puheen ja kuvan sisällön ja tuottaa tekstin suoraan halutulle kielelle.

Tammikuussa alkaneessa EU:n rahoittamassa projektissa kehitetään Aalto-yliopiston kuvan- ja äänenkäsittelyn tutkimustuloksiin perustuva menetelmä audiovisuaalisen aineiston kuvailuun ja luokitteluun.

– Menetelmän avulla saadaan automaattisesti tekstikuvaus videon tapahtumista ja puheesta. Vertailemalla menetelmän tuottamaa kuvausta ihmisten tuottamiin kuvauksiin tekoälyjärjestelmä voidaan opettaa parantamaan tuloksiaan, kertoo projektia koordinoiva Aalto-yliopiston professori Mikko Kurimo tiedotteessaan.

Automaattista kuvailua on tehty aikaisemmin valokuvista, mutta videon sisällön kuvailu on melko uusi asia. Uutta menetelmässä on se, että se pystyy yhdistämään sekä puheen että kuvan sisältöä kuvailua tehdessään. Lisäksi menetelmä tuottaa tekstin suoraan halutulle kielelle, jolloin vältetään käännösvirheet.

Audiovisuaalisen sisällön automaattinen kuvaaminen tekstinä mullistaa suurten videokokoelmien käsittelyn esimerkiksi mediayhtiöissä ja mahdollistaa aiemmin tuotetun materiaalin kierrättämisen ja soveltamisen uusiin tarkoituksiin.

Lisäksi tekstikuvailu ja siihen perustuva haku helpottavat aineiston löydettävyyttä ja saavutettavuutta sekä suurelle yleisölle että erityisesti heikkokuuloisille ja -näköisille.

Ylen innovaatiostrategiasta vastaavan päällikkön Anssi Komulaisen mukaan tekoälyn mahdollistama uudenlainen löydettävyys, saavutettavuus ja henkilökohtainen palvelukokemus ovat jatkossa elintärkeitä menestystekijöitä eurooppalaiselle media-alalle.

EU:n H2020 rahoittaman ”Methods for Managing Audiovisual Data” -projektin kesto on kolme vuotta ja varsinaiset partnerit ovat Aalto-yliopisto, Helsingin yliopisto, Yle, Lingsoft, Limecraft, University of Surrey, EURECOM ja INA. Aalto-yliopistosta signaalinkäsittelyn ja akustiikan laitoksen lisäksi mukana on tietotekniikan laitos.

Ylessä MeMAD-yhteistyö on osa Yle Beta -projektia, jonka tavoitteena on rakentaa seuraavan sukupolven mediakokemusta.

Kommentit

»Kommentoinnin säännöt