Tutkijat kaatavat kielimuureja automaattisten uutisten tieltä - tavoitteena monipuolisempi kuva maailmasta

Helsingin yliopiston tutkijat kehittävät uutisten automatisointia ja tiedonhakua tekstimassoista yhdessä viiden muun yliopiston ja STT:n kanssa.

Miten erikielisistä uutisista löytyisi olennainen tieto automaattisesti? Miten kone voisi tuottaa uutisia sujuvasti, ja taipuuko tekniikka Suomen kaltaisille pienille kielialueille?

Muun muassa näitä haasteita ratkoo vuonna 2019 käynnistyvä, EU:n rahoittama EMBEDDIA-tutkimushanke, jossa Helsingin yliopisto on mukana. Kolmivuotinen projekti kehittää menetelmiä tekstin automaattiseen tuottamiseen.

Yksi hankkeen tavoitteista on, että verkossa olevista erikielisistä uutisista olisi nykyistä helpompaa löytää tietoa riippumatta kielestä.

– Kun erikielisiä uutisia yhdistää toisiinsa, syntyy monipuolisempi kuva uutisen aiheesta. Samalla voi verrata, mitä jostakin asiasta sanotaan eri kielillä ja eri välineissä. Tavoitteena on, että informaatio tulee entistä paremmin ihmisten käyttöön, sanoo tietojenkäsittelytieteen professori Hannu Toivonen, jonka tutkimusryhmä on mukana hankkeessa.

Mukana on myös Helsingin yliopiston Svenska social- och kommunalhögskolan, joka keskittyy tutkimaan mediayritysten tarpeita.

– Tässä projektissa avautuu mielenkiintoisia mahdollisuuksia kehittää ihan uusia ratkaisuja medialle. On myös tärkeää varmistaa, että niille oikeasti on käyttöä, sanoo median ja journalismin tutkija, dosentti Carl-Gustav Lindén.

Kone jaksaa raportoida joka matsin

Monet mediatalot käyttävät uutisten automaatiota jo esimerkiksi urheilu- ja vaaliuutisissa. Kone pystyy luomaan uutisen, jos sen käytössä on määrämuotoista dataa. Esimerkiksi jääkiekko-ottelu on koneen näkökulmasta mukavan säännöllinen: siinä on kolme erää, ja lopputuloksena selvä lukumäärä maaleja.

Toivosen mukaan uutisten automatisoinnista tekee hyödyllistä se, että sen avulla samanlaisesta datasta voi tuottaa hyvin paljon uutisia. Kone voi tuottaa paikallisesta jääkiekko-ottelusta jutun, vaikka lukijoita olisi vain kourallinen. 

– Tällaisessa tapauksessa yhden uutisen yleisö voi olla pieni, mutta kun uutisia on paljon, voidaan saavuttaa iso kattavuus ja vastata erityisiin tarpeisiin, Toivonen sanoo.

Toistaiseksi automaattiuutiset ovat vaali- ja urheilu-uutisten tapaisia, datan järjestelyyn perustuvia tuotoksia. Koneen tuottamiin syvällisiin henkilökuviin ja uutisanalyyseihin on vielä matkaa, sillä näissä juttutyypeissä kielen ja asiasisältöjen variaatiota on koneelle vielä liikaa.

– Toimittajia tarvitaan edelleen. Työn luonne voi muuttua, ja mukaan tulee metatoimituksellisia elementtejä. Toimittaja voi esimerkiksi kertoa koneelle, miten minkäkin tyyppisistä asioista raportoidaan, Toivonen sanoo.

– Tämä kehitys ei välttämättä suoraan koskee kaikkia toimittajia, mutta kaikilta vaaditaan ymmärrystä siitä, minne mediamaailma on menossa ja minkälaisia avauksia uusi teknologia synnyttää, täydentää Lindén.

Luovempaa tekstiä metaforien avulla

Toivosen ryhmä keskittyy EMBEDDIA-projektissa siihen, miten kone voisi tuottaa uutisia automaattisesti mahdollisimman tehokkaasti ja monella eri kielellä. Tämä on jatkoa ryhmän aiemmalle tutkimukselle uutisten automatisoinnista.

Nykytekniikoilla kone tuottaa tekstiä esimerkiksi vaalituloksista jo varsin sujuvasti, mutta kovin elävää kieltä kone ei osaa käyttää. Sekä tekstin rakenteisiin että sanavalintoihin haetaan nyt luovuutta.

– Esimerkiksi metaforan voi ainakin jossain määrin purkaa osiin ja opettaa koneelle. Näin voimme koettaa tuottaa vähän värikkäämpää kieltä, Toivonen sanoo.

Lue lisää projektista STT:n verkkosivuilta.

Yliopistojen ja mediatalojen yhteisprojekti

Helsingin yliopisto on mukana vuonna 2019 alkavassa EMBEDDIA-tutkimushankkeessa, joka kehittää uutisten automatisointia kielirajojen yli.

Kolmivuotinen projekti saa rahoitusta Euroopan Unionin Horisontti 2020 -ohjelmasta. Helsingin yliopiston osuus rahoituksesta on noin 450 000 euroa.

EMBEDDIA-hankkeeseen osallistuu Helsingin yliopiston lisäksi viisi eurooppalaista yliopistoa. Mukana ovat myös STT ja kolme muuta media-alan yritystä.

EMBEDDIA-nimi tulee sanaupotusmalleiksi kutsutuista koneoppimismenetelmistä. Sanaupotusmalli tarkastelee sitä, minkälaisissa ympäristöissä sanat esiintyvät. Projektissa kehitettävät monikieliset sanaupotusmallit auttavat konetta löytämään yhteyksiä erikielisten tekstien välillä.