Miten venäläinen avoin data taipuu tutkimuskäyttöön?

4.4.2019
Julkishallinnon tietovarantojen avaamisesta on tullut maailmanlaajuisesti yleistä. Tietovarantojen avaamisella voidaan pyrkiä läpinäkyvyyteen ja toimivampaan demokratiaan sekä mahdollistaa uudenlaisia palveluinnovaatioita. Venäjällä hallintoviranomaisten on jo vuodesta 2012 pitänyt julkistaa keräämäänsä dataa. Mitä tämä tarkoittaa käytännössä, ja miten määräystä on noudatettu?

Venäjän presidentin määräys julkisen hallinnon datan avoimesta julkaisusta astui voimaan heinäkuussa 2012. Kuusi vuotta myöhemmin, vuonna 2018, Helsingin yliopiston Digital Russia Studies -ryhmä päätti selvittää, mihin määräys oli johtanut. Miten paljon ja minkälaista dataa viranomaisten julkisista portaaleista löytyi? Selvityshankkeen toinen tavoite oli järjestää ja kuvailla saatavilla olevaa dataa ja tukea tutkijoita sen käytössä.

Hankkeen toteuttajaksi valittiin tutkimusavustaja Ilona Repponen.

— Poimimme selvitykseen 75 venäläistä hallinnollista ja toimeenpanevaa elintä, joihin kuului niin ministeriöitä ja liittovaltion toimijoita kuin hallituksen alaisia rahastojakin, kertoo Repponen. Tarkoituksena oli luoda kokonaiskuvan dataportaalien luonteesta ja jäsentää niiden sisältöä linkitettyyn ontologiaan.

Dataa kerättiin keskenään hyvin erilaisista portaaleista ja erilaisissa formaateissa. Huolellista strukturointia varten se taulukoitiin ja analysoitiin käsin, ja menetelmän soveltuvuus erilaisten tietovarantojen kuvaamiseen pyrittiin varmistamaan. Nyt luotua ontologiaa pystytään siis jatkossa hyödyntämään uusien aineistojen järjestämiseen ja kuvailuun.

Datan strukturointi paljastaa sisällön ja säästää aikaa

Data-aineiston strukturointi ja kuvailu on sen tutkimuskäytön kannalta olennaista. Hyödyllistä metadataa voi olla esimerkiksi tieto dataa julkaisevan organisaation tyypistä, tietovarantojen määrästä, tiedostomuodoista ja käsitteistä, joilla dataa on kuvailtu. Metadata tarjoaa tutkijoille mahdollisuuden päätellä tietovarantojen käyttökelpoisuus pintapuolisesti heti kättelyssä ja säästää aikaa ja hermoja syvällisempään analyysiin.

Sillä hermoja todella koeteltiin, kun tarjolla olevia aineistoja tarkasteltiin lähemmin. Se, mikä aluksi näytti valtaisalta määrältä mielenkiintoista dataa, paljastui nopeasti hyvin epätasalaatuiseksi sekamelskaksi. Portaaleissa oli tarjolla keskimäärin 49 erillistä datakokonaisuutta, joukossa niin määrällisiä kuin laadullisiakin kokonaisuuksia. Mutta millaista dataa ne tarkalleen ottaen sisälsivät ja miten dataan pääsisi käsiksi?

— Aika pian kävi selväksi, että kaikkein yleisin sisältö liittyi organisaation hallintoon. Dataportaaleissa julkaistaan esimerkiksi organisaation henkilökunnan yhteystietoja, siis tietoa, joka joka tapauksessa olisi sivuilta löydettävissä muutenkin. Näin organisaatiot pystyvät täyttämään 2012 annetun määräyksen minimivaatimukset,  Repponen kertoo.

Yhteystiedot eivät ole erityisen hyödyllistä materiaalia tutkimuksen kannalta. Päinvastoin, tällaisen triviaalin datan tulva uhkaa hukuttaa alleen uraansa aloittelevan digihumanistin. Kenellä riittää aikaa ja uskoa etsiä potentiaalista neulaa digitaalisesta heinäsuovasta?  Juuri tätä varten selvityksen ohessa kehitettiin linkitetty ontologia.

— Latasin aineistot koneelleni, analysoin ne ja järjestin ne 37 käsitteen alle noudatellen olemassaolevia käsiteontologioita kuten FINTO (Kansalliskirjaston ylläpitämä palvelu Finnish thesaurus and ontology), Repponen kuvailee. Osa käsitteistä on itsenäisiä, osa hierarkkisia.

Käsitteiden joukkoon kuuluu edellämainitun 'hallinnon' (Administration) lisäksi esimerkiksi 'maa-, metsä ja kalatalous', "taide, kulttuuri ja kulttuuriperintö", 'liike-elämä', 'koulutus', 'energia' ja 'tapahtumat'. Varsinaiset aineistot puolestaan voivat sisältää esimerkiksi virallisten dokumenttien rekisterejä sekä erilaisia tilastoja. Joukossa on myös humanisteja ja yhteiskuntatieteilijöitä potentiaalisesti kiinnostavia aineistoja. Kulttuuriministeriö tarjoaa luetteloja patrioottisesta musiikista sekä elokuvien levitystietoja, kun taas valtion rautateistä vastaava viranomainen julkaisee tietoja sen työntekijöiden keskipalkasta. Kaikki julkaistu data ei siis suinkaan ole yhdentekevää, vaan monet organisaatiot näkevät vaivaa täyttääkseen myös presidentin määräyksen hengen, eivät pelkkää kirjainta.

Rohkaisevaa käyttäjäystävällisyyttä

Suurin osa julkaistusta datasta on julkaistu yksinkertaisessa ja käyttäjäystävällisessä muodossa.

— Minua ilahdutti, että kaikkein yleisin julkaisuformaatti oli CSV (comma separated value), huomauttaa Repponen. Se on formaatti, jota pystyy hyvin käsittelemään ihan perustoimisto-ohjelmilla. Jos dataa julkaistaan vaikkapa JSON-muodossa, moni (humanisti)tutkija perääntyy teknisten vaatimusten edessä.

Jotkut julkiset toimijat Venäjällä ovat käytettävyyden nimissä liittäneet tietovarantojensa yhteyteen luettelon saatavilla olevasta datasta tai jopa hakukoneen. Vielä on liian aikaista sanoa, yleistyykö tällainen toiminta. Avataanko tulevaisuudessa yhä uutta dataa ja pysyvätkö nyt julkaistut aineistot ajan tasalla? Kehitetäänkö käyttömahdollisuuksia ja ohjeistusta?

Tutkijoiden datalukutaidon kehittäminen on joka tapauksessa välttämätöntä.

Ilona Repposen luoma ontologia linkkeineen ja metadatoineen on julkaistu Linked Data Finland -verkkosivuilla.
Projektista voi lukea lisää Digital Russia Studies -verkkosivuilta.