Kasvavat datamassat voivat jättää tietokoneet jälkeensä ja aiheuttaa energiakriisin

Tuore professori Keijo Heljanko kouluttaa tulevaisuuden datanhallinnan asiantuntijoita. Mitä tehdä, kun tietokoneiden suorituskyky ei enää kasva, mutta dataa on enemmän kuin koskaan?

Keijo Heljankoa on odotettu. Hän aloitti syyskuussa rinnakkaisen ja hajautetun datatieteen professorina ja Helsinki Centre for Data Science -tutkimuskeskuksen (HiDATA) varajohtajana. Hän on rinnakkaisen ja hajautetun laskennan harvoja huippuasiantuntijoita Suomessa, ja kasvavien datamassojen aikana alan osaajien tarve ei ainakaan vähene.

Heljangon ala avautuu parhaiten sen kautta, miten se näkyy tavalliselle ihmiselle: toimivina Google-hakuina, sujuvana Youtuben ja Netflixin tuijotuksena ja sosiaalisen median käyttökokemuksena.

Näiden valtavien verkkopalveluiden taustalla suurissa palvelinkeskuksissa raksuttaa massiivinen määrä tietokoneita, jotka prosessoivat valtavia datamassoja. Entisissä tehdashalleissa tietokonerivistöt tekevät niin kutsuttua rinnakkaislaskentaa. Sitä tarvitaan silloin, kun datamäärät ovat niin suuria, etteivät ne mahdu yhden tietokoneen muistiin, eikä yhden koneen nopeus enää riitä datamassojen analyysiin.

Heljanko kiinnostui massadatan hallinnasta aikanaan siksi, että se on haastavaa ja vaatii erilaisia tekniikoita kuin laskenta yhdellä tietokoneella.

– Yhdellä tietokoneella ei olisi mahdollista edes ajatella luovansa esimerkiksi Googlen kaltaista hakukonetta, sillä maailmassa ei ole niin suurta tietokonetta, että se pystyisi indeksoimaan koko internetin ja tekemään siitä helposti haettavan, Heljanko sanoo.

Työmahdollisuuksia riittää

Yksi Heljangon tehtävistä yliopistolla on kouluttaa tulevaisuuden datanhallinnan asiantuntijoita. Opiskelijat voivat päätyä esimerkiksi suurille verkkopalveluntarjoajille tutkimaan, miten datavirtoja voi prosessoida yhä tehokkaammin. Käytännössä tämä voi tarkoittaa esimerkiksi hakukoneen kustannusten pienenemistä, kun laskentakapasiteettia säästyy.

– Data-analytiikkaan ja big datan prosessointiin liittyviä töitä on muissakin kuin vain isoissa verkkofirmoissa. Tulevaisuuden työ voi löytyä myös genetiikasta tai sosiaalisen median analysoinnista eli oikeastaan mistä tahansa, missä käsiteltävät datamäärät ovat suuria, Heljanko sanoo.

Jotta uutta voi luoda, pitää aloittaa perusasioista. Heljangon mielestä opiskelijoiden on tärkeää tietää, miten heidän joka päivä käyttämänsä verkkopalvelut toimivat, jotta he itse pystyvät tekemään vastaavia innovaatioita.

– Opetamme tekniikkaa, jota näiden verkkopalveluiden takana on sekä sitä, miten se toimii suuressa mittakaavassa. Jos ei ole koskaan kuullut, miten Google tai Facebook toimivat, on vaikea tehdä samanlaisia sovelluksia omassa autotallissa, Heljanko sanoo.

Tarjolla nopeaa laskentaa rajojen yli

Heljanko tuli Helsingin yliopistolle Aalto-yliopistosta, jossa hän johti rinnakkaisen laskennan tutkimusryhmää. Ryhmäkin siirtyy syksyn aikana Helsingin yliopistolle, jossa yhteistyötä on mahdollista laajentaa uusille alueille.

– Tällä hetkellä teemme yhteistyötä muun muassa genomiikan tutkijoiden kanssa, mutta laajennan mielelläni repertuaaria myös muihin tieteisiin, joilla on haasteita isojen datamassojen prosessoinnin kanssa, Heljanko sanoo.

Fysiikan rajat tulossa vastaan

Moni tulevaisuuden datanhallinnan kysymys tiivistyy siihen, miten pärjäämme yhä kasvavien tietomäärien kanssa. Kerättävän datan määrä lisääntyy koko ajan, mutta yksittäisten tietokoneiden laskentaytimien suorituskyky ei enää juurikaan parane. Tehdashallien konerivistöt kasvavat siis tulevaisuudessakin.

Rinnakkaislaskentaankin on silti löydettävä uudenlaisia tapoja, sillä kun dataa työstävien koneiden määrä kasvaa, myös energiankulutus nousee.

– Tarvitsemme lisää laskentayksiköitä, jotka pystyvät samaan kuin perinteiset, mutta toimivat pienemmällä määrällä energiaa, Heljanko sanoo.

Laskennan ammattilaisten pitää ratkaista tulevaisuudessa myös se, miten luoda karttoja, joiden avulla automatisoidut autot pystyvät ajamaan turvallisesti. Jotta tietyöt, liikenneonnettomuudet ja muut poikkeustilanteet muuttuvat ajoneuvolle ymmärrettäväksi tiedoksi, pilvessä pitää olla infrastruktuuri, joka pystyy pitämään yllä kokonaiskuvaa maailmasta.

– Kaikki tämä tarvitsee lisää laskentatehoa, eli haasteista meillä ei seuraavien vuosikymmenten aikana ole pulaa.