Kielipankissa: Okko Räsänen

18.8.2021
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Okko Räsänen kertoo lapsen puheenkehityksen laskennalliseen mallintamiseen liittyvistä tutkimuksistaan.

Kuka olet?

Olen Okko Räsänen, tenure track -professori ja akatemiatutkija Tampereen yliopistossa tietotekniikan yksikössä, jossa johdan Puheen ja kognition tutkimusryhmää. Ennen siirtymistäni Tampereelle työskentelin pitkään Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella, jossa toimin edelleen puheenkäsittelyn dosenttina.

Mikä on tutkimuksesi aihe?

Tutkimukseni päälinja keskittyy lapsen varhaisen kielenoppimisen laskennalliseen mallinnukseen sekä lapsen kuuleman puheen tutkimukseen. Tavoitteena on ymmärtää kielenoppimisen taustalla olevia informaationkäsittelyn periaatteita: mitä kaikkea puhesignaalille täytyy tapahtua ihmisen aivoissa tai miten sitä olisi käsiteltävä tekoälyjärjestelmissä, jotta puheen sisältöä voidaan oppia ymmärtämään? Tutkimme esimerkiksi sitä, minkälaisia kielen rakenteita puheesta ja muusta lapsille tarjolla olevasta aisti-informaatiosta on omaksuttavissa kieliriippumattomalla tavalla, ja toisaalta sitä, mitä oppimismekanismeja ja ennakko-oletuksia malleihin on sisällytettävä, jotta oppiminen voi onnistua. Taustalla on myös kysymys siitä, millaista kielisyötettä ja muuta moniaistista informaatiota lapset ylipäätään kuulevat ja havaitsevat varhaisen kielenkehityksensä aikana, ja missä määrin puheen määrä, laatu ja moniaistisuus tukevat kielen rakenteiden (esim. äänteiden ja sanojen) omaksumista.

Jotta voisimme paremmin ymmärtää lasten kuuleman puheen ominaisuuksia, olemme laskennallisten mallien lisäksi kehittäneet myös käytännön analyysityökaluja suurten lapsikeskeisten ääniaineistojen automaattiseen analyysiin. Kyseiset aineistot koostuvat tyypillisesti päivän mittaisista nauhoituksista, jotka on tallennettu päälle puettavia mikrofoneja käyttäen lasten luonnollisissa ääni- ja kieliympäristöissä. Esimerkiksi äskettäin päättyneessä kansainvälisessä yhteistyöhankkeessa Analyzing Child Language Experiences around the World analysoimme noin 14 000 tunnin edestä lapsikeskeisiä ääniaineistoja, joiden avulla kartoitimme lasten varhaisia kielikokemuksia erilaisissa kieli- ja kulttuuriympäristöissä. Seuraavana tavoitteenamme on jatkojalostaa nämä analyysit julkaisuiksi asti.

Kielenoppimisen laskennallinen tutkimus on monitieteistä ja kiinnostavaa mutta toisaalta haastavaakin työtä. Puhesignaalien kanssa toimiminen ja ihmisen oppimisprosessien mallintaminen vaatii signaalinkäsittelyn ja koneoppimisen menetelmien syvällistä hallintaa. Samalla täytyy kuitenkin ymmärtää fonetiikkaa, varhaista kielenkehitystä ja ihmisen kognition toimintaa, jotta mallit ja menetelmät voidaan sovittaa yhteen kielenkehityksen tutkimuksen ja empiirisen datan kanssa.

Kielenoppimisen tutkimuksen ohella tutkimusryhmäni kehittää erilaisia puheen analyysimenetelmiä, kuten puhujan terveydentilan ja tunnetilojen arviointia puheen perusteella. Ryhmäni on myös mukana kehittämässä vauvojen älyvaatteita aivojen ja motoriikan kehityksen kliinistä arviointia ja seurantaa varten (osana Suomen akatemian Tieteellä terveyteen -tutkimusohjelmaa). Työskentelen monien muidenkin puheteknologian, kognitiotieteen, ja koneoppimiseen pohjautuvan signaalianalytiikan teemojen parissa, sillä usein puheteknologiassa käytetyt signaalinkäsittelyn ja koneoppimisen menetelmät soveltuvat lähes sellaisinaan hyvin monenlaisen aikasarjadatan käsittelyyn.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt tutkimuksessani Kielipankkiin tulossa olevaa FinDialogue-korpusta ja moni muukin Kielipankin aineisto on minulle ennalta tuttu. Odotan innolla Lahjoita puhetta –kampanjassa kerätyn puheaineiston julkaisua. Mielestäni Kielipankki on myös varteenotettava julkaisukanava mahdollisille uusille aineistoille, joita tutkimuksemme saattaa tulevaisuudessa tuottaa.

Kielipankkiin liittyviä julkaisuja

Khorrami, K. & Räsänen, O. (2021). Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? – A computational investigation. Language Development Research.

Räsänen, O., Seshadri, S., Lavechin, M., Cristia, A., & Casillas, M. (2021). ALICE: An open-source tool for automatic measurement of phoneme, syllable, and word counts from child-centered daylong recordings. Behavior Research Methods, 53,  818–835.

Räsänen, O., Doyle, G., & Frank, M. C. (2018). Pre-linguistic segmentation of speech into syllable-like units. Cognition, 171, 130–150.

Kakouros, S., Salminen, N. & Räsänen, O. (2018). Making predictable unpredictable with style — Behavioral and electrophysiological evidence for the critical role of prosodic expectations in the perception of prominence in speech. Neuropsychologia, 109, 181–199.

Räsänen, O., Kakouros, S. & Soderstrom, M. (2018). Is infant-directed speech interesting because it is surprising? — Linking properties of IDS to statistical learning and attention at the prosodic level. Cognition, 178, 193–206.

Rasilo H. & Räsänen O. (2017). An online model of vowel imitation learning. Speech Communication, 86, 1–23.

Räsänen, O. & Rasilo, H. (2015). A joint model of word segmentation and meaning acquisition through cross-situational learning. Psychological Review, 122(4), 792–829.

Lisätietoa aineistoista Kielipankissa

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.