Kielipankissa: Simon Hengchen

16.9.2019
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston post doc -tutkija Simon Hengchen kertoo tekemästään tutkimuksesta Kielipankin aineistolla "Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio".

Kuka olet?

Olen Simon Hengchen, postdoc-tutkija Helsingin yliopistossa, jossa työskentelen tutkimusryhmässä COMHIS - the Helsinki Computational History group. Olen kotoisin Brysselistä, jossa olen suorittanut tohtorin tutkinnon informaatiotieteiden alalla.

Mikä on tutkimuksesi aihe?

Viime vuosina olen keskittynyt leksikaalisen semanttisen muutoksen tietokonelingvistisiin lähestymistapoihin – milloin, miten ja miksi sanojen merkitys muuttuu tai merkitykset muuttuvat. Tohtoriväitöstutkimuksessani tarkastelin merkityksen muutoksen havaitsemista, mutta viime aikoina olen siirtynyt tutkimaan lähemmin merkitysten dynamiikkaa sekä niiden mallintamiseen soveltuvia menetelmiä.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt Kielipankin kautta saatavilla olevaa Kansalliskirjaston sanomalehtiaineistojen osakorpusta Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio suomen kielen sanaupotusten opetusmateriaalina yhteistyössä Helsingin yliopiston historian tutkijoiden Jani Marjasen ja Mikko Tolosen sekä Utrechtin yliopiston Ruben Rosin kanssa kirjoitettua artikkelia varten. Aineiston avulla pystyimme mallintamaan semanttisia suhteita substantiivien välillä, joilla kuvataan kansakunnan rakentamista Suomessa ja jotka meidän oli mahdollista hakea aineistosta Korp APIn kautta. Korp API on Kielipankin tarjoama rajapinta, joka mahdollistaa tarvitsemamme annotaatioon kohdistuvat kyselyt. Tutkimiemme sanojen välisten semanttisten suhteiden avulla pystyimme kuvaamaan käsitettä 'valtio' suomalaisissa sanomalehdissä. Työ tehtiin NewsEye-projektissa, joka on saanut rahoitusta Euroopan unionin tutkimuksen ja innovoinnin puiteohjelmasta Horizon 2020.

Aineistoon liittyviä julkaisuja

HENGCHEN, S., ROS, R., and MARJANEN, J. (2019). A data-driven approach to the changing vocabulary of the ‘nation’ in English, Dutch, Swedish and Finnish newspapers, 1750-1950. In Proceedings of the Digital Humanities (DH) conference 2019, Utrecht, The Netherlands.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.