Koneellista arviointia opetetaan 18 ihmisarvioijan voimin 

15.3.2021
Joulukuussa 2020 arvioitiin yli 2000 ruotsin puhenäytettä. Aineistosta tehdään monitieteellistä tutkimusta, jonka tarkoituksena on kehittää automaattista arviointityökalua.

DigiTala-projektin päätavoite on kehittää automaattista puheentunnistusta hyödyntävä digitaalinen apuväline suullisen kielitaidon arviointiin. Jotta tekoäly voi toimia ihmisen apuna arvioinnissa, sitä pitää opettaa tarkoituksenmukaisella aineistolla. Asiantuntijoiden arviot puhenäytteistä ovat tärkeä osa opetusaineistoa.  

Joulukuussa 18 asiantuntijaa arvioivat reilut 2000 puhesuoritusta, joissa kielenoppijat vastasivat lyhyisiin reagointitehtäviin. Puheaineisto oli kerätty DigiTalan ensimmäisessä vaiheessa 2015–2017 lukiolaisilta, jotka opiskelivat ruotsia toisena kotimaisena kielenä.  

Kokeneet asiantuntijat arvioivat puhenäytteitä Moodlessa 

Suurin osa asiantuntijoista rekrytoitiin Yleisten kielitutkintojen ruotsin arvioijien joukosta. Lisäksi arviointeihin osallistui ruotsinopettajina työskenteleviä. Myös DigiTala-projektissa työskentelevät neljä ruotsin kielen asiantuntijaa arvioivat puhenäytteitä.  

Jaoimme puhenäytteet ihmisarvioijille niin, että arvioinnit linkittyivät toisiinsa. Systemaattiset päällekkäisyydet mahdollistavat arviointien laadun ja arvioijien välisen yksimielisyyden tutkimisen jälkikäteen. Jokainen rekrytoitu asiantuntija arvioi keskimäärin 280 äänitettä.  

Arvioijat työskentelivät Moodle-kurssialustalle luodussa ympäristössä, josta löytyivät arvioitavat puhenäytteet. Kurssialustalla oli saatavilla myös arviointiohjeet ja -kriteerit sekä esimerkkisuorituksia eri taitotasoilta (A1–B2). Nämä niin sanotut maamerkit auttavat arvioijia työssään, sillä arvioitavaa näytettä voi verrata maamerkkiin.  

Jokaiselle äänitteelle taitotason lisäksi analyyttinen arvio 

Arviointikriteerit koostuivat holistisesta taitotasoarviosta (alle A1-C1) ja viidestä analyyttisestä kriteeristä. Taitotasokriteerit luotiin aiemman lukion opetussuunnitelman (LOPS2003) pohjalta. Siinä kuvataan puhumista tavalla, joka sopii paremmin kieliteknologiaa ja kielitaidon arviointia koskevaan hankkeeseemme. 

Nykyisen opetussuunnitelman (LOPS2015) vahvuus on vuorovaikutuksellisuudessa. Molemmat opetussuunnitelmat ovat suomalaisia sovelluksia Eurooppalaisesta viitekehyksestä (EVK 2003).  

Analyyttiset kriteerit muotoutuivat projektimme tavoitteiden pohjalta. Hankkeessa keskitytään erityisesti toisen ja vieraan kielen ääntämisen, sanaston, kieliopin ja sujuvuuden arviointiin.  

Arvioijat koulutettiin Zoomissa 

Ennen Moodle-arviointeja asiantuntijoille järjestettiin etäkoulutus Zoomissa. Reilun tunnin mittaisessa koulutuksessa keskusteltiin arviointiohjeista ja -kriteereistä. Ohjeiden ja kriteerien avulla arvioijat pisteyttivät anonyymisti esimerkkiäänitteitä, minkä jälkeen arviointituloksista keskusteltiin yhdessä. Koulutuksella tavoiteltiin mahdollisimman luotettavaa ja yhdenmukaista ihmisarviointia. 

Puhenäytteiden arvioinnin – eli Moodle-tentin suorittamisen – jälkeen arvioijat vastasivat kyselyyn. Kyselyvastaukset ja arvioijilta saatu palaute ovat tärkeitä sekä koetehtävien että arviointikriteerien kehittämisessä.  

Lisätietoa puhenäytteiden arvioinnista: anna.vonzansen@helsinki.fi