Koneellista arviointia opetetaan 18 ihmisarvioijan voimin 

Joulukuussa 2020 arvioitiin yli 2000 ruotsin puhenäytettä. Aineistosta tehdään monitieteellistä tutkimusta, jonka tarkoituksena on kehittää automaattista arviointityökalua.

DigiTala-projektin päätavoite on kehittää automaattista puheentunnistusta hyödyntävä digitaalinen apuväline suullisen kielitaidon arviointiin. Jotta tekoäly voi toimia ihmisen apuna arvioinnissa, sitä pitää opettaa tarkoituksenmukaisella aineistolla. Asiantuntijoiden arviot puhenäytteistä ovat tärkeä osa opetusaineistoa.

Joulukuussa 18 asiantuntijaa arvioivat reilut 2000 puhesuoritusta, joissa kielenoppijat vastasivat lyhyisiin reagointitehtäviin. Puheaineisto oli kerätty DigiTalan ensimmäisessä vaiheessa 2015–2017 lukiolaisilta, jotka opiskelivat ruotsia toisena kotimaisena kielenä. 

Kokeneet asiantuntijat arvioivat puhenäytteitä Moodlessa

Suurin osa asiantuntijoista rekrytoitiin Yleisten kielitutkintojen ruotsin arvioijien joukosta. Lisäksi arviointeihin osallistui ruotsinopettajina työskenteleviä. Myös DigiTala-projektissa työskentelevät neljä ruotsin kielen asiantuntijaa arvioivat puhenäytteitä.

Jaoimme puhenäytteet ihmisarvioijille niin, että arvioinnit linkittyivät toisiinsa. Systemaattiset päällekkäisyydet mahdollistavat arviointien laadun ja arvioijien välisen yksimielisyyden tutkimisen jälkikäteen. Jokainen rekrytoitu asiantuntija arvioi keskimäärin 280 äänitettä.

Arvioijat työskentelivät Moodle-kurssialustalle luodussa ympäristössä, josta löytyivät arvioitavat puhenäytteet. Kurssialustalla oli saatavilla myös arviointiohjeet ja -kriteerit sekä esimerkkisuorituksia eri taitotasoilta (A1–B2). Nämä niin sanotut maamerkit auttavat arvioijia työssään, sillä arvioitavaa näytettä voi verrata maamerkkiin.

Jokaiselle äänitteelle taitotason lisäksi analyyttinen arvio

Arviointikriteerit koostuivat holistisesta taitotasoarviosta (alle A1-C1) ja viidestä analyyttisestä kriteeristä. Taitotasokriteerit luotiin aiemman lukion opetussuunnitelman (LOPS2003) pohjalta. Siinä kuvataan puhumista tavalla, joka sopii paremmin kieliteknologiaa ja kielitaidon arviointia koskevaan hankkeeseemme.

Nykyisen opetussuunnitelman (LOPS2015) vahvuus on vuorovaikutuksellisuudessa. Molemmat opetussuunnitelmat ovat suomalaisia sovelluksia Eurooppalaisesta viitekehyksestä (EVK 2003). 

Analyyttiset kriteerit muotoutuivat projektimme tavoitteiden pohjalta. Hankkeessa keskitytään erityisesti toisen ja vieraan kielen ääntämisen, sanaston, kieliopin ja sujuvuuden arviointiin.

Arvioijat koulutettiin Zoomissa

Ennen Moodle-arviointeja asiantuntijoille järjestettiin etäkoulutus Zoomissa. Reilun tunnin mittaisessa koulutuksessa keskusteltiin arviointiohjeista ja -kriteereistä. Ohjeiden ja kriteerien avulla arvioijat pisteyttivät anonyymisti esimerkkiäänitteitä, minkä jälkeen arviointituloksista keskusteltiin yhdessä. Koulutuksella tavoiteltiin mahdollisimman luotettavaa ja yhdenmukaista ihmisarviointia.

Puhenäytteiden arvioinnin – eli Moodle-tentin suorittamisen – jälkeen arvioijat vastasivat kyselyyn. Kyselyvastaukset ja arvioijilta saatu palaute ovat tärkeitä sekä koetehtävien että arviointikriteerien kehittämisessä. 

Lisätietoa puhenäytteiden arvioinnista: anna.vonzansen@helsinki.fi

15.3.2021

Heini Kallio, Anna von Zansen

Uutinen

Ihmisten teknologia

Jaa tämä uutinen

Uutiskirje

Koneellista arviointia opetetaan 18 ihmisarvioijan voimin

Kokeneet asiantuntijat arvioivat puhenäytteitä Moodlessa

Jokaiselle äänitteelle taitotason lisäksi analyyttinen arvio

Arvioijat koulutettiin Zoomissa

Koneellista arviointia opetetaan 18 ihmisarvioijan voimin