Suomen tekoälykeskuksen FCAI:n tutkijat Helsingin yliopistossa ja Aalto-yliopistossa ovat selvittäneet hyvin tarkasti, kuinka paljon yksityisyyttä käyttäjille jää, kun heidän dataansa käytetään erityisen yksityisyyttä säilyttävän koneoppimismallin, kuten neuroverkon, kouluttamiseen.
Uusi algoritmi perustuu differentiaaliseksi tietosuojaksi kutsuttuun lähestymistapaan. Differentiaalinen tietosuoja on yksi teknologioista, joiden MIT Technology Review ennusti vuonna 2020 tulevan muuttamaan tapaamme elää.
"Differentiaalista tietosuojaa käytetään muun muassa varmistamaan, että Googlen ja Applen kehittämät arkaluontoisia tietoja käyttävät tekoälyjärjestelmät eivät voi paljastaa arkaluontoisia tietoja. Sitä käytetään myös Yhdysvaltain vuoden 2020 väestölaskennassa takaamaan julkaistujen tietojen yksityisyys", kertoo Helsingin yliopiston apulaisprofessori Antti Honkela.
Lähes täydellisen tarkkaa tietosuojan kirjanpitoa
Yksityisyyttä turvaavat algoritmit lisäävät tulokseen satunnaisuutta tietosuojan varmistamiseksi. FCAI:n tutkijat ovat onnistuneet ensimmäistä kertaa määrittelemään tarkasti, kuinka vahvan yksityisyyden suojan tietyn tasoinen satunnaistus tarjoaa jopa hyvin monimutkaisissa algoritmeissa.
"Mitä vahvempi satunnaistus, sitä vahvemmiksi yksityisyystakeet yleensä kasvavat, mutta sen arvioiminen, kuinka yksityinen tietty algoritmi todella on, voi olla vaikeaa. Tarkka arviointi on erityisen vaikeaa monimutkaisille algoritmeille, kuten neuroverkon opetukselle, ja tämä edellyttää niin sanotun tietosuojan kirjanpitoalgoritmin käyttöä ”, sanoo Helsingin yliopiston tutkijatohtori Antti Koskela.
FCAI:n tutkijat ovat kehittäneet uuden lähes täydellisen tarkan tietosuojan kirjanpitoalgoritmin. Algoritmi tuottaa todistettavat ylä- ja alarajat todelliselle yksityisyyden menetykselle.
”Uusi algoritmi mahdollistaa vahvempien yksityisyystakeiden osoittamisen samalle tulokselle kuin aiemmin. Käänteisesti ajatellen, näin voimme vähentää satunnaisuutta ja saada tarkempia tuloksia vastaavilla yksityisyystakeilla kuin aikaisemmin”, Koskela sanoo.
Tulokset mahdollistavat esimerkiksi koneoppimismallien kouluttamisen siten, että jokaiseen datan luovuttajaan kohdistuva tietosuojariski voidaan arvioida tarkasti. Tällä on valtava vaikutus koneoppimisen ja tekoälyn luotettavuuden parantamiseen.
Uusi algoritmi tarjoaa parhaan saavutettavissa olevan arvion tietosuojariskeistä differentiaalisen tietosuojan mallissa. Viimeaikaiset tutkimukset viittaavat siihen, että tämä antaa tarkan kuvan siitä, kuinka paljon yksityistä tietoa julkaistuista tuloksista kuten tekoälymallista olisi pahimmillaan mahdollista saada selville.
Lisätutkimuksia tarvitaan näiden mahdollisesti pessimististen arvioiden laajentamiseksi realistisempiin tilanteisiin. Lisäksi käyttämällä uusia tarkempia arvioita yksityisyystakeista voidaan erilaisia yksityisyyttä säilyttäviä koneoppimisalgoritmeja verrata tarkemmin, koska yksityisyystakeiden tarkkuus ei enää vaikuta
vertailuihin.
Tutkimus julkaistaan kansainvälisessä International Conference on Artificial Intelligence and Statistics (AISTATS) -konferenssissa huhtikuussa 2021.
Artikkeli:
Antti Koskela, Joonas Jälkö, Lukas Prediger, Antti Honkela. Tight Differential Privacy for Discrete-Valued Mechanisms and for the Subsampled Gaussian Mechanism Using FFT. Proceedings of The 24th International Conference on Artificial Intelligence and Statistics.
Lisätiedot:
Antti Honkela
Apulaisprofessori, tietojenkäsittelytieteen osato, Helsingin yliopisto
antti.honkela@helsinki.fi
+358 50 311 2483
Antti Koskela
Tutkijatohtori, tietojenkäsittelytieteen osato, Helsingin yliopisto
antti.h.koskela@helsinki.fi
Suomen tekoälykeskus FCAI on valtakunnallinen tekoälyn osaamiskeskus, jonka ovat käynnistäneet Aalto-yliopisto, Helsingin yliopisto ja Teknologian tutkimuskeskus VTT. FCAI:n tavoitteena on kehittää uudenlaista tekoälyä, joka voi toimia ihmisen kanssa monimutkaisessa ympäristössä ja auttaa uudistamaan suomalaista teollisuutta. FCAI on yksi Suomen Akatemian kuudesta lippulaivasta.