Tietoaineistojen lisääntymisen ja avaamisen haasteet
Transcription
Tietoaineistojen lisääntymisen ja avaamisen haasteet
Tietoaineistojen lisääntymisen ja avaamisen haasteet kansalaisten anonymiteetille Kirjoittanut: Ville Aula Korkeakouluharjoittelija Viestintäpolitiikan osasto Liikenne- ja viestintäministeriö Jatkuvasti laajenevat tietoaineistot ja kehittyvät data-analyysin menetelmät luovat uusia riskejä kansalaisten yksityisyydensuojan heikentymiselle. Tutkimuskirjallisuuden valossa aiemmat käsitykset aineistojen anonymiteetistä ovat murroksessa. 2000-luvulla syntyneet ilmiöt ja ajattelumallit, kuten big, avoin ja my data, koettelevat yksityisyydensuojan ja anonymiteetin määritelmiä ja asettavat paineita sekä lainsäädännölle että kansalaisten oikeusturvalle. Tässä selvityksessä esitellään keskeisimmät tietoaineistojen anonymiteettiin ja sen murtamisen menetelmiä sekä niistä johtuvia yksityisyydensuojan, lainsäädännön ja aineistojen käytön ongelmakohtia. Selvityksen yhteydessä kysyttiin tietojenkäsittelytieteen asiantuntijoilta näkemyksiä aiheesta lähettämällä kysely tietojenkäsittelytieteen tutkimusta ja opetusta tekeville korkeakouluille. Aiemman tutkimuksen ja asiantuntijoiden kommenttien perusteella esitetään tarpeita ja toimenpiteitä 1 Big, avoin ja my data Erilaisten digitaalisten tietoaineistojen määrä on 2000-luvulla kasvanut valtaisalla nopeudella. Big datalla tarkoitetaan tietoaineistojen määrän ja tuotantonopeuden nopeaan lisääntymiseen ja aineistojen vaihtelevuudelle pohjautuvaa uutta tilannetta. Käsite ei kuvaa mitään yksittäistä tietoaineistotyyppiä, vaan digitaalisen yhteiskunnan kehityksen myötä syntynyttä tiedon ja sen hyödyntämisen uutta luonnetta. (Liikenne- ja viestintäministeriö 2013, 3–4). Olennaista big datan ja henkilöitä koskevien tietojen suhteessa on tietoaineistojen jatkuva ja ”tahaton” muodostuminen: digitaalisten palveluiden käyttäminen väistämättä tuottaa käyttäjiä koskevaa tietoa palveluiden tarjoajille, jolloin on helppoa myös muodostaa näistä tiedoista yhtenäisiä tietoaineistoja. Tämä koskee myös julkisia palveluita, sillä sähköisten palveluiden määrä kasvaa jatkuvasti. Julkishallinnon ennestään laajojen kansalaisia koskevien tietoaineistojen lisäksi viranomaisten on mahdollista kerätä yhä laajempaa ja monipuolisempaa tietoa käyttäjistään. Avoimella datalla tarkoitetaan ajattelutapaa, jossa tietoaineistojen julkiseen jakamiseen suhtaudutaan aiempaa avoimemmin ja pyrkimyksenä on jakaa julkisia tietoaineistoja laajempaan käyttöön. Tietoaineistot ovat yhä vahvemmin liike- ja kansalaistoiminnan resursseja, joiden käyttöä pyritään lisäämään. Julkinen sektori on sitoutunut avaamaan yhä useampia aineistojaan julkiseen käyttöön nopeuttaakseen tietoaineistojen ympärille kehittyviä toiminnan muotoja. 1 (Valtioneuvosto 2011) Tietoaineistojen jakamisessa tulee noudattaa asiaankuuluvaa lainsäädäntöä, mikä erityisesti kansalaisia koskevassa tiedossa tarkoittaa yksityisyydensuojan huomiointia. Tiedon tulee olla anonyymia eivätkä aineistot saa olla sellaisia, että aineistot voidaan suoraan yhdistää yksittäisiin kansalaisiin. Avoin data ei rajoitu vain julkisen sektorin ajattelutavaksi, vaan myös monet yksityiset yritykset ovat julkistaneet tietoaineistojaan erilaisia tarkoitusperiä varten. Big ja avoin data -ajattelutapojen myötä ovat myös yksilöiden omat oikeudet heitä koskeviin tietoihin alkaneet korostua. Kansalaisten oikeutta heitä koskevien julkisten ja yksityisten tietoaineistojen hallinnointiin ja käytöstä päättämiseen kutsutaan my data -ajatteluksi. My datan tarkoittama itseä koskevasta tiedosta päättäminen sisältää sekä tietojen käytön kieltämisen että niiden jakamisen. Ajattelutavan mukaan yksilöillä tulisi olla oikeus määrätä mihin häntä koskevaa dataa käytetään, mutta toisaalta myös tarjota sitä haluamiensa tahojen käyttöön. (Poikkola, Kuikkaniemi & Kuittinen 2014) Big ja avoimen datan myötä muuttuneet käsityksiä tiedon uudesta luonteesta ja käyttötarkoituksista ei my data -ajattelussa mielletä kielteisiksi, vaikka niiden yhdistelmään liittyykin ongelmia. Ajattelutapa voidaankin nähdä yksilölähtöisyyttä korostavana lähestymistapana 2010-luvun uuteen tietokäsitykseen, minkä vastakohtana ovat yritysten ja yhteisöjen roolia datan omistajana painottavat lähestymistavat. 2 Henkilötietojen luottamuksellisuus ja tunnistettavuuden määritelmät Suomen Perustuslain 10 §:ssä turvataan jokaisen yksityiselämä. Tätä toteutetaan henkilötietolailla (523/1999), jonka 3 §:ssä henkilötiedoilla tarkoitetaan kaikenlaisia henkilöä taikka hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi. Näiden tietojen käsittelyssä tulee noudattaa huolellisuutta. Euroopan unionin tietosuojadirektiivin (95/46/eY), jota Suomen henkilötietolaki toteuttaa, toisessa artiklassa henkilötiedot määritellään henkilön tunnistettavuuden kautta. Henkilön katsotaan olevan tunnistettavissa yhden tai useamman hänelle tunnusomaisen fyysisen, fysiologisen, psyykkisen, taloudellisen, kulttuurillisen tai sosiaalisen tekijän perusteella. Koska yksityiselämää koskeva tieto on luottamuksellista ja henkilökohtaisten tietojen julkinen jakaminen lain vastaista, on tunnistamisen ja anonymiteetin keskiössä mahdollisuus liittää jokin tieto tai ominaisuus yksittäiseen henkilöön. Anonymiteetin katsotaan tällöin toteutuvan, mikäli tietoa tai ominaisuuksia ei voida yhdistää tiettyyn henkilöön. Tähän katsotaan pääsääntöisesti riittävän suorien henkilö- ja asuintietojen salaaminen. Tutkimuksessa tietoaineistojen sisältämät tiedot ovat usein jaettu neljään kokonaisuuteen: suorat tunnisteet, kvasitunnisteet, arkaluontoiset tunnisteet ja ei-arkaluontoiset tunnisteet (Fung ym. 2010, 14:4). Suorat tunnisteet, kuten nimi tai henkilötunnus, johtavat henkilön suoraan tunnistamiseen, mutta kvasitunnisteina nähdään mitkä tahansa tiedot, jotka voivat mahdollisesti johtaa henkilön tunnistamiseen. Raja suoran ja kvasitunnisteen välillä on häilyvä, mutta usein anonymiteetin takaamiseksi tietoaineistoista salataan tai poistetaan ainoastaan suorat tunnisteet sekä ilmiselvimmät kvasitunnisteet. Kvasitunnisteiden tunnistettavuus riippuu ensisijaisesti aineiston luonteesta ja laajuudesta. Anonymiteetti ei ole taattu, mikäli tietoaineistot ovat erityisen 2 suuria ja moniulotteisia, erilaisia aineistoja on mahdollista verrata keskenään ja hyökkääjällä on edes yksittäisiä tietoja kohdehenkilön toiminnasta (Narayanan & Shmatikov, 2008). Narayananin ja Shmatikovin (2010, 26) mukaan mitä tahansa tietoa, joka tietystä henkilöstä on merkitty rekisteriin, voidaan käyttää tunnistamisen välineenä eikä kvasitunnisteen määritelmällä ole tosiasiallista sisältöä. Tältä osin laajojen avointen tietoaineistojen julkisuus tai julkaiseminen on ristiriidassa yksityisyydensuojan kanssa, koska anonymiteetin perustana lainsäädännössä on tunnistamattomuus, jonka raja on tosiasiassa häilyvä. Kaikki avoimen datan hengessä jaettavista tietoaineistoista ei sisällä yksityisyydensuojan kannalta ongelmallista tietoa, mutta rekisterit voivat sisältää epäsuorasti kansalaisiin liittyvää tietoa. Big datan aikakaudella tietoaineistojen määrä lisääntyy jatkuvasti ja tietoaineistojen avaamisen ollessa vasta alkuvaiheissa, ei ole vielä tiedossa rajaa sille, kuinka paljon ja minkälaisia tietoaineistoja tulevaisuudessa muodostuu ja julkaistaan. Vaikka vain osa tietoaineistoista julkaistaisiin tai olisi kaupankäynnin kohteena, on tietoaineistojen olemassaolo sinänsä jo kansalaisten yksityisyydensuojaa koskeva kysymys. Tähän kysymykseen tarttuu erityisesti my data -ajattelu, jonka mukaan yksilöillä tulisi olla hallintaoikeus heitä koskevaan tietoon riippumatta sen keräämisen syystä tai tiedon käyttötarkoituksesta. Erityisen tärkeitä ovat tietoaineistojen säilytyksen tietoturvanäkökulmat ja väärinkäytön estäminen. Yksityisyydensuoja ei rajoitu ainoastaan julkisiin aineistoihin, vaan myös yksityisten toimijoiden tietoaineistoihin. Kansainvälisesti kuuluisimmat yksityisyydensuojan rikkomiseen johtaneet tiedonjulkistukset (aiheesta yleisesti esim. Ohm 2009, 117–123) ovatkin olleet yksityisten yritysten tekemiä. Tietoaineistojen anonymiteetti ja yksityisyydensuoja ovat minimiehto mille tahansa big data henkisten tietoaineistojen jakamiselle. Viime vuosina onkin nähty voimistuvaa keskustelua ylipäänsä kansalaisia koskevista tietoaineistoista sekä niiden myymisestä ja julkistamisesta. 3 Tietoaineistojen anonymisointi Tietojen suoran salaamisen tai poistamisen lisäksi tunnetaan useita erilaisia keinoja muokata tietoaineistoja anonymiteetin turvaamiseksi. Anonymisoinnin tarkoituksena on muuttaa tietoaineistoja siten, että yksittäisten henkilöiden tunnistaminen vaikeutuu, mutta tilastollinen analyysi on edelleen mahdollista. Käytännössä tämä tarkoittaa joko eksplisiittisten tunnistetietojen poistamista, korvaamista yleistasoisemmilla muuttujilla tai tietoaineistojen muuttamista tai korvaamista. (Fung ym. 2010) Julkisen sektorin avatessa tietoaineistoja tämä tapahtuu aina jollakin tavalla anonymisoituna Erilaiset anonymiteetin murtamista tavoittelevat hyökkäykset pyrkivät tekemään päätelmiä aineistoista ja yhdistämään tietoja yksittäisiin henkilöihin. Fung ym. (2010; ks. myös Abou-el-ela, Nermin & Hesham 2013, 103) ovat jaotelleet hyökkäykset sen mukaan millaisia henkilön ja aineiston välisiä yhteyksiä hyökkäys tuottaa. Näitä ovat tietueyhteys (yksittäiset tiedot voidaan yhdistää yksittäiseen henkilöön), ominaisuuksien yhteys (yksittäinen henkilö voidaan yhdistää tietyn ryhmän jäseneksi), taulukkoyhteys (yksittäinen henkilö voidaan tunnistaa osaksi tiettyä taulukkoa tai aineistoa) ja todennäköisyyshyökkäys (todennäköisyyksiä yksittäisen henkilön ominaisuuksista voidaan tarkentaa etukäteistiedosta). Koska erilaisten hyökkäystapojen päämäärä 3 ja niiden avulla saavutetun tiedon taso on erilainen, eivät yksittäiset anonymisointimenetelmät pysty suojaamaan kaikilta hyökkäystavoilta. Hyökkäys- ja yhteysmuotojen aste-erot myös korostavat, ettei anonymiteettiä voida yksiselitteisesti todeta olevan tai sen puuttuvan. Ohm (2010, 1701) on väittänyt tietoaineistojen olevan ”joko käyttökelpoisia tai täydellisen anonyymeja, muttei koskaan kumpaakin”. Jonkinasteisia tietoja ja ominaisuuksia on mahdollista päätellä lähes mistä tahansa tietoaineistosta. Hyväksyttävän anonymiteetin määrittäminen onkin normatiivinen valinta ja henkilötietolain tulkintaa. Vaikka yksittäistä henkilöä ei voitaisikaan tunnistaa, mutta hyökkäys johtaa ominaisuusyhteyden tai taulukkoyhteyden tunnistamiseen, voidaan tätä käyttää henkilöiden luokitteluun sekä hyvän- että pahantahtoisessa mielessä ja tällä tavalla rikkoa yksityisyydensuojaa (Dwork & Mulligan 2013). Tunnetuimpia määritelmiä anonymiteetille ja sen turvaamiselle on k-anonymiteetti, josta on olemassa useita eri variantteja. Menetelmän tarkoituksena on muokata tietoaineistoa joko yleistämällä tai poistamalla tietoja siten, että k-1 muuta tietuetta kuuluu samaan luokkaan eikä yksittäinen henkilö kuulu yksin mihinkään ryhmään. (esim. Fung ym. 2010) Tyypillinen esimerkki on iän ryhmitteleminen ikäryhmiksi tai tarkan asuinpaikan korvaaminen laajemmalla asuinalueella. Tietojen rajoittaminen tarkoittaa yksiselitteisesti jonkin muuttujan poistamista. K-anonymiteetin taso riippuu siitä, kuinka suuren ryhmän osaksi havainnot ovat ryhmitelty, mikä puolestaan vaikuttaa aineiston hyödynnettävyyteen (Aggarwal 2005). K-anonymiteetti suojaa lähinnä tietueen ja henkilön suoralta yhdistämiseltä, mutta on edelleen altis muille hyökkäyksille ja alhaiset kanonymiteetin tasot ovat mahdollista murtaa erityisesti runsaasti muuttujia sisältävissä aineistossa tai jos hyökkääjällä on ennakkotietoja kohteestaan (Aggarwal 2005; Abou-el-ela, Nermin & Hesham 2013). K-anonymisointia, joka on enemmän periaate kuin varsinainen anonymisointimenetelmä, on täydennetty useilla erilaisilla malleilla (ks. Fung ym. 2010), jotka vaikeuttavat tietojen yhdistämistä ja yksittäisiä henkilöitä koskevien päätelmien tekemistä. Vahvemmat anonymisointimenetelmät kuitenkin usein johtavat aineiston informaatioarvon radikaaliin laskuun. Yksittäisen tietoaineiston muuntelun lisäksi anonymiteettia voidaan lisätä muodostamalla alkuperäisestä aineistosta uusia muunneltuja aineistoja. Arkaluontoiset tiedot ja kvasitunnisteet voidaan eriyttää omiin taulukkoihinsa, joiden välisenä siltana ovat määrätyt ryhmätunnisteet, mutta yksittäisiä muuttujasarjoja ei voida enää suoraan yhdistää kvasitunnisteisiin. Taulukkojen sisällä on edelleen mahdollista käyttää muitakin menetelmiä. Eriyttämisen lisäksi alkuperäisen aineiston arvoja voidaan muokata ja vaihtaa siten, että aineiston suora yhteys todellisiin henkilöihin hämärtyy, mutta osa tilastollisista ominaisuuksista säilytetään. Tämä voi tarkoittaa alkuperäisten tietojen korvaamista häiriötiedoilla tai kokonaan uusien synteettisten tietueiden lisäämistä. Alkuperäinen aineisto voidaan myös kokonaan korvata uudella alkuperäisen aineiston ominaisuuksia vastaavalla synteettisellä aineistolla. Vaikka nämä menetelmät merkittävästi vahvistavat anonymiteettiä, on niiden ongelmana suorat vaikutukset aineiston käytön monipuolisuuteen. (Hussien ym. 2013, 102; Fung ym. 2010, 19–21) 4 4 Anonymiteetin murtaminen big data -aikakaudella Useimmat salausmenetelmät ovat haavoittuvaisia kehittyneemmille algoritmipohjaisille hyökkäyksille. Vaikka hyökkäys ei johtaisikaan henkilön ja häntä koskevan tiedon suoraan yhdistettävyyteen, voidaan niiden avulla tuottaa alempiasteisia yhteyksiä (ks. s. 3). Hyökkäysten menestymismahdollisuuksien lähtökohtana pidetään yleensä tarvetta tietää jotain yksittäisiä tietoja hyökkäyksen kohteesta, ja hyökkäyksen oletetaan kohdistuvan yksittäiseen aineistoon. Anonymiteetin murtamisen mahdollisuudet kasvavat, mikäli hyökkääjän käytössä on useampia aineistoja, joihin tietyn henkilön tiedetään kuuluvan. Tämä voi tarkoittaa joko uutta versiota samasta aineistosta, tai täysin toista aineistoa, jonka tiedoissa on limittäisyyttä toisen aineiston kanssa. Erityisen ongelmallisina on nähty hajautuneet ja moniulotteiset aineistot, joissa yksittäisiä muuttujia on todella paljon, yksittäisten henkilöiden tiedot eroavat toisistaan todella paljon, tai useat muuttujat ovat suoraan yhteydessä toisiinsa. Tämän kaltaisia aineistoja ovat esimerkiksi paikkatiedot ja liikkumista kuvaavat aineistot tai taloudellisia transaktioita kuvaavat aineistot. (Fung ym. 2010) Näissä aineistoissa kvasitunnisteen määritelmä on erityisen häilyvä, koska mitä tahansa tiedon osaa voidaan käyttää hyväksi tunnistamisessa ja yksittäisetkin ennakkotiedot auttavat anonymiteetin murtamiseen huomattavasti (Narayanan & Shmatikov 2008). Tutkimus tunteekin esimerkkejä paikkatietoaineistojen (Gambs ym. 2014) ja sosiaalisen median verkostojen (Narayanan & Shmatikov 2009) anonymiteetin purkamisesta Viimeiseksi esitetyt näkökulmat ovat erityisen ongelmallisia viimeaikaisen yhteiskunnallisen kehityksen valossa: mikäli yhä useampia ja laajempia tietoaineistoja avataan julkiseen tai nykyistä laajempaan käyttöön, kasvaa myös mahdollisten anonymiteetin murtojen riski. Ongelma ei koske ainoastaan julkishallinnon aineistoja vaan myös yksityisten yritysten omistamia, myymiä ja jakamia aineistoja. Mikäli yksityisellä toimijalla on liiketoimintansa kautta tietoaineisto palvelunsa asiakkaista tai käyttäjistä, voidaan sitä käyttää hyväksi muiden aineistojen anonymiteetin murtamisessa. Ennen kaikkea yksittäisen tietomurron avulla saatuja aineistoja voidaan käyttää hyväksi minkä tahansa muun aineiston anonymiteetin murtamisessa. Anonymiteetin rapautuminen ei tapahdu lineaarisesti, vaan lisätietojen hankkiminen muista aineistoista on sitä helpompaa mitä enemmän yksittäisestä henkilöstä tiedetään (Ohm 2010, 1705). Laajojen, tarkkojen ja avointen tietoaineistojen olemassaolo on nykyaikaisten algoritmipohjaisten ja aineistoja vertailevien menetelmien valossa aina kompromissi anonymiteetin kanssa. Vastaavasti korkeamman anonymiteetin takaavat menetelmät heikentävät tiedon käytettävyyttä ja sovellettavuutta, jolloin aineistojen jakamisen tavoitteet vuorostaan kärsivät. Big data ja avoin data ilmiöinä ja ajattelutapoina ovat periaatteellisessa ristiriidassa yksityisyydensuojan kanssa, kun näiden suhdetta tarkastellaan matemaattisten analyysimenetelmien kehityksen valossa. 5 Tietoaineistojen hallinta ja omistajuus Tietoaineistojen anonymiteetin ja yksityisyydensuojan vuoksi on yhä tärkeämpää pohtia kuka tietoaineistoja hallinnoi ja kuka aineistoja saa käyttää. Avatessaan tietoaineistojaan julkinen hallinto tulkitsee sillä itsellään olevan oikeus päättää tietojen julkistamisesta, kunhan 5 lainsäädännön määrittämä yksityisyydensuojan taso säilyy. Yksityisten yritysten keräämissä tietoaineistoissa on yleistä, että käyttääkseen palvelua tai ohjelmistoa yksilöt sallivat kaupankäynnin heitä koskevalla tiedolla. Yrityksen on noudatettava vallitsevaa yksityisyydensuojan lainsäädäntöä, jossa voi olla suuriakin maakohtaisia eroja. Lainsäädännön anonymiteettimääritelmät, joille tietoaineistojen avaaminen ja kaupankäynti perustuvat, eivät aiemmissa luvuissa perustelluista syistä kuitenkaan ole enää täysin päteviä, jolloin kaupankäynnin kohteena olevat tietoaineistot ovat aina potentiaalisia tunnistamiseen johtavia tietoja. Tällöin kaupankäynnin ja julkistamisen laillisuus ei ole täysin yksiselitteistä, joskaan se ei laitontakaan. My data -ajattelun korostama yksilöiden oikeus heitä koskevien tietoaineistojen hallintaan muuttaisi tätä asetelmaa. Sen sijaan, että tietojen käytön määrittelyvalta ja lainsäädännön tulkinta olisi julkishallinnolla tai yrityksellä, my data -ajattelussa päätöksen datan avoimuudesta ja käytön sallimisesta tekisi kansalainen itse. Ajattelutavan periaatteiden käytännön toteutuminen on teknisesti vaikea kysymys, mutta my data -ajattelun periaatteet tulevat olemaan sitä ajankohtaisempia mitä pidemmälle big data -ilmiönä etenee. Länsimaisen yksilökäsityksen ja yksilöiden nauttimien perusoikeuksien näkökulmasta on kestämätöntä, mikäli yksittäisiä kansalaisia koskevat tietoaineistot ovat julkisia ja kollektiivista omaisuutta, tai henkilötiedot rajoittamattoman kaupan kohteita. Tietoaineistojen ja anonymiteetin muuttunut luonne pakottavat pohtimaan myös tiedon omistajuutta ja hallintaa, mikäli yksityisyydensuojasta ja yksilöiden oikeuksista halutaan pitää kiinni. Digitaalisten palveluiden globaalin ja paikkaan sitomattoman luonteen vuoksi aihepiirin regulaatio on kuitenkin vaikeaa. Oikeudellisesta ja moraalisesta näkökulmasta voisikin olla perustellumpaa puhua kansainvälisistä digitaalisista perusoikeuksista. Tulevaisuudessa on tarpeellista miettiä yksilöä itseään koskevan tiedon perusoikeusnäkökulmia, jotta teknologisen kehityksen myötä tapahtuvat yhteiskunnalliset muutokset eivät muodostu ihmisoikeuksia uhkaavaksi tekijäksi. 6 Asiantuntijoiden näkemyksiä Selvityksen yhteydessä tiedusteltiin suomalaisilta tietojenkäsittelytieteen oppilaitoksilta näkemyksiä anonymisointiin ja sen murtamiseen. Vastauksia saatiin kuusi kappaletta ja tiedustellut kysymykset ovat esitetty liitteessä 1. Kyselyn perusteella Suomessa on alan tutkimusta ja Suomessa työskentelee kryptologiaan erikoistuneita tutkijoita, mutta heidän määränsä ei ole kovin suuri. Joissakin yliopistoissa järjestetään myös alan kursseja. Erilaisia anonymisointimenetelmiä tunnetaan runsaasti. Kehittyneimpinä menetelminä pidettiin homomorfisia salaustapoja, joiden avulla voidaan katkaista yhteys aineiston ja todellisten ihmisten välillä, mutta säilyttää aineiston tilastolliset ominaisuudet. Samoin mainittiin mm. hashbytes-salaus, funktionaalinen salaus ja differentiaalinen tietosuoja lupaavina menetelminä. Uusimpien salausmenetelmien ongelmana on niiden raskaus. Menetelmät takaavat korkean anonymiteetin, mutta niiden soveltaminen ei ole yksinkertaista ja voi johtaa jonkinasteiseen aineiston hyödynnettävyyden laskuun. Kyselyyn vastanneet esittivät erilaisia arvioita siitä, kuinka helppoa alan perusteet hallitsevalle henkilölle on tehdä onnistuneita anonymiteetin murtamishyökkäyksiä. Ensisijaisesti tämä riippuu 6 käytetyistä salausmenetelmistä ja anonymisointitasosta. Yksinkertaisilla menetelmillä anonymisoiduissa aineistoissa hyökkäykset ovat sitä helpompia, mitä enemmän aineiston henkilöistä on olemassa ennakkotietoja. Internetissä on löydettävissä tutkimusta, ohjeita ja välineitä hyökkäysten tekemiseen, minkä vuoksi onnistuminen voi riippua pitkälti hyökkääjän mielenkiinnosta nähdä vaivaa menetelmien opettelemiseen. Osa kyselyyn vastanneista arvioi alan ammattilaisen tai jatko-opiskelijan helposti murtamaan salaamattoman aineiston tietosuojan. Edellytyksenä pidettiin kuitenkin erikoistumista, eikä kuka tahansa pysty tekemään onnistuneita hyökkäyksiä. Yksi vastaaja piti myös onnistumista epätodennäköisenä ilman erityiskoulutusta. Toisaalta joissakin tapauksissa puhtaalla päättelytyöllä ja ennakkotietojen soveltamisella voidaan tunnistaa suurista aineistoista yksittäisiä henkilöitä tai heidän ominaisuuksiaan. Osa uusista salausmenetelmät on kuitenkin tässä suhteessa selvästi aiempaa turvallisempia, koska niissä yhteydet tietueiden ja oikeiden henkilöiden välillä ovat osittain tai täysin katkaistuja. Hyökkäyksiin tarvittavan osaamisen arvioiden perusteella ainoa järkevä lähestymistapa murtamispotentiaaliin on murtamiskykyisten ihmisten olemassaolon hyväksyminen. Kyse ei enää ole siitä, onko heikosti salatun aineiston murtaminen mahdollista, vaan kuinka monet siihen pystyvät ja kuinka monilla alan osaajilla on halu murtaa aineistoja. Riski tietomurroille on ensisijaisesti riippuvaista käytetyistä salausmenetelmistä. Heikosti anonymisoidun aineiston murtaminen ei ole tietojenkäsittelytieteen ammattilaiselle erityisen vaikeaa ja on ennen kaikkea riippuvainen yksilön halusta nähdä työtä murtamisen eteen. Yhdessä vastauksessa esitettiin hyväksi lähtökohdaksi ajatusta, että kaikki salaukset ja anonymisoinnit ovat mahdollista murtaa, eikä internetissä tulisi julkistaa sellaisia aineistoja, joita ei haluta murrettavan. Asiantuntijoiden mukaan suurten tietoaineistojen avaamisessa tarvitaan tutkimuksen, tiedon soveltajien ja asiantuntijoiden vuoropuhelua. Useat vastaajat esittivät parhaiden käytänteiden vertailua ja vaihtamista. Yhtenä mahdollisuutena esitettiin yhteisen JHS-suosituksen tekemistä tietoaineistojen julkaisun ja anonymisoinnin käytänteille. Aineistojen anonymiteetin murtamiseen liittyvät riskit tulee ottaa vakavasti ja anonymiteetin vaalimiselle tulee antaa huomiota. Sen turvaaminen vaatii myös erityistoimenpiteitä ja erityisasiantuntemusta. 7 Johtopäätökset Tietoaineistojen anonymiteetti ja yksityisyydensuoja ovat viimeaikaisen kehityksen myötä murroksessa. Big data, tietoaineistojen avaaminen ja kehittyneet anonymiteetin murtamismenetelmät luovat ongelmia kansalaisten tietosuojalle ja anonymiteetille. Anonymiteetin takaamiseksi ei enää ole riittävää salata ainoastaan suoria henkilötietoja. Sen sijaan mitä tahansa tietoa voidaan käyttää hyväksi anonymiteetin murtamisessa, jolloin tunnistettavuuden määritelmä muuttuu. Tietoaineistojen avaaminen ja yritysten käytössä olevat tietoaineistot epäsuorasti heikentävät kansalaisten anonymiteettia. Lainsäädännön näkökulmasta on välttämätöntä pohtia nykyisen henkilötietolain sisältöä ja tulkintaa suhteessa tietoaineistojen avaamiseen. Tiukasti tulkittuna kaikki kansalaisia koskeva tieto voi johtaa henkilöiden 7 tunnistamiseen. Ohmin (2009, 1741) mukaan EU:n tietosuojadirektiivin mukainen ymmärrys anonymiteetista ei siten voi olla kestävä, koska mitään tietoa ei voida rajata sen ulkopuolelle. Riippumatta anonymiteetin ja henkilötietojen oikeudellisista määritelmistä julkisella sektorilla on erityinen tarve pohtia avattavien tietoaineistojen sisältöä ja salausmuotoa. Uusista anonymiteetin purkamismenetelmistä johtuen kaikki ristiriidat eivät ole selätettävissä. Varsinkin anonymiteetin rapautumisen kumulatiivisuus on ongelma: yksittäinen tietomurto tai anonymiteetin murtuminen tarjoaa avaimet muiden aineistojen anonymiteetin murtamiseen, mikäli aineistoissa on päällekkäisyyttä. Big datan ja avoimen datan aikakaudella kansalaisten anonymiteetti ei enää vastaa aiempia käsityksiä ehdottomasta tunnistamattomuudesta, minkä vuoksi joko yksityisyydensuojan lainsäädännön määritelmiä, yksityisyydensuojan moraalisia periaatteita tai tietoaineistojen avaamista on tarkasteltava kriittisesti. Vähintäänkin julkisen hallinnon on annettava nykyistä suurempaa huomiota aineistojen anonymisoinnille. Anonymiteetti ja tunnistaminen eivät 2010-luvulla ole joko - tai -kysymys, vaan näiden välinen ero määrittyy liukuvasti. Aineistoja julkaistessa tulisi aina arvioida tarvittavaa suojausta ja tietomurron riskiä. Viime kädessä tulisi miettiä ylipäänsä millaista tietoa halutaan julkisesti jakaa ja onko järkevää julkaista sellaisia aineistoja, joiden anonymiteetin murtaminen on aineistoon kuuluville henkilöille tai tahoille vahingollista. Selvityksen perusteella anonymiteettikysymykset tulee ottaa aiempaa laajemmin huomioon pohdittaessa julkisten tietoaineistojen avaamista. Suomessa on aihepiirin asiantuntemusta, jota tulisi hyödyntää. Aihepiirin tutkimus ja asiantuntijoiden näkemykset puoltavat vahvasti jonkinlaisen yhteistyön aloittamista aihepiirin tutkimuksen, aineistojen julkaisijoiden ja aineistojen käyttäjien välillä. Yhteistyön tuloksena tulisi muodostaa näkemys siitä, missä kulkevat rajat julkaistavien ja julkaisemisen ulkopuolelle jätettävien aineistojen välillä, sekä millaiset vaatimukset erilaisilla aineistoilla on anonymisointi- ja salausmenetelmien tasolle. Yhteisesti käytyä keskustelua voidaan käyttää myös lähtökohtina aihepiirin lainsäädäntöön kohdistuvia paineita pohdittaessa. Paineet lainsäädännölle ovat lähtöisin teknologian kehityksestä, eikä lainsäädäntöä sen vuoksi ole mahdollista arvioida ilman tutkimuksen ja asiantuntijoiden tietotaitoa. 8 Lähteet Abou-el-ela, A. H., Nermin, H. & Hesham, A. H. 2013. Attacks on Anonymization-Based PrivacyPreserving: A Survey for Data Mining and Data Publishing. Journal of Information Security, Vol. 4: 2, s. 101–112. Aggarwal, C. C. 2005. On k-anonymity and the Curse of Dimensionality. Proceedings of the 31st VLDB Conference, s. 901–909. Dwork, C. & Mulligan, D. K. 2013. It’s Not Privacy, and It’s Not Fair. Stanford Law Review Online, Vol. 66, 35–60. Euroopan parlamentin ja neuvoston direktiivi 95/46/EY yksilöiden suojelusta henkilötietojen käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta. Fung, B. C. M., Wang, K., Chen, R. & Philip, S. Y. 2010. Privacy-Preserving Data Publishing: A Survey of Recent Developments. ACM Computing Surveys, Vol. 42: 4, artikkeli 14, s. 1–53 Gambs, S., Killijian, M-O. & Núñez del Prado Cortez, M. 2014. De-Anonymization attack on geolocated data. Journal of Computer and System Sciences, Vol. 80, s. 1597–1614. Henkilötietolaki. 523/1999. Liikenne- ja viestintäministeriö. 2013. Big Data Suomessa – Keskustelualoite. Liikenne- ja viestintäministeriön julkaisuja 25/2013. Poikkola, A., Kuikkaniemi, K & Kuittinen, O. 2014. My Data – johdatus ihmiskeskeisiin henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriön julkaisuja. Narayanan, A. & Shmatikov, V. 2008. Robust De-anonymization of Large Sparse Datasets. Proceedings of the 2008 IEEE Symposium on Security and Privacy, s. 111–125. Narayanan, A. & Shmatikov, V. 2009. De-anonymizing Social Networks. 30th IEEE Symposium on Security and Privacy, s. 173–187. Narayanan, A. & Shmatikov, V. 2010. Myths and Fallacies of “Personally Identifiable Information”. Communications of the ACM, Vol 53: 6, s. 24–26. Ohm, P. 2009. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. UCLA Law Review, Vol 57, s. 1701–1777. Valtioneuvosto. 2011. Valtioneuvoston periaatepäätös julkisen sektorin digitaalisten tietoaineistojen saatavuuden parantamisesta ja uudelleenkäytön edistämisestä 3.3.2011. Liite 1 – Tiedustelukysymykset 1. Onko organisaationne käytössä big data -tietoaineistojen anonymisointiin, sen murtamiseen tai näiden menetelmien kehittämiseen liittyvää osaamista tai menetelmiä? Mikäli on, mitkä menetelmät näette tärkeimpinä ja kehittyneimpinä? 9 2. Kuinka suurena näette mahdollisuuden, että matemaattisen analyysin tai tietojenkäsittelytieteen perusteet hallitsevalla henkilöllä (esimerkiksi alaa opiskelleella) on kyky tehdä onnistuneita anonymiteetin murtoja big data -aineistoista? 3. Millaisia suosituksia antaisitte julkishallinnon tietoaineistojen avaamisen anonymisoinnille sekä alan osaamisen kehittämiselle Suomessa? 10