Tietoaineistojen lisääntymisen ja avaamisen haasteet

Transcription

Tietoaineistojen lisääntymisen ja avaamisen haasteet
Tietoaineistojen lisääntymisen ja avaamisen haasteet kansalaisten
anonymiteetille
Kirjoittanut:
Ville Aula
Korkeakouluharjoittelija
Viestintäpolitiikan osasto
Liikenne- ja viestintäministeriö
Jatkuvasti laajenevat tietoaineistot ja kehittyvät data-analyysin menetelmät luovat uusia riskejä
kansalaisten yksityisyydensuojan heikentymiselle. Tutkimuskirjallisuuden valossa aiemmat
käsitykset aineistojen anonymiteetistä ovat murroksessa. 2000-luvulla syntyneet ilmiöt ja
ajattelumallit, kuten big, avoin ja my data, koettelevat yksityisyydensuojan ja anonymiteetin
määritelmiä ja asettavat paineita sekä lainsäädännölle että kansalaisten oikeusturvalle. Tässä
selvityksessä esitellään keskeisimmät tietoaineistojen anonymiteettiin ja sen murtamisen
menetelmiä sekä niistä johtuvia yksityisyydensuojan, lainsäädännön ja aineistojen käytön
ongelmakohtia. Selvityksen yhteydessä kysyttiin tietojenkäsittelytieteen asiantuntijoilta
näkemyksiä aiheesta lähettämällä kysely tietojenkäsittelytieteen tutkimusta ja opetusta tekeville
korkeakouluille. Aiemman tutkimuksen ja asiantuntijoiden kommenttien perusteella esitetään
tarpeita ja toimenpiteitä
1 Big, avoin ja my data
Erilaisten digitaalisten tietoaineistojen määrä on 2000-luvulla kasvanut valtaisalla nopeudella. Big
datalla tarkoitetaan tietoaineistojen määrän ja tuotantonopeuden nopeaan lisääntymiseen ja
aineistojen vaihtelevuudelle pohjautuvaa uutta tilannetta. Käsite ei kuvaa mitään yksittäistä
tietoaineistotyyppiä, vaan digitaalisen yhteiskunnan kehityksen myötä syntynyttä tiedon ja sen
hyödyntämisen uutta luonnetta. (Liikenne- ja viestintäministeriö 2013, 3–4). Olennaista big datan
ja henkilöitä koskevien tietojen suhteessa on tietoaineistojen jatkuva ja ”tahaton”
muodostuminen: digitaalisten palveluiden käyttäminen väistämättä tuottaa käyttäjiä koskevaa
tietoa palveluiden tarjoajille, jolloin on helppoa myös muodostaa näistä tiedoista yhtenäisiä
tietoaineistoja. Tämä koskee myös julkisia palveluita, sillä sähköisten palveluiden määrä kasvaa
jatkuvasti. Julkishallinnon ennestään laajojen kansalaisia koskevien tietoaineistojen lisäksi
viranomaisten on mahdollista kerätä yhä laajempaa ja monipuolisempaa tietoa käyttäjistään.
Avoimella datalla tarkoitetaan ajattelutapaa, jossa tietoaineistojen julkiseen jakamiseen
suhtaudutaan aiempaa avoimemmin ja pyrkimyksenä on jakaa julkisia tietoaineistoja laajempaan
käyttöön. Tietoaineistot ovat yhä vahvemmin liike- ja kansalaistoiminnan resursseja, joiden
käyttöä pyritään lisäämään. Julkinen sektori on sitoutunut avaamaan yhä useampia aineistojaan
julkiseen käyttöön nopeuttaakseen tietoaineistojen ympärille kehittyviä toiminnan muotoja.
1
(Valtioneuvosto 2011) Tietoaineistojen jakamisessa tulee noudattaa asiaankuuluvaa
lainsäädäntöä, mikä erityisesti kansalaisia koskevassa tiedossa tarkoittaa yksityisyydensuojan
huomiointia. Tiedon tulee olla anonyymia eivätkä aineistot saa olla sellaisia, että aineistot voidaan
suoraan yhdistää yksittäisiin kansalaisiin. Avoin data ei rajoitu vain julkisen sektorin
ajattelutavaksi, vaan myös monet yksityiset yritykset ovat julkistaneet tietoaineistojaan erilaisia
tarkoitusperiä varten.
Big ja avoin data -ajattelutapojen myötä ovat myös yksilöiden omat oikeudet heitä koskeviin
tietoihin alkaneet korostua. Kansalaisten oikeutta heitä koskevien julkisten ja yksityisten
tietoaineistojen hallinnointiin ja käytöstä päättämiseen kutsutaan my data -ajatteluksi. My datan
tarkoittama itseä koskevasta tiedosta päättäminen sisältää sekä tietojen käytön kieltämisen että
niiden jakamisen. Ajattelutavan mukaan yksilöillä tulisi olla oikeus määrätä mihin häntä koskevaa
dataa käytetään, mutta toisaalta myös tarjota sitä haluamiensa tahojen käyttöön. (Poikkola,
Kuikkaniemi & Kuittinen 2014) Big ja avoimen datan myötä muuttuneet käsityksiä tiedon uudesta
luonteesta ja käyttötarkoituksista ei my data -ajattelussa mielletä kielteisiksi, vaikka niiden
yhdistelmään liittyykin ongelmia. Ajattelutapa voidaankin nähdä yksilölähtöisyyttä korostavana
lähestymistapana 2010-luvun uuteen tietokäsitykseen, minkä vastakohtana ovat yritysten ja
yhteisöjen roolia datan omistajana painottavat lähestymistavat.
2 Henkilötietojen luottamuksellisuus ja tunnistettavuuden määritelmät
Suomen Perustuslain 10 §:ssä turvataan jokaisen yksityiselämä. Tätä toteutetaan henkilötietolailla
(523/1999), jonka 3 §:ssä henkilötiedoilla tarkoitetaan kaikenlaisia henkilöä taikka hänen
ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai
hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi. Näiden tietojen
käsittelyssä tulee noudattaa huolellisuutta. Euroopan unionin tietosuojadirektiivin (95/46/eY), jota
Suomen henkilötietolaki toteuttaa, toisessa artiklassa henkilötiedot määritellään henkilön
tunnistettavuuden kautta. Henkilön katsotaan olevan tunnistettavissa yhden tai useamman
hänelle tunnusomaisen fyysisen, fysiologisen, psyykkisen, taloudellisen, kulttuurillisen tai
sosiaalisen tekijän perusteella. Koska yksityiselämää koskeva tieto on luottamuksellista ja
henkilökohtaisten tietojen julkinen jakaminen lain vastaista, on tunnistamisen ja anonymiteetin
keskiössä mahdollisuus liittää jokin tieto tai ominaisuus yksittäiseen henkilöön. Anonymiteetin
katsotaan tällöin toteutuvan, mikäli tietoa tai ominaisuuksia ei voida yhdistää tiettyyn henkilöön.
Tähän katsotaan pääsääntöisesti riittävän suorien henkilö- ja asuintietojen salaaminen.
Tutkimuksessa tietoaineistojen sisältämät tiedot ovat usein jaettu neljään kokonaisuuteen: suorat
tunnisteet, kvasitunnisteet, arkaluontoiset tunnisteet ja ei-arkaluontoiset tunnisteet (Fung ym.
2010, 14:4). Suorat tunnisteet, kuten nimi tai henkilötunnus, johtavat henkilön suoraan
tunnistamiseen, mutta kvasitunnisteina nähdään mitkä tahansa tiedot, jotka voivat mahdollisesti
johtaa henkilön tunnistamiseen. Raja suoran ja kvasitunnisteen välillä on häilyvä, mutta usein
anonymiteetin takaamiseksi tietoaineistoista salataan tai poistetaan ainoastaan suorat tunnisteet
sekä ilmiselvimmät kvasitunnisteet. Kvasitunnisteiden tunnistettavuus riippuu ensisijaisesti
aineiston luonteesta ja laajuudesta. Anonymiteetti ei ole taattu, mikäli tietoaineistot ovat erityisen
2
suuria ja moniulotteisia, erilaisia aineistoja on mahdollista verrata keskenään ja hyökkääjällä on
edes yksittäisiä tietoja kohdehenkilön toiminnasta (Narayanan & Shmatikov, 2008). Narayananin ja
Shmatikovin (2010, 26) mukaan mitä tahansa tietoa, joka tietystä henkilöstä on merkitty
rekisteriin, voidaan käyttää tunnistamisen välineenä eikä kvasitunnisteen määritelmällä ole
tosiasiallista sisältöä. Tältä osin laajojen avointen tietoaineistojen julkisuus tai julkaiseminen on
ristiriidassa yksityisyydensuojan kanssa, koska anonymiteetin perustana lainsäädännössä on
tunnistamattomuus, jonka raja on tosiasiassa häilyvä.
Kaikki avoimen datan hengessä jaettavista tietoaineistoista ei sisällä yksityisyydensuojan kannalta
ongelmallista tietoa, mutta rekisterit voivat sisältää epäsuorasti kansalaisiin liittyvää tietoa. Big
datan aikakaudella tietoaineistojen määrä lisääntyy jatkuvasti ja tietoaineistojen avaamisen ollessa
vasta alkuvaiheissa, ei ole vielä tiedossa rajaa sille, kuinka paljon ja minkälaisia tietoaineistoja
tulevaisuudessa muodostuu ja julkaistaan. Vaikka vain osa tietoaineistoista julkaistaisiin tai olisi
kaupankäynnin kohteena, on tietoaineistojen olemassaolo sinänsä jo kansalaisten
yksityisyydensuojaa koskeva kysymys. Tähän kysymykseen tarttuu erityisesti my data -ajattelu,
jonka mukaan yksilöillä tulisi olla hallintaoikeus heitä koskevaan tietoon riippumatta sen
keräämisen syystä tai tiedon käyttötarkoituksesta. Erityisen tärkeitä ovat tietoaineistojen
säilytyksen tietoturvanäkökulmat ja väärinkäytön estäminen. Yksityisyydensuoja ei rajoitu
ainoastaan julkisiin aineistoihin, vaan myös yksityisten toimijoiden tietoaineistoihin.
Kansainvälisesti kuuluisimmat yksityisyydensuojan rikkomiseen johtaneet tiedonjulkistukset
(aiheesta yleisesti esim. Ohm 2009, 117–123) ovatkin olleet yksityisten yritysten tekemiä.
Tietoaineistojen anonymiteetti ja yksityisyydensuoja ovat minimiehto mille tahansa big data henkisten tietoaineistojen jakamiselle. Viime vuosina onkin nähty voimistuvaa keskustelua
ylipäänsä kansalaisia koskevista tietoaineistoista sekä niiden myymisestä ja julkistamisesta.
3 Tietoaineistojen anonymisointi
Tietojen suoran salaamisen tai poistamisen lisäksi tunnetaan useita erilaisia keinoja muokata
tietoaineistoja anonymiteetin turvaamiseksi. Anonymisoinnin tarkoituksena on muuttaa
tietoaineistoja siten, että yksittäisten henkilöiden tunnistaminen vaikeutuu, mutta tilastollinen
analyysi on edelleen mahdollista. Käytännössä tämä tarkoittaa joko eksplisiittisten tunnistetietojen
poistamista, korvaamista yleistasoisemmilla muuttujilla tai tietoaineistojen muuttamista tai
korvaamista. (Fung ym. 2010) Julkisen sektorin avatessa tietoaineistoja tämä tapahtuu aina jollakin
tavalla anonymisoituna
Erilaiset anonymiteetin murtamista tavoittelevat hyökkäykset pyrkivät tekemään päätelmiä
aineistoista ja yhdistämään tietoja yksittäisiin henkilöihin. Fung ym. (2010; ks. myös Abou-el-ela,
Nermin & Hesham 2013, 103) ovat jaotelleet hyökkäykset sen mukaan millaisia henkilön ja
aineiston välisiä yhteyksiä hyökkäys tuottaa. Näitä ovat tietueyhteys (yksittäiset tiedot voidaan
yhdistää yksittäiseen henkilöön), ominaisuuksien yhteys (yksittäinen henkilö voidaan yhdistää
tietyn ryhmän jäseneksi), taulukkoyhteys (yksittäinen henkilö voidaan tunnistaa osaksi tiettyä
taulukkoa tai aineistoa) ja todennäköisyyshyökkäys (todennäköisyyksiä yksittäisen henkilön
ominaisuuksista voidaan tarkentaa etukäteistiedosta). Koska erilaisten hyökkäystapojen päämäärä
3
ja niiden avulla saavutetun tiedon taso on erilainen, eivät yksittäiset anonymisointimenetelmät
pysty suojaamaan kaikilta hyökkäystavoilta. Hyökkäys- ja yhteysmuotojen aste-erot myös
korostavat, ettei anonymiteettiä voida yksiselitteisesti todeta olevan tai sen puuttuvan. Ohm
(2010, 1701) on väittänyt tietoaineistojen olevan ”joko käyttökelpoisia tai täydellisen anonyymeja,
muttei koskaan kumpaakin”. Jonkinasteisia tietoja ja ominaisuuksia on mahdollista päätellä lähes
mistä tahansa tietoaineistosta. Hyväksyttävän anonymiteetin määrittäminen onkin normatiivinen
valinta ja henkilötietolain tulkintaa. Vaikka yksittäistä henkilöä ei voitaisikaan tunnistaa, mutta
hyökkäys johtaa ominaisuusyhteyden tai taulukkoyhteyden tunnistamiseen, voidaan tätä käyttää
henkilöiden luokitteluun sekä hyvän- että pahantahtoisessa mielessä ja tällä tavalla rikkoa
yksityisyydensuojaa (Dwork & Mulligan 2013).
Tunnetuimpia määritelmiä anonymiteetille ja sen turvaamiselle on k-anonymiteetti, josta on
olemassa useita eri variantteja. Menetelmän tarkoituksena on muokata tietoaineistoa joko
yleistämällä tai poistamalla tietoja siten, että k-1 muuta tietuetta kuuluu samaan luokkaan eikä
yksittäinen henkilö kuulu yksin mihinkään ryhmään. (esim. Fung ym. 2010) Tyypillinen esimerkki
on iän ryhmitteleminen ikäryhmiksi tai tarkan asuinpaikan korvaaminen laajemmalla asuinalueella.
Tietojen rajoittaminen tarkoittaa yksiselitteisesti jonkin muuttujan poistamista. K-anonymiteetin
taso riippuu siitä, kuinka suuren ryhmän osaksi havainnot ovat ryhmitelty, mikä puolestaan
vaikuttaa aineiston hyödynnettävyyteen (Aggarwal 2005). K-anonymiteetti suojaa lähinnä tietueen
ja henkilön suoralta yhdistämiseltä, mutta on edelleen altis muille hyökkäyksille ja alhaiset kanonymiteetin tasot ovat mahdollista murtaa erityisesti runsaasti muuttujia sisältävissä aineistossa
tai jos hyökkääjällä on ennakkotietoja kohteestaan (Aggarwal 2005; Abou-el-ela, Nermin &
Hesham 2013). K-anonymisointia, joka on enemmän periaate kuin varsinainen
anonymisointimenetelmä, on täydennetty useilla erilaisilla malleilla (ks. Fung ym. 2010), jotka
vaikeuttavat tietojen yhdistämistä ja yksittäisiä henkilöitä koskevien päätelmien tekemistä.
Vahvemmat anonymisointimenetelmät kuitenkin usein johtavat aineiston informaatioarvon
radikaaliin laskuun.
Yksittäisen tietoaineiston muuntelun lisäksi anonymiteettia voidaan lisätä muodostamalla
alkuperäisestä aineistosta uusia muunneltuja aineistoja. Arkaluontoiset tiedot ja kvasitunnisteet
voidaan eriyttää omiin taulukkoihinsa, joiden välisenä siltana ovat määrätyt ryhmätunnisteet,
mutta yksittäisiä muuttujasarjoja ei voida enää suoraan yhdistää kvasitunnisteisiin. Taulukkojen
sisällä on edelleen mahdollista käyttää muitakin menetelmiä. Eriyttämisen lisäksi alkuperäisen
aineiston arvoja voidaan muokata ja vaihtaa siten, että aineiston suora yhteys todellisiin
henkilöihin hämärtyy, mutta osa tilastollisista ominaisuuksista säilytetään. Tämä voi tarkoittaa
alkuperäisten tietojen korvaamista häiriötiedoilla tai kokonaan uusien synteettisten tietueiden
lisäämistä. Alkuperäinen aineisto voidaan myös kokonaan korvata uudella alkuperäisen aineiston
ominaisuuksia vastaavalla synteettisellä aineistolla. Vaikka nämä menetelmät merkittävästi
vahvistavat anonymiteettiä, on niiden ongelmana suorat vaikutukset aineiston käytön
monipuolisuuteen. (Hussien ym. 2013, 102; Fung ym. 2010, 19–21)
4
4 Anonymiteetin murtaminen big data -aikakaudella
Useimmat salausmenetelmät ovat haavoittuvaisia kehittyneemmille algoritmipohjaisille
hyökkäyksille. Vaikka hyökkäys ei johtaisikaan henkilön ja häntä koskevan tiedon suoraan
yhdistettävyyteen, voidaan niiden avulla tuottaa alempiasteisia yhteyksiä (ks. s. 3). Hyökkäysten
menestymismahdollisuuksien lähtökohtana pidetään yleensä tarvetta tietää jotain yksittäisiä
tietoja hyökkäyksen kohteesta, ja hyökkäyksen oletetaan kohdistuvan yksittäiseen aineistoon.
Anonymiteetin murtamisen mahdollisuudet kasvavat, mikäli hyökkääjän käytössä on useampia
aineistoja, joihin tietyn henkilön tiedetään kuuluvan. Tämä voi tarkoittaa joko uutta versiota
samasta aineistosta, tai täysin toista aineistoa, jonka tiedoissa on limittäisyyttä toisen aineiston
kanssa. Erityisen ongelmallisina on nähty hajautuneet ja moniulotteiset aineistot, joissa yksittäisiä
muuttujia on todella paljon, yksittäisten henkilöiden tiedot eroavat toisistaan todella paljon, tai
useat muuttujat ovat suoraan yhteydessä toisiinsa. Tämän kaltaisia aineistoja ovat esimerkiksi
paikkatiedot ja liikkumista kuvaavat aineistot tai taloudellisia transaktioita kuvaavat aineistot.
(Fung ym. 2010) Näissä aineistoissa kvasitunnisteen määritelmä on erityisen häilyvä, koska mitä
tahansa tiedon osaa voidaan käyttää hyväksi tunnistamisessa ja yksittäisetkin ennakkotiedot
auttavat anonymiteetin murtamiseen huomattavasti (Narayanan & Shmatikov 2008). Tutkimus
tunteekin esimerkkejä paikkatietoaineistojen (Gambs ym. 2014) ja sosiaalisen median verkostojen
(Narayanan & Shmatikov 2009) anonymiteetin purkamisesta
Viimeiseksi esitetyt näkökulmat ovat erityisen ongelmallisia viimeaikaisen yhteiskunnallisen
kehityksen valossa: mikäli yhä useampia ja laajempia tietoaineistoja avataan julkiseen tai nykyistä
laajempaan käyttöön, kasvaa myös mahdollisten anonymiteetin murtojen riski. Ongelma ei koske
ainoastaan julkishallinnon aineistoja vaan myös yksityisten yritysten omistamia, myymiä ja jakamia
aineistoja. Mikäli yksityisellä toimijalla on liiketoimintansa kautta tietoaineisto palvelunsa
asiakkaista tai käyttäjistä, voidaan sitä käyttää hyväksi muiden aineistojen anonymiteetin
murtamisessa.
Ennen kaikkea yksittäisen tietomurron avulla saatuja aineistoja voidaan käyttää hyväksi minkä
tahansa muun aineiston anonymiteetin murtamisessa. Anonymiteetin rapautuminen ei tapahdu
lineaarisesti, vaan lisätietojen hankkiminen muista aineistoista on sitä helpompaa mitä enemmän
yksittäisestä henkilöstä tiedetään (Ohm 2010, 1705). Laajojen, tarkkojen ja avointen
tietoaineistojen olemassaolo on nykyaikaisten algoritmipohjaisten ja aineistoja vertailevien
menetelmien valossa aina kompromissi anonymiteetin kanssa. Vastaavasti korkeamman
anonymiteetin takaavat menetelmät heikentävät tiedon käytettävyyttä ja sovellettavuutta, jolloin
aineistojen jakamisen tavoitteet vuorostaan kärsivät. Big data ja avoin data ilmiöinä ja
ajattelutapoina ovat periaatteellisessa ristiriidassa yksityisyydensuojan kanssa, kun näiden
suhdetta tarkastellaan matemaattisten analyysimenetelmien kehityksen valossa.
5 Tietoaineistojen hallinta ja omistajuus
Tietoaineistojen anonymiteetin ja yksityisyydensuojan vuoksi on yhä tärkeämpää pohtia kuka
tietoaineistoja hallinnoi ja kuka aineistoja saa käyttää. Avatessaan tietoaineistojaan julkinen
hallinto tulkitsee sillä itsellään olevan oikeus päättää tietojen julkistamisesta, kunhan
5
lainsäädännön määrittämä yksityisyydensuojan taso säilyy. Yksityisten yritysten keräämissä
tietoaineistoissa on yleistä, että käyttääkseen palvelua tai ohjelmistoa yksilöt sallivat
kaupankäynnin heitä koskevalla tiedolla. Yrityksen on noudatettava vallitsevaa yksityisyydensuojan
lainsäädäntöä,
jossa
voi
olla
suuriakin
maakohtaisia
eroja.
Lainsäädännön
anonymiteettimääritelmät, joille tietoaineistojen avaaminen ja kaupankäynti perustuvat, eivät
aiemmissa luvuissa perustelluista syistä kuitenkaan ole enää täysin päteviä, jolloin kaupankäynnin
kohteena olevat tietoaineistot ovat aina potentiaalisia tunnistamiseen johtavia tietoja. Tällöin
kaupankäynnin ja julkistamisen laillisuus ei ole täysin yksiselitteistä, joskaan se ei laitontakaan.
My data -ajattelun korostama yksilöiden oikeus heitä koskevien tietoaineistojen hallintaan
muuttaisi tätä asetelmaa. Sen sijaan, että tietojen käytön määrittelyvalta ja lainsäädännön tulkinta
olisi julkishallinnolla tai yrityksellä, my data -ajattelussa päätöksen datan avoimuudesta ja käytön
sallimisesta tekisi kansalainen itse. Ajattelutavan periaatteiden käytännön toteutuminen on
teknisesti vaikea kysymys, mutta my data -ajattelun periaatteet tulevat olemaan sitä
ajankohtaisempia mitä pidemmälle big data -ilmiönä etenee. Länsimaisen yksilökäsityksen ja
yksilöiden nauttimien perusoikeuksien näkökulmasta on kestämätöntä, mikäli yksittäisiä
kansalaisia koskevat tietoaineistot ovat julkisia ja kollektiivista omaisuutta, tai henkilötiedot
rajoittamattoman kaupan kohteita. Tietoaineistojen ja anonymiteetin muuttunut luonne
pakottavat pohtimaan myös tiedon omistajuutta ja hallintaa, mikäli yksityisyydensuojasta ja
yksilöiden oikeuksista halutaan pitää kiinni. Digitaalisten palveluiden globaalin ja paikkaan
sitomattoman luonteen vuoksi aihepiirin regulaatio on kuitenkin vaikeaa. Oikeudellisesta ja
moraalisesta näkökulmasta voisikin olla perustellumpaa puhua kansainvälisistä digitaalisista
perusoikeuksista. Tulevaisuudessa on tarpeellista miettiä yksilöä itseään koskevan tiedon
perusoikeusnäkökulmia, jotta teknologisen kehityksen myötä tapahtuvat yhteiskunnalliset
muutokset eivät muodostu ihmisoikeuksia uhkaavaksi tekijäksi.
6 Asiantuntijoiden näkemyksiä
Selvityksen yhteydessä tiedusteltiin suomalaisilta tietojenkäsittelytieteen oppilaitoksilta
näkemyksiä anonymisointiin ja sen murtamiseen. Vastauksia saatiin kuusi kappaletta ja
tiedustellut kysymykset ovat esitetty liitteessä 1.
Kyselyn perusteella Suomessa on alan tutkimusta ja Suomessa työskentelee kryptologiaan
erikoistuneita tutkijoita, mutta heidän määränsä ei ole kovin suuri. Joissakin yliopistoissa
järjestetään myös alan kursseja. Erilaisia anonymisointimenetelmiä tunnetaan runsaasti.
Kehittyneimpinä menetelminä pidettiin homomorfisia salaustapoja, joiden avulla voidaan
katkaista yhteys aineiston ja todellisten ihmisten välillä, mutta säilyttää aineiston tilastolliset
ominaisuudet. Samoin mainittiin mm. hashbytes-salaus, funktionaalinen salaus ja differentiaalinen
tietosuoja lupaavina menetelminä. Uusimpien salausmenetelmien ongelmana on niiden raskaus.
Menetelmät takaavat korkean anonymiteetin, mutta niiden soveltaminen ei ole yksinkertaista ja
voi johtaa jonkinasteiseen aineiston hyödynnettävyyden laskuun.
Kyselyyn vastanneet esittivät erilaisia arvioita siitä, kuinka helppoa alan perusteet hallitsevalle
henkilölle on tehdä onnistuneita anonymiteetin murtamishyökkäyksiä. Ensisijaisesti tämä riippuu
6
käytetyistä salausmenetelmistä ja anonymisointitasosta. Yksinkertaisilla menetelmillä
anonymisoiduissa aineistoissa hyökkäykset ovat sitä helpompia, mitä enemmän aineiston
henkilöistä on olemassa ennakkotietoja. Internetissä on löydettävissä tutkimusta, ohjeita ja
välineitä hyökkäysten tekemiseen, minkä vuoksi onnistuminen voi riippua pitkälti hyökkääjän
mielenkiinnosta nähdä vaivaa menetelmien opettelemiseen.
Osa kyselyyn vastanneista arvioi alan ammattilaisen tai jatko-opiskelijan helposti murtamaan
salaamattoman aineiston tietosuojan. Edellytyksenä pidettiin kuitenkin erikoistumista, eikä kuka
tahansa pysty tekemään onnistuneita hyökkäyksiä. Yksi vastaaja piti myös onnistumista
epätodennäköisenä ilman erityiskoulutusta. Toisaalta joissakin tapauksissa puhtaalla päättelytyöllä
ja ennakkotietojen soveltamisella voidaan tunnistaa suurista aineistoista yksittäisiä henkilöitä tai
heidän ominaisuuksiaan. Osa uusista salausmenetelmät on kuitenkin tässä suhteessa selvästi
aiempaa turvallisempia, koska niissä yhteydet tietueiden ja oikeiden henkilöiden välillä ovat
osittain tai täysin katkaistuja.
Hyökkäyksiin tarvittavan osaamisen arvioiden perusteella ainoa järkevä lähestymistapa
murtamispotentiaaliin on murtamiskykyisten ihmisten olemassaolon hyväksyminen. Kyse ei enää
ole siitä, onko heikosti salatun aineiston murtaminen mahdollista, vaan kuinka monet siihen
pystyvät ja kuinka monilla alan osaajilla on halu murtaa aineistoja. Riski tietomurroille on
ensisijaisesti riippuvaista käytetyistä salausmenetelmistä. Heikosti anonymisoidun aineiston
murtaminen ei ole tietojenkäsittelytieteen ammattilaiselle erityisen vaikeaa ja on ennen kaikkea
riippuvainen yksilön halusta nähdä työtä murtamisen eteen. Yhdessä vastauksessa esitettiin
hyväksi lähtökohdaksi ajatusta, että kaikki salaukset ja anonymisoinnit ovat mahdollista murtaa,
eikä internetissä tulisi julkistaa sellaisia aineistoja, joita ei haluta murrettavan.
Asiantuntijoiden mukaan suurten tietoaineistojen avaamisessa tarvitaan tutkimuksen, tiedon
soveltajien ja asiantuntijoiden vuoropuhelua. Useat vastaajat esittivät parhaiden käytänteiden
vertailua ja vaihtamista. Yhtenä mahdollisuutena esitettiin yhteisen JHS-suosituksen tekemistä
tietoaineistojen julkaisun ja anonymisoinnin käytänteille. Aineistojen anonymiteetin murtamiseen
liittyvät riskit tulee ottaa vakavasti ja anonymiteetin vaalimiselle tulee antaa huomiota. Sen
turvaaminen vaatii myös erityistoimenpiteitä ja erityisasiantuntemusta.
7 Johtopäätökset
Tietoaineistojen anonymiteetti ja yksityisyydensuoja ovat viimeaikaisen kehityksen myötä
murroksessa. Big data, tietoaineistojen avaaminen ja kehittyneet anonymiteetin
murtamismenetelmät luovat ongelmia kansalaisten tietosuojalle ja anonymiteetille.
Anonymiteetin takaamiseksi ei enää ole riittävää salata ainoastaan suoria henkilötietoja. Sen sijaan
mitä tahansa tietoa voidaan käyttää hyväksi anonymiteetin murtamisessa, jolloin
tunnistettavuuden määritelmä muuttuu. Tietoaineistojen avaaminen ja yritysten käytössä olevat
tietoaineistot epäsuorasti heikentävät kansalaisten anonymiteettia. Lainsäädännön näkökulmasta
on välttämätöntä pohtia nykyisen henkilötietolain sisältöä ja tulkintaa suhteessa tietoaineistojen
avaamiseen. Tiukasti tulkittuna kaikki kansalaisia koskeva tieto voi johtaa henkilöiden
7
tunnistamiseen. Ohmin (2009, 1741) mukaan EU:n tietosuojadirektiivin mukainen ymmärrys
anonymiteetista ei siten voi olla kestävä, koska mitään tietoa ei voida rajata sen ulkopuolelle.
Riippumatta anonymiteetin ja henkilötietojen oikeudellisista määritelmistä julkisella sektorilla on
erityinen tarve pohtia avattavien tietoaineistojen sisältöä ja salausmuotoa. Uusista anonymiteetin
purkamismenetelmistä johtuen kaikki ristiriidat eivät ole selätettävissä. Varsinkin anonymiteetin
rapautumisen kumulatiivisuus on ongelma: yksittäinen tietomurto tai anonymiteetin murtuminen
tarjoaa avaimet muiden aineistojen anonymiteetin murtamiseen, mikäli aineistoissa on
päällekkäisyyttä. Big datan ja avoimen datan aikakaudella kansalaisten anonymiteetti ei enää
vastaa aiempia käsityksiä ehdottomasta tunnistamattomuudesta, minkä vuoksi joko
yksityisyydensuojan lainsäädännön määritelmiä, yksityisyydensuojan moraalisia periaatteita tai
tietoaineistojen avaamista on tarkasteltava kriittisesti. Vähintäänkin julkisen hallinnon on
annettava nykyistä suurempaa huomiota aineistojen anonymisoinnille. Anonymiteetti ja
tunnistaminen eivät 2010-luvulla ole joko - tai -kysymys, vaan näiden välinen ero määrittyy
liukuvasti. Aineistoja julkaistessa tulisi aina arvioida tarvittavaa suojausta ja tietomurron riskiä.
Viime kädessä tulisi miettiä ylipäänsä millaista tietoa halutaan julkisesti jakaa ja onko järkevää
julkaista sellaisia aineistoja, joiden anonymiteetin murtaminen on aineistoon kuuluville henkilöille
tai tahoille vahingollista.
Selvityksen perusteella anonymiteettikysymykset tulee ottaa aiempaa laajemmin huomioon
pohdittaessa julkisten tietoaineistojen avaamista. Suomessa on aihepiirin asiantuntemusta, jota
tulisi hyödyntää. Aihepiirin tutkimus ja asiantuntijoiden näkemykset puoltavat vahvasti
jonkinlaisen yhteistyön aloittamista aihepiirin tutkimuksen, aineistojen julkaisijoiden ja aineistojen
käyttäjien välillä. Yhteistyön tuloksena tulisi muodostaa näkemys siitä, missä kulkevat rajat
julkaistavien ja julkaisemisen ulkopuolelle jätettävien aineistojen välillä, sekä millaiset vaatimukset
erilaisilla aineistoilla on anonymisointi- ja salausmenetelmien tasolle.
Yhteisesti käytyä keskustelua voidaan käyttää myös lähtökohtina aihepiirin lainsäädäntöön
kohdistuvia paineita pohdittaessa. Paineet lainsäädännölle ovat lähtöisin teknologian kehityksestä,
eikä lainsäädäntöä sen vuoksi ole mahdollista arvioida ilman tutkimuksen ja asiantuntijoiden
tietotaitoa.
8
Lähteet
Abou-el-ela, A. H., Nermin, H. & Hesham, A. H. 2013. Attacks on Anonymization-Based PrivacyPreserving: A Survey for Data Mining and Data Publishing. Journal of Information Security, Vol. 4:
2, s. 101–112.
Aggarwal, C. C. 2005. On k-anonymity and the Curse of Dimensionality. Proceedings of the 31st
VLDB Conference, s. 901–909.
Dwork, C. & Mulligan, D. K. 2013. It’s Not Privacy, and It’s Not Fair. Stanford Law Review Online,
Vol. 66, 35–60.
Euroopan parlamentin ja neuvoston direktiivi 95/46/EY yksilöiden suojelusta henkilötietojen
käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta.
Fung, B. C. M., Wang, K., Chen, R. & Philip, S. Y. 2010. Privacy-Preserving Data Publishing: A Survey
of Recent Developments. ACM Computing Surveys, Vol. 42: 4, artikkeli 14, s. 1–53
Gambs, S., Killijian, M-O. & Núñez del Prado Cortez, M. 2014. De-Anonymization attack on
geolocated data. Journal of Computer and System Sciences, Vol. 80, s. 1597–1614.
Henkilötietolaki. 523/1999.
Liikenne- ja viestintäministeriö. 2013. Big Data Suomessa – Keskustelualoite. Liikenne- ja
viestintäministeriön julkaisuja 25/2013.
Poikkola, A., Kuikkaniemi, K & Kuittinen, O. 2014. My Data – johdatus ihmiskeskeisiin
henkilötiedon hyödyntämiseen. Liikenne- ja viestintäministeriön julkaisuja.
Narayanan, A. & Shmatikov, V. 2008. Robust De-anonymization of Large Sparse Datasets.
Proceedings of the 2008 IEEE Symposium on Security and Privacy, s. 111–125.
Narayanan, A. & Shmatikov, V. 2009. De-anonymizing Social Networks. 30th IEEE Symposium on
Security and Privacy, s. 173–187.
Narayanan, A. & Shmatikov, V. 2010. Myths and Fallacies of “Personally Identifiable Information”.
Communications of the ACM, Vol 53: 6, s. 24–26.
Ohm, P. 2009. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization.
UCLA Law Review, Vol 57, s. 1701–1777.
Valtioneuvosto. 2011. Valtioneuvoston periaatepäätös julkisen sektorin digitaalisten
tietoaineistojen saatavuuden parantamisesta ja uudelleenkäytön edistämisestä 3.3.2011.
Liite 1 – Tiedustelukysymykset
1. Onko organisaationne käytössä big data -tietoaineistojen anonymisointiin, sen
murtamiseen tai näiden menetelmien kehittämiseen liittyvää osaamista tai menetelmiä?
Mikäli on, mitkä menetelmät näette tärkeimpinä ja kehittyneimpinä?
9
2. Kuinka suurena näette mahdollisuuden, että matemaattisen analyysin tai
tietojenkäsittelytieteen perusteet hallitsevalla henkilöllä (esimerkiksi alaa opiskelleella) on
kyky tehdä onnistuneita anonymiteetin murtoja big data -aineistoista?
3. Millaisia suosituksia antaisitte julkishallinnon tietoaineistojen avaamisen anonymisoinnille
sekä alan osaamisen kehittämiselle Suomessa?
10