20. toukokuuta 2019

Anonymisointi luontevaksi osaksi tutkimusprosessia

Aineistonhallinta vaatii tutkijalta entistä enemmän osaamista. Tutkijan tulisi opiskella muuttuneet tietosuojakäytänteet ja toisaalta pitäisi pystyä vastaamaan myös datan avoimuuden haasteeseen. Usein aineiston arkistoiminen jatkokäyttöön on mahdollista vain anonyyminä. Anonymisoinnin osaaminen ja resursointi nousevat tässä vaiheessa keskeiseen asemaan. Tutkijoiden näkökulmasta lisävaatimukset eivät ole aina mieluisia, sillä usein anonymisointiin ei ole varattu aikaa ja toisaalta ei ole myöskään tietoa, miten aineisto saatetaan anonyymiksi. Jonkin pitää muuttua, mutta miten?

Mieti anonymisointia jo tutkimusprosessin alussa

Uudet vaatimukset otetaan haltuun muuttamalla käsitystä anonymisoinnista ja kasvattamalla anonymisoinnin osaamista. Tästä lähtien tutkimusprojekteissa tulee jo alkuvaiheessa resursoida anonymisoinnin suunnitteluun ja toteuttamiseen. Käsitys siitä, että anonymisointi on jotain, jota tehdään vain aineistonkeruuvaiheessa poistamalla suorat tunnisteet tai tutkimusprosessin loppuvaiheessa ennen arkistointia, tulisi heittää romukoppaan.

Ensinnäkään anonymisointi ei ole vain suorien tunnisteiden poistamista, vaan vaatii laajemman aineiston sisällön tarkastelun ja tietojen suhteuttamisen ulkopuolelta saataviin tietoihin. Anonymisoinnissa pyritään ymmärtämään, minkä tiedon poistaminen on tarpeellista, ja miten tietojen poistaminen vaikuttaa aineiston käytettävyyteen. Toiseksi anonymisointia tulee miettiä jo tutkimusprosessin alussa, sillä henkilötiedot tulee kerätä tietosuoja-asetuksen minimoinnin periaatteen mukaan eli keräämällä vain tutkimuksen kannalta tarpeellisia tietoja. Henkilötietojen keruun huolellisella suunnittelulla voi vähentää oleellisesti anonymisointiin myöhemmin kuluvaa aikaa.

Miten kerättäviä tietoja voi minimoida?

Määrällisissä aineistonkeruissa anonymisointia vaativien tietojen keruuta pystyy minimoimaan tehokkaasti välttämällä avokysymyksiä, joiden sisältöä tutkija ei voi kontrolloida. Kannattaa välttää myös kysymyksiä, joiden perusteella vastaajasta paljastuu kohdejoukkoon nähden harvinaisia tietoja. Tietoja suositellaan kerättäväksi valmiiksi luokiteltuna, niin että kysytään esimerkiksi yksittäisen harrastuksen sijaan harrastustyyppiä. Kirjoitettavan avovastauksen "pelaan jalkapalloa Äänekosken Huimassa" sijaan vastaaja voi valita esimerkiksi luokitellun arvon "palloilulajit", eikä tutkijan tarvitse anonymisoida paikkakuntaa ja seuraa. Erityisesti taustatietojen kysyminen luokiteltuna ehkäisee oleellisesti myöhäisempää anonymisointitarvetta niin kvalitatiivisissa kuin kvantitatiivisissa aineistoissa.

Laadullisissa aineistoissa sisällön etukäteen rajoittaminen on hankalampaa, mutta sitä voi helpottaa muutaman hyödyllisen vinkin avulla. Esimerkiksi haastatteluissa ja kirjoitusaineistoissa haastateltavien taustatiedot kannattaa kerätä strukturoituna, henkilöiden vapaamuotoisten esittelyjen sijaan. Haastattelun aluksi haastattelija voi esimerkiksi pyytää iän, ammatin ja lasten lukumäärän luokiteltuna. Haastateltavia voi myös muistuttaa aluksi ystävällisesti, jos haastattelun luonne antaa siihen mahdollisuuden, että he eivät kertoisi ihmisten oikeita nimiä tai muita tarkkoja tietoja. Tutkija voi myös välttää liian yksityiskohtaista tietoa tuottavien kysymysten esittämisen.

Yleisimmät ongelmat anonymisoinnissa

Koska anonymisointiin ei ole valmiina kaikkiin aineistoihin sopivia ohjeistuksia, se voidaan kokea haasteellisena. Usein ongelmana on hahmottaa, mitä tietoja tulee anonymisoida ja mitä tietoja voidaan jättää. Tutkija saattaa myös ajatella, ettei sensitiivistä aineistoa voi saattaa anonyymiksi. Anonymisoinnin jälkeen tutkijan mieleen voi hiipiä myös pelko siitä, onko aineistoa anonymisoitu tarpeeksi.

Ensinnäkin tulee muistaa, että aineiston sensitiivisyys ei ole lähtökohtaisesti este aineiston anonymisoinnille ja jakamiselle. Sensitiivisen aineiston anonymisointi voidaan suunnitella samalla tavoin kuin ei-sensitiivisiä tietoja sisältävän aineiston. Merkityksellisintä on henkilöistä saatavien taustatietojen ja muiden aineiston sisältämien tietojen karkeistaminen tai poisto tasolle, josta yksittäisiä henkilöitä ei pysty tunnistamaan. Sensitiivisen aineiston anonymisointi voi kuitenkin olla haasteellista, sillä aineiston luonteen vuoksi rajoitettavia tietoja voi olla paljon.

Anonymisointitarpeen hahmottamisen helpottamiseen tarvitaan ohjeistusta ja tarve konkreettisille anonymisointiohjeille on suuri. Ennen anonymisoinnin ohjeistus keskittyi usein anonymisoinnin menetelmien, kuten karkeistuksen ja luokitteluiden, esittämiseen, ei anonymisointipäätösten tekemisestä ohjeistamiseen. Ohjeistuksen tarpeeseen vastatakseen Tietoarkisto on päivittänyt anonymisoinnin ohjeistuksiaan viimeksi viime kuussa. Ohjeistuksiin lisättiin erityisesti tukea anonymisoinnin suunnitteluun. Ohjeista löytyy nyt myös havainnollistavia esimerkkejä ja mallipohjia anonymisointisuunnitelman tekoon.

Anonymisoinnin tarpeen hahmottaminen

Kun haluaa anonymisoida oman tutkimusaineistonsa, sille kannattaa tehdä anonymisointisuunnitelma, josta käy ilmi tunnisteellisuuden kannalta tärkeimmät aineiston tiedot ja tehdyt anonymisointipäätökset ja -toimet. Anonymisoitavien tietojen hahmottamiseen auttaa seuraavien tärkeimpien asioiden muistaminen ja tarkastelu:

  • Suorat tunnisteet poistetaan aina!
  • Keitä ja mitä tutkit? Henkilöiden tunnistettavuus riippuu paljon tavoitellun kohdejoukon määrästä ja tutkittavasta ilmiöstä. Mitä pienempi kohdejoukko ja mitä enemmän heistä on saatavilla tietoa, sitä vähemmän yksityiskohtaista tietoa henkilöistä voidaan jättää aineistoon.
  • Anonymisoinnissa pyritään eroon harvinaisista tiedoista, joiden perusteella yksittäinen henkilö tai rypäs on tunnistettavissa. Anonymisoitavia tietoja pohditaan aina suhteessa tutkimuksen perusjoukkoon. Tieto on harvinainen vain, jos ominaisuus on harvinainen kohdejoukossa. Pienet jakaumat eivät ole näin yksiselitteisesti harvinaista tietoa. Harvinaistakaan tietoa ei tarvitse anonymisoida, jos tietoa henkilöstä ei voida saada selville.
  • Pohdi, voiko henkilö olla tunnistettavissa yhdistämällä aineiston tietoja toisiinsa. Pohdi myös, mitä tietoja tutkittavista voi olla saatavilla ulkoisista lähteistä, kuten sosiaalisesta mediasta, ja voiko tietoja yhdistää datan sisältämiin tietoihin. Esimerkiksi LinkedInissä on useamman suomalaisen koulutus- ja työhistoria julkisesti nähtävillä.
  • Sensitiivisten tietojen anonymisointi on tarpeellista, mikäli niiden perusteella voi tunnistaa tai päätellä yksittäisen henkilön tai henkilöitä. Jos sensitiivisten asiasisältöjen tutkiminen on tutkimuksen kannalta keskeistä, tietoja ei tietenkään poisteta, vaan aineisto pyritään tekemään anonyymiksi muita henkilöihin viittaavia tietoja poistamalla.
  • Jos aineisto vaatii anonymisointia, se voidaan toteuttaa monin eri tavoin. Pyri poistamaan tietoja, jotka ovat vähemmän tärkeitä tutkimusilmiön kannalta ja säilyttämään tärkeimmät taustatiedot. Esimerkiksi, jos kuntatasoinen muuttuja aluetietona on tutkimuksen kannalta merkityksellinen, anonymisointia voi tehdä esimerkiksi vastaajan perhe- tai tulotietoihin.

Lisätietoa ja tarkemmat ohjeet löydät Tietoarkiston aineistonhallinnan käsikirjasta.

Anonymisoinnin kartoittamisen jälkeen voi jopa olla että anonymisointia ei välttämättä tarvitsekaan tehdä. Tällainen tilanne voi olla esimerkiksi väestötutkimuksissa, joissa aluemuuttuja on kerätty vain maakunnan tasolla ja muiden tietojen perusteella henkilöt eivät ole yksilöitävissä tai liitettävissä harvinaisiin ryhmiin. Anonymisointisuunnitelman tekeminen on siis suositeltavaa, jotta tutkimusprosessin aikana aineistoa tulee tarkasteltua kerran yksinomaan tunnisteellisuuden näkökulmasta. Lisäksi suunnitelma toimii hyvänä dokumentaationa aineistoille tunnisteellisuussyistä tehdyistä muutoksista, mikäli aineisto luovutetaan jatkokäyttöön.

Et ole anonymisointipulmiesi kanssa yksin

Anonymisoinnin riittävyys on yleinen tutkijoiden huoli, ja se on hyvin ymmärrettävää. Tulee kuitenkin muistaa, että anonyymiksi voidaan määritellä aineisto, josta ei kohtuullisen todennäköisesti käytettävissä olevin keinoin voi tunnistaa tai päätellä henkilöitä. On jo paljon, että aineiston anonymiteettiä ja henkilöiden paljastumisriskiä on pohdittu ja se on kirjattu anonymisointisuunnitelmaan. Lisäksi on hyvä muistaa, että aineistolle voidaan tehdä lisäanonymisointia myöhemminkin. Aineistolle tulee tehdä säännöllisesti jäännösriskin arviointi, jossa tarkastellaan anonymiteettiä uudelleen. Se on tarpeellista tiedon lisääntymisen ja tekniikan kehittymisen vuoksi.

Tavoitteet anonymisoinnin käsitysten muuttamisesta ja osaamisen levittämisestä ovat alkuvaiheessa. Toivomme, että anonymisointi nähdään mahdollisuutena lisätä tieteen avoimuutta ja luotettavuutta. Asiasta tarvitaan myös keskustelua ja näkemyksiä. Otamme niitä mielellämme vastaan täällä Tietoarkistossa!

Annika Sallinen
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi