18. helmikuuta 2016

Terveystietoja sisältävien tutkimusaineistojen arkistointi - tutkija vaatimusten ristitulessa

Suomalaiset tutkijat keräävät valtavasti tietoa ihmisistä ja ihmisten käyttäytymisestä. Lisäksi terveysalan viranomaiset ja tutkimuslaitokset keräävät lakisääteisesti mittavia tietovarantoja väestön palveluiden käytöstä ja terveydentilasta. Kerätty tieto olisi lääketieteen, kansanterveyden ja yhteiskunnan kannalta erinomaista, mutta sitä ei voida käyttää täysimääräisesti hyväksi.

Ongelmat johtuvat osittain tiukasta henkilötietolaista ja sen tulkinnasta, joka estää täysin biopankkilain ulkopuolelle jäävien tutkimusaineistojen arkistoimisen tunnisteellisena. Osittain kyse on siitä, että tutkittavien suostumus ja eettisen toimikunnan lausunto on tapana pyytää sellaisessa muodossa, että ne mahdollistavat aineiston käytön vain kyseiseen tutkimukseen.

Rekisteritietojen saatavuuskin on vaikeaa. Rekisteriaineistojen tietoteknisestä turvallisuudesta on huolehdittu, mutta aineistoja ei ole järjestelmällisesti kuvailtu, eikä niitä pysty hakemaan yksinkertaisesti. Hakuprosessit vievät pahimmillaan vuosia, ja aineiston käytöstä joutuu maksamaan jopa tuhansia euroja. Saadut aineistot ovat raakadataa, joka voi vaatia huomattavan paljon työstämistä ennen kuin aineisto on käyttökelpoista tutkimukseen.

Samaan aikaan kansalliset ja kansainväliset rahoittajat suosittelevat tai edellyttävät tutkimusaineistojen avaamista. Tieteelliset julkaisut voivat pitää tutkimusaineiston avaamista jopa julkaisun ehtona. Tutkijan taas täytyisi saada pitää aineistonsa itsellään, kunnes on saanut oman tutkimustuloksensa julkaistua.

Hankkeeseen saa rahoitusta, jos pystyy osoittamaan, että käytössä on tutkimusongelmaan sopiva aineisto. Aineiston käyttöön saaminen kuitenkin vaatii huomattavaa rahallista panostusta, mikä on ongelma siinä vaiheessa kun rahoitusta ollaan vasta hakemassa. Lisäksi tutkimusrahoitus on määräaikaista. Mitä tehdä, jos kolmen vuoden tutkimusrahoituskaudesta kaksi vuotta kuluu eettisten lausuntojen, aineistonkäyttölupien ja lopulta itse aineistojen saamiseen?

Ongelmiin on onneksi havahduttu. Tutkimuksen asema tulee toivon mukaan parantumaan EU:n tietosuoja-asetuksen myötä (1). Myös SOTE-tiedon toissijaisen käytön lainsäädäntö (2) tulee helpottamaan aineistojen saamista tutkimukseen. Kansallinen palveluoperaattori (3) on aikanaan toteutuessaan yhden luukun palvelu, josta tutkija voi etsiä tietoa olemassa olevista aineistoista, hakea niihin käyttölupaa, hankkia eettisen lausunnon ja lopulta saada aineiston käyttöönsä kohtuullisessa ajassa. Kaikkein arkaluonteisinta tietoa varten suunnitellaan etäkäyttöjärjestelmää, jossa aineiston pääsisi analysoimaan vaarantamatta tutkittavien tietosuojaa.

Rekisteriviranomaisista avoimuuden edelläkävijä on THL, joka on jo parantamassa aineistojensa näkyvyyttä ja helpottamassa tutkijoiden luvanhakua ja aineistonsaantia. Organisaation uusi datapolitiikka on luettavissa THL:n sivuilla.

Tietoarkisto osallistuu yhteisen tavoitteen saavuttamiseen tarjoamalla kerätyille tutkimusaineistoille luotettavan säilytyspaikan sekä helpon palveluportaalin, Ailan. Ailassa tutkija voi selata olemassa olevia aineistoja ja tutkia niiden keräystapaa ja sisältöä aineistokuvailun perusteella. Kun sopiva aineisto löytyy, sen saa parhaimmillaan käyttöönsä heti. Kaikkein tiukimman käyttöluokituksen aineistoissakin Tietoarkisto hoitaa käyttölupapyynnön aineiston haltijalle ja toimittaa aineiston heti, kun lupa on saatu.

Tulevaisuus näyttää siis onneksi nykyhetkeä kirkkaammalta.

1 http://ec.europa.eu/justice/data-protection/reform/index_en.htm
2 https://www.innokyla.fi/web/verkosto1598477
3 http://www.sitra.fi/hankkeet/isaacus-esituotantohankkeet

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan viimeinen osa. Ks. ensimmäinen ja toinen osa.

15. helmikuuta 2016

Tietoarkisto vei Länsi-Balkaniin osaamista laadullisten aineistojen arkistoinnista

Sain tilaisuuden vierailla Sloveniassa Ljubljanassa laadullisten aineistojen arkisto-osaajan roolissa. Kolmipäiväisen työpajan (9.–11.2.2016) tavoitteena oli perehtyä tutkimusaineistojen arkistointiin. Esitysten ohessa työpajassa käsiteltiin oikeita aineistoja, jotka on tuotettu RRPP-projektissa.

Työpajan osallistujat olivat Albaniasta, Kosovosta, Serbiasta, Makedoniasta, Montenegrosta ja Kroatiasta. Aineistojen kotimaat ja kielet olivat samat kuin osallistujien. Kouluttajia oli minun lisäkseni Slovenian ja Sveitsin tietoarkistoista.

Se että laadulliset aineistot olivat vieraskielisiä, tuotti omat pulmansa niistä keskustelemiseen. Apuna toimi Google-kääntäjä, jonka avulla minun oli mahdollista kurkistella erikielisten aineistojen sisältöihin myös englanniksi jo ennen työpajaa. Koneellisesti tuotetut pikakäännökset ovat tietysti epätarkkoja ja osin virheellisiä. Ne kuitenkin auttoivat oleellisesti arkistointia koskevissa keskusteluissa. Analyysiin Google-kääntäjällä tuotetut aineistot tuskin sopisivat täysin varauksitta.

Kulttuuriset ja historialliset erityispiirteet puolestaan tuovat eri maiden laadullisiin aineistoihin omat eettiset ja lainsäädännöllisetkin haasteensa. Etukäteen oletin, että niistä keskusteltaisiin eniten. Mutta toisin kävi. Olennaisimmat kysymykset arkistoinnin näkökulmasta olivat samat kuin meillä Suomessa: Onko aineistojen sisältämistä henkilöistä ja aineiston tuottamistilanteista riittävästi tietoa? Ovatko haastattelujen kysymykset tai ryhmäkeskustelujen teemat tallessa? Ovatko litteraatit yhdenmukaisia läpi koko aineiston? Mitä aineistojen käytöstä ja erityisesti jatkokäytöstä on sovittu tutkittavien kanssa? Miten laadullista aineistoa voi anonymisoida?

Niin Länsi-Balkanilla kuin meillä Suomessakin laadullisen aineiston arkistointi onnistuu parhaiten, kun ajatus aineiston säilyttämisestä jatkokäyttöä varten on ollut tutkijalla mielessä alusta saakka. Vaikka työpajassa käsiteltyjen aineistojen joukossa oli muutama tällainen valopilkku, harmillisen usein aineistoista puuttuivat tiedot tutkittavien suostumuksesta. Keskusteluissamme tulimme siihen tulokseen, että kirjallisten suostumusten ohella tai niiden sijaan olisi hyvä saada äänitallenteiden alkuun tallennetuksi tutkijan selostus aineiston käytöstä ja säilyttämisestä ja tutkittavien suostumus osallistua annetuin ehdoin. Näin tutkimussuostumukset olisivat mukana itse aineistotiedostoissa ja niistä tehdyissä litteraateissa.

Toisinaan tutkijalla oli kadonnut alkuperäinen haastattelurunko, ja muutamista aineistoista puuttui osa, kun tiedostoja oli hävinnyt tutkijan työkoneen vaihtamisen yhteydessä. Tällaiset riskit ovat mahdollisia kaikilla tutkijoilla maasta riippumatta. Olinkin iloinen voidessani esitellä Tietoarkiston aineistonhallinnan käsikirjaa, josta suurin osa on käännetty myös englanniksi.

Työpajan osallistujat suunnittelevat perustavansa tietoarkistoja omiin kotimaihinsa. Jo karttuneen tietotaidon saavutettavuus auttaa heitä siinä huomattavasti. CESSDA-arkistoista laadullisten aineistojen ylivertaisia osaajia ovat Ison-Britannian UKDA ja pienen Suomen Tietoarkisto.

Lisätietoa:
» SEEDS workshop in Ljubljana
» Aineistonhallinnan käsikirja
» Data Management Guidelines

Arja Kuula-Luumi
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

3. helmikuuta 2016

Tietoarkkitehtuurista

TIETOARKkitehtuuri ja TIETOARKisto, onko niillä mitään muuta yhteistä kuin ensimmäiset kahdeksan kirjainta? Tietoarkkitehtuurissa kuvataan tietoa kolmella eri kuvaustasolla: käsitteellinen, looginen ja fyysinen. Tietoarkistossa kuvaillaan tutkimusaineistoja, mutta onko tietoarkiston kuvailutyössä havaittavissa tietoarkkitehtuurissa käytetyt kuvaustasot? Näihin visaisiin, nyt jo lukijan mieltä kovasti kutkuttaviin kysymyksiin, haetaan vastausta tällä kevyellä blogikirjoituksella.

Tietoarkkitehtuurissa tiedon käsitteellisen tason kuvaaminen on eräänlainen hahmotteluvaihe. Siinä pohditaan, mitkä käsitteet liittyvät kuvauksen kohdealueeseen. Myös käsitteiden väliset suhteet hahmotellaan, ja jos käsitteet eivät ole kaikille osapuolille selviä, ne myös määritellään. Tietoarkistossa tutkimusaineistojen kuvailuissa käsitteellisen hahmon muodostavat mm. aihealue ja asiasanat. Ne eivät vielä yksityiskohtaisesti kerro, mistä tutkimusaineistossa on kysymys. Ne kuitenkin auttavat aineistoon tutustuvaa hahmottamaan, olisiko aineisto heitä kiinnostava.

Tietoarkkitehtuurissa pohditaan loogisella tasolla esimerkiksi sitä, mitä ja millaisia käsitteisiin liittyvät tiedot ovat. Myös tietojen väliset suhteet esitetään tarkasti. Usein lisäksi kuvataan, missä tiedot loogisesti sijaitsevat ja missä kaikkialla tiedot kulkevat. Tietoarkiston aineiston kuvailuissa käsitteellistä hahmoa selvennetään muun muassa aineiston tietosisältöä kuvaavalla tiivistelmällä sekä tiedoilla keräysmenetelmistä ja -välineistä, otantamenetelmistä, tekijöistä ja kerääjistä. Kuvailussa kerrotaan myös aineiston looginen sijainti eli aineiston sarja. Julkaisuluettelo havainnollistaa aineiston tietojen virtaamista ympäri maailman.

Tietoarkkitehtuurissa fyysisellä tasolla kuvataan esimerkiksi tiedon fyysinen sijainti ja käytetyt koodistot. Tietoarkistossa kvantitatiivisista aineistoista kuvataan muuttujien tiedot – täsmälliset kysymyslauseet ja vastausvaihtoehdot arvoineen sekä useimmiten myös tilastolliset tunnusluvut. Aineiston fyysinen sijaintikin on kuvailussa kerrottu, tosin tietoturvallisesti, todeten aineiston olevan Tietoarkistossa.

Jos Tietoarkisto ei kuvailisi tutkimusaineistojaan, olisi niiden löytäminen, ymmärtäminen ja uudelleenkäyttö hyvin hankalaa. Sama asia on tietoarkkitehtuurissa. Jos tietoarkkitehtuuria ei tehdä, on tietojen löytäminen, ymmärtäminen ja uudelleenkäyttö ongelmallista. Tietoarkkitehtuuri on siis tiedolle sama kuin Tietoarkiston kuvailutyö tutkimusaineistoille – saattamista löydettäväksi, ymmärrettäväksi ja uudelleenkäytettäväksi.

Katja Moilanen
tietoarkkitehti
katja.j.moilanen [at] uta.fi