26. kesäkuuta 2018

Ensikokemuksia kirjoitusaineistojen keruutyökalu Pennasta

Tietoarkisto lanseerasi syksyllä 2017 uuden kirjoitusaineistojen keruutyökalu Pennan. Pennan tarkoituksena on tarjota aineistonsa arkistoiville tutkijoille ja opiskelijoille helppo tapa kerätä kirjoitusaineistoja. Päädyimme täysin uuden palvelun luomiseen havaittuamme, että opiskelijat ja tutkijat käyttävät arkistoituja kirjoitusaineistoja hyvinkin paljon, mutta niitä keräävät lähinnä vain isommat organisaatiot ja eri alojen järjestöt.

Tulkitsimme, että tutkijat ja opiskelijat pitivät kirjoitusaineistoja kiinnostavana ja tutkimuksellisesti rikkaana aineistotyyppinä, mutta keruiden järjestäminen ja tekninen hallinta koettiin jossain määrin hankalaksi. Haastetta lisää se, että erityisesti kaikelle kansalle suunnatuissa kirjoituskeruissa on vaikea etukäteen arvioida, kuinka suureksi aineistomäärät lopulta kasvavat.

Pennan julkaisun jälkeen kirjoitusaineistojen keruu on helpottunut, sillä Tietoarkisto hoitaa keruun teknisen toteutuksen ja kirjoitusten tietoturvallisen säilytyksen. Tutkijan itsensä tarvitsee ainoastaan laatia kirjoituskutsu ja tiedottaa keruusta valitsemalleen kohderyhmälle.

Tietoarkisto luo tutkijan laatiman kirjoituskutsun pohjalta Pennaan keruulomakkeen ja lisää lomakkeeseen tarvittavat taustatietokysymykset. Tämän jälkeen tutkija saa Tietoarkistolta keruulinkin, jota hän voi levittää parhaiksi katsomissaan kanavissa. Kun keruu on päättynyt, Tietoarkisto toimittaa kirjoitukset tutkijalle txt-muodossa zip-pakettina. Tietoarkistoon arkistoitavat kirjoitukset tulevat sovitun ajan kuluttua jatkokäytettäviksi palveluportaali Ailaan aineiston käyttöehtojen mukaisesti.

Koska Tietoarkisto vastaa keruun teknisestä toteutuksesta, voidaan samalla varmistaa kirjoitusaineistojen ongelmaton arkistointi tietosuojalainsäädännön ja tutkimusetiikan näkökulmasta. Jokaisessa keruussa tutkittavia informoidaan asianmukaisesti aineiston käytöstä sekä kysytään lupa kirjoituksen arkistointiin ja jatkokäyttöön.

Ensimmäiset keruut ovat onnistuneet

Nyt Penna on ollut käytössä vajaan vuoden ja ensimmäiset kuusi keruuta on järjestetty. Jo nyt Pennalla on kerätty vastaajien kokemuksia hyvin erilaisista aiheista. Aineistoja on kerätty muun muassa liittyen opiskelijoiden hyvinvointiin, sukupuolen merkitykseen opetuksessa sekä ilman parisuhdetta elävien miesten elämään.

Ensimmäisten keruiden jälkeen voimme myös jo hieman tarkastella keruista saatuja kokemuksia. Yleisesti ottaen ensikokemukset Pennasta ovat olleet erittäin hyviä. Pennaa käyttäneet tutkijat ovat olleet tyytyväisiä uuden keruualustan tarjoamiin mahdollisuuksiin ja moni on ollut yllättynyt, kuinka vaivatta keruun järjestäminen on onnistunut.

Hyvien kokemusten innoittamana Tietoarkisto esitteli toukokuun lopussa Pennaa myös data-arkistointi- ja tietopalvelualan kansainvälisen IASSIST-järjestön vuosittaisessa päätapahtumassa, joka järjestettiin tänä vuonna Montrealissa Kanadassa. Myös siellä oltiin kiinnostuneita uudesta palvelusta.

Hyvä tiedotus onnistuneen keruun avain

Vaikka Pennan ansiosta keruiden tekninen toteutus onkin nyt helppoa, ei pelkkä Pennan olemassaolo vielä takaa keruun onnistumista. Suurimmassa vastuussa on edelleen tutkija itse, sillä keruusta tiedottaminen on yksinomaan tutkijan vastuulla. Lähes kaikissa tähänastisista keruista tutkimuksen kohderyhmänä on ollut jokin erityinen väestönryhmä, ei koko väestö. Koska tällaisissa keruissa tavoitellut vastaajamäärät ovat jo lähtökohtaisesti varsin kohtuullisia, vaikuttaa keruun onnistumiseen olennaisesti tiedotuksen hyvä suunnittelu ja oikeiden tiedotuskanavien löytäminen.

Tiedottamisen merkitystä korostaa myös toinen ensimmäisistä keruista tekemämme havainto. Keruuajan pidentäminen kesken keruun ei ole lisännyt vastausmääriä käytännössä lainkaan, ellei tiedottamista ei samalla ole tehostettu. Lisäksi niissä keruissa, joissa tiedämme keruutiedotteiden lähettämisajankohdan, vastausmäärät ovat aina selvästi nousseet hetkellisesti tiedotteen lähettämistä seuraavina päivinä. Vastaavasti keruissa, joissa keruutiedote on lähetetty vain kertaalleen keruun alussa, vastausmäärät ovat alun piikin jälkeen kuihtuneet riippumatta siitä, kuinka pitkään keruu on ollut auki.

Vaikka jokainen keruu on aina erilainen, emmekä muutaman yksittäisen keruun jälkeen voi yleistää liikaa, ovat tähänastiset keruut kuitenkin selvästi osoittaneet hyvän tiedottamisen tärkeyden onnistuneessa kirjoituskeruussa.

Kehitystarpeita

Ensimmäiset Pennalla toteutetut keruut synnyttivät myös kehitysideoita. Esiin nousi muun muassa toive siitä, että aineistonkerääjät voisivat itse reaaliaikaisesti seurata oman keruunsa vastaussaldon kehittymistä. Tällä hetkellä Tietoarkisto lähettää tutkijalle tiedon vastaussaldosta keruun pituudesta riippuen noin viikon tai kahden välein sekä aina pyydettäessä. Tutkijan kannalta olisi parempi, että hän voisi seurata vastaussaldonsa kehittymistä reaaliaikaisesti. Tällöin hän voisi esimerkiksi tarvittaessa tehostaa tiedottamistaan tekemiensä havaintojen perusteella.

Toinen konkreettinen tarve olisi tehdä Pennasta myös englanninkielinen versio, jotta myös muut kuin suomenkieliset tutkijat ja vastaajat voisivat käyttää Pennaa täysipainoisesti. Nykyään keruulomakkeen voi kyllä tehdä muullakin kuin suomenkielellä, mutta Pennan ohjeet ja muut tekstit ovat vain suomeksi.

Kaikki käyttäjien palautteet sekä omat havaintomme Pennan kehittämiseksi kirjataan ja niiden toteuttamismahdollisuuksia kartoitetaan Pennan tulevien päivitysten yhteydessä. Toivomme, että voimme myös edellä mainitut toiveet toteutettua mahdollisimman pian.

Käyttäkää Pennaa, olkaa hyvä!

Pennasta tähän mennessä saatujen kokemusten perusteella uskallan vilpittömästi suositella Pennaa kaikille, jotka haluavat kerätä oman kirjoitusaineiston tutkimustansa varten. Pennan käyttö on tutkijoille ja opiskelijoille täysin ilmaista. Lisätietoa Pennasta löytyy Tietoarkiston verkkosivuilta. Voit myös olla suoraan yhteydessä Tietoarkiston asiakaspalveluun.

Lisätietoa:

» Kirjoitusaineistojen keruutyökalu Penna
» Lisää Penna-palvelusta
» asiakaspalvelu.fsd [at] uta.fi

Jarkko Päivärinta
tietopalveluasiantuntija
etunimi.sukunimi [at] uta.fi

25. toukokuuta 2018

Tutkimusetiikan ja tietosuojan välisestä suhteesta

Etiikalla ja tietosuojalla on läheinen suhde, joka ulottuu tietosuojan alkuaikoihin. Tietosuoja kehittyi tietojenkäsittelyn mahdollisuuksien lisääntyessä. Ruotsin vuoden 1973 Datalagin (1973:289) valmistelu aloitettiin 60-luvulla. Sääntely perustui lisenssimalliin, jonka henkistä perintöä ilmentää Suomen henkilötietolakiin (523/1999) jäänyt – ja uuden tietosuoja-asetuksen (2016/679) myötä kumoutuva – mahdollisuus tietosuojalautakunnalle myöntää lupa henkilötietojen käsittelyyn eräissä tilanteissa.

Ruotsissa lisenssien myöntämisedellytykset tieteellisessä tutkimuksessa yhdistyivät kirjalliseen muotoon koonnettuihin eettisiin normistoihin. Eettisten normistojen erot vaikuttivat henkilötietojen käsittelyyn eri tieteenaloilla.1 Menettelyssä ei ollut kyse nimenomaan eettisestä ennakkoarvioinnista, vaan käsittelyn lainmukaisuuden arvioinnista lautakunnassa. Eettisyyttä pidettiin kiinteänä osana henkilötietojen käsittelyn laillista sallittavuutta.

80-luvun keskustelua Suomessa

Klaus Mäkelä kirjoitti vuonna 1987, että "[t]ämän hetken polttavimmat tutkimuseettiset kysymykset liittyvätkin usein tietosuojaan pikemmin kuin tiedonhankintatapoihin".2 Samana vuonna julkaistiin Tieteen keskustoimikunnan asettaman jaoston raportti "Yhteiskuntatieteellisen tutkimuksen tietosuoja".3 Molemmat liittyivät Suomessa vuoden 1988 alussa voimaan astuneeseen, nyt jo kumottuun, henkilörekisterilakiin (471/1987). Uusi lainsäädäntö, joka korvasi rikosoikeudelliseen lähestymistapaan perustuvaa ajattelumallia, aiheutti tarpeen reflektoida tutkimusetiikan ja tietosuojan välistä suhdetta.

Edellä mainitun raportin keskeisiä ajatuksia oli, että lainsäädännön sanamuoto ei yksin riitä kattavaksi ohjeistukseksi kaikkiin käytännön ongelmiin. Toisaalta kaikkea laillista ei pidetty välttämättä eettisesti hyväksyttävänä. Jaosto kiinnitti huomiota tasapainoiluun eettisten ohjeiden yleisyyden ja yksityiskohtaisuuden välillä ja suositti kehittämään käytäntöjä ja ohjeita, jotka herkistävät eettisten ongelmien havaitsemiseen.4 Tutkimusetiikka ja tietosuojaa koskeva lainsäädäntö elävät vuorovaikutussuhteessa keskenään.

Tutkimuskäytäntöjä säätelevät niin eettiset ohjeet kuin lainsäädäntö

Tutkimuseettiset periaatteet eroavat lainsäädännöstä siinä, että eettiset periaatteet perustuvat itsesääntelyyn ja vapaaehtoiseen sitoutumiseen. Oikeustieteen näkökulmasta eettisissä periaatteissa on kyseessä ns. soft law -tyyppinen sääntely. Eettisiä ohjeita ei voi suoraan rinnastaa tuomioistuimen soveltamaan lakiin (Nieminen 2018, s. 16).5

Taustalla voi nähdä yhteyden Suomen perustuslain (731/1999) 3 §:ään kirjattuun valtiollisten tehtävien jakoon, jossa tuomiovalta ja lainsäädäntövalta on eriytetty erillisille instituutioille. Vaikka eettiset ohjeet eivät perustu parlamentaarisessa menettelyssä säädettyyn lakiin, niillä on huomattava käytännön merkitys tutkijoiden vastuun ja tutkittavien oikeuksien määrittämisessä.

Tutkimuseettisillä periaatteilla on vahva side lainsäädäntöön sitä kautta, että lainsäädäntö edellyttää tietynlaisissa tutkimuksissa eettistä ennakkoarviointia. Esimerkiksi laki lääketieteellisestä tutkimuksesta (1999/488) 17.2 § edellyttää eettistä toimikuntaa selvittävän lausuntoaan varten, onko tutkimussuunnitelmassa otettu huomioon tässä tai muussa laissa taikka lain nojalla annetut lääketieteellistä tutkimusta koskevat säännökset tai määräykset. Lainkohdan esitöissä (HE 65/2010 vp) viitataan tietosuojaa koskeviin säännöksiin.

EU:n tietosuojadirektiivi (95/46/EY), joka toimeenpantiin Suomessa henkilötietolailla, ei sisältänyt nimenomaista mainintaa eettisistä normistoista. Myöskään henkilötietolaki ei maininnut nimenomaisesti eettisiä normistoja. Lain esitöissä eettisten normistojen noudattaminen oli kuitenkin yhdistetty arkaluonteisten tietojen käsittelyyn. Tilanne on muuttunut uuden yleisen tietosuoja-asetuksen myötä. Tietosuoja-asetuksen johdanto-osan kappaleessa 33 mainitaan nimenomaisesti tieteellisen tutkimuksen tunnustetut eettiset standardit.

Uusi tietosuoja-asetus edistää tutkittavien eettistä kohtelua

EU:n yleisestä tietosuoja-asetuksesta ja tieteellisestä tutkimuksesta on viime aikoina kirjoitettu ja keskusteltu suhteellisen paljon. Mukaan on mahtunut useita myyttejä ja tarpeetonta pelottelua. Etenkin tietosuoja-asetuksen valmisteluvaiheessa esitettiin kannanottoja, joiden mukaan tieteellinen tutkimus estyy kokonaan. Toinen usein esillä oleva teema on ollut hallinnolliset sanktiot, joita on käytetty pelotteena palvelujen markkinoinnissa. Harvemmin on kerrottu sitä, että hallinnollisten sanktioiden määräämisen tulee olla jokaisessa yksittäistapauksessa oikeansuhtaista, varoittavaa ja tehokasta. Tietosuoja on useiden väärinkäsitysten vuoksi saanut tarpeettoman negatiivisen sävyn. Useimmat tilanteet ovat ratkaistavissa huolellisella suunnittelulla ja ottamalla tietosuoja huomioon mahdollisimman varhaisessa vaiheessa.

Tutkittavien kohtelua ja suojelua koskevilla tutkimuseettisillä periaatteilla ja tietosuojalainsäädännöllä on useita samanlaisia päämääriä. Selvennykseksi on hyvä todeta, että tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee. Tietosuojalainsäädäntö ei liity ainoastaan yksityisyyden tai henkilötietojen suojaan. Tietosuoja-asetuksen tavoitteena on suojella myös laajemmin luonnollisen henkilön perusoikeuksia ja -vapauksia. Tietosuoja-asetus suojelee sivutuotteena esimerkiksi Euroopan unionin perusoikeuskirjassa (2012/C 326/02) turvattuja ihmisarvoa, oikeutta ruumiilliseen ja henkiseen koskemattomuuteen sekä oikeutta vapauteen ja henkilökohtaiseen turvallisuuteen.

"Tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee."

Tiedon ei-julkista luonnetta tai tiedon antajan ja vastaanottajan erityistä suhdetta on kuvattu erilaisissa eettisissä ohjeissa vaihtelevilla ilmaisuilla. Käytettyjä ilmaisuja ovat esimerkiksi yksityisyys, luottamuksellisuus, vaitiolo ja salassapito. Lisäksi tiedon käyttötavoille on voitu asettaa rajoituksia. Ilmaisuille voi muodostua tietyissä konteksteissa ajan myötä vakiintuneita merkityssisältöjä, mutta ne ovat ainakin ulkopuolisten vaikeasti selvitettävissä.

Yksityisyyden sisällöstä ja rajoista on jokaisella kirjoittajalla oma tulkintansa. Tietosuoja-asetus olisi hyvä nähdä tässä yhteydessä kokoelmana ennalta hyväksyttyjä menettelytapoja tutkittavan ja häntä koskevien tietojen suojelemiseksi. Tietosuoja-asetus ja sitä täydentävä kansallinen lainsäädäntö tarjoaa tutkijoille työkalupakin tutkittavien suojaamiseen liittyvien ongelmien ratkaisemiseksi.

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

1 Jansson, Carl Gunnar: Country Report Sweden: Privacy Legislation and Social Research in Sweden. Teoksessa (toim.) Mochmann, Ekkehard & Müller, Paul: Data Protection and Social Science Research: Perspectives from Ten Countries. Campus Verlag GmbH. Frankfurt 1979, s. 32–33.
2 Mäkelä, Klaus: Yhteiskuntatieteellisen tiedonhankinnan eettiset normit ja tietosuoja. Teoksessa (toim.) Mäkelä, Klaus: Tieteen vapaus ja tutkimuksen etiikka. Kustannusosakeyhtiö Tammi. Helsinki 1987, s. 180–195
3 1/87 Yhteiskuntatieteellisen tutkimuksen tietosuoja. Tieteen keskustoimikunnan asettaman jaoston raportti.
4 ibid. s. 3–4, 8–10.
5 Nieminen, Liisa: Ammattieettiset ohjeet juristin haasteena. Viestintäoikeuden vuosikirja 2017. Helsingin yliopiston oikeustieteellisen tiedekunnan julkaisuja. Helsinki 2018.


27. huhtikuuta 2018

Uudet sopimusmallit tutkimusaineistojen arkistointiin

Tietoarkisto on uudistanut tutkimusaineistojen arkistointia koskevat yleiset sopimusmallinsa vastaamaan tietosuoja-asetuksen (2016/679) vaatimuksia. Sopimuksia kehitettäessä on lähtökohtana ollut Tietoarkiston tutkijoille tarjoamien palvelujen luotettavuus ja laillisuus.

Rekisterinpitäjä, joka luovuttaa tutkimusaineiston Tietoarkistoon käsiteltäväksi, täyttää uusien sopimusten myötä tietosuojalainsäädäntöön perustuvat omat velvoitteensa, joita edellytetään sopimuksen sisällöstä 25.5.2018 jälkeen. Sopimusjärjestely suojelee samalla tutkittavia huolehtimalla tietosuojan ja -turvan korkeasta tasosta heidän tietojaan käsiteltäessä.

Miksi sopimusmallien päivittäminen oli tarpeellista?

Sopimuksia solmittaessa yleinen lähtökohta on sopimusvapaus, johon kuuluvat muun muassa sisältövapaus ja muotovapaus. Poikkeuksia sopimusvapauteen on pakottavassa lainsäädännössä. Tietosuoja-asetus laajentaa henkilötietolailla (523/1999) kansallisesti toimeenpannun tietosuojadirektiivin (95/46/EY) sopimuksille asettamia vaatimuksia. Tietosuojasopimuksia koski aiemmin etenkin tietosuojadirektiivin 17 artikla, joka edellytti huolehtimaan lähinnä yleisellä tasolla käsittelyn turvallisuudesta ja seuraamaan rekisterinpitäjän ohjeita. Direktiivistä poiketen uusi tietosuoja-asetus määrittelee yksityiskohtaisesti rekisterinpitäjän ja henkilötietojen käsittelijän välisen sopimuksen sisältöä ja muotoa.

Tietoarkisto toimii useimmiten henkilötietojen käsittelijän roolissa tutkimusaineiston toimittaneen rekisterinpitäjän lukuun. Tietosuoja-asetuksen edellyttämät yksityiskohtaiset ehdot on sisällytetty arkistointisopimuksen liitteeksi. Aineiston jatkokäyttöä koskevat perusratkaisut on arkistointisopimuksessa jätetty ennalleen. Jos henkilötietoja sisältävä tutkimusaineisto toimitetaan Tietoarkistolle ennen arkistointisopimuksen tekemistä, solmitaan luovuttajan ja Tietoarkiston välille erillinen sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi.

Kaikki tutkimusaineistot eivät tietenkään sisällä henkilötietoja. Joskus tätä on vaikea arvioida etukäteen tarkastelematta aineistoa. Tämän vuoksi henkilötietojen käsittelyä koskevat sopimusehdot on otettu osaksi kaikkia sopimuksia.

Mitä hyötyä uusista sopimusehdoista on?

Uusilla sopimusehdoilla on useita etuja aineiston luovuttavan rekisterinpitäjän kannalta. Rekisterinpitäjän kannalta henkilötietojen käsittelyä koskevat yksityiskohtaiset sopimusehdot

  • auttavat toteuttamaan tietosuoja-asetuksen 5 artiklan 2 kohdan mukaista osoitusvelvollisuutta
  • lisäävät tutkittavien luottamusta henkilötietojen vastuulliseen käsittelyyn
  • mahdollistavat tutkimusaineiston laillisen siirtämisen Tietoarkiston käsiteltäväksi
  • voidaan ottaa huomioon tietosuojaa koskevassa vaikutustenarvioinnissa.

Sopimusehdoilla on myös etuja aineiston luovuttajan ja Tietoarkiston väliselle yhteistyölle. Sopimus

  • parantaa tiedonkulkua sopijapuolten välillä
  • vahvistaa henkilötietojen käsittelyn turvallisuutta
  • selkeyttää työnjakoa.

Lisätietoa:

» Sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi (PDF)
» Arkistointisopimus (PDF)

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
New contract models for archiving research data.

New contract models for archiving research data

The Finnish Social Science Data Archive (FSD) has updated its general contract models for archiving research data to fulfill the requirements imposed by the General Data Protection Regulation (2016/679, "GDPR"). Central goals in the development process were to maintain trust and ensure the legality of the services provided by FSD to researchers.

Data controllers depositing research data to FSD for processing fulfil their obligations imposed by data protection legislation on the contents of the contract by using the new contract models. The new legislation is enforceable from 25 May 2018. The contractual arrangement also protects research subjects by ensuring high level of data protection and data security.

Why was it necessary to update the contract models?

Freedom of contract is a general principle that includes, for example, freedoms of content and form. Exceptions to freedom of contract usually stem from consumer protection legislation or competition law, for instance. The GDPR broadens the requirements set for contracts between data controllers and data processors, when compared to Directive 95/46/EC on data protection which was implemented in the Finnish legislation by the Personal Data Act (523/1999). Previously, the terms and clauses in contracts on data protection were governed by Article 17 of the Directive. Article 17 contained a rather general requirement to stipulate in a contract on the security of data processing and that the processor follows the instructions of the data controller. In contrast, the GDPR contains detailed provisions on the content and form of a contract between a data controller and a data processor.

In most cases, FSD acts as the data processor on behalf of the data controller who has deposited the research data. The detailed contractual terms required by the GDPR have been included in the annex of the deposit agreement. The fundamental solutions regarding data reuse have been left intact in the agreement. In the event where research data containing personal information is delivered to FSD before a deposit agreement is concluded, the situation is covered by a separate agreement on personal data processing for assessing the suitability of research data for archiving.

All research data do not necessary contain personal data. This is often difficult to evaluate at the outset without reviewing the data in more detail. For this reason, the contractual terms regarding the processing of personal data have been included in all contracts.

Benefits of the new contract terms

The new contractual terms have multiple benefits for data controllers depositing research data. From their point of view, the detailed contract terms on personal data processing

  • facilitate fulfilling the data controller's obligation of accountability in accordance with Article (5)(2) of the GDPR
  • increase research participants' confidence in responsible handling of their data
  • allow to legally transfer research data to FSD for processing
  • can be taken into account when performing data protection impact assessment (DPIA).

The contract terms also have benefits for the cooperation between the depositor and FSD. The contract

  • enhances communication between the contracting parties
  • strengthens the security of personal data processing
  • clarifies the division of obligations and duties.

Additional information:

» Agreement on personal data processing for assessing the suitability of research data for archiving (PDF)
» Deposition Agreement (PDF)

Antti Ketola
lawyer
firstname.surname [at] uta.fi

This blog post is available also in Finnish:
Uudet sopimusmallit tutkimusaineistojen arkistointiin.

3. huhtikuuta 2018

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on "that Invites Computation", eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.


Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi

5. maaliskuuta 2018

Aineistojen tietosuoja luupin alla - jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

20. helmikuuta 2018

Tutkimusaineistojen ja -julkaisujen tekijyydestä sopiminen on tutkijan etu

Kuka tutkimusaineistossa on tekijä? Kysymys saattaa vaikuttaa selvältä: aineiston tekijä on sen kerääjä. Asia muuttuu kuitenkin monimutkaisemmaksi, jos kyseessä on tutkimushanke, jossa aineistoa ovat keränneet useat tutkijat tai muut tahot. Kenellä on silloin oikeus tulla merkityksi tekijäksi? Entäpä tilanteessa, jossa aineistosta ja tutkimustuloksista tuotetaan julkaisuja? Kuinka tekijyyden määrittäminen ja kaikkien työpanoksen oikeudenmukainen tunnustaminen otetaan huomioon hyvän tieteellisen käytännön mukaisesti?

Tutkimuseettinen neuvottelukunta (TENK) julkaisi tammikuussa suosituksen tieteellisten julkaisujen tekijyydestä sopimisesta, jonka laatimiseen osallistuin Tietoarkiston edustajana. Suosituksen tavoitteena on kannustaa erityisesti yhteisjulkaisuja tuottavia tutkimusryhmiä sopimaan tekijyydestä mahdollisimman ajoissa. Taustalla on ensinnäkin tavoite ehkäistä tekijyyskiistoja ja toisaalta muistuttaa, että tekijyyden asianmukainen merkitseminen on hyvän tieteellisen käytännön mukaista. Akateemisessa maailmassa tieteellinen julkaiseminen on tärkeä osa tutkijan meritoitumista ja nimi tekijäluettelossa kerryttää tieteellistä pistesaalista. Tämän vuoksi on tärkeää, että jokaisen tekijän työpanos tunnustetaan oikeudenmukaisesti. Tavoitteena onkin kannustaa tutkimushankkeita ja -ryhmiä pohtimaan sitä tapaa, jolla jokaisen osallisuus tehtyyn tutkimukseen huomioidaan mahdollisimman oikeudenmukaisesti.

Suosituksen yhtenä tavoitteena on kannustaa tutkimusryhmiä huomioimaan tekijyyden eri aspekteja tutkimuksen eri vaiheissa. Kysymys tekijyydestä kristalloituu usein siitä, kuka kirjoitti ja kuinka paljon. Monenlaiset muut roolit voivat kuitenkin oikeuttaa siihen, että tutkija saa nimensä tekijäksi. Suositus määrittelee tekijyydeksi kaikkea toimintaa, joka tuottaa ja mahdollistaa tutkimustietoa. Siten esimerkiksi tutkimusaineistojen tuottaminen, analyysi ja tulkinta voivat joillain tieteenaloilla oikeuttaa tekijyyteen. Tieteenalakohtaiset erot ja käytännöt eivät kuitenkaan ole aina selviä, jos tutkimushankkeessa on useiden eri tieteenalojen edustaja. Silloin myös aineistoja koskevien käytäntöjen tekeminen selväksi on kaikkien edun mukaista.

TENKin ohjeistus suosittelee laatimaan aineistonhallintasuunnitelman, jossa aineistoihin liittyvät velvollisuudet ja oikeudet tulevat määritellyiksi. Myös Tietoarkistossa kannustamme tutkijoita aina laatimaan aineistonhallintasuunnitelman ja sopimaan aineistoihin liittyvistä oikeuksista. Sopiminen selkiyttää esimerkiksi sitä, kuka merkitään aineiston tekijäksi. Tekijänoikeudellisesta näkökulmasta aineistoista sopiminen turvaa aineiston tekijän (aineiston kerääjän, koostajan tai luovuttajan) moraalisia oikeuksia. Jos aineisto arkistoidaan jatkokäyttöä varten, ovat jatkokäyttäjät aina velvoitettuja viittaamaan siihen asianmukaisesti. Tämä on tärkeää myös siksi, että tutkimus- ja tietoaineistojen tuottaminen ja jakaminen on tutkijalle tieteellinen ansio samalla tavalla kuin tutkimusjulkaisu.

Tämä blogiteksti on viimeinen tietoarkistolaisena kirjoittamani. Matkani tutkimusdatan ja avoimen tieteen parissa jatkuu kuitenkin uusissa tehtävissä Tampereen teknillisessä yliopistossa.

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, sopimukset ja oikeudet
» Tutkimuseettinen neuvottelukunta: Tieteellisten julkaisujen tekijyydestä sopiminen

Katja Fält
tietoasiantuntija, TTY
Tietoarkiston entinen humanististen alojen tieteenala-asiantuntija
fsd [at] uta.fi

19. tammikuuta 2018

Tietoarkisto CESSDAssa: vahvuuksiamme ovat toimivat palvelut ja käytännöt sekä luotettavuus

CESSDA ERIC -infrastruktuuria rakennetaan kiihtyvällä vauhdilla ja viimeiset kolme vuotta ovat olleet Tietoarkistolle erittäin tiiviin eurooppalaisen yhteistyön aikaa. CESSDAn keskustoimisto on pieni ja toiminta perustuu kansallisten palveluntuottajien hajautettuihin palveluihin.

Yksi CESSDAn suurimmista hankkeista, kaksivuotinen CESSDA Strengthening and Widening, lyhyemmin SAW, päättyi vuoden 2017 lopussa. Hanke sai rahoituksensa Euroopan unionin Horisontti 2020 -ohjelmasta. Nimensä mukaisesti hankkeessa sekä vahvistettiin CESSDAn toimintoja että pyrittiin saamaan uusia valtioita jäseneksi.

Hanke oli meille hyödyllinen, sillä pystyimme siinä vertailemaan Tietoarkistoa muihin eurooppalaisiin data-arkistoihin ja saamaan sitä kautta arvokasta palautetta. Lisäksi hankkeessa onnistuttiin kehittämään välineitä tietoarkistotyöhön.

Tietoarkisto edelläkävijä monella saralla

Hankkeen alkupuolella vuonna 2016 kartoitettiin eurooppalaisten data-arkistojen toimintojen vahvuuksia ja kehityskohteita. Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Sopimus- ja käyttöoikeuskäytäntömme, tietosuoja-asiat ja aineistojen kuvailu nousivat esille erityisen hyvinä osa-alueina. Parantamisen varaa oli teknisen infrastruktuurin puolella.




Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Lähde: Deliverable 3.2 Country report on development potentials
.

Akatemian FIRI 2016 -rahoitusta saanut Aktiivinen Tietoarkisto CESSDAssa -hankkeemme painottuukin juuri teknisen infrastruktuurimme parantamiseen vuosina 2017-2021.

Luotettava ja sertifioitu

Yksi CESSDAn vaatimuksista on, että palveluntuottajien on hankittava CoreTrustSeal-sertifikaatti (aikaisemmin CTS tunnettiin nimellä Data Seal of Approval). SAW-hankkeessa Tietoarkisto oli mukana kouluttamassa ja tukemassa palveluntuottajia sertifioinnissa. Hankkeen aikana Tietoarkisto päivitti oman sertifiointinsa ja saikin uusien, tiukennettujen vaatimusten mukaisen CTS-sertifikaatin ensimmäisten joukossa koko maailmassa.

Uusia työkaluja data-arkistoille

Tietoarkiston yksi painopiste SAW-hankkeessa oli tuottaa työkaluja, jotka auttavat uusia data-arkistoja aloittamaan ja olemassa olevien data-arkistojen kehittämään toimintojaan. Teimme hankkeessa Kuha2-harvointirajapinnan, joka on helposti käyttöön otettava, kevyt mutta kattava palvelinohjelmisto kuvailutietojen jakeluun. Kuha2:n lähdekoodi on avointa.

Lisäksi olimme mukana tuottamassa kustannus-hyöty-työkalupakettia data-arkistoille. Tietoarkisto laati hyöty-yhteenvedon ja kokeili kustannus-hyöty-työkaluja. Kustannus-hyötyanalyysissä emme saavuttaneet brittien data-arkiston lukemia, mikä johtunee toisaalta skaalaeduista ja toisaalta toimintamallista. Ailan käyttöönotto on kuitenkin parantanut tehokkuuttamme selvästi.

Tavoitteena hyvien käytäntöjen jakaminen

Tietoarkisto haluaa vaikuttaa aktiivisesti siihen, minkälaisia palveluita CESSDA tarjoaa tutkijoille. Toisaalta haluamme varmistaa, että omat palvelumme ovat kansainvälisten vaatimusten mukaisella tasolla. Olemme eurooppalaisittain keskikokoinen data-arkisto, joten meidän kannattaa keskittyä vahvuusalueisiimme, kun pyrimme viemään käytäntöjämme malliksi CESSDAlle ja muille palveluntuottajille. Vastaavasti on osa-alueita, joissa meidän on hyödyllistä ottaa mallia muilta. CESSDA SAW -hankkeessa otimme tärkeitä askeleita tavoitteidemme saavuttamiseksi. Jatkamme tätä työtä muun muassa olemalla mukana CESSDAn sisäisissä kehityshankkeissa.

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi