7. joulukuuta 2018

Translation and international use of research data

To promote open science, the Finnish Social Science Data Archive also provides services to researchers and students who do not speak Finnish. In practice, this means that foreign language speakers are provided the opportunity to access quantitative research data in FSD holdings in English. In addition, we describe all data in English to allow the international audience to find them.

Translating variables, that is, the questions and response alternatives presented in a study, differs quite a lot from translating other types of texts. Translators of literature often have a great deal of linguistic and artistic freedom. The challenge of translating fiction usually lies in carrying the ambiguities of the source language over to the target language. Translating technical and informative texts requires clearer, more univocal interpretation, although depending on the text type a translator may have some creative licence.

Striving for fidelity and clarity

When survey questions are being translated, there's very little room for interpretation. In studying attitudes, how something is asked may have almost as big an effect on the frequency distributions as what is asked.1 The users of translated data have to be able to trust that the translated questions correspond to the original ones as closely as possible in terms of both content and form. Researchers may draw far-reaching conclusions based on the translated questions, which is why it's essential that non-Finnish-speaking researchers gain an understanding of what the respondents were originally asked and how the questions were phrased.

One of the challenges of translating variables faithfully is posed by the errors and inconsistencies sometimes found in source texts. At its worst, an error in a Finnish question may affect how the respondents answer the question, and the non-Finnish user of the data will wonder what has caused the unexpected frequency distributions. When translators notice an error, they have to consider how significant it is and whether it has actually affected the responses. The translator also needs to decide how to communicate the error to data users. Replicating the error in the translation is rarely a good option because a user won't know whether the error originated from the source text or the translator.

As translators at FSD, we're lucky to have the possibility to provide further information on the translations to users through a separate file. These translation notes usually contain information on the word choices and translation strategies used.

Culture-specific expressions pose challenges

In general, a translator of research data should aim to create as neutral a translation as possible while avoiding interpreting variables too strictly from her or his own point of view. However, this does not mean that we translate data word for word; relaying the idea of the original text clearly and intelligibly is our priority.

Ultimately, the challenges of data translations are very similar to those encountered when translating other kinds of texts, such as how to express a concept that does not exist in another language and how to translate the nuances of the source language into the target language.

Questions presented in surveys often have elements or expressions that are specific to the Finnish culture and have no obvious counterparts in English. In these cases, the concepts need to be explained to foreign users. For example, in one dataset, the respondents were asked whether "red cottages and potato fields" are part of the Finnish rural landscape. This expression is similar to the "white picket fence" used in the United States referring to a sort of simple and idyllic life. However, because our users are from all over the world, domesticating the question for a culturally limited audience is not a good idea. For users who are not familiar with either the Finnish or the American culture, we would simply be replacing one culture-specific expression with another. In situations like this, the translation notes are of great help to us, as we are able to explain expressions that might otherwise be incomprehensible to some users.

The translation process at FSD usually takes a few weeks depending on the size of the data and the translators' workload. After the translation is complete, the data are available on our Aila Data Service to all users who need it in English. This is why we always put a lot of care and effort in translating all of the data instead of specific, individual variables needed by one user.

"Haste makes waste" also applies to questionnaire design and translation

Some might say that a data translation is never close enough to the source text to make research on translated variables feasible. It's been noted, for example, that some established measurements of well-being do in fact measure slightly different concepts in different languages.2 Full equivalence can perhaps never be achieved, but this is rarely the goal of translation. It's good to remember that language is built on interpretations, and even speakers of the same language may understand the same question in different ways in attitudinal surveys.

Questionnaire design and translation do not always receive the attention they deserve, although well-formed questions are likely to lead to better validity. In international comparative surveys, it's particularly important that all respondents are asked the same things in the same way. If you plan to use questionnaires in more than one language, having questionnaires translated by a professional translator is something to consider when planning data collection. Surveys conducted in a single language also benefit from proofreading by a professional to prevent potential errors or inconsistencies from endangering the objective of the study.

Survey question form and wording require some effort, but there is no need to reinvent the wheel; inspiration for questions can be found, for example, in the UKDS Variable and question bank, the upcoming CESSDA Euro Question Bank and of course our question and variable search on Aila Data Service.

Henri Ala-Lahti
Research Officer
firstname.lastname [at] uta.fi

Niko Koski
Research Assistant
firstname.lastname [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), "Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems", Journal of Happiness Studies 17 (4): 1337-1350.

This blog entry is also available in Finnish:
Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä.

Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä

Tietoarkisto palvelee avoimen tieteen edistämiseksi myös tutkijoita ja opiskelijoita, jotka eivät puhu suomea. Käytännössä tämä tarkoittaa sitä, että Suomessa tai ulkomailla asuville vieraskielisille asiakkaille tarjotaan mahdollisuus saada käyttöönsä kvantitatiiviset tutkimusaineistot englanninkielisinä. Lisäksi tuotamme kaikista arkistoon toimitetuista aineistoista kuvailut englanniksi, jotta kansainvälinen yleisö löytäisi tarvitsemansa aineistot.

Aineiston muuttujien eli tutkimuksissa esitettyjen kysymysten ja niiden vastausvaihtoehtojen kääntäminen poikkeaa varsin paljon muiden tekstien kääntämisestä. Kaunokirjallisten tekstien kääntäjällä on suuri vapaus ilmaista asia toisella kielellä. Kaunokirjallisuuden kääntämisen haasteena on usein alkuperäisen tekstin moniselitteisyys ja tämän välittäminen kohdekielelle. Asiatekstikääntäminen taas vaatii yksiselitteisempää ilmaisutapaa, vaikka tekstilajista riippuen myös asiatekstikäännöksissä on paikoitellen ilmaisunvapautta.

Tasapainottelua vastaavuuden ja selkeyden välillä

Tutkimusaineistojen kysymysten kääntäminen sijoittuu ilmaisutavan puolesta asiatekstien tiukempaan päähän. Asenteita tutkittaessa muuttujien jakaumiin voivat vaikuttaa paitsi kysymysten ajatuksellinen sisältö myös niiden esitystapa.1 Käännettyjen tutkimusaineistojen käyttäjien on voitava luottaa siihen, että käännetyt kysymykset vastaavat sisällöltään ja esitystavaltaan mahdollisimman läheisesti tutkittaville esitettyjä. Tutkijat voivat tehdä pitkällekin meneviä johtopäätöksiä käännettyjen kysymysten perusteella. Siksi on tärkeää, että ulkomaalainen tutkija saa oikean käsityksen siitä, mitä vastaajilta on kysytty suomeksi.

Eräänä haasteena uskollisen muuttujakäännöksen tuottamiselle ovat alkuperäisissä teksteissä silloin tällöin esiintyvät virheet ja epäjohdonmukaisuudet. Pahimmillaan suomenkielisessä kysymyksessä esiintynyt virhe on voinut vaikuttaa siihen, miten tutkittavat ovat vastanneet kysymykseen, ja muun kielinen jatkokäyttäjä voi ihmetellä, mistä epäuskottavat frekvenssijakaumat mahtavat johtua. Kääntäjän onkin tällaisissa tilanteissa punnittava, kuinka merkittävä virhe on ja onko se saattanut vaikuttaa kysymyksen tulkintaan. Tämän lisäksi on mietittävä, kuinka tulkintaan mahdollisesti vaikuttanut virhe ilmaistaan tutkimusaineistoa käyttävälle asiakkaalle. Virheen toistaminen käännöksessä on harvoin hyvä vaihtoehto, sillä asiakas ei voi tietää, onko kyseessä kääntäjän vai alkuperäistekstin virhe.

Me Tietoarkiston kääntäjät olemme siinä mielessä onnellisessa asemassa, että meillä on mahdollisuus liittää kääntämiemme aineistojen yhteyteen lisätietoja käännöksistä. Lisätiedot kootaan yleensä erilliseen tekstitiedostoon, johon kääntäjät voivat myös kommentoida terminologiavalintojaan ja käyttämiään käännösstrategioita.

Kulttuurisidonnaiset ilmaisut vaativat pohdintaa

Yleisesti ottaen kääntäjän on vältettävä tulkitsemasta muuttujia omasta näkökulmastaan ja pyrittävä mahdollisimman neutraaliin käännökseen. Tämä ei kuitenkaan tarkoita, että tutkimusaineisto käännettäisiin suoraan sanasta sanaan, vaan etusijalla ovat aina tekstin ymmärrettävyys ja tekstin ajatuksen välittäminen kielestä ja kulttuurista toiseen. Tutkimusaineistojen kääntämisessä ollaan lopulta samankaltaisten haasteiden äärellä kuin muidenkin tekstien kääntämisessä, eli kuinka ilmaista toisesta kielestä tai kulttuurista kokonaan puuttuva käsite tai ilmaus ja kuinka siirtää lähtötekstin vivahteet toiselle kielelle.

Tutkimuksissa esitetyt kysymykset sisältävät usein kulttuurisidonnaisia elementtejä, joille ei ole olemassa termejä englanniksi. Tällöin termien käsitesisällöt täytyy selittää auki ulkomaalaiselle jatkokäyttäjälle. Esimerkiksi eräässä aineistossa vastaajilta kysyttiin sitä, kuuluvatko "punaiset tuvat ja perunamaat" suomalaiseen maaseutumaisemaan. Ilmaus on hyvin kulttuurisidonnainen, ja vaikka sille löytyisikin vastineita joistakin kulttuureista, on otettava huomioon, että asiakkaamme voivat olla mistä päin maailmaa tahansa. Siksi kysymyksen niin sanottu kotouttaminen yhteen kulttuuriin tai maahan, vaikkapa yhdysvaltalaisille tutulla kielikuvalla, ei ole suositeltavaa. Myös tässä tapauksessa on suureksi avuksi, että voimme toimittaa asiakkaalle lisätietoja käännöksestä ja selittää esimerkiksi, että punainen tupa ja perunamaa ymmärretään Suomessa usein eräänlaisena maalaisidyllinä.

Tietoarkiston käännösprosessi vie aineiston koosta ja kääntäjien työmäärästä riippuen yleensä muutaman viikon, jonka jälkeen aineisto on muidenkin englanninkielistä aineistoa tarvitsevien käytössä Aila-palvelun kautta. Tämän vuoksi aineistot käännetään aina huolellisesti kokonaan.

Kyselylomakkeita ei kannata kääntää hätäillen

Joidenkin mielestä käännöksellä ei koskaan päästä niin lähelle alkuperäisen tekstin merkitystä, että erikielisten muuttujien vertailu tutkimuksessa olisi mielekästä. Eräät tutkijat ovat esimerkiksi huomauttaneet, että usein käytetyt hyvinvoinnin mittarit mittaavat itse asiassa eri asioita eri kielillä.2 Täydellistä kielten välistä vastaavuutta tuskin saavutetaan käännöksellä juuri koskaan, ja se on harvoin kääntämisen tavoite. On hyvä muistaa, että kieli rakentuu erilaisten tulkintojen varaan. Kyselytutkimuksissa mitataan yleensä vastaajien asenteita ja näkemyksiä, ja samaa kieltä puhuvatkin voivat ymmärtää saman kysymyksen eri tavoin.

Aina kyselylomakkeiden huolellista laatimista ja kääntämistä ei nähdä tutkimuksen kannalta oleellisena, vaikka oikein muotoilluilla kysymyksillä on merkitystä kyselyn tulosten validiteetin kannalta. Kansainvälisissä vertailuaineistoissa on erityisen tärkeää, että eri kielillä käytettävissä kyselylomakkeissa kysytään mahdollisimman tarkasti samoja asioita. Kyselylomakkeiden käännättäminen ammattikääntäjällä kannattaa ottaa huomioon jo aineistonkeruuta suunnitellessa, jos kyselylomakkeita aiotaan käyttää muulla kielellä kuin suomeksi. Suomeksikin kysymysten kieliasu kannattaa tarkistuttaa, jotta heikko tai epäjohdonmukainen kieli ei vaaranna tutkimuksen tavoitteita.

Kysymysten muotoilussa täytyy siis olla tarkka ja huolellinen niin suomeksi kuin englanniksikin. Pyörää ei tarvitse kuitenkaan keksiä uudelleen; suomeksi kysymyslomakkeita muotoillessa kannattaa käyttää hyväksi palveluportaali Ailan muuttujahakua ja etsiä esimerkkejä aiemmin käytetyistä kysymyksistä, ja englanniksi voi hyödyntää esimerkiksi UKDS:n kysymyspankkia sekä CESSDAn tulevaa Euro Question Bankia.

Henri Ala-Lahti
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Niko Koski
tutkimusapulainen
etunimi.sukunimi [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), "Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems", Journal of Happiness Studies 17 (4): 1337-1350.

Tämä blogikirjoitus on luettavissa myös englanniksi:
Translation and international use of research data.

29. marraskuuta 2018

Being trustworthy and FAIR requires people, processes, technologies and collaboration

The Implementation Roadmap for the European Science Cloud (EOSC) puts focus on research data adhering to the FAIR principles of being findable, accessible, interoperable, and reusable. These are all excellent goals and the social science data archive community has been promoting similar ideas since at least the 1970's. We know that managing, disseminating and preserving digital data for the long term is neither simple nor straightforward. Research data will not become nor stay FAIR by magic. We need skilled people, transparent processes, interoperable technologies and collaboration to build, operate and maintain research data infrastructures.

A key theme in digital preservation and thus in all FSD's functions is trust. Data subjects need to be able to trust that data about them are handled in an appropriate way. Researchers need to have trust that FSD manages their data according to the agreements. FSD’s users need to be able to trust that they get access to reliable versions of data from FSD and that, for example, all changes made to the deposited datasets are documented. In short, FSD needs to be a trusted digital repository.

Shaping the trust landscape

Luckily, FSD is not alone. In addition to collaborating in national networks, FSD is the Finnish Service Provider for CESSDA ERIC (Consortium of European Social Science Data Archives). CESSDA requires that all its Service Providers adhere to the trustworthy digital repository requirements set by the CoreTrustSeal. In August 2017, FSD acquired the new CTS certification among the first CESSDA Service Providers.

FSD has been active in CESSDA's trust work for several years and currently I am a member of the CESSDA Trust Working Group. The Group offers guidance and support to CESSDA members in understanding and acquiring the CoreTrustSeal and maintains an overview of the trust landscape including certification standards and the emergence of the FAIR data principles and the requirements of the EOSC. I am also a member of the CoreTrustSeal Board 2018–2021. These collaborations are essential for strengthening FSD's expertise. They also provide unique insights to, and possibilities to be involved in, shaping the trust landscape.

Today is the World Digital Preservation Day. It brings together the digital preservation community to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. I want to take this opportunity to celebrate FSD's current and forthcoming collaborations and especially our staff's great expertise and dedication. As the Chair of the CESSDA Trust Group Herve L’Hours has written: Technologies can be consolidated, and processes automated, but collection, creation, curation and research use/reuse of data is ultimately dependent on the domain and disciplinary expertise of the humans who know them best. (L'Hours 2018)

Happy Digital Preservation!

FSD’s work in CESSDA Trust Group and CoreTrustSeal are supported by CESSDA Trust Work Plan project and the Active FSD for CESSDA project funded by the Academy of Finland.

More information:

» Follow #WDPD2018 on Twitter
» CESSDA Trust Working Group
» CoreTrustSeal Board 2018-2021

Mari Kleemola
Development Manager
firstname.surname [at] uta.fi

1. marraskuuta 2018

New user-friendly website for FSD

Dear reader, it is very much possible that you’re reading this after noticing that our website has been given a facelift or after reading an announcement about it.

The previous FSD website was launched over six years ago, and a lot has changed in the way people browse the web since. The former site was not very suitable for use on mobile, or even tablet, screens. Even though nothing was broken per se, the site wasn’t exactly optimised for the mobile visitor. Unlike now. We have designed our new site with accessibility in mind, and it scales responsively to different types of screens.

Of course, the website overhaul had other objectives as well. Not getting caught up in the old ways was one of them. In six years, our services have also changed a lot, and we want to bring them forward in a new way. The starting point of the redesign was that all our user groups should find the services or information they need quickly and effortlessly.

The appearance has also changed. Now everything is a bit bigger and more colourful. Our website is our most important customer service channel and our business card as well as a meeting point for data depositors and users.

Content grouping has changed

Navigating the site is now done mainly via a “mega menu” that replaces the traditional sitemap and is always accessible, regardless of which page the user is currently viewing. We hope that this will facilitate finding the relevant contents if the URLs of pages have changed. However, we primarily aim to redirect the user to the right address automatically.

Most of the content regarding datasets directly has been moved to the Aila Data Service. The new site will include instructions on searching and using research data, introductions of featured datasets and theme pages as well as links to the most recent datasets on Aila.

Everything is new under the hood

Improvements on the site are not only cosmetic. With our partner Redflow Inc., we have developed a modern content management system, based on Hugo, for generating static pages. The CMS will be used for maintaining the FSD website and publishing new content. We wanted a secure solution that we could fine-tune to meet our needs and to fit seamlessly in with our development environment.

In the future, our other services will also receive the new look. For now, many of the services offered by FSD, such as Aila, Data Management Guidelines and Research Methods Web Resource MOTV, will have the old interface. The Swedish version of the website will receive more content in the coming weeks.

A lot of work has been done for the new website, but we have surely missed something. Maybe we have forgotten to move some content to the new page. Perhaps the interface works illogically on some browsers. It might be that a link takes you to the wrong place or nowhere at all. We will be glad to receive any feedback regarding the new site (tuki.fsd at uta.fi)!

Tuomas J. Alaterä
IT Services Specialist
firstname.surname [at] uta.fi

This blog post is available also in Finnish:
Tietoarkistolle käyttäjä- ja mobiiliystävälliset uudet verkkosivut.


29. lokakuuta 2018

Tietoarkistolle käyttäjä- ja mobiiliystävälliset uudet verkkosivut

Hyvä lukija, on hyvin mahdollista, että luet tätä huomattuasi tiedotteestamme tai saapumalla sivuillemme, että Tietoarkiston verkkosivut ovat uudistuneet.

Edellisestä sivustouudistuksesta on kulunut reilut kuusi vuotta. Tänä aikana tavoissa, joilla verkkoa selataan, on tapahtunut suuria muutoksia. Aiemmat sivumme eivät soveltuneet kovin hyvin kännykän tai edes tabletin näytöllä luettavaksi. Vaikka mikään ei sinänsä ollut rikki, niitä ei oltu optimoitu mobiilikäyttäjää varten. Toisin on nyt. Uudet sivumme on suunniteltu saavutettaviksi sekä responsiivisiksi ja ne skaalautuvat erilaisille näytöille.

Uudistuksella on toki ollut muitakin tavoitteita. Yksi niistä on uudistuminen itsessään. Kuudessa vuodessa myös Tietoarkiston palveluissa on tapahtunut muutoksia, ja haluamme tuoda palveluitamme näkyviin uudella tavalla. Suunnittelussa on lähdetty siitä, että kaikki asiakasryhmät löytäisivät mahdollisimman helposti heitä koskevat palvelumme tai kiinnostavan informaation.

Myös visuaalinen tyyli on erilainen. Nyt kaikki tehdään hieman isommin ja hieman värikkäämmin. Verkkosivumme ovat keskeisin asiakaspalvelun kanavamme, datan arkistoijan ja jatkokäyttäjän kohtaamispaikka ja käyntikorttimme.

Sisältöjä ryhmitelty uusiksi

Navigointi tapahtuu pääasiassa "megamenun" kautta. Se korvaa perinteisen sivukartan ja on saatavilla aina, riippumatta siitä, missä kohtaa sivustoa tai yksittäistä sivua käyttäjä kulloinkin on. Tämän toivomme helpottavan sisällön löytämistä myös silloin kun sivujen osoitteet ovat muuttuneet. Ensi sijassa pyrimme ohjaamaan käyttäjän automaattisesti oikeaan osoitteeseen.

Uudistuksen myötä tutkimusaineistoja suoraan käsittelevä sisältö, kuten aineistoluettelo, on siirretty palveluportaali Ailan puolelle. Verkkosivuillamme sen sijaan julkaisemme aineistoesittelyjä, taustoitamme teemakokonaisuuksia ja linkitämme aineistoihin, joka ovat saatavilla Ailassa.

Konepellin alla kaikki on uutta

Muutos ei ole ainoastaan ulkoinen. Olemme kehittäneet yhteistyökumppanimme Redflow Inc:n kanssa modernin Hugo-pohjaisen staattisten sivujen generoimiseen soveltuvan sisällönhallintakokonaisuuden, jolla Tietoarkiston sivuja ylläpidetään ja julkaistaan. Halusimme tietoturvallisen ratkaisun, jota voimme säätää tarkasti omiin tarpeisiimme soveltuvaksi ja joka sopii saumattomasti tietotekniseen kehitysympäristöömme.

Jatkossa tulemme tuomaan uuden ulkoasun myös useisiin muihin palveluihimme. Toistaiseksi mm. palveluportaali Aila, Aineistonhallinnan käsikirja ja MOTV jatkavat vanhassa kuosissaan. Ruotsinkielisille sivuille sisältöjä tulee lisää lähiviikkoina.

Uudistusta varten on tehty paljon töitä, mutta varmasti jotain on jäänyt huomaamatta. Ehkä olemme unohtaneet siirtää joitain sisältöjä uusille sivuille. Kenties käyttöliittymässä on joillain selaimilla epäloogisuuksia. Mahdollisesti jokin linkki vie väärään sisältöön tai ei minnekään? Vastaanotamme mielellämme palautetta (tuki.fsd at uta.fi)!

Tuomas J. Alaterä
IT-palveluasiantuntija
etunimi.sukunimi [at] uta.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
New user-friendly website for FSD.

20. syyskuuta 2018

Ailassa nyt tallennustyökalu aineistojen arkistointiin

Tietoarkisto on ottanut palveluportaali Ailassa käyttöön aineistojen tallennustyökalun. Tavoitteena on saada tulevaisuudessa kaikki aineistot arkistoitavaksi Tietoarkistoon Ailan kautta. Palvelu on helppokäyttöinen ja tietoturvallinen. Toivomme sen myös tehostavan aineistojen toimittamista Tietoarkistoon.

Siirtämällä datan Ailaan asiakas ei julkaise aineistoa itsenäisesti. Kyseessä ei siis ole itsearkistointi. Tietoarkiston asiakaspalvelu tarkistaa saadun materiaalin ja arvioi arkistointikelpoisuuden sekä prosessoi ja kuvailee datan Tietoarkiston käytäntöjen mukaan. Aineisto tulee Ailan aineistoluetteloon vasta tämän jälkeen - aivan kuten tähänkin asti.

Asiakkaalle uusi työkalu näkyy, jos hän on sopinut Tietoarkiston kanssa aineiston arkistoinnista ja hyväksynyt käsittelysopimuksen. Käytännössä aineistopalvelu luo Ailaan työtilan sovittua aineistonluovutusta varten ja lähettää kirjautumiskutsun. Luovutus on asiakkaan käytettävissä, kunnes hän on siirtänyt kaiken tarvittavan materiaalin Ailaan ja merkinnyt luovutuksensa valmiiksi. Sen jälkeen asiakaspalvelu ottaa datan käsiteltäväkseen. Tutkija voi siirtää joko kaikki tiedostot kerralla tai tarkastella ja täydentää luovutustaan myöhemmin jättäen luovutuksensa aktiiviseksi. Aineistoja ei kuitenkaan säilytetä luovutustyökalun työtilassa pysyvästi. Tiedostot poistetaan viimeistään, kun arkistointi on valmis.

Uusi palvelu varmistaa turvallisen datan siirron

Tutkijat ovat tottuneet toimittamaan dataa Tietoarkistoon sähköpostin liitteenä tai joissakin tapauksissa postitse erilaisilla tallennusvälineillä. Tietoarkistolla ei ole kummassakaan tapauksessa mahdollisuutta varmistaa datan siirron tietoturvallisuutta. Voimme pelkästään ohjeistaa asiakasta. Kun luovutustyökalu on käytössä, nämä huolet vähenevät, vaikka kanta-asiakkailla voikin kulua tovi uuden tavan oppimisessa.

Uudistuksen myötä arkistoinnin henkilöriippuvuus siirtyy toivottavasti myös historiaan. Luovutustyökalua käyttämällä tieto Ailaan siirretystä aineistosta tulee ajantasaisesti asiakaspalveluun, ja aineiston käsittelyprosessikin voi tästä vauhdittua. Vaikka saattaa tuntua kätevämmältä lähettää tiedostot sähköpostitse tutulle henkilölle, kannustan Ailan luovutustyökalun käyttämiseen.

Uusi palvelu joutuu testiin syksyn aikana toivottavasti monien asiakkaiden käytössä. Jos suunnittelet aineiston arkistointia Tietoarkistoon, ota yhteyttä Tietoarkistoon ja tutustu myös Aineiston luovuttaminen Ailassa -ohjeeseen.

Käyttäjäpalaute palvelun toimivuudesta ja mahdolliset kehitysehdotukset ovat tervetulleita.

Tietoarkisto on rakentanut luovutustyökalun Suomen Akatemian infrastruktuurirahoituksella.

Lisätietoa:

» Aineiston luovuttaminen Ailassa -ohje
» asiakaspalvelu.fsd [at] uta.fi

Helena Laaksonen
johtaja
etunimi.sukunimi [at] uta.fi

26. kesäkuuta 2018

Ensikokemuksia kirjoitusaineistojen keruutyökalu Pennasta

Tietoarkisto lanseerasi syksyllä 2017 uuden kirjoitusaineistojen keruutyökalu Pennan. Pennan tarkoituksena on tarjota aineistonsa arkistoiville tutkijoille ja opiskelijoille helppo tapa kerätä kirjoitusaineistoja. Päädyimme täysin uuden palvelun luomiseen havaittuamme, että opiskelijat ja tutkijat käyttävät arkistoituja kirjoitusaineistoja hyvinkin paljon, mutta niitä keräävät lähinnä vain isommat organisaatiot ja eri alojen järjestöt.

Tulkitsimme, että tutkijat ja opiskelijat pitivät kirjoitusaineistoja kiinnostavana ja tutkimuksellisesti rikkaana aineistotyyppinä, mutta keruiden järjestäminen ja tekninen hallinta koettiin jossain määrin hankalaksi. Haastetta lisää se, että erityisesti kaikelle kansalle suunnatuissa kirjoituskeruissa on vaikea etukäteen arvioida, kuinka suureksi aineistomäärät lopulta kasvavat.

Pennan julkaisun jälkeen kirjoitusaineistojen keruu on helpottunut, sillä Tietoarkisto hoitaa keruun teknisen toteutuksen ja kirjoitusten tietoturvallisen säilytyksen. Tutkijan itsensä tarvitsee ainoastaan laatia kirjoituskutsu ja tiedottaa keruusta valitsemalleen kohderyhmälle.

Tietoarkisto luo tutkijan laatiman kirjoituskutsun pohjalta Pennaan keruulomakkeen ja lisää lomakkeeseen tarvittavat taustatietokysymykset. Tämän jälkeen tutkija saa Tietoarkistolta keruulinkin, jota hän voi levittää parhaiksi katsomissaan kanavissa. Kun keruu on päättynyt, Tietoarkisto toimittaa kirjoitukset tutkijalle txt-muodossa zip-pakettina. Tietoarkistoon arkistoitavat kirjoitukset tulevat sovitun ajan kuluttua jatkokäytettäviksi palveluportaali Ailaan aineiston käyttöehtojen mukaisesti.

Koska Tietoarkisto vastaa keruun teknisestä toteutuksesta, voidaan samalla varmistaa kirjoitusaineistojen ongelmaton arkistointi tietosuojalainsäädännön ja tutkimusetiikan näkökulmasta. Jokaisessa keruussa tutkittavia informoidaan asianmukaisesti aineiston käytöstä sekä kysytään lupa kirjoituksen arkistointiin ja jatkokäyttöön.

Ensimmäiset keruut ovat onnistuneet

Nyt Penna on ollut käytössä vajaan vuoden ja ensimmäiset kuusi keruuta on järjestetty. Jo nyt Pennalla on kerätty vastaajien kokemuksia hyvin erilaisista aiheista. Aineistoja on kerätty muun muassa liittyen opiskelijoiden hyvinvointiin, sukupuolen merkitykseen opetuksessa sekä ilman parisuhdetta elävien miesten elämään.

Ensimmäisten keruiden jälkeen voimme myös jo hieman tarkastella keruista saatuja kokemuksia. Yleisesti ottaen ensikokemukset Pennasta ovat olleet erittäin hyviä. Pennaa käyttäneet tutkijat ovat olleet tyytyväisiä uuden keruualustan tarjoamiin mahdollisuuksiin ja moni on ollut yllättynyt, kuinka vaivatta keruun järjestäminen on onnistunut.

Hyvien kokemusten innoittamana Tietoarkisto esitteli toukokuun lopussa Pennaa myös data-arkistointi- ja tietopalvelualan kansainvälisen IASSIST-järjestön vuosittaisessa päätapahtumassa, joka järjestettiin tänä vuonna Montrealissa Kanadassa. Myös siellä oltiin kiinnostuneita uudesta palvelusta.

Hyvä tiedotus onnistuneen keruun avain

Vaikka Pennan ansiosta keruiden tekninen toteutus onkin nyt helppoa, ei pelkkä Pennan olemassaolo vielä takaa keruun onnistumista. Suurimmassa vastuussa on edelleen tutkija itse, sillä keruusta tiedottaminen on yksinomaan tutkijan vastuulla. Lähes kaikissa tähänastisista keruista tutkimuksen kohderyhmänä on ollut jokin erityinen väestönryhmä, ei koko väestö. Koska tällaisissa keruissa tavoitellut vastaajamäärät ovat jo lähtökohtaisesti varsin kohtuullisia, vaikuttaa keruun onnistumiseen olennaisesti tiedotuksen hyvä suunnittelu ja oikeiden tiedotuskanavien löytäminen.

Tiedottamisen merkitystä korostaa myös toinen ensimmäisistä keruista tekemämme havainto. Keruuajan pidentäminen kesken keruun ei ole lisännyt vastausmääriä käytännössä lainkaan, ellei tiedottamista ei samalla ole tehostettu. Lisäksi niissä keruissa, joissa tiedämme keruutiedotteiden lähettämisajankohdan, vastausmäärät ovat aina selvästi nousseet hetkellisesti tiedotteen lähettämistä seuraavina päivinä. Vastaavasti keruissa, joissa keruutiedote on lähetetty vain kertaalleen keruun alussa, vastausmäärät ovat alun piikin jälkeen kuihtuneet riippumatta siitä, kuinka pitkään keruu on ollut auki.

Vaikka jokainen keruu on aina erilainen, emmekä muutaman yksittäisen keruun jälkeen voi yleistää liikaa, ovat tähänastiset keruut kuitenkin selvästi osoittaneet hyvän tiedottamisen tärkeyden onnistuneessa kirjoituskeruussa.

Kehitystarpeita

Ensimmäiset Pennalla toteutetut keruut synnyttivät myös kehitysideoita. Esiin nousi muun muassa toive siitä, että aineistonkerääjät voisivat itse reaaliaikaisesti seurata oman keruunsa vastaussaldon kehittymistä. Tällä hetkellä Tietoarkisto lähettää tutkijalle tiedon vastaussaldosta keruun pituudesta riippuen noin viikon tai kahden välein sekä aina pyydettäessä. Tutkijan kannalta olisi parempi, että hän voisi seurata vastaussaldonsa kehittymistä reaaliaikaisesti. Tällöin hän voisi esimerkiksi tarvittaessa tehostaa tiedottamistaan tekemiensä havaintojen perusteella.

Toinen konkreettinen tarve olisi tehdä Pennasta myös englanninkielinen versio, jotta myös muut kuin suomenkieliset tutkijat ja vastaajat voisivat käyttää Pennaa täysipainoisesti. Nykyään keruulomakkeen voi kyllä tehdä muullakin kuin suomenkielellä, mutta Pennan ohjeet ja muut tekstit ovat vain suomeksi.

Kaikki käyttäjien palautteet sekä omat havaintomme Pennan kehittämiseksi kirjataan ja niiden toteuttamismahdollisuuksia kartoitetaan Pennan tulevien päivitysten yhteydessä. Toivomme, että voimme myös edellä mainitut toiveet toteutettua mahdollisimman pian.

Käyttäkää Pennaa, olkaa hyvä!

Pennasta tähän mennessä saatujen kokemusten perusteella uskallan vilpittömästi suositella Pennaa kaikille, jotka haluavat kerätä oman kirjoitusaineiston tutkimustansa varten. Pennan käyttö on tutkijoille ja opiskelijoille täysin ilmaista. Lisätietoa Pennasta löytyy Tietoarkiston verkkosivuilta. Voit myös olla suoraan yhteydessä Tietoarkiston asiakaspalveluun.

Lisätietoa:

» Kirjoitusaineistojen keruutyökalu Penna
» Lisää Penna-palvelusta
» asiakaspalvelu.fsd [at] uta.fi

Jarkko Päivärinta
tietopalveluasiantuntija
etunimi.sukunimi [at] uta.fi

25. toukokuuta 2018

Tutkimusetiikan ja tietosuojan välisestä suhteesta

Etiikalla ja tietosuojalla on läheinen suhde, joka ulottuu tietosuojan alkuaikoihin. Tietosuoja kehittyi tietojenkäsittelyn mahdollisuuksien lisääntyessä. Ruotsin vuoden 1973 Datalagin (1973:289) valmistelu aloitettiin 60-luvulla. Sääntely perustui lisenssimalliin, jonka henkistä perintöä ilmentää Suomen henkilötietolakiin (523/1999) jäänyt – ja uuden tietosuoja-asetuksen (2016/679) myötä kumoutuva – mahdollisuus tietosuojalautakunnalle myöntää lupa henkilötietojen käsittelyyn eräissä tilanteissa.

Ruotsissa lisenssien myöntämisedellytykset tieteellisessä tutkimuksessa yhdistyivät kirjalliseen muotoon koonnettuihin eettisiin normistoihin. Eettisten normistojen erot vaikuttivat henkilötietojen käsittelyyn eri tieteenaloilla.1 Menettelyssä ei ollut kyse nimenomaan eettisestä ennakkoarvioinnista, vaan käsittelyn lainmukaisuuden arvioinnista lautakunnassa. Eettisyyttä pidettiin kiinteänä osana henkilötietojen käsittelyn laillista sallittavuutta.

80-luvun keskustelua Suomessa

Klaus Mäkelä kirjoitti vuonna 1987, että "[t]ämän hetken polttavimmat tutkimuseettiset kysymykset liittyvätkin usein tietosuojaan pikemmin kuin tiedonhankintatapoihin".2 Samana vuonna julkaistiin Tieteen keskustoimikunnan asettaman jaoston raportti "Yhteiskuntatieteellisen tutkimuksen tietosuoja".3 Molemmat liittyivät Suomessa vuoden 1988 alussa voimaan astuneeseen, nyt jo kumottuun, henkilörekisterilakiin (471/1987). Uusi lainsäädäntö, joka korvasi rikosoikeudelliseen lähestymistapaan perustuvaa ajattelumallia, aiheutti tarpeen reflektoida tutkimusetiikan ja tietosuojan välistä suhdetta.

Edellä mainitun raportin keskeisiä ajatuksia oli, että lainsäädännön sanamuoto ei yksin riitä kattavaksi ohjeistukseksi kaikkiin käytännön ongelmiin. Toisaalta kaikkea laillista ei pidetty välttämättä eettisesti hyväksyttävänä. Jaosto kiinnitti huomiota tasapainoiluun eettisten ohjeiden yleisyyden ja yksityiskohtaisuuden välillä ja suositti kehittämään käytäntöjä ja ohjeita, jotka herkistävät eettisten ongelmien havaitsemiseen.4 Tutkimusetiikka ja tietosuojaa koskeva lainsäädäntö elävät vuorovaikutussuhteessa keskenään.

Tutkimuskäytäntöjä säätelevät niin eettiset ohjeet kuin lainsäädäntö

Tutkimuseettiset periaatteet eroavat lainsäädännöstä siinä, että eettiset periaatteet perustuvat itsesääntelyyn ja vapaaehtoiseen sitoutumiseen. Oikeustieteen näkökulmasta eettisissä periaatteissa on kyseessä ns. soft law -tyyppinen sääntely. Eettisiä ohjeita ei voi suoraan rinnastaa tuomioistuimen soveltamaan lakiin (Nieminen 2018, s. 16).5

Taustalla voi nähdä yhteyden Suomen perustuslain (731/1999) 3 §:ään kirjattuun valtiollisten tehtävien jakoon, jossa tuomiovalta ja lainsäädäntövalta on eriytetty erillisille instituutioille. Vaikka eettiset ohjeet eivät perustu parlamentaarisessa menettelyssä säädettyyn lakiin, niillä on huomattava käytännön merkitys tutkijoiden vastuun ja tutkittavien oikeuksien määrittämisessä.

Tutkimuseettisillä periaatteilla on vahva side lainsäädäntöön sitä kautta, että lainsäädäntö edellyttää tietynlaisissa tutkimuksissa eettistä ennakkoarviointia. Esimerkiksi laki lääketieteellisestä tutkimuksesta (1999/488) 17.2 § edellyttää eettistä toimikuntaa selvittävän lausuntoaan varten, onko tutkimussuunnitelmassa otettu huomioon tässä tai muussa laissa taikka lain nojalla annetut lääketieteellistä tutkimusta koskevat säännökset tai määräykset. Lainkohdan esitöissä (HE 65/2010 vp) viitataan tietosuojaa koskeviin säännöksiin.

EU:n tietosuojadirektiivi (95/46/EY), joka toimeenpantiin Suomessa henkilötietolailla, ei sisältänyt nimenomaista mainintaa eettisistä normistoista. Myöskään henkilötietolaki ei maininnut nimenomaisesti eettisiä normistoja. Lain esitöissä eettisten normistojen noudattaminen oli kuitenkin yhdistetty arkaluonteisten tietojen käsittelyyn. Tilanne on muuttunut uuden yleisen tietosuoja-asetuksen myötä. Tietosuoja-asetuksen johdanto-osan kappaleessa 33 mainitaan nimenomaisesti tieteellisen tutkimuksen tunnustetut eettiset standardit.

Uusi tietosuoja-asetus edistää tutkittavien eettistä kohtelua

EU:n yleisestä tietosuoja-asetuksesta ja tieteellisestä tutkimuksesta on viime aikoina kirjoitettu ja keskusteltu suhteellisen paljon. Mukaan on mahtunut useita myyttejä ja tarpeetonta pelottelua. Etenkin tietosuoja-asetuksen valmisteluvaiheessa esitettiin kannanottoja, joiden mukaan tieteellinen tutkimus estyy kokonaan. Toinen usein esillä oleva teema on ollut hallinnolliset sanktiot, joita on käytetty pelotteena palvelujen markkinoinnissa. Harvemmin on kerrottu sitä, että hallinnollisten sanktioiden määräämisen tulee olla jokaisessa yksittäistapauksessa oikeansuhtaista, varoittavaa ja tehokasta. Tietosuoja on useiden väärinkäsitysten vuoksi saanut tarpeettoman negatiivisen sävyn. Useimmat tilanteet ovat ratkaistavissa huolellisella suunnittelulla ja ottamalla tietosuoja huomioon mahdollisimman varhaisessa vaiheessa.

Tutkittavien kohtelua ja suojelua koskevilla tutkimuseettisillä periaatteilla ja tietosuojalainsäädännöllä on useita samanlaisia päämääriä. Selvennykseksi on hyvä todeta, että tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee. Tietosuojalainsäädäntö ei liity ainoastaan yksityisyyden tai henkilötietojen suojaan. Tietosuoja-asetuksen tavoitteena on suojella myös laajemmin luonnollisen henkilön perusoikeuksia ja -vapauksia. Tietosuoja-asetus suojelee sivutuotteena esimerkiksi Euroopan unionin perusoikeuskirjassa (2012/C 326/02) turvattuja ihmisarvoa, oikeutta ruumiilliseen ja henkiseen koskemattomuuteen sekä oikeutta vapauteen ja henkilökohtaiseen turvallisuuteen.

"Tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee."

Tiedon ei-julkista luonnetta tai tiedon antajan ja vastaanottajan erityistä suhdetta on kuvattu erilaisissa eettisissä ohjeissa vaihtelevilla ilmaisuilla. Käytettyjä ilmaisuja ovat esimerkiksi yksityisyys, luottamuksellisuus, vaitiolo ja salassapito. Lisäksi tiedon käyttötavoille on voitu asettaa rajoituksia. Ilmaisuille voi muodostua tietyissä konteksteissa ajan myötä vakiintuneita merkityssisältöjä, mutta ne ovat ainakin ulkopuolisten vaikeasti selvitettävissä.

Yksityisyyden sisällöstä ja rajoista on jokaisella kirjoittajalla oma tulkintansa. Tietosuoja-asetus olisi hyvä nähdä tässä yhteydessä kokoelmana ennalta hyväksyttyjä menettelytapoja tutkittavan ja häntä koskevien tietojen suojelemiseksi. Tietosuoja-asetus ja sitä täydentävä kansallinen lainsäädäntö tarjoaa tutkijoille työkalupakin tutkittavien suojaamiseen liittyvien ongelmien ratkaisemiseksi.

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

1 Jansson, Carl Gunnar: Country Report Sweden: Privacy Legislation and Social Research in Sweden. Teoksessa (toim.) Mochmann, Ekkehard & Müller, Paul: Data Protection and Social Science Research: Perspectives from Ten Countries. Campus Verlag GmbH. Frankfurt 1979, s. 32–33.
2 Mäkelä, Klaus: Yhteiskuntatieteellisen tiedonhankinnan eettiset normit ja tietosuoja. Teoksessa (toim.) Mäkelä, Klaus: Tieteen vapaus ja tutkimuksen etiikka. Kustannusosakeyhtiö Tammi. Helsinki 1987, s. 180–195
3 1/87 Yhteiskuntatieteellisen tutkimuksen tietosuoja. Tieteen keskustoimikunnan asettaman jaoston raportti.
4 ibid. s. 3–4, 8–10.
5 Nieminen, Liisa: Ammattieettiset ohjeet juristin haasteena. Viestintäoikeuden vuosikirja 2017. Helsingin yliopiston oikeustieteellisen tiedekunnan julkaisuja. Helsinki 2018.


27. huhtikuuta 2018

Uudet sopimusmallit tutkimusaineistojen arkistointiin

Tietoarkisto on uudistanut tutkimusaineistojen arkistointia koskevat yleiset sopimusmallinsa vastaamaan tietosuoja-asetuksen (2016/679) vaatimuksia. Sopimuksia kehitettäessä on lähtökohtana ollut Tietoarkiston tutkijoille tarjoamien palvelujen luotettavuus ja laillisuus.

Rekisterinpitäjä, joka luovuttaa tutkimusaineiston Tietoarkistoon käsiteltäväksi, täyttää uusien sopimusten myötä tietosuojalainsäädäntöön perustuvat omat velvoitteensa, joita edellytetään sopimuksen sisällöstä 25.5.2018 jälkeen. Sopimusjärjestely suojelee samalla tutkittavia huolehtimalla tietosuojan ja -turvan korkeasta tasosta heidän tietojaan käsiteltäessä.

Miksi sopimusmallien päivittäminen oli tarpeellista?

Sopimuksia solmittaessa yleinen lähtökohta on sopimusvapaus, johon kuuluvat muun muassa sisältövapaus ja muotovapaus. Poikkeuksia sopimusvapauteen on pakottavassa lainsäädännössä. Tietosuoja-asetus laajentaa henkilötietolailla (523/1999) kansallisesti toimeenpannun tietosuojadirektiivin (95/46/EY) sopimuksille asettamia vaatimuksia. Tietosuojasopimuksia koski aiemmin etenkin tietosuojadirektiivin 17 artikla, joka edellytti huolehtimaan lähinnä yleisellä tasolla käsittelyn turvallisuudesta ja seuraamaan rekisterinpitäjän ohjeita. Direktiivistä poiketen uusi tietosuoja-asetus määrittelee yksityiskohtaisesti rekisterinpitäjän ja henkilötietojen käsittelijän välisen sopimuksen sisältöä ja muotoa.

Tietoarkisto toimii useimmiten henkilötietojen käsittelijän roolissa tutkimusaineiston toimittaneen rekisterinpitäjän lukuun. Tietosuoja-asetuksen edellyttämät yksityiskohtaiset ehdot on sisällytetty arkistointisopimuksen liitteeksi. Aineiston jatkokäyttöä koskevat perusratkaisut on arkistointisopimuksessa jätetty ennalleen. Jos henkilötietoja sisältävä tutkimusaineisto toimitetaan Tietoarkistolle ennen arkistointisopimuksen tekemistä, solmitaan luovuttajan ja Tietoarkiston välille erillinen sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi.

Kaikki tutkimusaineistot eivät tietenkään sisällä henkilötietoja. Joskus tätä on vaikea arvioida etukäteen tarkastelematta aineistoa. Tämän vuoksi henkilötietojen käsittelyä koskevat sopimusehdot on otettu osaksi kaikkia sopimuksia.

Mitä hyötyä uusista sopimusehdoista on?

Uusilla sopimusehdoilla on useita etuja aineiston luovuttavan rekisterinpitäjän kannalta. Rekisterinpitäjän kannalta henkilötietojen käsittelyä koskevat yksityiskohtaiset sopimusehdot

  • auttavat toteuttamaan tietosuoja-asetuksen 5 artiklan 2 kohdan mukaista osoitusvelvollisuutta
  • lisäävät tutkittavien luottamusta henkilötietojen vastuulliseen käsittelyyn
  • mahdollistavat tutkimusaineiston laillisen siirtämisen Tietoarkiston käsiteltäväksi
  • voidaan ottaa huomioon tietosuojaa koskevassa vaikutustenarvioinnissa.

Sopimusehdoilla on myös etuja aineiston luovuttajan ja Tietoarkiston väliselle yhteistyölle. Sopimus

  • parantaa tiedonkulkua sopijapuolten välillä
  • vahvistaa henkilötietojen käsittelyn turvallisuutta
  • selkeyttää työnjakoa.

Lisätietoa:

» Sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi (PDF)
» Arkistointisopimus (PDF)

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
New contract models for archiving research data.

New contract models for archiving research data

The Finnish Social Science Data Archive (FSD) has updated its general contract models for archiving research data to fulfill the requirements imposed by the General Data Protection Regulation (2016/679, "GDPR"). Central goals in the development process were to maintain trust and ensure the legality of the services provided by FSD to researchers.

Data controllers depositing research data to FSD for processing fulfil their obligations imposed by data protection legislation on the contents of the contract by using the new contract models. The new legislation is enforceable from 25 May 2018. The contractual arrangement also protects research subjects by ensuring high level of data protection and data security.

Why was it necessary to update the contract models?

Freedom of contract is a general principle that includes, for example, freedoms of content and form. Exceptions to freedom of contract usually stem from consumer protection legislation or competition law, for instance. The GDPR broadens the requirements set for contracts between data controllers and data processors, when compared to Directive 95/46/EC on data protection which was implemented in the Finnish legislation by the Personal Data Act (523/1999). Previously, the terms and clauses in contracts on data protection were governed by Article 17 of the Directive. Article 17 contained a rather general requirement to stipulate in a contract on the security of data processing and that the processor follows the instructions of the data controller. In contrast, the GDPR contains detailed provisions on the content and form of a contract between a data controller and a data processor.

In most cases, FSD acts as the data processor on behalf of the data controller who has deposited the research data. The detailed contractual terms required by the GDPR have been included in the annex of the deposit agreement. The fundamental solutions regarding data reuse have been left intact in the agreement. In the event where research data containing personal information is delivered to FSD before a deposit agreement is concluded, the situation is covered by a separate agreement on personal data processing for assessing the suitability of research data for archiving.

All research data do not necessary contain personal data. This is often difficult to evaluate at the outset without reviewing the data in more detail. For this reason, the contractual terms regarding the processing of personal data have been included in all contracts.

Benefits of the new contract terms

The new contractual terms have multiple benefits for data controllers depositing research data. From their point of view, the detailed contract terms on personal data processing

  • facilitate fulfilling the data controller's obligation of accountability in accordance with Article (5)(2) of the GDPR
  • increase research participants' confidence in responsible handling of their data
  • allow to legally transfer research data to FSD for processing
  • can be taken into account when performing data protection impact assessment (DPIA).

The contract terms also have benefits for the cooperation between the depositor and FSD. The contract

  • enhances communication between the contracting parties
  • strengthens the security of personal data processing
  • clarifies the division of obligations and duties.

Additional information:

» Agreement on personal data processing for assessing the suitability of research data for archiving (PDF)
» Deposition Agreement (PDF)

Antti Ketola
lawyer
firstname.surname [at] uta.fi

This blog post is available also in Finnish:
Uudet sopimusmallit tutkimusaineistojen arkistointiin.

3. huhtikuuta 2018

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on "that Invites Computation", eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.


Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi

5. maaliskuuta 2018

Aineistojen tietosuoja luupin alla - jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

20. helmikuuta 2018

Tutkimusaineistojen ja -julkaisujen tekijyydestä sopiminen on tutkijan etu

Kuka tutkimusaineistossa on tekijä? Kysymys saattaa vaikuttaa selvältä: aineiston tekijä on sen kerääjä. Asia muuttuu kuitenkin monimutkaisemmaksi, jos kyseessä on tutkimushanke, jossa aineistoa ovat keränneet useat tutkijat tai muut tahot. Kenellä on silloin oikeus tulla merkityksi tekijäksi? Entäpä tilanteessa, jossa aineistosta ja tutkimustuloksista tuotetaan julkaisuja? Kuinka tekijyyden määrittäminen ja kaikkien työpanoksen oikeudenmukainen tunnustaminen otetaan huomioon hyvän tieteellisen käytännön mukaisesti?

Tutkimuseettinen neuvottelukunta (TENK) julkaisi tammikuussa suosituksen tieteellisten julkaisujen tekijyydestä sopimisesta, jonka laatimiseen osallistuin Tietoarkiston edustajana. Suosituksen tavoitteena on kannustaa erityisesti yhteisjulkaisuja tuottavia tutkimusryhmiä sopimaan tekijyydestä mahdollisimman ajoissa. Taustalla on ensinnäkin tavoite ehkäistä tekijyyskiistoja ja toisaalta muistuttaa, että tekijyyden asianmukainen merkitseminen on hyvän tieteellisen käytännön mukaista. Akateemisessa maailmassa tieteellinen julkaiseminen on tärkeä osa tutkijan meritoitumista ja nimi tekijäluettelossa kerryttää tieteellistä pistesaalista. Tämän vuoksi on tärkeää, että jokaisen tekijän työpanos tunnustetaan oikeudenmukaisesti. Tavoitteena onkin kannustaa tutkimushankkeita ja -ryhmiä pohtimaan sitä tapaa, jolla jokaisen osallisuus tehtyyn tutkimukseen huomioidaan mahdollisimman oikeudenmukaisesti.

Suosituksen yhtenä tavoitteena on kannustaa tutkimusryhmiä huomioimaan tekijyyden eri aspekteja tutkimuksen eri vaiheissa. Kysymys tekijyydestä kristalloituu usein siitä, kuka kirjoitti ja kuinka paljon. Monenlaiset muut roolit voivat kuitenkin oikeuttaa siihen, että tutkija saa nimensä tekijäksi. Suositus määrittelee tekijyydeksi kaikkea toimintaa, joka tuottaa ja mahdollistaa tutkimustietoa. Siten esimerkiksi tutkimusaineistojen tuottaminen, analyysi ja tulkinta voivat joillain tieteenaloilla oikeuttaa tekijyyteen. Tieteenalakohtaiset erot ja käytännöt eivät kuitenkaan ole aina selviä, jos tutkimushankkeessa on useiden eri tieteenalojen edustaja. Silloin myös aineistoja koskevien käytäntöjen tekeminen selväksi on kaikkien edun mukaista.

TENKin ohjeistus suosittelee laatimaan aineistonhallintasuunnitelman, jossa aineistoihin liittyvät velvollisuudet ja oikeudet tulevat määritellyiksi. Myös Tietoarkistossa kannustamme tutkijoita aina laatimaan aineistonhallintasuunnitelman ja sopimaan aineistoihin liittyvistä oikeuksista. Sopiminen selkiyttää esimerkiksi sitä, kuka merkitään aineiston tekijäksi. Tekijänoikeudellisesta näkökulmasta aineistoista sopiminen turvaa aineiston tekijän (aineiston kerääjän, koostajan tai luovuttajan) moraalisia oikeuksia. Jos aineisto arkistoidaan jatkokäyttöä varten, ovat jatkokäyttäjät aina velvoitettuja viittaamaan siihen asianmukaisesti. Tämä on tärkeää myös siksi, että tutkimus- ja tietoaineistojen tuottaminen ja jakaminen on tutkijalle tieteellinen ansio samalla tavalla kuin tutkimusjulkaisu.

Tämä blogiteksti on viimeinen tietoarkistolaisena kirjoittamani. Matkani tutkimusdatan ja avoimen tieteen parissa jatkuu kuitenkin uusissa tehtävissä Tampereen teknillisessä yliopistossa.

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, sopimukset ja oikeudet
» Tutkimuseettinen neuvottelukunta: Tieteellisten julkaisujen tekijyydestä sopiminen

Katja Fält
tietoasiantuntija, TTY
Tietoarkiston entinen humanististen alojen tieteenala-asiantuntija
fsd [at] uta.fi

19. tammikuuta 2018

Tietoarkisto CESSDAssa: vahvuuksiamme ovat toimivat palvelut ja käytännöt sekä luotettavuus

CESSDA ERIC -infrastruktuuria rakennetaan kiihtyvällä vauhdilla ja viimeiset kolme vuotta ovat olleet Tietoarkistolle erittäin tiiviin eurooppalaisen yhteistyön aikaa. CESSDAn keskustoimisto on pieni ja toiminta perustuu kansallisten palveluntuottajien hajautettuihin palveluihin.

Yksi CESSDAn suurimmista hankkeista, kaksivuotinen CESSDA Strengthening and Widening, lyhyemmin SAW, päättyi vuoden 2017 lopussa. Hanke sai rahoituksensa Euroopan unionin Horisontti 2020 -ohjelmasta. Nimensä mukaisesti hankkeessa sekä vahvistettiin CESSDAn toimintoja että pyrittiin saamaan uusia valtioita jäseneksi.

Hanke oli meille hyödyllinen, sillä pystyimme siinä vertailemaan Tietoarkistoa muihin eurooppalaisiin data-arkistoihin ja saamaan sitä kautta arvokasta palautetta. Lisäksi hankkeessa onnistuttiin kehittämään välineitä tietoarkistotyöhön.

Tietoarkisto edelläkävijä monella saralla

Hankkeen alkupuolella vuonna 2016 kartoitettiin eurooppalaisten data-arkistojen toimintojen vahvuuksia ja kehityskohteita. Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Sopimus- ja käyttöoikeuskäytäntömme, tietosuoja-asiat ja aineistojen kuvailu nousivat esille erityisen hyvinä osa-alueina. Parantamisen varaa oli teknisen infrastruktuurin puolella.




Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Lähde: Deliverable 3.2 Country report on development potentials
.

Akatemian FIRI 2016 -rahoitusta saanut Aktiivinen Tietoarkisto CESSDAssa -hankkeemme painottuukin juuri teknisen infrastruktuurimme parantamiseen vuosina 2017-2021.

Luotettava ja sertifioitu

Yksi CESSDAn vaatimuksista on, että palveluntuottajien on hankittava CoreTrustSeal-sertifikaatti (aikaisemmin CTS tunnettiin nimellä Data Seal of Approval). SAW-hankkeessa Tietoarkisto oli mukana kouluttamassa ja tukemassa palveluntuottajia sertifioinnissa. Hankkeen aikana Tietoarkisto päivitti oman sertifiointinsa ja saikin uusien, tiukennettujen vaatimusten mukaisen CTS-sertifikaatin ensimmäisten joukossa koko maailmassa.

Uusia työkaluja data-arkistoille

Tietoarkiston yksi painopiste SAW-hankkeessa oli tuottaa työkaluja, jotka auttavat uusia data-arkistoja aloittamaan ja olemassa olevien data-arkistojen kehittämään toimintojaan. Teimme hankkeessa Kuha2-harvointirajapinnan, joka on helposti käyttöön otettava, kevyt mutta kattava palvelinohjelmisto kuvailutietojen jakeluun. Kuha2:n lähdekoodi on avointa.

Lisäksi olimme mukana tuottamassa kustannus-hyöty-työkalupakettia data-arkistoille. Tietoarkisto laati hyöty-yhteenvedon ja kokeili kustannus-hyöty-työkaluja. Kustannus-hyötyanalyysissä emme saavuttaneet brittien data-arkiston lukemia, mikä johtunee toisaalta skaalaeduista ja toisaalta toimintamallista. Ailan käyttöönotto on kuitenkin parantanut tehokkuuttamme selvästi.

Tavoitteena hyvien käytäntöjen jakaminen

Tietoarkisto haluaa vaikuttaa aktiivisesti siihen, minkälaisia palveluita CESSDA tarjoaa tutkijoille. Toisaalta haluamme varmistaa, että omat palvelumme ovat kansainvälisten vaatimusten mukaisella tasolla. Olemme eurooppalaisittain keskikokoinen data-arkisto, joten meidän kannattaa keskittyä vahvuusalueisiimme, kun pyrimme viemään käytäntöjämme malliksi CESSDAlle ja muille palveluntuottajille. Vastaavasti on osa-alueita, joissa meidän on hyödyllistä ottaa mallia muilta. CESSDA SAW -hankkeessa otimme tärkeitä askeleita tavoitteidemme saavuttamiseksi. Jatkamme tätä työtä muun muassa olemalla mukana CESSDAn sisäisissä kehityshankkeissa.

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi