20. joulukuuta 2019

Tietoarkisto jatkaa uudella vuosikymmenellä luotettuna tutkimusaineistojen asiantuntijana

Viimeistään kuluneen juhlavuoden 2019 aikana tuli selväksi, että Tietoarkisto on yksi vakiintuneista data-arkistoista, joiden puoleen uudet palveluntuottajat kääntyvät hakeakseen esimerkkejä, opastusta ja innoitusta. Myös Tietoarkistoa vanhempien ulkomaisten data-arkistojen ja alan muiden toimijoiden edustajat arvostavat asiantuntemustamme. Voin siis hyvillä mielin todeta, että Tietoarkisto on saavuttanut strategisen tavoitteensa olla vuonna 2020 Suomessa ja ulkomailla yhä tunnetumpi, luotettu avoimen tieteen ja tutkimusaineistojen pitkäaikaissaatavuuden asiantuntija.

Luotettu asema tutkimusaineistojen asiantuntijaorganisaationa näkyi muun muassa useina ulkomaisten kollegojen pyyntöinä päästä vierailulle keskustelemaan ja oppimaan Tietoarkiston kokemuksista ja käytännöistä. Usein heidän tiedontarpeensa olivat samanlaisia kuin kotimaisilla kumppaneillamme. He toivoivat keskustelua ja opastusta erityisesti tietosuojasta, tutkimusaineistojen hallinnasta ja hallinnan ohjeistamisesta, aineistojen anonymisoinnista, kvalitatiivisten aineistojen käsittelystä tai sertifiointiin valmistautumisesta.

Kaukaisia vieraita ja virtuaalikokouksia

Juhlavuoden tapahtumat ja vierailut käynnisti maaliskuussa japanilaisten tutkimuslaitosten edustajien kanssa yhteistyössä järjestetty seminaari. Tätä käsittelin blogissa jo keväällä. Heidän lisäkseen Tietoarkistossa vieraili vuoden mittaan kollegoita muun muassa Tanskasta, Sloveniasta, Itävallasta ja Qatarista. Joulukuussa järjestimme Tampereen yliopistossa yhdessä Tilastokeskuksen kanssa eurooppalaisten DDI-kuvailuformaatin käyttäjien ja kehittäjien konferenssin EDDIn.

Tampereelle suuntautuneiden vierailujen ja tietoarkistolaisten lisääntyneen matkustelun lisäksi osaamisen kysyntä näkyy virtuaalikokousten runsautena. Alustavan tilaston mukaan vuonna 2019 Tietoarkiston edustajat osallistuivat yli 240 virtuaalikokoukseen. Luku on kasvanut vuodesta 2018 muutamalla kymmenellä. Kokousten ja matkojen määrän lisääntyminen on paljolti seurausta Tietoarkiston CESSDA ERICin palveluntuottajuudesta ja Tietoarkiston asiantuntijoiden toiminnasta kansainvälisissä organisaatioissa. Vierailujen ja virtuaalikokousten työnimien perusteella yhteistä valtaosalle tapahtumista onkin CESSDA ERICin sisäinen projektityö tai työskentely EU-projekteissa yhtenä CESSDAn arkistoista.

Kaikki tämä toteuttaa Tietoarkiston strategiaa, jossa lupaamme aktiivisuutta CESSDAssa. Lupaamme strategiassa myös syventää ja monipuolistaa osaamistamme sekä jakaa kasvanutta osaamistamme aktiivisesti.

Kansallisten tutkimusinfrastruktuurien strategia vaikuttaa suunnitelmiin

Vuosi 2020 on viimeinen Tietoarkiston kuluvalla strategiakaudella. Uuden vuosikymmenen aloitamme siis strategiatyöllä. Suomen Akatemia julkaisee tammikuussa 2020 Kansallisten tutkimusinfrastruktuurien strategian uudelle vuosikymmenelle. Ennakkotietojen perusteella se listaa kehittämiskohteita, jotka jo nyt ovat Tietoarkistossa joko arkipäivää tai ainakin tunnistamiamme kehittämisen kohteita. Akatemian joulun alla julkaiseman tiedotteen mukaan kehittämisalueita ovat vastuullisuus ja kestävä kehitys, pitkäjänteisyys ja dynaamisuus, omistajuus ja osaaminen, digitaalisuus ja data, avoimuus ja yhteistyö sekä laaja ja monimuotoinen vaikuttavuus.

Tästä on pääteltävä, että Tietoarkisto ei voi laittaa omia suunnitelmiaan aivan uusiksi. Kyse on paremminkin Tietoarkiston strategian päivittämisestä. Myös sitoumuksemme Akatemian rahoittamissa FIRI-projekteissa ja CESSDA ERICin palveluntuottajana ulottuvat usean vuoden päähän, tulevaisuuteen. Oma strategiatyömme ja tiekarttahakemuksen työstäminen varmasti palvelevat toisiaan.

Strategiatyössä korostuu jatkuvuus

Tietoarkiston 20-vuotisen toiminnan kunniaksi syyskuussa järjestämämme Tietoarkisto-seminaari oli tilaisuus tarkastella sekä mennyttä että tulevaa kehitystä.

Seminaarissa esittelin Tietoarkisto-lehden juhlanumerossa julkaistua aikajanaa, johon on kerätty tietoarkistolaisten aikaansaannoksia ja tapahtumia kuluneilta 20 vuodelta. Aikajanalla on paljon tapahtumia ja palveluita, joilla on merkitystä myös tulevaisuudessa. Listaan tässä vain muutamia.

  • Palveluportaali Ailaa kehitetään parhaillaan Akatemian rahoittamassa projektissa. Käytettävyyden parantamisen ja uusien toiminnallisuuksien lisäksi tavoitteena on muun muassa yhteentoimivuuden parantaminen ulkopuolisten palvelujen suuntaan.
  • Aineistonhallinnan käsikirjan sisällön tuottaminen ja sen pitäminen ajan tasalla on yhä vain merkityksellisempää. Pelkästään viime elo-syyskuussa aineistonhallinnan käsikirjaan tuli noin 11 000 sivupyyntöä.
  • Sertifioinnit - Date Seal of Approval ja nykyinen CoreTrustSeal - ovat todisteena siitä, että Tietoarkisto on organisaatio, joka säilyttää sähköisiä aineistoja luotettavasti ja mahdollistaa aineistojen jatkokäytön. Vastuullisuus ja pitkäjänteisyys pysyvät toiminnan kulmakivinä tehtävän perusluonteen ohella yhä korostuneemmin myös ulkopuolisen rahoittajan, Akatemian, vaatimuksesta.
  • Menetelmäopetuksen tietovaranto MOTV on retrosta ulkoasustaan huolimatta edelleen verkkosivujen seurannan perusteella Tietoarkiston käytetyin palvelu. Tietoarkisto päivittää sen ulkoasun ja vanhentuneet sisällöt uudelle vuosikymmenelle. Sisältöä myös kehitetään menetelmäopetuksen asiantuntijoiden kanssa. Työ ajoittuu pääosin vuodelle 2020.

Vuoden 2020 käynnistyessä arvioimme nykyistä strategiaamme ja hahmottelemme tulevaa. Kutsumme Tietoarkiston yhteistyökumppanit ja asiakkaat pohtimaan, miten pystymme yhdessä palvelemaan parhaalla mahdollisella tavalla tiedeyhteisöä tutkimusaineistojen hoivaamisessa ja vastuullisessa avaamisessa.

Lisätietoa:

» Tietoarkistoblogi: Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon
» Tietoarkiston strategia 2017-2020 (PDF)

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

21. elokuuta 2019

SSHOC Project Charted (Meta)data Interoperability Problems with FSD at the Helm

FSD is taking part in the Social Sciences and Humanities Open Cloud (SSHOC), which is one of the five cluster projects within the European Open Science Cloud (EOSC) initiative. SSHOC is funded by the EU and coordinated by CESSDA, and it continues until 2022 focusing on increasing and improving the use of research data in the social sciences and humanities. The goal is to provide common services, integrate existing ones, and increase cooperation between the research infrastructures.

FSD participates in three tasks within two work packages. These tasks aim at ensuring the interoperability of metadata and data, developing common multilingual vocabularies, and trust and quality assurance of research data.

One challenge in creating common services is the diversity and varying practices of different fields of science. This can be seen in the third work package of SSHOC in a task entitled Data and Metadata Interoperability Hub, where we chart interoperability issues and solutions across SSHOC member organisations. FSD leads the project, and we published our first report in July.

The goal of the report was to find out what kind of interoperability problems there are for research data and metadata in SSHOC member organisations. We also tried to find metadata and data standards and formats that can be recommended for all organisations.

We interviewed 16 people from six research infrastructures and four fields: social sciences, language sciences, arts and humanities, and heritage sciences. The interview findings were supplemented with desk research on the number of records and data formats on the websites of repositories.

This was not the first time interoperability was assessed. The research infrastructures participating in SSHOC have each developed common practices and standards and FSD, for example, has been active in the development of metadata practices in CESSDA. However, this time there were more organisations from different research infrastructures involved.

Different data but similar problems

When interviewing the informants, it quickly became clear that the data formats used in the fields vary a great deal. In social sciences, the data are often in the form of a data matrix or text, while language sciences use a lot of text and voice data. Images are common in the humanities, and in heritage sciences, a dataset can consist of objects or 3D models, among others.

Despite the differences in data types, the interoperability problems were similar in all participating organisations. The most common of these included the conversion needs related to the use of proprietary file formats, loss of information caused by conversions and problems with format versions.

There is also a great deal of variety between and within the fields in terms of metadata standards. For instance, the DDI standard often used in social sciences is usually not extensive enough to describe data in the humanities and hardly suitable at all to record the metadata of heritage objects. The metadata needs of individual organisations also vary significantly.

The most common metadata interoperability problems had to do with differing interpretations of metadata concepts, incompatibility of older standards with the newer ones, and loss of information when converting from rich metadata format to a less rich one.

All in all, fewer interoperability problems were reported than we expected. One reason for this might be that organisations have reacted to the problems by developing their practices around them. On the other hand, we also observed differences between the organisations in their maturity levels in terms of how well they take interoperability into consideration.

One size does not fit all

The report confirmed what was noticed in previous interoperability projects; there is no single metadata standard or data format suitable for all fields and situations. A common metadata standard, for example, has to be very bare-bones to be suitable for all fields.

To ensure the F and I, findability and interoperability of the FAIR principles, we ended up recommending Dublin Core and a slightly modified DataCite as common metadata standards for all members. It is recommended that other standards used by the organisations can at least be converted into one of these standards.

Because the fields and organisations have different needs, we also made separate recommendations for metadata standards for each community and data formats by data type. The recommendations are based on the most used standards and formats in the communities.

Whichever standard and format organisations use, we recommend documenting it transparently. Many interoperability problems are avoided with thorough documentation.

Common solutions through cooperation

The first report of the third work package shows that developing common services is not always straightforward. Different communities not only have their own needs but also their established practices. However, the purpose of the project is not to fit everyone into the same mould but to create tools and services beneficial for everyone.

Cooperating and gaining perspective into the processes and challenges of other communities and organisations is useful also because the problems encountered are often similar, and someone might have already found a solution that works for everyone. The next objective of the Data and Metadata Interoperability Hub is to chart solutions to metadata and data interoperability problems.

Further information:

» Development Manager Mari Kleemola
» SSHOC D3.1 Report on SSHOC (meta)data interoperability problems
» SSHOC project website

Henri Ala-Lahti
Information Services Specialist
etunimi.sukunimi [at] tuni.fi

This blog entry is also available in Finnish:
SSHOC-hanke selvitti (meta)datan yhteensopivuusongelmia Tietoarkiston johdolla.

SSHOC-hanke selvitti (meta)datan yhteensopivuusongelmia Tietoarkiston johdolla

Tietoarkisto on mukana vuoden alussa alkaneessa, EU:n rahoittamassa ja CESSDAn koordinoimassa Social Sciences & Humanities Open Cloud (SSHOC) -hankkeessa, joka on yksi viidestä suuresta eurooppalaisen avoimen tieteen pilven (European Open Science Cloud, EOSC) hankekokonaisuudesta. SSHOC-hanke jatkuu vuoteen 2022 asti ja se keskittyy humanististen ja yhteiskuntatieteiden tutkimusaineistojen saatavuuden ja käytön lisäämiseen ja parantamiseen sekä näihin liittyviin yhteiseurooppalaisiin palveluihin. Pyrkimyksenä on myös lisätä tieteenalojen välistä yhteistyötä sekä hyödyntää ja yhdistää jo olemassa olevia palveluita.

Tietoarkisto osallistuu hankkeessa kahteen työpakettiin ja kolmeen tehtävään, joiden tavoitteena on metadatan ja datan yhteensopivuuden varmistaminen, yhteisten monikielisten sanastojen kehittäminen sekä aineistojen luotettavuuden ja laadun takaaminen.

Haasteena yhteisten palveluiden kehittämisessä on tieteenalojen moninaisuus ja erilaiset käytännöt. Tämä näkyy metadatan ja datan yhteensopivuutta ja -toimivuutta kartoittavassa, SSHOC-hankkeen kolmanteen työpakettiin kuuluvassa, lennokkaasti nimetyssä tehtävässä Data and Metadata Interoperability Hub. Tietoarkisto toimii tehtävän vetäjänä, ja julkaisimme ensimmäisen raporttimme heinäkuussa.

Raportin tavoitteena oli selvittää, millaisia yhteensopivuusongelmia tutkimusaineistoilla ja siihen liittyvällä metadatalla on SSHOC-hankkeen jäsenorganisaatioissa. Lisäksi pyrimme löytämään metadata- ja aineistostandardeja tai formaatteja, joiden käyttöä voi yleisesti suositella.

Raporttia varten haastateltiin 16 henkilöä kuudesta tutkimusinfrastruktuurista ja neljältä alalta: yhteiskuntatieteistä, kielitieteestä, ihmistieteistä ja kulttuuriperinteen tutkimuksesta. Lisäksi haastatteluista saatuja tietoja täydennettiin selvittämällä tietueiden määriä ja aineistoformaatteja näiden alojen arkistojen verkkosivuilta.

Tämä ei suinkaan ollut ensimmäinen kerta, kun yhteensopivuutta ja -toimivuutta kartoitetaan. SSHOC-hankkeeseen osallistuvat tutkimusinfrastruktuurit ovat kehittäneet yhtenäisiä käytäntöjä ja standardeja tahoillaan aiemminkin, ja Tietoarkisto on ollut aktiivinen esimerkiksi metadatakäytäntöjen kehittämisessä CESSDAssa. Tässä selvityksessä oli kuitenkin mukana aiempaa suurempi määrä organisaatioita eri tutkimusinfrastruktuureista.

Erilaiset aineistot, samanlaiset ongelmat

Viimeistään haastatteluiden perusteella oli selvää, että aloilla käytetyt aineistotyypit poikkeavat toisistaan todella paljon. Yhteiskuntatieteissä aineistot ovat usein taulukko- tai tekstimuotoisia, kielitieteissä käytetään paljon teksti- ja ääniaineistoja, ihmistieteiden arkistoilla on lisäksi runsaasti kuva-aineistoja ja kulttuuriperinteen tutkimuksessa aineisto voi muodostua tekstin, kuvien ja äänen lisäksi vaikkapa esineistä tai 3D-malleista.

Aineistotyyppien eroista huolimatta datan yhteensopivuusongelmat ovat kaikissa selvitykseen osallistuneissa organisaatioissa samankaltaisia. Yleisimpiä ovat erityisesti (kaupallisten) työkalujen ja ohjelmistojen omien tiedostomuotojen käyttöön liittyvät muunnostarpeet, muunnosten aiheuttamat mahdolliset tietojen menetykset sekä formaattien versioihin liittyvät ongelmat.

Myös metadatastandardeissa on runsaasti vaihtelua niin alojen välillä kuin niiden sisällä. Yhteiskuntatieteissä laajalti käytetty DDI-kuvailustandardi ei esimerkiksi ole riittävän kattava monien ihmistieteellisten aineistojen kuvailuun, eikä juuri lainkaan sopiva esimerkiksi kulttuurihistoriallisten esineiden metatietojen tallentamiseen. Lisäksi yksittäisten organisaatioiden tarpeet aineistojen ja objektien kuvailun tarkkuuden suhteen vaihtelevat suuresti.

Yleisimpiä metadatan yhteensopivuusongelmia ovat metadatan sisältämien kenttien tulkintaongelmat, vanhojen standardien yhteensopimattomuus uudempien kanssa sekä paljon tietoa sisältävästä metadataformaatista siirtyminen toiseen, jolloin tietoa menetetään.

Kaiken kaikkiaan raportoituja yhteensopivuusongelmia oli lopulta kuitenkin vähemmän kuin odotimme. Tämä kertonee osaltaan siitä, että organisaatiot ovat jo reagoineet ongelmiin kehittämällä käytäntöjään. Toisaalta havaitsimme myös melko paljon eroja organisaatioiden välillä siinä, kuinka hyvin ne ottavat yhteensopivuuden toiminnassaan huomioon.

Yksi koko ei sovi kaikille

Selvitys vahvisti myös aiemmissa hankkeissa todetun havainnon siitä, ettei ole olemassa yhtä, kaikille aloille ja kaikkiin tilanteisiin sopivaa kuvailustandardia ja aineistoformaattia. Sopiakseen kaikille aloille esimerkiksi yhteisen kuvailustandardin on auttamatta oltava pelkistetty.

FAIR-periaatteisiinkin kuuluvien löydettävyyden ja yhteensopivuuden varmistamiseksi päädyimme suosittelemaan kaikille yhteiseksi kuvailustandardiksi Dublin Corea sekä hieman sovellettua DataCiteä. Organisaatioiden käyttämien standardien olisi hyvä olla vähintäänkin muunnettavissa jompaankumpaan näistä.

Koska aloilla ja organisaatioilla on erilaiset tarpeet, teimme lisäksi tutkimusinfrastruktuurikohtaisia suosituksia kuvailustandardista ja aineistotyyppikohtaisia suosituksia aineistoformaatista. Suositukset perustuvat tutkimusinfrastruktuureissa eniten käytettyihin standardeihin ja formaatteihin.

Käyttivätpä organisaatiot mitä standardia ja formaattia tahansa, suosituksenamme on, että niiden käyttö on hyvin ja läpinäkyvästi dokumentoitu. Monta yhteensopivuusongelmaa vältetään jo hyvällä dokumentaatiolla.

Yhteisiä ratkaisuja yhteistyöllä

Työpaketin ensimmäinen raportti osoittaa, ettei yhteisten palveluiden kehittäminen ole aina suoraviivaista. Eri aloilla on paitsi omat tarpeensa, myös omat vakiintuneet käytäntönsä. Hankkeen tarkoituksena ei kuitenkaan ole pakottaa kaikkia yhteen muottiin, vaan luoda kaikille hyödyllisiä työkaluja ja palveluita.

Yhteistyö ja tutustuminen muiden alojen ja organisaatioiden toimintatapoihin ja haasteisiin on hyödyllistä myös siksi, että kohdatut ongelmat ovat usein samanlaisia, ja joku on jo saattanut löytänyt kaikille toimivan ratkaisun. Seuraavaksi Data and Metadata Interoperability Hub -tehtävä kartoittaakin ratkaisuja metadatan ja datan yhteensopivuusongelmiin.

Lisätietoa:

» Kehittämispäällikkö Mari Kleemola
» SSHOC D3.1 Report on SSHOC (meta)data interoperability problems
» SSHOC-hankkeen verkkosivut

Henri Ala-Lahti
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
SSHOC Project Charted (Meta)data Interoperability Problems with FSD at the Helm.

20. toukokuuta 2019

Anonymisointi luontevaksi osaksi tutkimusprosessia

Aineistonhallinta vaatii tutkijalta entistä enemmän osaamista. Tutkijan tulisi opiskella muuttuneet tietosuojakäytänteet ja toisaalta pitäisi pystyä vastaamaan myös datan avoimuuden haasteeseen. Usein aineiston arkistoiminen jatkokäyttöön on mahdollista vain anonyyminä. Anonymisoinnin osaaminen ja resursointi nousevat tässä vaiheessa keskeiseen asemaan. Tutkijoiden näkökulmasta lisävaatimukset eivät ole aina mieluisia, sillä usein anonymisointiin ei ole varattu aikaa ja toisaalta ei ole myöskään tietoa, miten aineisto saatetaan anonyymiksi. Jonkin pitää muuttua, mutta miten?

Mieti anonymisointia jo tutkimusprosessin alussa

Uudet vaatimukset otetaan haltuun muuttamalla käsitystä anonymisoinnista ja kasvattamalla anonymisoinnin osaamista. Tästä lähtien tutkimusprojekteissa tulee jo alkuvaiheessa resursoida anonymisoinnin suunnitteluun ja toteuttamiseen. Käsitys siitä, että anonymisointi on jotain, jota tehdään vain aineistonkeruuvaiheessa poistamalla suorat tunnisteet tai tutkimusprosessin loppuvaiheessa ennen arkistointia, tulisi heittää romukoppaan.

Ensinnäkään anonymisointi ei ole vain suorien tunnisteiden poistamista, vaan vaatii laajemman aineiston sisällön tarkastelun ja tietojen suhteuttamisen ulkopuolelta saataviin tietoihin. Anonymisoinnissa pyritään ymmärtämään, minkä tiedon poistaminen on tarpeellista, ja miten tietojen poistaminen vaikuttaa aineiston käytettävyyteen. Toiseksi anonymisointia tulee miettiä jo tutkimusprosessin alussa, sillä henkilötiedot tulee kerätä tietosuoja-asetuksen minimoinnin periaatteen mukaan eli keräämällä vain tutkimuksen kannalta tarpeellisia tietoja. Henkilötietojen keruun huolellisella suunnittelulla voi vähentää oleellisesti anonymisointiin myöhemmin kuluvaa aikaa.

Miten kerättäviä tietoja voi minimoida?

Määrällisissä aineistonkeruissa anonymisointia vaativien tietojen keruuta pystyy minimoimaan tehokkaasti välttämällä avokysymyksiä, joiden sisältöä tutkija ei voi kontrolloida. Kannattaa välttää myös kysymyksiä, joiden perusteella vastaajasta paljastuu kohdejoukkoon nähden harvinaisia tietoja. Tietoja suositellaan kerättäväksi valmiiksi luokiteltuna, niin että kysytään esimerkiksi yksittäisen harrastuksen sijaan harrastustyyppiä. Kirjoitettavan avovastauksen "pelaan jalkapalloa Äänekosken Huimassa" sijaan vastaaja voi valita esimerkiksi luokitellun arvon "palloilulajit", eikä tutkijan tarvitse anonymisoida paikkakuntaa ja seuraa. Erityisesti taustatietojen kysyminen luokiteltuna ehkäisee oleellisesti myöhäisempää anonymisointitarvetta niin kvalitatiivisissa kuin kvantitatiivisissa aineistoissa.

Laadullisissa aineistoissa sisällön etukäteen rajoittaminen on hankalampaa, mutta sitä voi helpottaa muutaman hyödyllisen vinkin avulla. Esimerkiksi haastatteluissa ja kirjoitusaineistoissa haastateltavien taustatiedot kannattaa kerätä strukturoituna, henkilöiden vapaamuotoisten esittelyjen sijaan. Haastattelun aluksi haastattelija voi esimerkiksi pyytää iän, ammatin ja lasten lukumäärän luokiteltuna. Haastateltavia voi myös muistuttaa aluksi ystävällisesti, jos haastattelun luonne antaa siihen mahdollisuuden, että he eivät kertoisi ihmisten oikeita nimiä tai muita tarkkoja tietoja. Tutkija voi myös välttää liian yksityiskohtaista tietoa tuottavien kysymysten esittämisen.

Yleisimmät ongelmat anonymisoinnissa

Koska anonymisointiin ei ole valmiina kaikkiin aineistoihin sopivia ohjeistuksia, se voidaan kokea haasteellisena. Usein ongelmana on hahmottaa, mitä tietoja tulee anonymisoida ja mitä tietoja voidaan jättää. Tutkija saattaa myös ajatella, ettei sensitiivistä aineistoa voi saattaa anonyymiksi. Anonymisoinnin jälkeen tutkijan mieleen voi hiipiä myös pelko siitä, onko aineistoa anonymisoitu tarpeeksi.

Ensinnäkin tulee muistaa, että aineiston sensitiivisyys ei ole lähtökohtaisesti este aineiston anonymisoinnille ja jakamiselle. Sensitiivisen aineiston anonymisointi voidaan suunnitella samalla tavoin kuin ei-sensitiivisiä tietoja sisältävän aineiston. Merkityksellisintä on henkilöistä saatavien taustatietojen ja muiden aineiston sisältämien tietojen karkeistaminen tai poisto tasolle, josta yksittäisiä henkilöitä ei pysty tunnistamaan. Sensitiivisen aineiston anonymisointi voi kuitenkin olla haasteellista, sillä aineiston luonteen vuoksi rajoitettavia tietoja voi olla paljon.

Anonymisointitarpeen hahmottamisen helpottamiseen tarvitaan ohjeistusta ja tarve konkreettisille anonymisointiohjeille on suuri. Ennen anonymisoinnin ohjeistus keskittyi usein anonymisoinnin menetelmien, kuten karkeistuksen ja luokitteluiden, esittämiseen, ei anonymisointipäätösten tekemisestä ohjeistamiseen. Ohjeistuksen tarpeeseen vastatakseen Tietoarkisto on päivittänyt anonymisoinnin ohjeistuksiaan viimeksi viime kuussa. Ohjeistuksiin lisättiin erityisesti tukea anonymisoinnin suunnitteluun. Ohjeista löytyy nyt myös havainnollistavia esimerkkejä ja mallipohjia anonymisointisuunnitelman tekoon.

Anonymisoinnin tarpeen hahmottaminen

Kun haluaa anonymisoida oman tutkimusaineistonsa, sille kannattaa tehdä anonymisointisuunnitelma, josta käy ilmi tunnisteellisuuden kannalta tärkeimmät aineiston tiedot ja tehdyt anonymisointipäätökset ja -toimet. Anonymisoitavien tietojen hahmottamiseen auttaa seuraavien tärkeimpien asioiden muistaminen ja tarkastelu:

  • Suorat tunnisteet poistetaan aina!
  • Keitä ja mitä tutkit? Henkilöiden tunnistettavuus riippuu paljon tavoitellun kohdejoukon määrästä ja tutkittavasta ilmiöstä. Mitä pienempi kohdejoukko ja mitä enemmän heistä on saatavilla tietoa, sitä vähemmän yksityiskohtaista tietoa henkilöistä voidaan jättää aineistoon.
  • Anonymisoinnissa pyritään eroon harvinaisista tiedoista, joiden perusteella yksittäinen henkilö tai rypäs on tunnistettavissa. Anonymisoitavia tietoja pohditaan aina suhteessa tutkimuksen perusjoukkoon. Tieto on harvinainen vain, jos ominaisuus on harvinainen kohdejoukossa. Pienet jakaumat eivät ole näin yksiselitteisesti harvinaista tietoa. Harvinaistakaan tietoa ei tarvitse anonymisoida, jos tietoa henkilöstä ei voida saada selville.
  • Pohdi, voiko henkilö olla tunnistettavissa yhdistämällä aineiston tietoja toisiinsa. Pohdi myös, mitä tietoja tutkittavista voi olla saatavilla ulkoisista lähteistä, kuten sosiaalisesta mediasta, ja voiko tietoja yhdistää datan sisältämiin tietoihin. Esimerkiksi LinkedInissä on useamman suomalaisen koulutus- ja työhistoria julkisesti nähtävillä.
  • Sensitiivisten tietojen anonymisointi on tarpeellista, mikäli niiden perusteella voi tunnistaa tai päätellä yksittäisen henkilön tai henkilöitä. Jos sensitiivisten asiasisältöjen tutkiminen on tutkimuksen kannalta keskeistä, tietoja ei tietenkään poisteta, vaan aineisto pyritään tekemään anonyymiksi muita henkilöihin viittaavia tietoja poistamalla.
  • Jos aineisto vaatii anonymisointia, se voidaan toteuttaa monin eri tavoin. Pyri poistamaan tietoja, jotka ovat vähemmän tärkeitä tutkimusilmiön kannalta ja säilyttämään tärkeimmät taustatiedot. Esimerkiksi, jos kuntatasoinen muuttuja aluetietona on tutkimuksen kannalta merkityksellinen, anonymisointia voi tehdä esimerkiksi vastaajan perhe- tai tulotietoihin.

Lisätietoa ja tarkemmat ohjeet löydät Tietoarkiston aineistonhallinnan käsikirjasta.

Anonymisoinnin kartoittamisen jälkeen voi jopa olla että anonymisointia ei välttämättä tarvitsekaan tehdä. Tällainen tilanne voi olla esimerkiksi väestötutkimuksissa, joissa aluemuuttuja on kerätty vain maakunnan tasolla ja muiden tietojen perusteella henkilöt eivät ole yksilöitävissä tai liitettävissä harvinaisiin ryhmiin. Anonymisointisuunnitelman tekeminen on siis suositeltavaa, jotta tutkimusprosessin aikana aineistoa tulee tarkasteltua kerran yksinomaan tunnisteellisuuden näkökulmasta. Lisäksi suunnitelma toimii hyvänä dokumentaationa aineistoille tunnisteellisuussyistä tehdyistä muutoksista, mikäli aineisto luovutetaan jatkokäyttöön.

Et ole anonymisointipulmiesi kanssa yksin

Anonymisoinnin riittävyys on yleinen tutkijoiden huoli, ja se on hyvin ymmärrettävää. Tulee kuitenkin muistaa, että anonyymiksi voidaan määritellä aineisto, josta ei kohtuullisen todennäköisesti käytettävissä olevin keinoin voi tunnistaa tai päätellä henkilöitä. On jo paljon, että aineiston anonymiteettiä ja henkilöiden paljastumisriskiä on pohdittu ja se on kirjattu anonymisointisuunnitelmaan. Lisäksi on hyvä muistaa, että aineistolle voidaan tehdä lisäanonymisointia myöhemminkin. Aineistolle tulee tehdä säännöllisesti jäännösriskin arviointi, jossa tarkastellaan anonymiteettiä uudelleen. Se on tarpeellista tiedon lisääntymisen ja tekniikan kehittymisen vuoksi.

Tavoitteet anonymisoinnin käsitysten muuttamisesta ja osaamisen levittämisestä ovat alkuvaiheessa. Toivomme, että anonymisointi nähdään mahdollisuutena lisätä tieteen avoimuutta ja luotettavuutta. Asiasta tarvitaan myös keskustelua ja näkemyksiä. Otamme niitä mielellämme vastaan täällä Tietoarkistossa!

Annika Sallinen
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

5. huhtikuuta 2019

FSD’s multilingual and qualitative data expertise brings in international visitors

During its 20 years of operation, FSD has established its status as a trusted partner in collaboration of data archives. On the initiative of our Japanese colleagues, we organised a seminar entitled Metadata, Data Catalogues and Tools for Findability in March.

The motivation for the seminar was a Japanese national project developing a joint data catalogue of several service providers. Our Japanese visitors chose to visit Finland and FSD because we have a long experience in successfully providing services in two languages, Finnish and English, as well as delivering metadata for harvesting by national and international joint catalogues.

We designed our presentations to answer the needs of our guests. FSD's experts shared experiences of using the DDI-C metadata format, the process of joining national and international multidisciplinary catalogues, the significance and utilisation of controlled vocabularies, and the CoreTrustSeal certification, among others.

Professor Yukio Maeda presents JSPS's plan for a federated data catalogue. Photo: Tuomas J. Alaterä

In addition to talks by FSD experts and our guests from Japan, the seminar featured presentations by the Director of CESSDA Ron Dekker and the Swedish National Data Service's IT Systems Architect Olof Olsson. It is important for CESSDA to collaborate with organisations outside of Europe. The seminar in Tampere provided a good opportunity to share information about CESSDA strategy and objectives in responsible data sharing as well as the CESSDA Data Catalogue, which contains both FSD's and SND's metadata. SND makes use of the DDI-L format, and Olsson's presentation on the topic offered a good comparison of two distinct metadata solutions. The presentation was also interesting from FSD's systems development point of view.

Similar challenges

The seminar showed that the challenges of research data management and sharing are very similar everywhere. Similarly to Finland and Europe, researchers in Japan have a positive attitude towards data sharing in principle. However, when it comes to sharing their own data with others, they do not feel comfortable doing so or they prefer to share the data themselves rather than letting professionals do it for them. Our data acquisition team regularly encounters similar attitudes.

Seminar attendees. Photo: Misa Senbonmatsu

What also sounded familiar was the fact that the development of the data infrastructure is not actually nationally coordinated in Japan. Instead, the funder has opened a competition where different service providers are able to apply for funding for projects with certain pre-defined conditions. The big picture is then made up of what various organisations think is necessary and which project proposals the funder approves. Another thing to consider is how established the infrastructure operations will be after the funding period.

More information:

» DDI-C ja L documentation
» CESSDA ERIC
» Swedish National Data Service SND
» Japan Society for the Promotion of Science JSPS
» FSD metadata records in machine readable formats
» Data are described in the DDI format
» Vocabularies used in FSD's data descriptions

Helena Laaksonen
director
firstname.surname [at] tuni.fi

This blog entry is also available in Finnish:
Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon.

Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon

Tietoarkisto on 20 toimintavuotensa aikana vakiinnuttanut asemansa luotettuna kumppanina data-arkistojen yhteistyössä. Maaliskuussa järjestimme japanilaisten kollegojen kanssa, heidän aloitteestaan, seminaarin Metadata, Data Catalogues and Tools for Findability.

Kansainvälisen seminaarin taustalla on Japanin kansallinen hanke, jossa he rakentavat usean palveluntarjoajan yhteistä aineistoluetteloa. Japanilaiset vieraat valitsivat Suomen ja Tietoarkiston vierailukohteekseen, koska Tietoarkistolla on pitkä kokemus onnistuneesta kaksikielisten palvelujen tuottamisesta suomeksi ja englanniksi sekä tutkimusaineistojen kuvailutietojen saattamisesta haravoitaviksi kansallisiin ja kansainvälisiin yhteisluetteloihin.

Tietoarkistossa koostimme oman osuutemme ohjelmaan vieraiden tiedontarpeesta lähtien. Tietoarkiston asiantuntijat kertoivat muun muassa DDI-C-kuvailuformaatin hyödyntämisestä Tietoarkistossa, liittymisestä kansallisiin ja kansainvälisiin monitieteisiin luetteloihin, monikielisten asiasanastojen merkityksestä ja hyödyntämisestä sekä CTS-sertifioinnista.

Professori Yukio Maeda esittelee JSPS:n suunnitelmaa yhteiskatalogiksi.
Kuva: Tuomas J. Alaterä

Seminaarissa esiintyivät Tietoarkiston asiantuntijoiden ja japanilaisten vieraiden lisäksi CESSDA ERICin johtaja Ron Dekker ja Ruotsin datapalvelun SND:n järjestelmäarkkitehti Olof Olsson. CESSDAlle on tärkeää luoda yhteistyösuhteita myös Euroopan ulkopuolelle. Tampereen seminaari antoi hyvän mahdollisuuden kertoa CESSDAn strategiasta ja tavoitteista tutkimusdatan vastuullisen avaamisen alalla, unohtamatta CESSDAn aineistoluetteloa, johon myös Tietoarkiston ja SND:n metadata haravoidaan. Ruotsin SND hyödyntää DDI-L-kuvailuformaattia. Olssonin esitys aiheesta tarjosi hyvän vertailukohdan kahden erilaisen metadataratkaisun välillä ja oli kiinnostava myös Tietoarkiston järjestelmäkehityksen näkökulmasta.

Samankaltaiset haasteet

Varsinaisen asiasisällön lisäksi seminaari osoitti kaikille osallistujille, että tutkimusaineistojen hallinnan ja avaamisen ongelmat ovat kaikkialla hyvin samanlaisia. Japanissakin tutkijat suhtautuvat periaatteessa myönteisesti, mutta eivät usein halua jakaa omaa dataansa muiden kanssa. Ja jos he haluavat, he usein tekevät sen mieluummin itse kuin antavat asiaan perehtyneiden ammattilaisten hoitaa tehtävän puolestaan. Tämä on Tietoarkiston aineistonhankinnassa tuttua.

Seminaariosallistujat. Kuva: Misa Senbonmatsu

Kovin tutulta vaikutti myös se, että datainfrastruktuurin rakentamista ei varsinaisesti koordinoida Japanissa kansallisesti. Rahoittaja on avannut kilpailun, josta eri palveluntarjoajat ovat voineet hakea rahoitusta tietyin ehdoin määritellyille hankkeille. Kansallinen kokonaiskuva rakentuu siitä, mitä erilliset organisaatiot pitävät tarpeellisena - ja mitä rahoittaja näistä esityksistä jatkoon valitsee. Perustamisvaiheen ohella pohdittavaa aiheuttaa infrastruktuurin toiminnan vakiinnuttaminen rahoituskauden päättyessä.

Lisätietoa:

» DDI-C ja L -dokumentaatio
» CESSDA ERIC
» Svensk nationell datatjänst SND
» Japan Society for the Promotion of Science JSPS
» Aineistokuvailut koneluettavissa formaateissa
» Aineistokuvailun DDI-formaatti
» Aineistonkuvailussa käytetyt sanastot

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD’s multilingual and qualitative data expertise brings in international visitors.

7. helmikuuta 2019

Kehitämme kansallista datainfrastruktuuriamme Suomen Akatemian tuella ja yhteistyössä tiedeyhteisön kanssa

Tampereen yliopisto juhlisti yhdistynyttä korkeakouluyhteisöään Potentiaaleissa Tampere-talossa 24.1.2019. Osallistujille jaettiin tähtimerkkejä, joista kukin voi poimia kuvaavimman. Kun Suomen Akatemia oli vajaata viikkoa aiemmin myöntänyt Tietoarkiston rajoja ylittävälle C-BoTS-infrastruktuurihankkeelle viisivuotisen rahoituksen, minulle seitsemästä vaihtoehdosta tuntui osuvimmalta Fuusio. Se merkitsee "potentiaalia tiederajojen yli".1 Hauska idea, jolla on varmasti perinteistä horoskooppimerkkiä enemmän ennustearvoa.

Uudessa Tampereen yliopistossa Tietoarkisto jatkaa erillisyksikkönä valtakunnallisen palvelutehtävän hoitamista. Akatemian rahoitus on osoitettu juuri tämän tehtävän vahvistamiseen. Hankkeen suomenkielinen nimi on Rajoja ylittävät työkalut ja palvelut (C-BoTS): Tietoarkiston kansallinen datainfrastruktuuri 2024. Hankkeen kuusi työpakettia istuvat hyvin sekä kansallisella tutkimusinfrastruktuurien tiekartalla esitettyihin Tietoarkiston tavoitteisiin että Tietoarkiston strategiasuunnitelmaan, joka korostaa asiantuntevaa palvelua, yhteistyötä ja vastuullista avointa tiedettä.

Kuulostaa ylevältä, ja perinteiselle kriittiselle yhteiskuntatieteilijälle varmaankin hölynpölyltä, mutta hankkeemme on sisällöltään muuta kuin sanahelinää. Tietoarkisto on paitsi digiä suuressa määrin myös palvelua, jonka hoitamiseen tarvitaan asiantuntevia ihmisiä. Jotta asiantuntijamme voivat palvella tiedeyhteisöä ajanmukaisesti, on kehitettävä työkaluja, jotka helpottavat aineistojen käsittelyä ja arkistointia sekä muun muassa vähentävät raportointiin käytettyä työaikaa.

Tietoarkiston palveluarkkitehtuuri uudistetaan

Hankkeen laajimmassa työpaketissa keskitymme nykyisen palveluarkkitehtuurimme purkamiseen pienempiin osiin kokonaisuudeksi, joka mahdollistaa ulkopuolisten palvelujen ketterämmän hyödyntämisen. Uuden arkkitehtuurin myötä helpotamme myös pääsyä Tietoarkiston palveluihin ulkopuolelta erilaisten rajapintojen kautta.

Raportoinnin automatisoinnilla tietoa vaikuttavuudesta

C-BoTS-hanke lisää aineistoja arkistoivien tutkijoiden ja heidän taustaorganisaatioidensa näkyvyyttä tarjoamalla ajantasaista tietoa arkistoiduista aineistoista ja niiden tilastoja niiden käytöstä. Tietoarkiston käyttäjätilastot tuodaan ajantasaisina rahoittajien ja asiakkaiden saataville. Vastaavasti helpotamme uudella käyttöliittymällä jatkokäyttäjiltä vaadittavaa ladattujen aineistojen käytön ja julkaisutietojen raportointia.

Verkkokaupoista tuttuja ominaisuuksia ja koneoppimisen avulla tehokkaampia hakumahdollisuuksia

Palveluportaali Ailaan lisäämme verkkokaupoista tuttuja ominaisuuksia, kuten ostoskorin useiden aineistojen lataamiseen kerralla ja suositukset uusien ja samankaltaisten sisältöjen löytämiseen. Rakennamme muun muassa koneoppimista hyödyntävän käyttöliittymän, jonka avulla voimme tuottaa ja ylläpitää samankaltaisia muuttujia sisältäviä ryhmiä sekä käyttöliittymän, jonka avulla asiakkaamme pystyvät hakemaan muuttujia ja tutkimusaineistoja. Tampereen yliopiston signaalinkäsittelyn laboratorio tekoälyosaamisineen on tässä työpaketissa merkittävä kumppani.

Apuvälineitä anonymisointiin ja kvalitatiivisen aineiston hallintaan

Tietoarkisto on sähköisten laadullisten tutkimusaineistojen arkistoinnin pioneeri. Etenkin tekstimuotoisen kvalitatiivisen datan arkistointi on anonymisointivaatimusten vuoksi käsityövaltaista ja aikaa vievää. C-BoTS pyrkii helpottamaan anonymisointia arvioimalla olemassa olevia apuvälineitä kvalitatiivisen ja kvantitatiivisen aineiston anonymisointiin. Samalla kehitämme datan anonymisoinnin prosessiamme ja tuotamme ohjeistusta tutkijoille.

Päivitämme hankkeessa myös lähes kymmenen vuotta sitten julkaisemamme Kvalikirstu-ohjelmiston, joka on tehty helpottamaan kvalitatiivisen tekstimuotoisen aineiston arkistointia ja jatkokäyttöä. Uusi Kvalikirstu tuottaa nykyisiä pitkäaikaissäilytyksen vaatimuksia vastaavaa dataa ja tarjoaa jatkokäyttäjille helppokäyttöisen suomen- ja englanninkielisen käyttöliittymän. Se tukee nykyistä useampaa tiedostotyyppiä ja taustamuuttujien automaattista luomista.

Vertailevan tutkimuksen palvelu tekee yhteistyötä muiden tutkimusinfrastruktuurien kanssa

C-BoTS hankkeeseen kuuluu myös vertailevan tutkimuksen työpaketti, joka tukee muun muassa yhteistyötä Suomen ihmistieteiden ERICien kanssa ja osallistumista kahteen kansainvälisesti vertailevaan aineistosarjaan. Koska emme saaneet kaikkea hakemaamme rahoitusta, arvioimme tämän työpaketin sisältöä uudelleen. Erityisesti joudumme pohtimaan, millä vuosittainen International Social Survey Programme -sarjan aineistonkeruu rahoitetaan.

Me tietoarkistolaiset olemme joka tapauksessa erittäin tyytyväisiä valtakunnallisen tehtävän kehittämiseen saamastamme rahoituksesta ja ryhdymme toteuttamaan projektisuunnitelmaa, missä kotimainen yhteistyö tiedeyhteisön ja muiden avoimen tieteen toimijoiden kanssa on ensiarvoisen tärkeätä.

Samalla toivotan kaikki tervetulleiksi viettämään Tietoarkiston 20-vuotisjuhlavuotta kanssamme!

1 Muut tähtimerkit olivat röntgen, tekoäly, Sokrates, terawatti, fresko ja Äiti Teresa.

Lisätietoa:

» Rahoituspäätös Suomen Akatemian sivuilla
» Suomen tutkimusinfrastruktuurien strategia ja tiekartta 2014-2020
» Tietoarkiston strategia (pdf)

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi