21. elokuuta 2019

SSHOC-hanke selvitti (meta)datan yhteensopivuusongelmia Tietoarkiston johdolla

Tietoarkisto on mukana vuoden alussa alkaneessa, EU:n rahoittamassa ja CESSDAn koordinoimassa Social Sciences & Humanities Open Cloud (SSHOC) -hankkeessa, joka on yksi viidestä suuresta eurooppalaisen avoimen tieteen pilven (European Open Science Cloud, EOSC) hankekokonaisuudesta. SSHOC-hanke jatkuu vuoteen 2022 asti ja se keskittyy humanististen ja yhteiskuntatieteiden tutkimusaineistojen saatavuuden ja käytön lisäämiseen ja parantamiseen sekä näihin liittyviin yhteiseurooppalaisiin palveluihin. Pyrkimyksenä on myös lisätä tieteenalojen välistä yhteistyötä sekä hyödyntää ja yhdistää jo olemassa olevia palveluita.

Tietoarkisto osallistuu hankkeessa kahteen työpakettiin ja kolmeen tehtävään, joiden tavoitteena on metadatan ja datan yhteensopivuuden varmistaminen, yhteisten monikielisten sanastojen kehittäminen sekä aineistojen luotettavuuden ja laadun takaaminen.

Haasteena yhteisten palveluiden kehittämisessä on tieteenalojen moninaisuus ja erilaiset käytännöt. Tämä näkyy metadatan ja datan yhteensopivuutta ja -toimivuutta kartoittavassa, SSHOC-hankkeen kolmanteen työpakettiin kuuluvassa, lennokkaasti nimetyssä tehtävässä Data and Metadata Interoperability Hub. Tietoarkisto toimii tehtävän vetäjänä, ja julkaisimme ensimmäisen raporttimme heinäkuussa.

Raportin tavoitteena oli selvittää, millaisia yhteensopivuusongelmia tutkimusaineistoilla ja siihen liittyvällä metadatalla on SSHOC-hankkeen jäsenorganisaatioissa. Lisäksi pyrimme löytämään metadata- ja aineistostandardeja tai formaatteja, joiden käyttöä voi yleisesti suositella.

Raporttia varten haastateltiin 16 henkilöä kuudesta tutkimusinfrastruktuurista ja neljältä alalta: yhteiskuntatieteistä, kielitieteestä, ihmistieteistä ja kulttuuriperinteen tutkimuksesta. Lisäksi haastatteluista saatuja tietoja täydennettiin selvittämällä tietueiden määriä ja aineistoformaatteja näiden alojen arkistojen verkkosivuilta.

Tämä ei suinkaan ollut ensimmäinen kerta, kun yhteensopivuutta ja -toimivuutta kartoitetaan. SSHOC-hankkeeseen osallistuvat tutkimusinfrastruktuurit ovat kehittäneet yhtenäisiä käytäntöjä ja standardeja tahoillaan aiemminkin, ja Tietoarkisto on ollut aktiivinen esimerkiksi metadatakäytäntöjen kehittämisessä CESSDAssa. Tässä selvityksessä oli kuitenkin mukana aiempaa suurempi määrä organisaatioita eri tutkimusinfrastruktuureista.

Erilaiset aineistot, samanlaiset ongelmat

Viimeistään haastatteluiden perusteella oli selvää, että aloilla käytetyt aineistotyypit poikkeavat toisistaan todella paljon. Yhteiskuntatieteissä aineistot ovat usein taulukko- tai tekstimuotoisia, kielitieteissä käytetään paljon teksti- ja ääniaineistoja, ihmistieteiden arkistoilla on lisäksi runsaasti kuva-aineistoja ja kulttuuriperinteen tutkimuksessa aineisto voi muodostua tekstin, kuvien ja äänen lisäksi vaikkapa esineistä tai 3D-malleista.

Aineistotyyppien eroista huolimatta datan yhteensopivuusongelmat ovat kaikissa selvitykseen osallistuneissa organisaatioissa samankaltaisia. Yleisimpiä ovat erityisesti (kaupallisten) työkalujen ja ohjelmistojen omien tiedostomuotojen käyttöön liittyvät muunnostarpeet, muunnosten aiheuttamat mahdolliset tietojen menetykset sekä formaattien versioihin liittyvät ongelmat.

Myös metadatastandardeissa on runsaasti vaihtelua niin alojen välillä kuin niiden sisällä. Yhteiskuntatieteissä laajalti käytetty DDI-kuvailustandardi ei esimerkiksi ole riittävän kattava monien ihmistieteellisten aineistojen kuvailuun, eikä juuri lainkaan sopiva esimerkiksi kulttuurihistoriallisten esineiden metatietojen tallentamiseen. Lisäksi yksittäisten organisaatioiden tarpeet aineistojen ja objektien kuvailun tarkkuuden suhteen vaihtelevat suuresti.

Yleisimpiä metadatan yhteensopivuusongelmia ovat metadatan sisältämien kenttien tulkintaongelmat, vanhojen standardien yhteensopimattomuus uudempien kanssa sekä paljon tietoa sisältävästä metadataformaatista siirtyminen toiseen, jolloin tietoa menetetään.

Kaiken kaikkiaan raportoituja yhteensopivuusongelmia oli lopulta kuitenkin vähemmän kuin odotimme. Tämä kertonee osaltaan siitä, että organisaatiot ovat jo reagoineet ongelmiin kehittämällä käytäntöjään. Toisaalta havaitsimme myös melko paljon eroja organisaatioiden välillä siinä, kuinka hyvin ne ottavat yhteensopivuuden toiminnassaan huomioon.

Yksi koko ei sovi kaikille

Selvitys vahvisti myös aiemmissa hankkeissa todetun havainnon siitä, ettei ole olemassa yhtä, kaikille aloille ja kaikkiin tilanteisiin sopivaa kuvailustandardia ja aineistoformaattia. Sopiakseen kaikille aloille esimerkiksi yhteisen kuvailustandardin on auttamatta oltava pelkistetty.

FAIR-periaatteisiinkin kuuluvien löydettävyyden ja yhteensopivuuden varmistamiseksi päädyimme suosittelemaan kaikille yhteiseksi kuvailustandardiksi Dublin Corea sekä hieman sovellettua DataCiteä. Organisaatioiden käyttämien standardien olisi hyvä olla vähintäänkin muunnettavissa jompaankumpaan näistä.

Koska aloilla ja organisaatioilla on erilaiset tarpeet, teimme lisäksi tutkimusinfrastruktuurikohtaisia suosituksia kuvailustandardista ja aineistotyyppikohtaisia suosituksia aineistoformaatista. Suositukset perustuvat tutkimusinfrastruktuureissa eniten käytettyihin standardeihin ja formaatteihin.

Käyttivätpä organisaatiot mitä standardia ja formaattia tahansa, suosituksenamme on, että niiden käyttö on hyvin ja läpinäkyvästi dokumentoitu. Monta yhteensopivuusongelmaa vältetään jo hyvällä dokumentaatiolla.

Yhteisiä ratkaisuja yhteistyöllä

Työpaketin ensimmäinen raportti osoittaa, ettei yhteisten palveluiden kehittäminen ole aina suoraviivaista. Eri aloilla on paitsi omat tarpeensa, myös omat vakiintuneet käytäntönsä. Hankkeen tarkoituksena ei kuitenkaan ole pakottaa kaikkia yhteen muottiin, vaan luoda kaikille hyödyllisiä työkaluja ja palveluita.

Yhteistyö ja tutustuminen muiden alojen ja organisaatioiden toimintatapoihin ja haasteisiin on hyödyllistä myös siksi, että kohdatut ongelmat ovat usein samanlaisia, ja joku on jo saattanut löytänyt kaikille toimivan ratkaisun. Seuraavaksi Data and Metadata Interoperability Hub -tehtävä kartoittaakin ratkaisuja metadatan ja datan yhteensopivuusongelmiin.

Lisätietoa:

» Kehittämispäällikkö Mari Kleemola
» SSHOC D3.1 Report on SSHOC (meta)data interoperability problems
» SSHOC-hankkeen verkkosivut

Henri Ala-Lahti
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
SSHOC Project Charted (Meta)data Interoperability Problems with FSD at the Helm.

Ei kommentteja: