5. marraskuuta 2020

Tutkimusdata on pysyvän tunnisteensa ansainnut

Tänään on maailmanlaajuinen digitaalisen pitkäaikaissäilyttämisen päivä. Miksi siis kirjoittaa pysyvistä tunnisteista, PIDeistä? Siksi, että tunnisteen merkitys on keskeinen laadukkaan pitkäaikaissäilytyspalvelun toteuttamisessa. Kuten tutkimusjulkaisu, myös tutkimusdata on laajasti hyödyllinen vain, jos se on löydettävissä ja kuvailtu riittävän yksityiskohtaisesti. Pysyvä tunniste onkin oleellinen osa pyrkimystä löydettävämpään, saavutettavampaan, yhteentoimivampaan ja uudelleenkäytettävämpään – siis FAIRimpaan – dataan. Se edistää myös avointa tiedettä ja tutkimusta.

Jos tutkimus olisi aina ollut digitaalista, PID (Persistent Identifier) olisi varmasti jo tutkimusdatan normaali kumppani, samoin kuin julkaisuille jo pitkään annetut kirjastoluokitukset ja teoksen identifioiva merkkijono. Tunnisteen avulla digitaalinen aineistopaketti on yksiselitteisesti identifioitavissa ja viitattavissa. Pääsääntöisesti oletamme, että data on saatavissa "verkosta". Vielä toistaiseksi datan löytäminen tai tiettyyn dataan viittaaminen vaatii usein nojautumista muuttuviin URL-osoitteisiin tai viittaamista hakutuloksiin tietokannasta.

PID on avain. Se tunnistaa ja avaa laatikon, josta löytyy itse datan ohella sen kuvaus, ja kenties joukko versioita tai tietoja siitä, mitä versiota tai mitä osaa datasta on hyödynnetty. PID yksistään ei tietysti takaa kaikkea tätä. Mutta PIDillä on omistaja, jolla on velvollisuus taata tunnisteen toimivuus, ainutkertaisuus ja pysyvyys - ja siten datan löydettävyys. Siksi pysyvää tunnistetta ei tulisi koskaan saada aineistolle, jonka metatiedosta, saatavuudesta tai säilyttämisestä ei ole huolehdittu.

PID on käypää valuuttaa. Sillä on käyttöarvo ja tunnisteiden hallinta pitää arvoa yllä. Ylläpitäjä, korkeakoulu, kirjasto tai data-arkisto, vastaa siitä, että tunniste resolvoituu oikeaan lähteeseen. Pitkäaikaissäilytyksen kannalta tämä tarkoittaa, että tiedetään, mikä versio ja millä tunnisteella, on milloinkin säilytetty.

PID lisää luotettavuutta. Kaikki pysyvät tunnistejärjestelmät vaativat, että tunnisteita hallinnoidaan aina siitä alkaen, kun tunniste annetaan. Vaikka aineisto myöhemmin syystä tai toisesta hävitettäisiin tai sen saatavuutta rajoitettaisiin, PID johtaa kyselijän edelleen aineiston perustietoihin. Näin pitkä sitoutuminen aineiston ja sen tietojen ylläpitoon ei voi jäädä tutkijan vastuulle, vaan taustalla tulee olla jokin luetettava taho – esimerkiksi data-arkisto. PIDin tulee lisätä luottamusta siihen, että aineisto on luotettavasti säilytetty ja sen saatavuudesta on huolehdittu. PID kertoo, että datastasi välitetään.

PID parantaa yhteentoimivuutta. Nykypäivänä tiedon on liikuttava tietojärjestelmästä toiseen. Kun pysyvä tunniste on dokumentoitu kuvailevaan metadataan koneluettavassa muodossa, haravoituu se erilaisiin yhteysluetteloihin tai julkaisuarkistoihin osana dataviittausta. Siten PID edistää meriitin syntymistä datan tuottajille. Yhtä lailla tutkimusorganisaatiot, julkaisijat tai julkaisutiedon kerääjät voivat hyödyntää tunnistetta dataan kohdistuvien viittausten kokoamiseen. Rahoittajille tunniste tarjoaa mahdollisuuden esimerkiksi automatisoida rahoittamiensa tutkimustuotosten seuraamista.

PIDit Tietoarkistossa

Tietoarkisto antaa kullekin arkistoitavalle datalle pysyvän tunnisteen. Me käytämme URN-tunnisteita. Olemme valinneet käytännöksi, että tunniste muodostetaan aineistolle annettavan aineistonumeron perustalle, joten ihminenkin näkee, mihin aineistoon tunniste viittaa. Tämä helpottaa tunnisteen käsittelyä ja ymmärtämistä esim. tutkimusjulkaisussa, mutta on silti täysin koneluettava. Kukin aineisto saa pysyvän tunnisteensa jo siinä vaiheessa, kun sen arkistointi aloitetaan. Siten viitteen keräämäänsä (tai käyttämäänsä) aineistoon voi liittää julkaisuun jo etukäteen. Aluksi tunniste johtaa tietoon siitä, että kyseinen aineisto on arkistointiprosessissa. Myöhemmin, kun arkistointi on valmistunut ja aineisto on saatavissa, sama viite tulee ohjaamaan dataan tai sen versiohistoriaan.
PID - tunnista, mitä avaat!

Lisätietoa:

» PID linkkinä resolvoituu aineistokuvaukseen Ailassa: urn:nbn:fi:fsd:T-FSD3424
» Näin Tietoarkisto palvelee arkistoinnissa
» World Digital Preservation Day

Tuomas J. Alaterä
IT-palveluasiantuntija
etunimi.sukunimi [at] tuni.fi