7. marraskuuta 2024

Digitaalisen säilyttämisen parhaat käytännöt rakentuvat yhteistyössä

Marraskuun toinen torstai on aina kansainvälinen digitaalisen pitkäaikaissäilyttämisen päivä. Tänä vuonna päivän teemana on Preserving Our Digital Content: Celebrating Communities. Teemalla halutaan juhlistaa yhteisöjä, jotka ovat eri tavoin toteuttamassa sähköisten aineistojen pitkäaikaissaatavuutta.

Itselleni tärkeä yhteisö on ollut CoreTrustSeal. Se on kansainvälinen, voittoa tavoittelematon järjestö, joka tarjoaa luotettavan sähköisen säilyttämisen perustason sertifiointia. Olen palvellut CoreTrustSealin hallituksessa jo vuodesta 2018 alkaen. Viimeisen vuoden aikana yksi keskeinen teema on ollut digitaalisen säilyttämisen ja aineistojen kuratoinnin erilaiset tavoitteet ja tasot, koska niihin liittyvät käsitteet ja määritelmät eivät ole vielä vakiintuneita.

Olemme CoreTrustSealin piirissä käyneet aiheesta avointa ja yhteisöä osallistavaa keskustelua, jonka perusteella hallitus on hahmotellut neljä erilaista digitaalisen säilyttämisen tasoa1:

  • Z. Nollataso (level zero): Repositorio säilyttää ja jakaa digitaalisen objektin sisällön sellaisena kuin se on repositorioon tallennettu.
  • D. Tallennuskriteerit täyttävä taso (deposit compliance): Tallennusvaiheessa repositorio tarkistaa, että digitaalinen objekti ja sen metadata täyttää tietyt ennalta määritellyt minimivaatimukset.
  • C. Ensikuratoinnin taso (initial curation): Repositorio täydentää digitaalista objektia tai sen metadataa repositorien käytäntöjen mukaisesti, esimerkiksi lisää FAIR-periaatteiden mukaista metadataa.
  • A. Aktiivisen pitkäaikaissäilytyksen taso (active preservation): Repositorio ottaa vastuun siitä, että digitaalinen objekti säilyy käytettävänä ja ymmärrettävänä pitkällä aikavälillä.

Nämä tasot voivat olla kumulatiivisia ja usein ovatkin. Tyypillisesti esimerkiksi repositorio, joka vastaa datan pitkäaikaissäilyttämisestä (A) myös tarkistaa tallennuskriteerien täyttymisen (D) ja kuratoi aineistoja (C). Kaikenlaisia repositorioita tarvitaan, koska asiakkaiden tarpeet ovat erilaisia. Tärkeää on, että repositoriot viestivät selkeästi palvelulupauksensa, jotta asiakkaat pystyvät valitsemaan oikean paikan digitaalisen materiaalin tallennukseen. Esimerkiksi tutkimusdatalle oikea repositorio on usein tieteenalakohtainen sertifioitu data-arkisto.

Työ tällä saralla jatkuu. CoreTrustSealin hallitus on julkaissut keskustelupaperin, jossa pohditaan, miten näiden neljän eri säilytystason avulla voidaan ryhmitellä repositorioita2. Osallistuin keväällä 2024 Saksan data-arkiston GESISin järjestämään tutkijavierailuun. Sen tuloksena julkaisimme paperin, jossa hahmotellaan mitä metadataa tarvitaan kuvaamaan kuratoinnin ja säilyttämisen tasoa sekä repositorion että digitaalisen objektin tasolla.3

Ensi tammikuussa alkaa CSC:n johtama Horisontti-rahoitteinen FIDELIS-hanke, jossa Tietoarkisto on mukana. Hankkeen tavoitteena on rakentaa eurooppalainen luotettujen datarepositorioiden verkosto, määritellä hyviä käytäntöjä ja tutkia luotettavien repositorioiden ominaisuuksia.

Tutkimusdatan digitaalinen pitkäaikaissäilyttäminen on nopeasti kehittyvä ala, jossa tarvitaan monenlaista osaamista ja erilaisia näkemyksiä. Parhaat käytännöt rakennetaan yhteistyöllä ja verkostoitumalla. CoreTrustSeal on vain yksi monista yhteisöistä, joihin Tietoarkisto ja tietoarkistolaiset kuuluvat. Tätä blogiakin olen työstänyt yhdessä CoreTrustSealin hallituksen ja CESSDA-kollegojen kanssa. Lue lisää CoreTrustSealin ja Digital Preservation Coalitionin sivuilta.

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] tuni.fi

[1] CoreTrustSeal Standards and Certification Board. (2024). Curation & Preservation Levels: CoreTrustSeal Position Paper. Zenodo. https://doi.org/10.5281/zenodo.11476980

[2] CoreTrustSeal Standards & Certification Board. (2024). Types of Repository: Entities, Responsibilities, Objects. CoreTrustSeal Board Discussion Paper (v01.00). Zenodo. https://doi.org/10.5281/zenodo.13133041

[3] L'Hours, H., Kleemola, M., & Recker, J. (2024). CoreTrustSeal Levels of Curation and Preservation: Implied Repository and Object Metadata Characteristics (v01.00). Zenodo. https://doi.org/10.5281/zenodo.12701324

22. tammikuuta 2024

25-vuotta Tietoarkistoa

Tammikuun alussa tuli kuluneeksi 25 vuotta Yhteiskuntatieteellisen tietoarkiston perustamisesta. Valtakunnallista tehtävää hoitamaan Tampereelle sijoitettu erillisyksikkö on tänä aikana ehtinyt nähdä monta muutosta toimintaympäristössään ja yleisessä suhtautumisessa tutkimusaineistojen hallintaan ja avaamiseen.

Alussa Tietoarkisto oli myös henkilöstön ikärakenteen puolesta Tampereen yliopiston nuori tulokas. Vuosituhannen vaihteen seutuvilla työnsä aloittaneita tietoarkistolaisia on mukana edelleen useita, joten ajan kuluessa sekä henkilöstö että Tietoarkisto ovat keski-ikäistyneet. Muutama työntekijä on ehtinyt eläköityäkin.

Tulokkaasta tukijaksi ja tiedon jakajaksi

Pisimpään Tietoarkistossa työskennelleet kollegat muistelevat toisinaan, miten tyhjästä kaikki alkoi. Tilannetta kuvaa hyvin se, että ensimmäisiä työtehtäviä oli kahvikaluston ostaminen marketista. Astiaston hankkimisen lisäksi muukin infrastruktuuri rakennettiin nopeasti. Itse työskentelin tuolloin tutkijana ja tilasin yhden Eurobarometri-aineiston Tietoarkistosta sen ensimmäisen toimintavuoden aikana, ja sain toimituksen nopeasti sähköpostiini.

Tehokas eteneminen oli mahdollista paitsi innostuneen ja osaavan henkilöstön myös data-arkistojen kansainvälisen yhteistoiminnan ansiota. Edelläkävijöistä saatiin ottaa mallia, hyödyntää hyväksi havaittua, eikä virheitäkään tarvinnut toistaa. Muutamassa vuodessa Tietoarkistosta itsestään tuli monien ratkaisujen suhteen edelläkävijä ja tiedon jakaja kansainvälisille kollegoille ja kotimaisillekin toimijoille.

Ehkä suurimmat muutokset Tietoarkiston toimintamalleihin tehtiin noin kymmenen vuotta sitten. Suomen Akatemialta saatu infrastruktuurirahoitus mahdollisti toiminnan voimakkaan kehittämisen. Palveluportaali Aila otettiin käyttöön toukokuussa 2014. Laadullisten aineistojen käsittelyyn luotiin uusia käytäntöjä. Tietoarkisto saikin ensimmäisenä suomalaisena organisaationa sähköisten aineistojen pitkäaikaissäilytyksen luotettavuudesta kertovan sertifikaatin.

Kansainvälisten aineistojen, kuten mainitsemieni Eurobarometrien, jakelu lopetettiin vuonna 2013, koska aineistot oli mahdollista ladata maksutta Saksan tietoarkiston verkkoportaalista. Samana vuonna luovuttiin myös niin sanottujen vain kuvailtujen aineistojen luettelosta. Ratkaisu ei soveltunut Ailaan ja muualla säilytettävien aineistojen saatavuustietojen luotettava ylläpito osoittautui hankalaksi ja joskus mahdottomaksi.

Avoimuus ja tietosuoja jokapäiväistyvät

Alussa joskus aineistojen avaamiselle vastahakoinenkin tiedeyhteisö on muuttunut 25 vuodessa avaamista suosivaksi tai jopa edellyttäväksi. Toisaalta samaan aikaan myös tietosuojalainsäädäntö on muuttunut, ja sen myötä erityisesti tietoisuus tutkittavien oikeuksista on lisääntynyt.

Tietoarkisto on ollut sopivassa kehitysvaiheessa ja hereillä muutosten tapahtuessa. Aineistonhallinnan kanssa kamppailevia olemme voineet tukea tarjoamalla kattavan ja ajantasaisen aineistonhallinnan käsikirjan sekä tarvittaessa henkilökohtaistakin neuvontaa. Nykyisin vastaanotammekin paljon aineistoa, jota on tutkimuksen aktiiviaikana käsitelty niin, että sen arkistointi jatkokäyttöön on primaaritutkimuksen jälkeen varsin helppoa.

Alalle on tullut myös paljon uusia toimijoita perinteisten data-arkistojen lisäksi. Usein tulijat eivät tunne kaikkia jo olemassa olevia ratkaisuja. Tietoarkistolaiset kollegoineen maailman data-arkistoista ovat tarjonneet osaamistaan, jotta aineistojen avaamisessa ei päädyttäisi erillisiin siiloihin ja yhteentoimimattomiin ratkaisuihin. Yhteistyö on kannattavaa kaikille osapuolille.

Tulevaisuutta ei voi ennustaa

Tulevaisuuden ennustaminen on mahdotonta. Menneisyyttä katsoessa näkee, mikä on ollut pysyvää ja välttämätöntä halki vuosikymmenten. Sekä aineistojen sisällön ja käsittelyn että tietoteknisten ratkaisujen erityisasiantuntijuutta tarvitaan. Vaikka tekoälypohjaiset työkalut helpottaisivat joitakin arkistoinnin ja jakelun työvaiheita, uusi aika luonee myös uusia tarpeita.

Ainakin metatietomallien tuntemus, niiden hyödyntämis- ja ylläpitokokemus ja pitkäaikaissaatavuuden prosessien ja ratkaisujen tuntemus ovat toistaiseksi ja hyvin todennäköisesti tulevaisuudessakin välttämättömiä. Samoin on laita tietosuojan ja tutkimusaineistojen etiikan tuntemuksen ja yksittäisten tilanteiden tulkintakyvyn kanssa. Datan arkistoinnissa tarvitaan siis ihmisiä ja vastuuorganisaatioita tekoälyn aikakaudellakin, jos aineistojen halutaan olevan pitkäaikaisesti saatavilla ja käytettävissä.

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Lue myös artikkeli 20 vuotta kvalitatiivisten aineistojen arkistointia Tietoarkistossa: Ydinjätepäätöksestä yksinäisyyden kysymyksiin

Kuvat: Leonardo.Ai