14. helmikuuta 2025

Rakasta dataa! Love Data Week muistutti, että datasta pitää pitää huolta

piirroshahmo, jolla käsissään sydän, jossa teksti Data.
Olemme taas viettäneet dataintoilijoiden kansainvälistä teemaviikkoa. Love Data Week 2025 kysyi ja hieman vastasikin sangen yleiseen ongelmaan "Whose data is it anyway", eli kenen dataa se nyt oikein on? Tietoarkistossa puhumme mielellämme omista datoistamme ja ehkä tekin puhutte Tietoarkiston datoista. Datat eivät kuitenkaan ole meidän, koska sopimusten mukaisesti huolehdimme datoista tekijöiden ja omistajien puolesta.

Metadata sen sijaan on Tietoarkiston tuottamaa, "meidän dataamme" siis. Se on avoimesti saatavilla Creative Commons Nimeä 4.0 Kansainvälinen -lisenssin mukaisesti.

Love Data Weekin järjestää ICPSR. Tapahtumista ja viikon aikana jaetuista tietolähteistä voit lukea lisää tapahtumasivuilta. Tietoarkisto osallistui viikon teemaan sosiaalisen median nostoilla, joissa toimme esiin palveluita ja tietolähteitä, joiden kautta Tietoarkisto ohjeistaa datan omistamisesta tai tekijyydestä sopimiseen. Tähän blogiin on koottu kaikki nämä nostot.

Sopiminen, kun tutkijoita on useita

Jos tutkimushankkeessa on useita tutkijoita, kannattaa hoitaa oikeuksista sopiminen ajoissa, jotta ei tarvitsisi miettiä jälkikäteen, "kenen dataa se nyt oikein on?" Ohjeita saat muun muassa Tietoarkiston Aineistonhallinnan käsikirjan luvusta Sopimukset ja oikeudet.

Tekijä ei ole aina henkilö

Koronapandemian aikana kerätyt tutkimusdatat ovat ajankohtaisia myös nyt. Pandemia osoitti, että yhteiskunnan kriisitilanteissa ilmiötä käsittelevät tutkimusaineistot pitää saada käyttöön joustavasti ja avoimesti. Tutkimusaineistolla ei aina myöskään ole henkilötekijää, vaan se voi olla myös organisaation tuottama. Näistä esimerkkinä on tammikuussa 2025 julkaistu gerontologisen sosiaalityön ja diakoniatyön asiakkaiden sekä ikääntyvien parissa työskentelevien haastatteluaineisto.

Aineistoviite: Helsingin yliopisto & Itä-Suomen yliopisto & Lapin yliopisto: Gerontologisen sosiaalityön ja diakoniatyön asiakkaiden sekä ikääntyvien parissa työskentelevien haastatteluja 2021 [data]. Dataversio 1.0 (2024-09-12). Yhteiskuntatieteellinen tietoarkisto [jakaja]. DOI: https://doi.org/10.60686/t-fsd3862; URN: https://urn.fi/urn:nbn:fi:fsd:T-FSD3862

Aineisto voi jäädä orvoksi

Kenelle kuuluu orpo aineisto? Arja Kuula-Luumi kirjoitti orvoista aineistoista blogin jo yli kymmenen vuotta sitten.

Tuolloin Tietoarkistossa uudistettiin ja yksinkertaistettiin arkistointisopimuksia. Nykyiseen verrattuna Tietoarkistossa oli tuolloin runsaasti dataa, jonka käyttöön piti pyytää alkuperäisen tutkijan tai luovuttajan lupa. Halusimme vähentää näin rajoitettua käyttöä ja lisäksi muuttaa luvanvaraisuuden määräaikaiseksi. Määräaikaisuutta voi karuimmillaan perustella sillä, että aineistosta tulee orpo, kun luvanantaja kuolee eikä vaihtoehtoista toimintatapaa ole määritelty. Aineisto voi kuitenkin jäädä orvoksi myös silloin, kun luvanantaja jostain muusta syystä ole enää tavoitettavissa.

Arkistointiohjeissa kerromme datojen käyttöoikeusluokista.

Kenen data?

Joskus tutkittaville syntyy tekijänoikeuksia tutkimusta varten kerättyyn aineistoon. Näin voi tapahtua, jos tutkittavat esimerkiksi piirtävät tai valokuvaavat tai tuottavat tekstiä, josta tutkija muodostaa aineistonsa. Lue Tietoarkiston Aineistonhallinnan käsikirjasta, mitä sinun pitää ottaa huomioon näin kerättyä aineistoa hyödyntäessäsi ja millaiset sopimukset ovat tarpeen.

Tietoarkisto vaalii huomassaan olevaa dataa jokaisena päivänä – ole yhteydessä asiakaspalveluumme tai täytä arkistointiehdotuslomake, kun datasi kaipaa rakkautta!

suorakaide, jossa teksti Love Data Week.

Helena Laaksonen
johtaja

Tuomas J. Alaterä
palvelupäällikkö

etunimi.sukunimi [at] tuni.fi

7. marraskuuta 2024

Digitaalisen säilyttämisen parhaat käytännöt rakentuvat yhteistyössä

Marraskuun toinen torstai on aina kansainvälinen digitaalisen pitkäaikaissäilyttämisen päivä. Tänä vuonna päivän teemana on Preserving Our Digital Content: Celebrating Communities. Teemalla halutaan juhlistaa yhteisöjä, jotka ovat eri tavoin toteuttamassa sähköisten aineistojen pitkäaikaissaatavuutta.

Itselleni tärkeä yhteisö on ollut CoreTrustSeal. Se on kansainvälinen, voittoa tavoittelematon järjestö, joka tarjoaa luotettavan sähköisen säilyttämisen perustason sertifiointia. Olen palvellut CoreTrustSealin hallituksessa jo vuodesta 2018 alkaen. Viimeisen vuoden aikana yksi keskeinen teema on ollut digitaalisen säilyttämisen ja aineistojen kuratoinnin erilaiset tavoitteet ja tasot, koska niihin liittyvät käsitteet ja määritelmät eivät ole vielä vakiintuneita.

Olemme CoreTrustSealin piirissä käyneet aiheesta avointa ja yhteisöä osallistavaa keskustelua, jonka perusteella hallitus on hahmotellut neljä erilaista digitaalisen säilyttämisen tasoa1:

  • Z. Nollataso (level zero): Repositorio säilyttää ja jakaa digitaalisen objektin sisällön sellaisena kuin se on repositorioon tallennettu.
  • D. Tallennuskriteerit täyttävä taso (deposit compliance): Tallennusvaiheessa repositorio tarkistaa, että digitaalinen objekti ja sen metadata täyttää tietyt ennalta määritellyt minimivaatimukset.
  • C. Ensikuratoinnin taso (initial curation): Repositorio täydentää digitaalista objektia tai sen metadataa repositorien käytäntöjen mukaisesti, esimerkiksi lisää FAIR-periaatteiden mukaista metadataa.
  • A. Aktiivisen pitkäaikaissäilytyksen taso (active preservation): Repositorio ottaa vastuun siitä, että digitaalinen objekti säilyy käytettävänä ja ymmärrettävänä pitkällä aikavälillä.

Nämä tasot voivat olla kumulatiivisia ja usein ovatkin. Tyypillisesti esimerkiksi repositorio, joka vastaa datan pitkäaikaissäilyttämisestä (A) myös tarkistaa tallennuskriteerien täyttymisen (D) ja kuratoi aineistoja (C). Kaikenlaisia repositorioita tarvitaan, koska asiakkaiden tarpeet ovat erilaisia. Tärkeää on, että repositoriot viestivät selkeästi palvelulupauksensa, jotta asiakkaat pystyvät valitsemaan oikean paikan digitaalisen materiaalin tallennukseen. Esimerkiksi tutkimusdatalle oikea repositorio on usein tieteenalakohtainen sertifioitu data-arkisto.

Työ tällä saralla jatkuu. CoreTrustSealin hallitus on julkaissut keskustelupaperin, jossa pohditaan, miten näiden neljän eri säilytystason avulla voidaan ryhmitellä repositorioita2. Osallistuin keväällä 2024 Saksan data-arkiston GESISin järjestämään tutkijavierailuun. Sen tuloksena julkaisimme paperin, jossa hahmotellaan mitä metadataa tarvitaan kuvaamaan kuratoinnin ja säilyttämisen tasoa sekä repositorion että digitaalisen objektin tasolla.3

Ensi tammikuussa alkaa CSC:n johtama Horisontti-rahoitteinen FIDELIS-hanke, jossa Tietoarkisto on mukana. Hankkeen tavoitteena on rakentaa eurooppalainen luotettujen datarepositorioiden verkosto, määritellä hyviä käytäntöjä ja tutkia luotettavien repositorioiden ominaisuuksia.

Tutkimusdatan digitaalinen pitkäaikaissäilyttäminen on nopeasti kehittyvä ala, jossa tarvitaan monenlaista osaamista ja erilaisia näkemyksiä. Parhaat käytännöt rakennetaan yhteistyöllä ja verkostoitumalla. CoreTrustSeal on vain yksi monista yhteisöistä, joihin Tietoarkisto ja tietoarkistolaiset kuuluvat. Tätä blogiakin olen työstänyt yhdessä CoreTrustSealin hallituksen ja CESSDA-kollegojen kanssa. Lue lisää CoreTrustSealin ja Digital Preservation Coalitionin sivuilta.

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] tuni.fi

[1] CoreTrustSeal Standards and Certification Board. (2024). Curation & Preservation Levels: CoreTrustSeal Position Paper. Zenodo. https://doi.org/10.5281/zenodo.11476980

[2] CoreTrustSeal Standards & Certification Board. (2024). Types of Repository: Entities, Responsibilities, Objects. CoreTrustSeal Board Discussion Paper (v01.00). Zenodo. https://doi.org/10.5281/zenodo.13133041

[3] L'Hours, H., Kleemola, M., & Recker, J. (2024). CoreTrustSeal Levels of Curation and Preservation: Implied Repository and Object Metadata Characteristics (v01.00). Zenodo. https://doi.org/10.5281/zenodo.12701324