22. tammikuuta 2024

25-vuotta Tietoarkistoa

Tammikuun alussa tuli kuluneeksi 25 vuotta Yhteiskuntatieteellisen tietoarkiston perustamisesta. Valtakunnallista tehtävää hoitamaan Tampereelle sijoitettu erillisyksikkö on tänä aikana ehtinyt nähdä monta muutosta toimintaympäristössään ja yleisessä suhtautumisessa tutkimusaineistojen hallintaan ja avaamiseen.

Alussa Tietoarkisto oli myös henkilöstön ikärakenteen puolesta Tampereen yliopiston nuori tulokas. Vuosituhannen vaihteen seutuvilla työnsä aloittaneita tietoarkistolaisia on mukana edelleen useita, joten ajan kuluessa sekä henkilöstö että Tietoarkisto ovat keski-ikäistyneet. Muutama työntekijä on ehtinyt eläköityäkin.

Tulokkaasta tukijaksi ja tiedon jakajaksi

Pisimpään Tietoarkistossa työskennelleet kollegat muistelevat toisinaan, miten tyhjästä kaikki alkoi. Tilannetta kuvaa hyvin se, että ensimmäisiä työtehtäviä oli kahvikaluston ostaminen marketista. Astiaston hankkimisen lisäksi muukin infrastruktuuri rakennettiin nopeasti. Itse työskentelin tuolloin tutkijana ja tilasin yhden Eurobarometri-aineiston Tietoarkistosta sen ensimmäisen toimintavuoden aikana, ja sain toimituksen nopeasti sähköpostiini.

Tehokas eteneminen oli mahdollista paitsi innostuneen ja osaavan henkilöstön myös data-arkistojen kansainvälisen yhteistoiminnan ansiota. Edelläkävijöistä saatiin ottaa mallia, hyödyntää hyväksi havaittua, eikä virheitäkään tarvinnut toistaa. Muutamassa vuodessa Tietoarkistosta itsestään tuli monien ratkaisujen suhteen edelläkävijä ja tiedon jakaja kansainvälisille kollegoille ja kotimaisillekin toimijoille.

Ehkä suurimmat muutokset Tietoarkiston toimintamalleihin tehtiin noin kymmenen vuotta sitten. Suomen Akatemialta saatu infrastruktuurirahoitus mahdollisti toiminnan voimakkaan kehittämisen. Palveluportaali Aila otettiin käyttöön toukokuussa 2014. Laadullisten aineistojen käsittelyyn luotiin uusia käytäntöjä. Tietoarkisto saikin ensimmäisenä suomalaisena organisaationa sähköisten aineistojen pitkäaikaissäilytyksen luotettavuudesta kertovan sertifikaatin.

Kansainvälisten aineistojen, kuten mainitsemieni Eurobarometrien, jakelu lopetettiin vuonna 2013, koska aineistot oli mahdollista ladata maksutta Saksan tietoarkiston verkkoportaalista. Samana vuonna luovuttiin myös niin sanottujen vain kuvailtujen aineistojen luettelosta. Ratkaisu ei soveltunut Ailaan ja muualla säilytettävien aineistojen saatavuustietojen luotettava ylläpito osoittautui hankalaksi ja joskus mahdottomaksi.

Avoimuus ja tietosuoja jokapäiväistyvät

Alussa joskus aineistojen avaamiselle vastahakoinenkin tiedeyhteisö on muuttunut 25 vuodessa avaamista suosivaksi tai jopa edellyttäväksi. Toisaalta samaan aikaan myös tietosuojalainsäädäntö on muuttunut, ja sen myötä erityisesti tietoisuus tutkittavien oikeuksista on lisääntynyt.

Tietoarkisto on ollut sopivassa kehitysvaiheessa ja hereillä muutosten tapahtuessa. Aineistonhallinnan kanssa kamppailevia olemme voineet tukea tarjoamalla kattavan ja ajantasaisen aineistonhallinnan käsikirjan sekä tarvittaessa henkilökohtaistakin neuvontaa. Nykyisin vastaanotammekin paljon aineistoa, jota on tutkimuksen aktiiviaikana käsitelty niin, että sen arkistointi jatkokäyttöön on primaaritutkimuksen jälkeen varsin helppoa.

Alalle on tullut myös paljon uusia toimijoita perinteisten data-arkistojen lisäksi. Usein tulijat eivät tunne kaikkia jo olemassa olevia ratkaisuja. Tietoarkistolaiset kollegoineen maailman data-arkistoista ovat tarjonneet osaamistaan, jotta aineistojen avaamisessa ei päädyttäisi erillisiin siiloihin ja yhteentoimimattomiin ratkaisuihin. Yhteistyö on kannattavaa kaikille osapuolille.

Tulevaisuutta ei voi ennustaa

Tulevaisuuden ennustaminen on mahdotonta. Menneisyyttä katsoessa näkee, mikä on ollut pysyvää ja välttämätöntä halki vuosikymmenten. Sekä aineistojen sisällön ja käsittelyn että tietoteknisten ratkaisujen erityisasiantuntijuutta tarvitaan. Vaikka tekoälypohjaiset työkalut helpottaisivat joitakin arkistoinnin ja jakelun työvaiheita, uusi aika luonee myös uusia tarpeita.

Ainakin metatietomallien tuntemus, niiden hyödyntämis- ja ylläpitokokemus ja pitkäaikaissaatavuuden prosessien ja ratkaisujen tuntemus ovat toistaiseksi ja hyvin todennäköisesti tulevaisuudessakin välttämättömiä. Samoin on laita tietosuojan ja tutkimusaineistojen etiikan tuntemuksen ja yksittäisten tilanteiden tulkintakyvyn kanssa. Datan arkistoinnissa tarvitaan siis ihmisiä ja vastuuorganisaatioita tekoälyn aikakaudellakin, jos aineistojen halutaan olevan pitkäaikaisesti saatavilla ja käytettävissä.

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Lue myös artikkeli 20 vuotta kvalitatiivisten aineistojen arkistointia Tietoarkistossa: Ydinjätepäätöksestä yksinäisyyden kysymyksiin

Kuvat: Leonardo.Ai

17. tammikuuta 2023

Tietoarkisto monitieteisessä COVID-19-dataportaalissa

Profiilikuva Profiilikuva
Kukapa tiesi vuoden 2019 lopulla, mitä tuleman piti, kun uutiset uudesta viruksesta kantautuivat korviimme. Virus sai nimen COVID-19 ja pian olivat asiat sekaisin ympäri maailman. Uusi virus käynnisti myös monitieteisen tutkimusaallon. Dataa kerättiin, ja kerätään yhä, niin itse viruksesta ja sen aiheuttamasta sairaudesta kuin myös viruksen torjuntaan liittyvistä toimista ja toimien vaikutuksesta sekä viruksen leviämiseen että yksilöihin ja yhteiskuntaan. COVID-19-viruksen vaikutukset ovat olleet hyvin monitahoisia. Jotta niitä voitaisiin tutkia myös näin jälkikäteen, tarvitaan tietoa siitä, mitä datoja aiheesta on kerätty. Tähän tarpeeseen vastaa monitieteinen COVID-19 dataportaali.

Tietoarkistolla oli keskeinen rooli yhteiskuntatieteellisten ja humanististen tutkimusaineistojen tuomisessa osaksi COVID-19-dataportaalia. Näiden tieteenalojen ensimmäiseksi lähteeksi valikoitui CESSDAn datakatalogi, jossa on tarjolla runsaasti rikasta ja laadukasta yhteiskuntatieteellisten tutkimusaineistojen metadataa Tietoarkiston ohjelmoiman OAI-PMH rajapinnan kautta. Vaikka metatiedot ja rajapinta olivat jo valmiita, vaati metatietojen saaminen COVID-19-dataportaaliin runsaasti työtä.

Palvelun Logo. COVID-19 Data Portal

CESSDAn datakatalogi sisältää monipuolisesti erilaisia yhteiskuntatieteellisiä ja humanistisia teemoja käsittelevien aineistojen metatietoja kuten kaikki Tietoarkiston aineistojen metatiedot. Tämän vuoksi piti ensiksi valita COVID-19-dataportaaliin sopivat aineistot. Tähän tarkoitukseen otettiin käyttöön DSpace-repositoriosovellus, jonka kreikkalainen National Centre for Social Research (EKKE) asensi Barcelona Supercomputing Centerin (BSC) tarjoamalle palvelimelle. DSpace käyttää hakuihin Apache Solr -ohjelmistoa, joka tukee monenlaisia tehokkaita hakuja. EKKE haravoi DSpaceen kaiken CESSDAn datakatalogin sisältämän metadatan ja lisäsi rajapinnan, jonka avulla hakuja voi tehdä koneellisesti saaden tulokseksi linkin alkuperäiseen metadataan OAI-PMH-rajapinnassa.

Tietoarkisto sovitti CESSDAn datakatalogin DDI Codebook 2.5 -muotoisen metadatan COVID-19-dataportaalin käyttämään OmicsDI-formaattiin ja tuotti metatietojen muuntamiseen XSLT-tiedoston. Tietoarkisto kehitti sovelluksen, joka käyttää edellä mainittuja rajapintoja ja XSLT-tiedostoa, jotta valittujen aineistojen metadatat saadaan halutussa muodossa COVID-19-dataportaaliin. "Social Science & Humanities"-osion ensimmäinen versio julkaistiin COVID-19-dataportaalissa viime vuoden lokakuussa. Näitä prosesseja, hakuja ja sovelluksia kehitetään edelleen ja työn alla on myös uusien metadatalähteiden lisääminen. Seuraavana vuorossa on European University Instituten (EUI) COVID-19 Social Sciences Data Portal.

COVID-19-dataportaali on monitieteisyydessään ainutlaatuinen ikkuna pandemiaan. Tietoarkisto oli ensimmäisiä suomalaisia organisaatioita, joiden tutkimusaineistot olivat löydettävissä COVID-19-dataportaalin kautta. Arkistoimalla korona-aiheisen tutkimusaineistosi Tietoarkistoon, sinunkin datasi saa kansainvälistä näkyvyyttä COVID-19-dataportaalin kautta.

Lisätietoa:

Katja Moilanen
erityisasiantuntija

Markus Tuominen
IT-asiantuntija

etunimi.sukunimi [at] tuni.fi