Tietoarkistolla oli keskeinen rooli yhteiskuntatieteellisten ja humanististen tutkimusaineistojen tuomisessa osaksi COVID-19-dataportaalia. Näiden tieteenalojen ensimmäiseksi lähteeksi valikoitui CESSDAn datakatalogi, jossa on tarjolla runsaasti rikasta ja laadukasta yhteiskuntatieteellisten tutkimusaineistojen metadataa Tietoarkiston ohjelmoiman OAI-PMH rajapinnan kautta. Vaikka metatiedot ja rajapinta olivat jo valmiita, vaati metatietojen saaminen COVID-19-dataportaaliin runsaasti työtä.
CESSDAn datakatalogi sisältää monipuolisesti erilaisia yhteiskuntatieteellisiä ja humanistisia teemoja käsittelevien aineistojen metatietoja kuten kaikki Tietoarkiston aineistojen metatiedot. Tämän vuoksi piti ensiksi valita COVID-19-dataportaaliin sopivat aineistot. Tähän tarkoitukseen otettiin käyttöön DSpace-repositoriosovellus, jonka kreikkalainen National Centre for Social Research (EKKE) asensi Barcelona Supercomputing Centerin (BSC) tarjoamalle palvelimelle. DSpace käyttää hakuihin Apache Solr -ohjelmistoa, joka tukee monenlaisia tehokkaita hakuja. EKKE haravoi DSpaceen kaiken CESSDAn datakatalogin sisältämän metadatan ja lisäsi rajapinnan, jonka avulla hakuja voi tehdä koneellisesti saaden tulokseksi linkin alkuperäiseen metadataan OAI-PMH-rajapinnassa.
Tietoarkisto sovitti CESSDAn datakatalogin DDI Codebook 2.5 -muotoisen metadatan COVID-19-dataportaalin käyttämään OmicsDI-formaattiin ja tuotti metatietojen muuntamiseen XSLT-tiedoston. Tietoarkisto kehitti sovelluksen, joka käyttää edellä mainittuja rajapintoja ja XSLT-tiedostoa, jotta valittujen aineistojen metadatat saadaan halutussa muodossa COVID-19-dataportaaliin. "Social Science & Humanities"-osion ensimmäinen versio julkaistiin COVID-19-dataportaalissa viime vuoden lokakuussa. Näitä prosesseja, hakuja ja sovelluksia kehitetään edelleen ja työn alla on myös uusien metadatalähteiden lisääminen. Seuraavana vuorossa on European University Instituten (EUI) COVID-19 Social Sciences Data Portal.
COVID-19-dataportaali on monitieteisyydessään ainutlaatuinen ikkuna pandemiaan. Tietoarkisto oli ensimmäisiä suomalaisia organisaatioita, joiden tutkimusaineistot olivat löydettävissä COVID-19-dataportaalin kautta. Arkistoimalla korona-aiheisen tutkimusaineistosi Tietoarkistoon, sinunkin datasi saa kansainvälistä näkyvyyttä COVID-19-dataportaalin kautta.
Lisätietoa:
Katja Moilanen
erityisasiantuntija
Markus Tuominen
IT-asiantuntija
etunimi.sukunimi [at] tuni.fi