17. tammikuuta 2023

Tietoarkisto monitieteisessä COVID-19-dataportaalissa

Profiilikuva Profiilikuva
Kukapa tiesi vuoden 2019 lopulla, mitä tuleman piti, kun uutiset uudesta viruksesta kantautuivat korviimme. Virus sai nimen COVID-19 ja pian olivat asiat sekaisin ympäri maailman. Uusi virus käynnisti myös monitieteisen tutkimusaallon. Dataa kerättiin, ja kerätään yhä, niin itse viruksesta ja sen aiheuttamasta sairaudesta kuin myös viruksen torjuntaan liittyvistä toimista ja toimien vaikutuksesta sekä viruksen leviämiseen että yksilöihin ja yhteiskuntaan. COVID-19-viruksen vaikutukset ovat olleet hyvin monitahoisia. Jotta niitä voitaisiin tutkia myös näin jälkikäteen, tarvitaan tietoa siitä, mitä datoja aiheesta on kerätty. Tähän tarpeeseen vastaa monitieteinen COVID-19 dataportaali.

Tietoarkistolla oli keskeinen rooli yhteiskuntatieteellisten ja humanististen tutkimusaineistojen tuomisessa osaksi COVID-19-dataportaalia. Näiden tieteenalojen ensimmäiseksi lähteeksi valikoitui CESSDAn datakatalogi, jossa on tarjolla runsaasti rikasta ja laadukasta yhteiskuntatieteellisten tutkimusaineistojen metadataa Tietoarkiston ohjelmoiman OAI-PMH rajapinnan kautta. Vaikka metatiedot ja rajapinta olivat jo valmiita, vaati metatietojen saaminen COVID-19-dataportaaliin runsaasti työtä.

Palvelun Logo. COVID-19 Data Portal

CESSDAn datakatalogi sisältää monipuolisesti erilaisia yhteiskuntatieteellisiä ja humanistisia teemoja käsittelevien aineistojen metatietoja kuten kaikki Tietoarkiston aineistojen metatiedot. Tämän vuoksi piti ensiksi valita COVID-19-dataportaaliin sopivat aineistot. Tähän tarkoitukseen otettiin käyttöön DSpace-repositoriosovellus, jonka kreikkalainen National Centre for Social Research (EKKE) asensi Barcelona Supercomputing Centerin (BSC) tarjoamalle palvelimelle. DSpace käyttää hakuihin Apache Solr -ohjelmistoa, joka tukee monenlaisia tehokkaita hakuja. EKKE haravoi DSpaceen kaiken CESSDAn datakatalogin sisältämän metadatan ja lisäsi rajapinnan, jonka avulla hakuja voi tehdä koneellisesti saaden tulokseksi linkin alkuperäiseen metadataan OAI-PMH-rajapinnassa.

Tietoarkisto sovitti CESSDAn datakatalogin DDI Codebook 2.5 -muotoisen metadatan COVID-19-dataportaalin käyttämään OmicsDI-formaattiin ja tuotti metatietojen muuntamiseen XSLT-tiedoston. Tietoarkisto kehitti sovelluksen, joka käyttää edellä mainittuja rajapintoja ja XSLT-tiedostoa, jotta valittujen aineistojen metadatat saadaan halutussa muodossa COVID-19-dataportaaliin. "Social Science & Humanities"-osion ensimmäinen versio julkaistiin COVID-19-dataportaalissa viime vuoden lokakuussa. Näitä prosesseja, hakuja ja sovelluksia kehitetään edelleen ja työn alla on myös uusien metadatalähteiden lisääminen. Seuraavana vuorossa on European University Instituten (EUI) COVID-19 Social Sciences Data Portal.

COVID-19-dataportaali on monitieteisyydessään ainutlaatuinen ikkuna pandemiaan. Tietoarkisto oli ensimmäisiä suomalaisia organisaatioita, joiden tutkimusaineistot olivat löydettävissä COVID-19-dataportaalin kautta. Arkistoimalla korona-aiheisen tutkimusaineistosi Tietoarkistoon, sinunkin datasi saa kansainvälistä näkyvyyttä COVID-19-dataportaalin kautta.

Lisätietoa:

Katja Moilanen
erityisasiantuntija

Markus Tuominen
IT-asiantuntija

etunimi.sukunimi [at] tuni.fi