17. tammikuuta 2023

Tietoarkisto monitieteisessä COVID-19-dataportaalissa

Profiilikuva Profiilikuva
Kukapa tiesi vuoden 2019 lopulla, mitä tuleman piti, kun uutiset uudesta viruksesta kantautuivat korviimme. Virus sai nimen COVID-19 ja pian olivat asiat sekaisin ympäri maailman. Uusi virus käynnisti myös monitieteisen tutkimusaallon. Dataa kerättiin, ja kerätään yhä, niin itse viruksesta ja sen aiheuttamasta sairaudesta kuin myös viruksen torjuntaan liittyvistä toimista ja toimien vaikutuksesta sekä viruksen leviämiseen että yksilöihin ja yhteiskuntaan. COVID-19-viruksen vaikutukset ovat olleet hyvin monitahoisia. Jotta niitä voitaisiin tutkia myös näin jälkikäteen, tarvitaan tietoa siitä, mitä datoja aiheesta on kerätty. Tähän tarpeeseen vastaa monitieteinen COVID-19 dataportaali.

Tietoarkistolla oli keskeinen rooli yhteiskuntatieteellisten ja humanististen tutkimusaineistojen tuomisessa osaksi COVID-19-dataportaalia. Näiden tieteenalojen ensimmäiseksi lähteeksi valikoitui CESSDAn datakatalogi, jossa on tarjolla runsaasti rikasta ja laadukasta yhteiskuntatieteellisten tutkimusaineistojen metadataa Tietoarkiston ohjelmoiman OAI-PMH rajapinnan kautta. Vaikka metatiedot ja rajapinta olivat jo valmiita, vaati metatietojen saaminen COVID-19-dataportaaliin runsaasti työtä.

Palvelun Logo. COVID-19 Data Portal

CESSDAn datakatalogi sisältää monipuolisesti erilaisia yhteiskuntatieteellisiä ja humanistisia teemoja käsittelevien aineistojen metatietoja kuten kaikki Tietoarkiston aineistojen metatiedot. Tämän vuoksi piti ensiksi valita COVID-19-dataportaaliin sopivat aineistot. Tähän tarkoitukseen otettiin käyttöön DSpace-repositoriosovellus, jonka kreikkalainen National Centre for Social Research (EKKE) asensi Barcelona Supercomputing Centerin (BSC) tarjoamalle palvelimelle. DSpace käyttää hakuihin Apache Solr -ohjelmistoa, joka tukee monenlaisia tehokkaita hakuja. EKKE haravoi DSpaceen kaiken CESSDAn datakatalogin sisältämän metadatan ja lisäsi rajapinnan, jonka avulla hakuja voi tehdä koneellisesti saaden tulokseksi linkin alkuperäiseen metadataan OAI-PMH-rajapinnassa.

Tietoarkisto sovitti CESSDAn datakatalogin DDI Codebook 2.5 -muotoisen metadatan COVID-19-dataportaalin käyttämään OmicsDI-formaattiin ja tuotti metatietojen muuntamiseen XSLT-tiedoston. Tietoarkisto kehitti sovelluksen, joka käyttää edellä mainittuja rajapintoja ja XSLT-tiedostoa, jotta valittujen aineistojen metadatat saadaan halutussa muodossa COVID-19-dataportaaliin. "Social Science & Humanities"-osion ensimmäinen versio julkaistiin COVID-19-dataportaalissa viime vuoden lokakuussa. Näitä prosesseja, hakuja ja sovelluksia kehitetään edelleen ja työn alla on myös uusien metadatalähteiden lisääminen. Seuraavana vuorossa on European University Instituten (EUI) COVID-19 Social Sciences Data Portal.

COVID-19-dataportaali on monitieteisyydessään ainutlaatuinen ikkuna pandemiaan. Tietoarkisto oli ensimmäisiä suomalaisia organisaatioita, joiden tutkimusaineistot olivat löydettävissä COVID-19-dataportaalin kautta. Arkistoimalla korona-aiheisen tutkimusaineistosi Tietoarkistoon, sinunkin datasi saa kansainvälistä näkyvyyttä COVID-19-dataportaalin kautta.

Lisätietoa:

Katja Moilanen
erityisasiantuntija

Markus Tuominen
IT-asiantuntija

etunimi.sukunimi [at] tuni.fi

3. marraskuuta 2022

Let’s Keep It FAIR

The acronym FAIR cannot be avoided when talking about research data. And that’s good. FAIR stands for better discoverable and accessible research data, documented and published in a way that makes it reusable and understandable by both humans and machines. At least those are the benefits. Viewed from the repository world and with digital preservation glasses on, FAIR research data should also be curated data that have found a home in a repository where the designated user community knows to look for it. This can be greatly facilitated by improving the repository's ability to produce and preserve FAIR (meta)data.

During the last three years, FSD has led the work in the EOSC-Nordic project's work package on FAIR and repository certification support. In addition to sound digital preservation practices, we found that rich, standards-based metadata, documented processes, and a clear mission in digital preservation are essential to keeping data FAIR. Money also helps, but it cannot buy love or eternal existence if expertise is lacking. Therefore, improving the repository's ability to produce and preserve (meta)data is one key step towards FAIRer and more trusted data sharing.

Landscaping the Nordic countries and the Baltics

To better understand the Nordic and Baltic research data repository landscape, the working group conducted a desk study to examine the characteristics of the data repositories in the region. This was done using publicly available information on 86 repository websites. A significant majority were specialist repositories focused on specific fields or disciplines, while the rest were generalist repositories.

We were interested in what information about the repository itself was easily accessible to users and other stakeholders because conveying trust is crucial. We were looking for information that is essential for understanding the services and reusing data: mission statement, description of the designated community, methods of data preservation, model citations, use of PIDs and terms of use.

Almost three out of four repositories had a mission statement and about half of them had a description of the designated community. Almost half specifically mentioned being responsible for long-term preservation. A little more than half provided a model citation for their data. Over three fourths had the terms of data use available on their websites. The content and scope varied between repositories.

Common repository registries, such as re3data and FAIRsharing, help users find suitable repositories and provide an overview of existing services. As many as 72% of the repositories in our sample had a record in re3data, while only 22% had a record in FAIRsharing. All repositories that had a FAIRsharing record also had a re3data record. This suggests that currently re3data is considered the most important registry for repository information.

Repository certification

We are also looking for information about the repository certifications. Only 17 (20%) of the repositories mentioned certification on their website. The most common certificate was CoreTrustSeal (CTS). Other certificates mentioned were the CLARIN certificate, ISO 27001 and WDS. Currently, there are relatively few CTS-certified repositories in the Nordic countries and the Baltics compared to Western Europe. Support and training for CoreTrustSeal self-assessments offered during the EOSC-Nordic project is expected to pump the number of certified repositories from ten to 15 or 16.

Although the certification alone does not preserve a single byte, it seems that support, networking, and awareness raising over the past couple of years in the EOSC-Nordic project have helped the players in their game to keep the data FAIR.

---

This blog entry is partially based on the final report of the work package. Deliverable D4.5 Report on completed FAIR data standard adoption and certifications of data repositories in the region is forthcoming.

Today is the World Digital Preservation Day. Follow what's happening around the world!

More information:
» World Digital Preservation Day
» World Digital Preservation Day Events Calendar
» EOSC-Nordic Knowledge Hub (Final report will be here when published)

Tuomas J. Alaterä
Senior Specialist (Web Services, Digital Preservation and Communications)
firstname.surname [at] tuni.fi