3. marraskuuta 2022

Let’s Keep It FAIR

The acronym FAIR cannot be avoided when talking about research data. And that’s good. FAIR stands for better discoverable and accessible research data, documented and published in a way that makes it reusable and understandable by both humans and machines. At least those are the benefits. Viewed from the repository world and with digital preservation glasses on, FAIR research data should also be curated data that have found a home in a repository where the designated user community knows to look for it. This can be greatly facilitated by improving the repository's ability to produce and preserve FAIR (meta)data.

During the last three years, FSD has led the work in the EOSC-Nordic project's work package on FAIR and repository certification support. In addition to sound digital preservation practices, we found that rich, standards-based metadata, documented processes, and a clear mission in digital preservation are essential to keeping data FAIR. Money also helps, but it cannot buy love or eternal existence if expertise is lacking. Therefore, improving the repository's ability to produce and preserve (meta)data is one key step towards FAIRer and more trusted data sharing.

Landscaping the Nordic countries and the Baltics

To better understand the Nordic and Baltic research data repository landscape, the working group conducted a desk study to examine the characteristics of the data repositories in the region. This was done using publicly available information on 86 repository websites. A significant majority were specialist repositories focused on specific fields or disciplines, while the rest were generalist repositories.

We were interested in what information about the repository itself was easily accessible to users and other stakeholders because conveying trust is crucial. We were looking for information that is essential for understanding the services and reusing data: mission statement, description of the designated community, methods of data preservation, model citations, use of PIDs and terms of use.

Almost three out of four repositories had a mission statement and about half of them had a description of the designated community. Almost half specifically mentioned being responsible for long-term preservation. A little more than half provided a model citation for their data. Over three fourths had the terms of data use available on their websites. The content and scope varied between repositories.

Common repository registries, such as re3data and FAIRsharing, help users find suitable repositories and provide an overview of existing services. As many as 72% of the repositories in our sample had a record in re3data, while only 22% had a record in FAIRsharing. All repositories that had a FAIRsharing record also had a re3data record. This suggests that currently re3data is considered the most important registry for repository information.

Repository certification

We are also looking for information about the repository certifications. Only 17 (20%) of the repositories mentioned certification on their website. The most common certificate was CoreTrustSeal (CTS). Other certificates mentioned were the CLARIN certificate, ISO 27001 and WDS. Currently, there are relatively few CTS-certified repositories in the Nordic countries and the Baltics compared to Western Europe. Support and training for CoreTrustSeal self-assessments offered during the EOSC-Nordic project is expected to pump the number of certified repositories from ten to 15 or 16.

Although the certification alone does not preserve a single byte, it seems that support, networking, and awareness raising over the past couple of years in the EOSC-Nordic project have helped the players in their game to keep the data FAIR.

---

This blog entry is partially based on the final report of the work package. Deliverable D4.5 Report on completed FAIR data standard adoption and certifications of data repositories in the region is forthcoming.

Today is the World Digital Preservation Day. Follow what's happening around the world!

More information:
» World Digital Preservation Day
» World Digital Preservation Day Events Calendar
» EOSC-Nordic Knowledge Hub (Final report will be here when published)

Tuomas J. Alaterä
Senior Specialist (Web Services, Digital Preservation and Communications)
firstname.surname [at] tuni.fi

7. lokakuuta 2022

60-vuotias ICPSR palvelee myös suomalaisia

Yhdysvaltalainen data-arkistoinnin uranuurtaja Inter-university Consortium for Political and Social Research, lyhemmin ICPSR, viettää 60-vuotisjuhlavuottaan. Toimintansa alkumetreiltä lähtien Tietoarkisto on mahdollistanut suomalaisten pääsyn ICPSR:n aineistoihin. Siellä on runsaasti juuri amerikkalaista mutta myös kansainvälistä tutkimusaineistoa. Luettelossa on lähes 18 000 tutkimusta, sekä historiallista että viimeaikaista aineistoa.

Amerikkalaisen yhteiskunnan ja väestön tutkijalle ICPSR on ehdoton tiedonlähde. Jos olet kiinnostunut jostakin muusta Euroopan ulkopuolisesta maasta, on syytä tarkistaa, mitä ICPSR:n luettelossa on löydettävissä. Vaikkapa Kiinaa, Intiaa tai latinalaista Amerikkaa tutkivan kannattaa tutustua aineistoihin – vain joitakin esimerkkejä mainitakseni.

ICPSR:n suomalaisten asiakkaiden taustat ovat useimmiten taloustieteissä. Myös sosiaalitieteilijät, psykologit, humanistit ja historian tukijat ovat ladanneet dataa. Tarjolla on kuitenkin aineistoa huomattavasti laajemminkin eri aloille, kuten terveystieteen, kasvatustieteen tai politiikan tutkijalle.

ICPSR:n alla toimii myös joukko temaattisia data-arkistoja, kuten National Archive of Data on Arts and Culture, National Archive of Criminal Justice Data tai Resource Center for Minority Data.

Yksittäinen aineiston lataaja selviää maksuitta

Tietoarkiston maksamalla jäsenmaksulla kaikkien Suomen yliopistojen opiskelijat ja henkilökunta voivat käyttää ICPSR:n palveluja. Aineiston lataajien joukossa onkin sekä opiskelijoita että tutkijoita. Käyttöoikeuden tunnistamisessa hyödynnetään yliopistojen IP-osoitteita. Jos et onnistu kirjautumaan ohjeita noudattaen, ota yhteyttä Tietoarkistoon. Tarkempia ohjeita saat Tietoarkiston ICPSR-sivulta.

ICPSR järjestää myös kesäkouluja, verkkokoulutusta ja -tapahtumia. Osa tapahtumista on maksuttomia ja osa maksullisia, kuten kesäkoulut. Verkkosivuilla on runsaasti koulutusmateriaalia. Tarjolla on muun muassa ICPSR:n aineistoja hyödyntäviä oppaita ja harjoituksia opetustilanteisiin ja itseopiskeluun.

Viime kuussa ICPSR järjesti Data Fair -tapahtuman kokonaan verkossa. Maksuttoman tapahtuman esitykset on julkaistu ICPSR:n YouTube-kanavalla. Niiden kautta pääsee helposti tutustumaan ICPSR:n tarjontaan esimerkiksi, palveluihin, teema-arkistoihin tai datan kuratoinnin kehityskaareen.

Lisätietoa:

Helena Laaksonen
johtaja, ICPSR Official Representative
etunimi.sukunimi [at] tuni.fi

17. maaliskuuta 2022

Kaksi vuotta koronaa mullisti tietoarkistotyön

Maaliskuun 13. vuonna 2020 on varmasti perjantai, jonka tietoarkistolaiset muistavat pitkään. Se oli viimeinen päivä toimistolla ennen etätyöjaksoa. Tuolloin emme voineet tietää, että kotikonttoreilla oltaisiin lähes jatkuvasti seuraavat pari vuotta. "Palasimme" lähityöhön maaliskuun toisella viikolla, mutta korona on muuttanut työelämäämme pysyvästi, väitän.

Suuri osa tietoarkistolaisista haluaa työskennellä jatkossakin pääasiassa etänä. Jo puolet on tehnyt hybridisopimuksen, jossa etänä ollaan enintään 16 päivää kuukaudessa. Tietoarkiston tiloihin meitä houkuttelee kollegoiden kohtaaminen ja yhteinen ideointi. Joillekuille työpisteen ergonomia on suurin syy matkustaa Tietoarkistoon. Työnteon vanhakantainen paikkasidonnaisuus on historiaa digitalisoituneessa työympäristössä, ja se on hyvä asia.

Työn ja työyhteisön monipaikkaisuus vaatii totuttelemista. Johtajana pohdin sitä, miten ylläpitäisimme ja säilyttäisimme yhteishengen ja yhteisen tekemisen tavat, jotka olivat yksi Tietoarkiston vahvuus ennen poikkeustilaa. En koe, että henki olisi oleellisesti muuttunut, eikä viitteitä muutoksesta näy myöskään työhyvinvointia mittaavissa kyselyissä. Riski lienee olemassa. Etenkin työsuhteen alussa työyhteisöön sisään pääseminen vaatii kohtaamista ja esihenkilöiltä myös ihmisten erilaisuuden havaitsemista ja hyväksymistä.

Omassa ja monen muunkin tietoarkistolaisen työarjessa viimeiset kaksi vuotta on ollut hyvin intensiivistä etäyhteistyötä kansainvälisten kumppanien kanssa. Siitä valtaosa oli hoitunut virtuaalisesti jo ennen koronakautta, mutta yhtä lailla kansainvälisessä kanssakäymisessäkin tarvitaan tapaamisia, joissa kokousten kahvitauolla tai lounaalla keskustellaan vapaammin ja kysellään lisätietoja epävirallisemmin. Kohtaamisia ja yhteistä ideointia kaivataan siis tälläkin saralla.

Sama pätee kansalliseen yhteistyöhön ehkä vielä enemmän. Tuntuu että kotimaassa monet yhteistyösuunnitelmat ja tapahtumat ovat olleet tauolla, odottamassa sitä, että taas saa ja uskaltaa matkustaa ja kokoontua. Omaan kalenteriini näitä on nyt alkanut varovasti putkahdella. Aika näyttää, miten suurelta osin kotimaiset kokoukset ja tapahtumat jäävät virtuaaliseen moodiin. Vapaamuotoista tietojen ja näkemysten vaihtoa tarvitaan, eikä se aina etänä luonnistu.

Mikä se mullistus tietoarkistotyössä siis on? Perustyötä tehdään hyvin samoilla menetelmillä koronasta riippumatta. Mullistus on paikkasidonnaisuudesta luopuminen. Tämä vaatii erilaista suunnitelmallisuutta, kuin mihin on totuttu ennen koronaa ja koronan aikana. Sitä pitää opetella ja siitä pitää kouluttaa. Hybridistä tulee varmasti keskeinen toimistotyön kehittämiskohde, ellei se sitä jo olekin.

Kuva: Max Pixel (CC0)

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

2. maaliskuuta 2022

Tietoarkisto ja CESSDA ERIC tukevat ukrainalaista yhteistyökumppania ja ukrainalaisia

Data-arkistojen maailmassa tulee harvoin eteen tehtäviä, joissa on otettava kantaa maailmanpolitiikkaan. Nyt sekin päivä on valitettavasti nähty.

CESSDA ERICin yleiskokouksen puheenjohtajana olen tänään lähettänyt puheenjohtajiston ja johtajan viestin entiselle venäläiselle yhteistyökumppanille ja tuenilmauksen ukrainalaiselle kumppanille. CESSDAn verkkosivulla oleva organisaatiolista ja kartta on päivitetty. Venäjää ei siellä enää ole.

Yhteistyö Ukrainan ja Venäjän kanssa ei ole ollut mitenkään vireätä. Toisaalta kumppanuuden kautta voi päätyä tarkkailija- tai täysjäseneksi CESSDAan. Siinä mielessä kannanotossa kyse on muustakin kuin symbolisesta tuenilmauksesta tai Venäjän toimien vastustamisesta.

CESSDAn kannanotto on julkaistu myös sen verkkosivuilla ja somekanavissa. Palveluntuottajat jäsenmaissa jakavat sanomaamme. Samalla pohdimme, voimmeko mitenkään auttaa ukrainalaista kumppaniamme suoraan. Yleisempää tukea ukrainalaisille jokainen voi antaa henkilökohtaisesti avustusjärjestöjen kautta. Jos voimia ja mahdollisuuksia on, kannustan tarjoutumaan myös avuksi niille, jotka Ukrainasta Suomeen asti päätyvät.

Helena Laaksonen
johtaja, Tietoarkisto
Chair, General Assembly of CESSDA ERIC
etunimi.sukunimi [at] tuni.fi

18. helmikuuta 2022

Viittaa dataan - myös omaan dataasi!

Dataviittauksen tiekartan julkaisemisesta on kulunut jo muutama vuosi. Tavoitteena oli tehdä dataan viittaamisesta osa suomalaista julkaisukäytäntöä. Suosituksena oli ja on sekä ihmislukijalle että koneelle ymmärrettävien dataviittausten käyttäminen. Tutkimusaineistoihin viitataan kuitenkin edelleen hyvin vaihtelevasti ja usein ei ollenkaan.

Olen selaillut havaintoni todentamiseksi hyvin sattumanvaraisesti Tietoarkistolle keskeisten tieteenalojen lehtiä. En siis osaa sanoa, miten asia toteutuu jollakin muulla tieteenalalla enkä väitä, että kukaan ei koskaan viittaa. Joissakin tapauksissa tutkimusaineistoon viittaaminen on peräti esimerkillistä.

Tietoarkisto on jo pitkään ohjeistanut seikkaperäisesti, miten tutkimusaineistoon voi viitata tieteellisessä tekstissä. Malliviittaukset ovat olleet aina saatavilla aineiston kuvailutietojen osana. Vuosien saatossa olemme muuttaneet kielenkäyttöä asiakasystävälliseen suuntaan, ja viittausvaatimuksen rinnakkaisterminä on nykyisin käytössä malliviittaus. Käytettyyn aineistoon viittaaminen on silti yksi käyttöehto, johon asiakas sitoutuu ladatessaan aineiston. Malliviittaus on saatavilla aineiston lataussivulla ja tarkempaan viittausohjeeseen pääsee sen yhteyteen sijoitetusta linkistä.

Toinen havaintoni vaatisi enemmän selvittelyä, mutta mututuntumani on, että toisen tutkijan aineistoon viitataan (tavalla tai toisella) useimmiten. Sen sijaan omaan aineistoon viittaaminen ei ole yleinen käytäntö. Omaan dataan ei viitata välttämättä edes silloin, kun aineisto on jo Tietoarkistossa (tai jossain tallennuspalvelussa) ja viittaus olisi kohtuullisen helppo kopioida suoraan artikkelin lähteisiin. Tietoarkistoon tallennettuun aineistoon voi viitata myös silloin, kun sen arkistointiprosessi ei ole valmis. Toisin sanoen aineistolle voi saada pysyvän tunnisteen ja niin sanotun alustavan aineistonimen. Suunnitelmissamme on myös tekijöiden tutkijatunnisteiden (ORDIC) hyödyntäminen.

Tiivistetysti saat Tietoarkistosta seuraavat "viittauspalvelut":

14. helmikuuta 2022

Datarakkautta ilmassa ja tutkimusaineistojen jatkokäyttö huipussaan

Love Data -viikko1 on taas käsillä. Teemana tänään ystävänpäivänä alkavalla viikolla on ”data kuuluu kaikille!” (Data is for everyone). Meillä Tietoarkistossa huolehditaan tänne tallennetun tutkimusdatan saatavuudesta. Saatavuus-sana pitää sisällään sekä säilytyksen että datan löydettävyyden ja pääsyn siihen.

Kaikki aineisto ei ole kuitenkaan kokonaan kaikkien saatavilla. Käyttöehdot rajoittavat jatkokäyttäjien piiriä. Toisaalta Tietoarkiston julkaisemista aineistoista on avoimesti saatavilla niin paljon yksityiskohtaista kuvailutietoa, että ihan jokainen voi halutessaan saada hyvän käsityksen vaikkapa siitä, suhtautuvatko ihmiset epäilevästi kaikkiin uutisiin valeuutisten takia3. Asia selviää Kirkon tutkimuskeskuksen Suomalaisten henkinen kriisinkestävyys -aineiston muuttujakuvailusta, vaikka varsinaisen datan voi saada vain tutkimukseen, opetukseen tai opiskeluun.

Tietoarkiston aineistoluettelon noin 1700 aineistosta on vapaasti saatavilla 109 aineistoa. Nämä aineistot voi ladata rekisteröitymättä, ja niitä voi käyttää mihin tahansa haluamaansa lailliseen tarkoitukseen Creative Commons -lisenssillä . Lähde on silti mainittava ja merkittävä tehdyt muutokset. Aiemmin lataajilta pyydettiin tieto käyttötarkoituksesta ja sähköpostiosoite tilastointia varten. Creative Commons Nimeä 4.0 Kansainvälinen -lisenssiä3 aloimme käyttää vuoden 2020 joulukuussa.

Vapaasti käytettävien aineistojen määrä on alle kymmenesosa kaikista Tietoarkiston aineistoista, mutta niitä ladataan eniten. Kaksi kulunutta koronavuotta ovat olleet arkistoitujen aineistojen jatkokäytössä huiman kasvun aikaa. Vuoden 2021 kasvua vauhditti mainittu lisenssimuutos. Kyseisten aineistojen latausmäärä kasvoi yli tuhannella vuodessa. Aineistojen käyttötilastojen muutoksia on julkaistu Tietoarkiston tiedotteessa4. Kulunut tammikuu 2022 on jälleen kaikkien aikojen vilkkain tammikuu ainakin aineistojen latausten perusteella.

Vaikka data kuuluu kaikille ja suuret aineistojen latausmäärät ilahduttavat, Tietoarkisto on ensisijaisesti tutkimuksen tuki-infrastruktuuri. Aineistot ovat niin avoimia kuin ne voivat olla, ja rajoituksille on perusteet. Meidän on tavoiteltava paitsi suuria käyttäjämääriä, myös huolehdittava aineiston soveltuvuudesta tutkimustarkoituksiin. Tavoitteet eivät aina kohtaa, mutta datan sisältämä tieto kuuluu kaikille, olipa pääsy siihen avointa tai ei.

Iloista Love Data -viikkoa! Lataa dataa Ailasta!

Lisätietoa:

1 Join us for Love Data Week 2022! “Data is for everyone” starts February 14.
2 Kirkon tutkimuskeskus: Suomalaisten henkinen kriisinkestävyys II 2020 [sähköinen tietoaineisto]. Versio 1.0 (2021-09-14). Yhteiskuntatieteellinen tietoarkisto [jakaja]. http://urn.fi/urn:nbn:fi:fsd:T-FSD3509. Muuttuja [q3_3].
3 Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)
4 Aineistojen käyttö kasvoi huimasti myös toisena koronavuonna: latausten kärjessä avoimesti lisensoidut datat

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi