5. marraskuuta 2020

Tutkimusdata on pysyvän tunnisteensa ansainnut

Tänään on maailmanlaajuinen digitaalisen pitkäaikaissäilyttämisen päivä. Miksi siis kirjoittaa pysyvistä tunnisteista, PIDeistä? Siksi, että tunnisteen merkitys on keskeinen laadukkaan pitkäaikaissäilytyspalvelun toteuttamisessa. Kuten tutkimusjulkaisu, myös tutkimusdata on laajasti hyödyllinen vain, jos se on löydettävissä ja kuvailtu riittävän yksityiskohtaisesti. Pysyvä tunniste onkin oleellinen osa pyrkimystä löydettävämpään, saavutettavampaan, yhteentoimivampaan ja uudelleenkäytettävämpään – siis FAIRimpaan – dataan. Se edistää myös avointa tiedettä ja tutkimusta.

Jos tutkimus olisi aina ollut digitaalista, PID (Persistent Identifier) olisi varmasti jo tutkimusdatan normaali kumppani, samoin kuin julkaisuille jo pitkään annetut kirjastoluokitukset ja teoksen identifioiva merkkijono. Tunnisteen avulla digitaalinen aineistopaketti on yksiselitteisesti identifioitavissa ja viitattavissa. Pääsääntöisesti oletamme, että data on saatavissa "verkosta". Vielä toistaiseksi datan löytäminen tai tiettyyn dataan viittaaminen vaatii usein nojautumista muuttuviin URL-osoitteisiin tai viittaamista hakutuloksiin tietokannasta.

PID on avain. Se tunnistaa ja avaa laatikon, josta löytyy itse datan ohella sen kuvaus, ja kenties joukko versioita tai tietoja siitä, mitä versiota tai mitä osaa datasta on hyödynnetty. PID yksistään ei tietysti takaa kaikkea tätä. Mutta PIDillä on omistaja, jolla on velvollisuus taata tunnisteen toimivuus, ainutkertaisuus ja pysyvyys - ja siten datan löydettävyys. Siksi pysyvää tunnistetta ei tulisi koskaan saada aineistolle, jonka metatiedosta, saatavuudesta tai säilyttämisestä ei ole huolehdittu.

PID on käypää valuuttaa. Sillä on käyttöarvo ja tunnisteiden hallinta pitää arvoa yllä. Ylläpitäjä, korkeakoulu, kirjasto tai data-arkisto, vastaa siitä, että tunniste resolvoituu oikeaan lähteeseen. Pitkäaikaissäilytyksen kannalta tämä tarkoittaa, että tiedetään, mikä versio ja millä tunnisteella, on milloinkin säilytetty.

PID lisää luotettavuutta. Kaikki pysyvät tunnistejärjestelmät vaativat, että tunnisteita hallinnoidaan aina siitä alkaen, kun tunniste annetaan. Vaikka aineisto myöhemmin syystä tai toisesta hävitettäisiin tai sen saatavuutta rajoitettaisiin, PID johtaa kyselijän edelleen aineiston perustietoihin. Näin pitkä sitoutuminen aineiston ja sen tietojen ylläpitoon ei voi jäädä tutkijan vastuulle, vaan taustalla tulee olla jokin luetettava taho – esimerkiksi data-arkisto. PIDin tulee lisätä luottamusta siihen, että aineisto on luotettavasti säilytetty ja sen saatavuudesta on huolehdittu. PID kertoo, että datastasi välitetään.

PID parantaa yhteentoimivuutta. Nykypäivänä tiedon on liikuttava tietojärjestelmästä toiseen. Kun pysyvä tunniste on dokumentoitu kuvailevaan metadataan koneluettavassa muodossa, haravoituu se erilaisiin yhteysluetteloihin tai julkaisuarkistoihin osana dataviittausta. Siten PID edistää meriitin syntymistä datan tuottajille. Yhtä lailla tutkimusorganisaatiot, julkaisijat tai julkaisutiedon kerääjät voivat hyödyntää tunnistetta dataan kohdistuvien viittausten kokoamiseen. Rahoittajille tunniste tarjoaa mahdollisuuden esimerkiksi automatisoida rahoittamiensa tutkimustuotosten seuraamista.

PIDit Tietoarkistossa

Tietoarkisto antaa kullekin arkistoitavalle datalle pysyvän tunnisteen. Me käytämme URN-tunnisteita. Olemme valinneet käytännöksi, että tunniste muodostetaan aineistolle annettavan aineistonumeron perustalle, joten ihminenkin näkee, mihin aineistoon tunniste viittaa. Tämä helpottaa tunnisteen käsittelyä ja ymmärtämistä esim. tutkimusjulkaisussa, mutta on silti täysin koneluettava. Kukin aineisto saa pysyvän tunnisteensa jo siinä vaiheessa, kun sen arkistointi aloitetaan. Siten viitteen keräämäänsä (tai käyttämäänsä) aineistoon voi liittää julkaisuun jo etukäteen. Aluksi tunniste johtaa tietoon siitä, että kyseinen aineisto on arkistointiprosessissa. Myöhemmin, kun arkistointi on valmistunut ja aineisto on saatavissa, sama viite tulee ohjaamaan dataan tai sen versiohistoriaan.
PID - tunnista, mitä avaat!

Lisätietoa:

» PID linkkinä resolvoituu aineistokuvaukseen Ailassa: urn:nbn:fi:fsd:T-FSD3424
» Näin Tietoarkisto palvelee arkistoinnissa
» World Digital Preservation Day

Tuomas J. Alaterä
IT-palveluasiantuntija
etunimi.sukunimi [at] tuni.fi

27. lokakuuta 2020

Puoli vuotta poikkeusoloja - tietoarkistolaisten kokemuksia etätyöstä

Tietoarkistossa siirryttiin monien muiden organisaatioiden tapaan täysimittaiseen etätyöskentelyyn maaliskuun puolivälissä. Tietoarkiston johtaja Helena Laaksosen keväisessä blogikirjoituksessa puitiin koronavirusepidemian vaikutuksia Tietoarkiston toimintaan ja aineistonhallintaan. Organisaation näkökulmasta arki on sujunut hyvin etänäkin, mutta millaista koronan aikainen etätyöskentely on ollut yksittäisten tietoarkistolaisten mielestä?

Keräsimme tähän blogikirjoitukseen muutamien tietoarkistolaisten kokemuksia etätyöskentelystä puolen vuoden jälkeen. Vastauksissa korostuu sujuva työskentely mutta toisaalta yhteisten kahvihetkien kaipuu. Tietoarkistolaiset jakoivat myös hyväksi kokemiaan vinkkejä muille etätyötä tekeville.

Katri Aarnio, hallintoasiainsihteeri

Millaisia vaikutuksia koronalla on ollut omaan työskentelyysi?

Työtehtävät ovat sujuneet yllättävän hyvin, mutta yhteydenpito työkavereihin hoitunut vain etänä, kun ei enää tavata kasvokkain. Yhteisten kahvi- ja lounastaukojen sekä 'käytäväkeskustelujen' tietoa ei enää saa, mikä on suuri puute. Kaikki pienetkin asiat täytyy selvittää joko kirjoittamalla tai soittamalla.

Onko yllättänyt, miten hyvin jokin asia on onnistuttu hoitamaan etänä?

Yllättävän hyvin työtehtävät kuitenkin hoituvat, myös etäkokoukset.

Miten usein olet käynyt toimistolla?

Korona-aikana kävin kerran elokuussa, kun Helenan kanssa kävin läpi tehtäväkuvaustani. Tämänkin toki olisi voinut hoitaa etänä, mutta päätettiin pitää palaveri kasvokkain, kun se oli kuitenkin mahdollista.

Mitä kaipaat eniten toimistolla työskentelyssä?

Työkavereita, yhdessä tekemistä, yhdessäoloa sekä yhteisiä kahvi- ja lounastaukoja! Ja parempaa työergonomiaa!

Haluatko jakaa vinkkejä etätöissä työhyvinvoinnin ylläpitoon, ergonomiaan tai työskentelyyn yleisesti?

Liukuvaa työaikaa kannattaa hyödyntää ja pitää mahdollisimman paljon taukoja. Itse yritän pitää kiinni siitä, että joka päivä puolenpäivän aikaan kirjaudun ulos ja käyn kävelylenkillä. Työn lomassa pidän myös lyhyitä jumppataukoja.
Kuva työpöydästäni, joka sijaitsee piharakennuksessa, saunatuvassa. Minun työmatkani on nykyään parikymmentä metriä kotitalosta pihan poikki saunatupaan.

Katja Moilanen, tietoarkkitehti

Millaisia vaikutuksia koronalla on ollut omaan työskentelyysi?

Korona ei ole juurikaan vaikuttanut työskentelyyni. Kokoukset ovat onnistuneet hyvin etänäkin. Itse asiassa kokousajat ovat pysyneet jopa paremmin kurissa etäillessä. Ainoa, mikä ei toimi, on spontaani keskustelu ja ideointi, sillä siihen tarvitaan epämuodollisia kohtaamisia. Etänä on käytännössä aina pakko sopia keskusteluaika etukäteen. Etätyö myös helpottaa työn ja perhe-elämän yhteensovittamista.
Ergonomia on kotioloissa vähän ongelmallista. Tämän vuoksi minulla on kroonisesti jumissa olevat vatsalihakset sekä ongelmia käsien verenkierrossa. Nämä seikat eivät vielä ole vaikuttaneet työkykyyn, sillä näiden ongelmien seuraukset näkyvät vasta vuosien päästä.

Onko yllättänyt, miten hyvin jokin asia on onnistuttu hoitamaan etänä?

Työskentely on kokonaisuudessaan onnistunut etänä hyvin, mutta en ole tästä asiasta mitenkään yllättynyt.

Miten usein olet käynyt toimistolla?

Olen käynyt toimistolla vain muutaman kerran pikaisesti hakemassa tarvitsemiani tavaroita kuten muistiinpanoja sekä pakkaamassa tavarani kasaan ja siirtämässä ne toiseen työhuoneeseen, sillä työhuoneeni vaihtui korona-aikana. Pisin aika toimistolla oli kehitys- ja vaatikeskustelun vuoksi noin 2 tuntia.

Mitä kaipaat eniten toimistolla työskentelyssä?

En kaipaa seiniä, kaipaan kohtaamisia. Kaipaan taukotilan iloista puheensorinaa ja hersyvää naurua. Kaipaan spontaaneja keskusteluja käytävillä. Kaipaan työkavereiden hymyileviä kasvoja.

Haluatko jakaa vinkkejä etätöissä työhyvinvoinnin ylläpitoon, ergonomiaan tai työskentelyyn yleisesti?

Minun kohdallani on toiminut hyvin perusrutiinit. Herään aamulla suurin piirtein samoihin aikoihin kuin lähityössä, hoidan aamutoimet ja sitten "kävelen töihin" eli käyn ulkona kävelylenkillä. Tämän jälkeen kasaan työpisteeni makuuhuoneeseen, pieneen ahtaaseen kulmaan. Sitten olenkin valmis aloittamaan päivän työt. Työpäivän aikana Break Pro -ohjelma muistuttelee säännöllisesti nousemaan ylös. Tosin työnurkkaukseni on niin pieni, etten pysty tekemään kovinkaan monia jumppaohjelmia työpisteelläni. Kuitenkin Break Pro -ohjelman käynnistyminen havahduttaa nousemaan ylös istumasta. Olen merkinnyt kalenteriini lounasajat, joita pyrin noudattamaan. Välillä kokoukset sattuvat peruslounasajalle, jolloin varaan lounasajan toiseen kohtaan. Iltapäivällä pidän pienen välipalatauon, jotta vireystila pysyy hyvänä.
Työpäivän päätyttyä puran työpisteeni makuuhuoneen nurkasta. Tavoitteeni on kävellä työpäivän jälkeen myös "pois töistä", mutta usein täytyy kuitenkin ryhtyä tekemään perheelle ruokaa ja kävely siirtyy iltaan. Koska työpisteeni ei ole koko ajan käytettävissä, niin työnteko pysyy hyvin kurissa. Työpisteen kasaaminen vie noin 10 minuuttia, joten viikonloppuisin ja iltaisin ei ole niin suurta houkutusta "ihan vain nopeasti" tehdä jotain työasiaa. Ergonomiavinkkejä minulla ei ole. Työpisteeni ei ole järin ergonominen ja se aiheuttaa välillä vaivaa.
Työpisteeni koostuu itse tekemästäni yöpöydästä ja mummolasta peritystä ikivanhasta ja kuluneesta pöydästä sekä tuolista. Johtohässäkkä sijaitsee sängyn päällä, eikä se näy tässä kuvassa. Työpiste on vaatekaapin ja sängyn välissä ja itse istun makuuhuoneen oven edessä.

Oskari Niskanen, sovelluskehittäjä

Olet tullut Tietoarkistoon töihin etätyösuosituksen aikana. Miltä työhön perehtyminen etänä on tuntunut?

Työhön perehtyminen etänä tuntui luontevalta ja melko helpolta, sillä sain kattavan perehdyttämisen eikä työtehtävissäni käytetyt teknologiat olleet täysin tuntemattomia minulle. Pystyin matalalla kynnyksellä kysymään apua työkavereiltani, joten ongelmatilanteet ratkesivat nopeasti.

Millaisia vaikutuksia koronalla on ollut omaan työskentelyysi?

Koronalla ei ole ollut juurikaan muita vaikutuksia kuin se, että joudun/pääsen tekemään työt kotoa käsin. Tietysti voisin tehdä töitä välillä myös toimistolla, mutta lähityön sosiaalinen aspekti olisi silti melko vaisu turvavälien ja rajatun henkilöstömäärän vuoksi.

Onko yllättänyt, miten hyvin jokin asia on onnistuttu hoitamaan etänä?

Ei varsinaisesti ole yllättänyt, sillä minulla oli jo tiedossa, että sovelluskehittäjänä etätyö sujuisi varmasti melko luontevasti.

Miten usein olet käynyt toimistolla?

Noin neljä tai viisi kertaa.

Mitä kaipaat eniten toimistolla työskentelyssä?

En ehtinyt työskennellä toimistolla ollenkaan, joten on vaikea sanoa mitä kaipaan. Aiemman työkokemuksen perusteella sanoisin, että kaipaan sosiaalista kanssakäymistä työkavereiden kanssa.

Haluatko jakaa vinkkejä etätöissä työhyvinvoinnin ylläpitoon, ergonomiaan tai työskentelyyn yleisesti?

Kannattaa pitää kiinni välipalatauoista ja tauoista ylipäätään, koska kotona ollessa ne voivat unohtua helposti.

Enna Raerinne, sovelluskehittäjä

Millaisia vaikutuksia koronalla on ollut omaan työskentelyysi?

Suurin vaikutus on ollut etätöihin siirtyminen, jota en ollut ennen koronaa tehnyt. Ihan alku meni totutellessa, mutta nykyään sujuu hyvin, joten ajattelin että jos jossain vaiheessa päästään kunnolla takaisin toimistolle niin tekisin mieluusti silloinkin joitain etätyöpäiviä.

Onko yllättänyt, miten hyvin jokin asia on onnistuttu hoitamaan etänä?

Kokoukset ovat mielestäni onnistuneet hyvin. Esimerkiksi Tietoarkiston sisäisen Tiipii-tietokannan uuden version käyttöliittymäsuunnitelmien läpikäynti aineistopalvelun edustajien kanssa onnistui etänä paremmin kuin odotin. Myös tarpeellinen viestintä on onnistunut hyvin sähköpostin ja Teamsin välityksellä. Olen myös yllättynyt, kuinka hyvin olen pystynyt tekemään töitä pelkällä läppärin näytöllä. Kun on pienempi näyttö niin sen yli näkee kivasti ikkunasta ulos.

Miten usein olet käynyt toimistolla?

Vain kerran hakemassa tavaroita.

Mitä kaipaat eniten toimistolla työskentelyssä?

Sitä että työt eivät olisi kotona ja tulisi vaihtelua päivään, kun tulee oltua muualla kuin kotona.

Haluatko jakaa vinkkejä etätöissä työhyvinvoinnin ylläpitoon, ergonomiaan tai työskentelyyn yleisesti?

Kannattaa ottaa käyttöön jokin taukoliikuntaohjelma, niin muistaa vähän liikkua työpäivän aikana.

Annika Valaranta, tietopalveluasiantuntija

Millaisia vaikutuksia koronalla on ollut omaan työskentelyysi?

Kuten muutkin tietoarkistolaiset, olen siirtynyt toimistolta kotiin. Enää ei tarvitse istua bussissa puolta tuntia suuntaansa, eikä myöskään aamulla tarvitse pukea asiallisia vaatteita päälle. Työnteko on sinänsä pysynyt suhteellisen samana, koska töitä tehdään 98 % tietokoneella. Kotityöskentely vaikuttaa tietenkin siihen, miten ottaa työkavereihin yhteyttä: nyt ei voi vain hilpaista toisen työpisteelle jotain kysymään. Harmillista on se, että niitä ei näe enää kahvitauolla tai toimiston käytävillä, joiden kanssa ei ole niin paljon tekemisissä.

Onko yllättänyt, miten hyvin jokin asia on onnistuttu hoitamaan etänä?

On se kyllä hienoa, että kaikki on saatu toimimaan etänäkin! En nyt yksittäistä asiaa saa mieleeni!

Miten usein olet käynyt toimistolla?

Kesäkuussa kävin perehdyttämässä uusia työntekijöitä toimistolla, joten silloin tuli oltua enemmänkin töissä. Samalla tuli myös hyvin liikuntaa, koska bussiin en uskaltanut ja pyöräilin 16km päivässä! Pakon edessä kunnon kohottaminenkin on näköjään mahdollista! Kesälomien jälkeen olen käynyt toimistolla noin viikon tai kahden välein, se on tehnyt mielelle hyvää. Nyt tosin, kun säädettiin maskipakko, käynnit taitavat entistään harveta.

Mitä kaipaat eniten toimistolla työskentelyssä?

Spontaania työkavereiden kanssa rupattelua ja muitakin ihmisten satunnaisia kohtaamisia. Yhteydenottaminen toisiin tuntuu helpommalta kasvotusten kuin soittamalla.

Haluatko jakaa vinkkejä etätöissä työhyvinvoinnin ylläpitoon, ergonomiaan tai työskentelyyn yleisesti?

Break Pro -sovellus on saanut liikkumaan työpäivisin. Olen myös pitänyt 10 minuutin rentoutumisia tai meditaatioita välillä. Viihtyisyyttä voisi lisätä myös tekemällä työpisteestä nätin. Hesarissa oli myös lohdullinen artikkeli pari viikkoa sitten: huonoryhtisyydellä ei ole yhteyttä selkäkipuihin, eli se hieman lohduttaa tässä.
Kuvassa olevat kukat ja konvehdit eivät valitettavasti ole jokapäiväisiä rekvisiittoja työpisteelläni, nyt vain sattui merkkipäivä.
Lisätietoa:

» Blogiteksti: Tietoarkisto ja aineistonhallinta koronakriisin aikaan
» Koronavirus ja Tietoarkiston palvelut

Niko Koski
tietoasiantuntija
etunimi.sukunimi [at] tuni.fi

21. syyskuuta 2020

ISSP 20 vuotta Suomessa - kurkistus aineistonkeruun toteutukseen

Annika Valaranta
International Social Survey Programme eli ISSP-aineistosarjaa on kerätty Suomessa jo vuodesta 2000 lähtien. Nyt syksyllä kerättävän aineiston teema on ympäristö - sama, jolla 20 vuotta sitten aloitimme. Tämän kunniaksi valotamme hieman, mitä kansainvälisen aineiston keruuprosessi vaatii, jotta kerättävä data on harmonisoitavissa eli yhdistettävissä ja ymmärrettävissä muissa maissa kerättävän datan kanssa.

Tietoarkiston kokenut ISSP-aineistojen käsittelijä Seppo Antikainen jäi eläkkeelle keväällä ja tällä kirjoituksella haluamme myös antaa tunnustusta ja kiittää häntä sarjan eteen tehdystä työstä. Kiitos Seppo!

ISSP-aineiston keruu Suomessa

ISSP:n logo
ISSP-konsortio kerää maailmanlaajuisesti yhteiskuntatieteellistä dataa. Suomessa ISSP-työryhmässä ovat vastaavat tutkijat Harri Melin ja Sami Borg sekä Tietoarkiston ja Tilastokeskuksen kääntämisen, aineistonkäsittelyn ja -keruun asiantuntijat. Tietoarkisto luovuttaa Tilastokeskuksen keräämän ISSP-datan harmonisoinnista vastaavalle Saksan Gesis-arkistolle.

ISSP:ssä tutkittavat aiheet vaihtuvat vuosittain, mutta sama teema toistuu keruissa säännöllisesti, mikä mahdollistaa pitkittäisvertailun. Aiheina ovat olleet muun muassa sosiaaliset verkostot, eriarvoisuus, perhe- ja sukupuoliroolit, työ, uskonto, vapaa-aika ja urheilu sekä ympäristö. Kansainvälinen harmonisoitu data on saatavilla Gesisistä, mutta Suomen kyselyt myös Tietoarkistosta.

ISSP-prosessi alkaa uuden lomakkeen kääntämisellä

Keruuprosessi alkaa joka vuosi vuoden vaihteessa, jolloin Saksasta ISSP-tiimi lähettää osallistuville maille kyselylomakkeen kommentoitavaksi. Sen perusteella muotoutuu lopullinen kyselylomake. Kyselyn kysymykset ovat jaettavissa kolmeen ryhmään: taustamuuttujiin, vanhoihin sisältökysymyksiin ja uusiin kysymyksiin. Kun lopullinen englanninkielinen lomake on valmis, Tietoarkisto kääntää uudet kysymykset ja tarkistaa, pitääkö vanhoja kysymyksiä päivittää ja onko taustamuuttujiin tullut muutoksia. Vahva pääsääntö on, ettei jo aiemmin kysyttyjä kysymyksiä muuteta, sillä uusi kysymyksenasettelu voi estää aiheen pitkittäistarkastelun kokonaan. Kuitenkin pieniä viilauksia on tehty: esimerkiksi ennen käytetty teitittely on muutettu nykyään sinutteluksi.

Kuvituskuva: Karttapallo
Uusien kysymysten kääntäminen suomeksi englanninkielisestä pohjalomakkeesta on tarkkaa työtä, sillä kysymysten tulee olla ymmärrettävissä suomalaisessa kontekstissa. Kun lopulta kansainvälinen data yhdistetään Gesisissä, tulee kysymysten mitata samaa asiaa. Esimerkiksi vuoden 2020 kyselyssä kääntäjät kokivat hankalaksi kääntää lauseen: How willing would you be to accept a reduction in the size of [country's] protected nature areas, in order to open them up for economic development? Suomen kielessä ei ole suoraa vastinetta termille "economic development", joka viittaa monenlaiseen eri taloudelliseen kehitykseen (esim. louhinta, kaavoitus, hakkuut). Lopullisen voiton käännöksessä vei kuitenkin yksinkertainen versio "taloudellinen hyödyntäminen" sujuvan luettavuuden vuoksi. Lopullinen kysymys on Kuinka halukas olisit supistamaan Suomen luonnonsuojelualueiden kokoa, jotta niitä voitaisiin ryhtyä hyödyntämään taloudellisesti?

Datojen kanssa pilkunviilaus on sallittua

Kun Tietoarkisto on keväällä saanut kyseisen vuoden kyselyn käännettyä suomeksi, se lähetetään Tilastokeskukseen, joka tekee lopulliset lomakkeet. ISSP-kyselyyn voi vastata niin verkossa kuin paperisella lomakkeella. Tämä tarkoittaa useaa tarkistusta ennen lopullista Tilastokeskuksen syksyllä tekemää keruuta. Ensin tarkistetaan Tilastokeskuksen suomenkielinen ja käännetty ruotsinkielinen lomake. Sitten tarkistetaan molempien kielten internetkyselyt, joiden pitää vastata täysin paperilomakkeita. Myös tutkittavien informoinnit tulee kääntää ja tarkistaa.

Datojen parissa työskentelyssä tarkkuutta ja tarkistamista ei voi ylikorostaa. Tarkistamisessa kiinnitetään huomiota siihen, että lomakkeissa kysytään kaikki pakolliset kysymykset, kysymysten vastausvaihtoehdot ovat samat ja että niiden määrä vastaa alkuperäistä englanninkielistä kyselylomaketta.

Datan valmistuminen jatkokäyttöön

Tilastokeskus lähettää keruun valmistuttua datan Tietoarkistoon prosessoitavaksi aineistoportaali Ailaa varten. Suomenkielinen data on saatavissa Ailasta usein jo maaliskuussa, siis noin puolen vuoden kuluttua keruusta. Tuore kysely pääsee heti tutkijoiden ja opiskelijoiden tarkasteluun.

Lisäksi Tietoarkisto käsittelee datasta kansainvälisen version lähetettäväksi Gesisille. Käsittely varmistaa aineiston yhdistettävyyden muiden maiden datojen kanssa. Yksityiskohtaiset ohjeet käsittelyyn, kuten miten muuttujat ja selitteet nimetään, tulevat Gesisiltä. Kansainvälinen data eroaa Ailasta ladattavasta aineistosta esimerkiksi muuttujien numeroinnissa. Lisäksi datassa ei saa olla yhtään puuttuvaa tietoa, jolla ei ole selitettä. Luovutettavaan dataan lisätään myös useita uusia muuttujia, kuten muiden maiden vastauksien kanssa yhteensopiva uskontokuntamuuttuja.

Gesisille tulee lähettää myös tarkat tiedot aineistonkeruusta ja siitä, miten muuttujat on koodattu. Pienimmätkin muutokset, kuten yksittäisen sanan yksikkömuotojen muutos monikkoon, kirjataan ylös. Tällä kaikella työllä halutaan varmistaa laadukas kansainvälinen aineistosarja, joka kestää tarkastelua vielä vuosikymmenien ja vuosisatojen päästä.

Tyylitelty maailmankartta jossa on pistein merkitty, mitä maat ovat mukana ISSP-tutkimuksessa.

ISSP:n jäseninä on tällä hetkellä 42 maata, joista 25 on Euroopasta. Mukana ovat maailmanpoliittisesti merkittävät suuret valtiot kuten Yhdysvallat, Venäjä, Kiina ja Intia.

Lisätietoa:

» Tietoarkiston ISSP-sivut
» International Social Survey Programme -tutkimusohjelma
» Gesisin ISSP-sivut
» ISSP-aineistot Ailassa

Annika Valaranta
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

15. kesäkuuta 2020

Tietoarkisto mahdollistamassa kansainvälistä vertailevaa tutkimusta

Suuri osa Tietoarkiston tekemästä työstä on kansainvälistä yhteistyötä, johon kuuluu myös kaksi merkittävää kansainvälistä aineistonkeruuohjelmaa: International Social Survey Programme (ISSP) ja European Values Survey (EVS). Tietoarkisto on mukana näiden kansainvälisten aineistojen keruun rahoittamisessa, suunnittelussa, käännöstyössä sekä suomalaisen datan käsittelyssä kansainvälisen aineiston vaatimusten mukaiseksi. Tietoarkisto myös arkistoi Suomen maakohtaisen aineiston ISSP:n, EVS:n ja World Values Surveyn (WVS) keruista. Saksalainen sisararkistomme GESIS arkistoi aineistosarjojen kansainväliset aineistot.

Kansainvälinen vertailudata suosittua

Kansainväliset vertailuaineistot kuten ISSP ja EVS kuuluvat Tietoarkiston suosituimpiin aineistoihin, ja palveluportaali Ailassa on tiedot lukuisista julkaisuista, joissa aineistoja käytetään. Aiemmin Ailaan on kuitenkin kerätty julkaisutiedot vain kotimaiseen dataan pohjautuvista julkaisuista. Tänä kesänä käymme läpi kansainvälisiä yhdistelmäaineistoja hyödyntäviä julkaisuja, joissa myös Suomen aineistoa on analysoitu, ja lisäämme niiden tietoja Ailan aineistokuvailuihin.

Monissa maissa ylikansalliset vertailututkimusaineistot ovat muodostuneet tärkeäksi ja suosituksi tutkimusresurssiksi. Vertailuaineistojen ja datan globaalin löydettävyyden kasvava tarve näkyy myös esimerkiksi Euroopan yhteisiä avoimen tieteen pilvipalveluita kehittävässä EOSC-hankkeessa.

Suomi esillä kansainvälisessä tutkimuksessa

Vertailututkimusaineistojen kerääminen on kuitenkin työlästä, sillä yhteensovittamisessa pitää ottaa huomioon eri maiden ja kulttuurien erilaiset käytännöt ja kielet. Yhteistyössä suomalaisten yhteiskuntatieteilijöiden ja tutkimusorganisaatioiden kanssa Tietoarkisto on mahdollistanut viimeisen liki kahdenkymmenen vuoden ajan sen, että Suomi on mukana laajoissa ja tunnetuissa kansainvälisissä aineistosarjoissa.

Laajoihin vertailuaineistojen keruihin osallistuminen mahdollistaa sen, että kotimaiset ilmiöt asettuvat oikeisiin suhteisiinsa ja suomalainen yhteiskunta ja kulttuuri paikalleen muiden joukkoon. Maailmanlaajuisesti tunnettuja tutkimusohjelmia kuten ISSP:tä ja EVS:ää pidetään myös luotettavina sekä hyvin dokumentoituina ja suunniteltuina. Kymmeniätuhansia havaintoyksiköitä sisältäviä kansainvälisiä aineistoja käytetäänkin ahkerasti, sillä ne tarjoavat loputtoman määrän tutkimusasetelmia ja tilastollisia lähestymistapoja.

ISSP- ja WVS/EVS-aineistot ovat tärkeitä myös kotimaisessa yhteiskuntatieteellisessä tutkimuksessa, mutta Suomen datan merkitystä kansainvälisessä kontekstissa ei saa unohtaa. Tietoarkisto seuraa esimerkiksi ISSP:n osalta suomalaisten aineistojen latausten määriä Ailasta, mutta nämä määrät ovat pieniä verrattuna siihen, kuinka paljon saksalaisesta GESISistä ladataan kansainvälisiä yhdistelmäaineistoja. GESISiltä saatujen tilastojen mukaan Suomen datan sisältäviä ISSP-yhdistelmäaineistoja on ladattu vuosina 2016-2019 lähes 30 000 kertaa.

Urakkaa riittää

Kansainvälisten vertailuaineistojen avulla tehdään tutkimusta siis huimia määriä, ja kaikkia Suomen dataa hyödyntäviä julkaisuja ei todennäköisesti koskaan ehditä kirjaamaan Ailaan: pelkästään ISSP:n julkaisuluettelo sisältää yli 9 000 julkaisua, joista suuressa osassa Suomen aineistoja on mukana mutta suuressa osassa ei. Julkaisutietojen kerääminen on työlästä, sillä toistaiseksi niiden koneelliseen haravointiin ei ole olemassa välineitä; kirjattavien julkaisujen selvittäminen vaatii monissa tapauksissa siis julkaisun manuaalista läpikäyntiä.

Tähän mennessä olemme keränneet runsaat kaksisataa viitetietoa Suomen aineistoja hyödyntävistä kansainvälisistä julkaisuista, kuten tutkimusartikkeleista ja monografioista. Työ on siis alkutekijöissään, mutta jo tässä vaiheessa on selvää, että Suomi on näkyvästi vertailevan yhteiskuntatutkimuksen maailmankartalla.

Lisätietoa:

» ISSP:n esittely Tietoarkiston sivuilla
» EVS:n/WVS:n esittely Tietoarkiston sivuilla
» International Social Survey Programme -tutkimusohjelman julkaisuluettelo
» European Values Survey -tutkimusohjelman julkaisuluettelo
» GESIS - Leibniz-Institut für Sozialwissenschaften
» Ailan julkaisuhaku

Niko Koski
tietoasiantuntija
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD Enabling Cross-National Comparative Research.

FSD Enabling Cross-National Comparative Research

A lot of the work done at FSD is related to our international collaboration, which also includes two significant international survey programmes: International Social Survey Programme (ISSP) and European Values Survey (EVS). FSD is involved in the planning and funding of data collection as well as questionnaire translation and processing the data in line with the international requirements. FSD also archives the Finnish data from ISSP, EVS and World Values Survey (WVS). Our German colleagues at GESIS archive the complete international datasets from these programmes.

Comparative data growing in popularity

At FSD, international comparative datasets like ISSP and EVS are among Aila Data Service's most frequently downloaded, and information on several publications utilising data from these programmes are available on Aila. Until now, however, we have only collected information about publications based on the Finnish data, leaving out comparative research done on the complete datasets. This summer, we will go through international publications that have used the international datasets from GESIS with Finnish data included and add their information on Aila Data Service.

In many countries, cross-national comparative research data have become a significant resource for academic research. The growing need for globally discoverable comparative data is also one of the driving factors behind the European Open Science Cloud (EOSC) initiative which aims to build common European open science services.

Finland represented in international research

However, collecting comparative international data is rather labour-intensive. Harmonising data collection instruments and processing the data require consideration of the different practices and languages of different countries and cultures. For two decades, FSD has enabled Finnish participation in broad, well-known international survey programmes in collaboration with Finnish social scientists and research organisations.

Involvement in extensive comparative surveys facilitates researching Finnish society and culture in relation to other countries, enabling the measurement of domestic social phenomena to those abroad. Globally known survey programmes like ISSP and EVS are considered trustworthy, thoroughly documented and well planned. The international datasets covering tens of thousands of individual observations are popular, because they offer a limitless number of research designs and statistical approaches.

Thus, the impact of Finnish data reaches far beyond Finnish borders, although the Finnish ISSP and EVS/WVS datasets are also important in domestic social science research. FSD monitors the number of downloads of ISSP, EVS and WVS data from Aila, but these numbers are small compared to the number of downloads of the complete international datasets from GESIS. For example, the complete ISSP datasets with Finnish data included were downloaded approximately 30,000 times in 2016-2019, according to statistics received from GESIS.

Much work to be done

All in all, monumental amounts of research is done using international comparative datasets, and we will most likely never be able to identify all international publications using Finnish ISSP/EVS/WVS data: for instance, ISSP's official list of publications includes more than 9,000 publications, of which a large part utilise Finnish data but a large part also do not. Charting which publications use Finnish data is an arduous task: publication information currently cannot be machine-harvested, and each publication has to be inspected manually.

Thus far we have collected information on approximately 200 publications such as research articles or monographs that utilise Finnish ISSP, EVS or WVS data. In other words, the work is only beginning. Needless to say, however, that Finland's visibility is remarkable on the world map of comparative social science.

Further information:

» International Social Survey Programme publications
» European Values Survey publications
» ISSP datasets on Aila Data Service
» GESIS - Leibniz-Institut für Sozialwissenschaften
» Aila Data Service, publications search

Niko Koski
Information Specialist
firstname.surname[at] tuni.fi

This blog entry is available also in Finnish:
Tietoarkisto mahdollistamassa kansainvälistä vertailevaa tutkimusta.

29. toukokuuta 2020

Tietoarkiston kehittämä Kuha2 edistää eurooppalaisten aineistojen löydettävyyttä

Kuha2 on yhteiskuntatieteellisten aineistokuvailujen jakamiseen tarkoitettu sovelluskokonaisuus. Sen käyttäjiä ovat muisti- ja tutkimusorganisaatiot, jotka haluavat saattaa koneluettavat aineistokuvailunsa toisten osapuolten hyödynnettäväksi käyttäen datan automaattista keräämistä eli harvestointia. Tämä edistää aineistojen näkyvyyttä ja löydettävyyttä, vahvistaa organisaatioiden välistä yhteistyötä ja parantaa kuvailukäytäntöjä.

Kuha2 koostuu useasta palvelinsovelluksesta ja asiakasohjelmasta. Se tukee OAI-PMH- ja OSMH1 -rajapintamäärityksiä. Kuha2-kehitystyö käynnistyi alkuvuodesta 2017 osana CESSDA SaW -hanketta. Hankkeen päämäärä oli tukea uusia ja kehittyviä CESSDA-arkistoja teknisten ratkaisujen löytämisessä, hyödyntämisessä ja kehittämisessä. Loppuvuodesta 2017 Kuha2 julkaistiin avoimena lähdekoodina. Tämän ensimmäisen tuotantokäyttöön soveltuvan version käyttö ja laajentaminen oli kattavasti dokumentoitu. Sovellus oli käytettävissä ilman laajaa teknistä osaamista, ja seurasi siten SaW-projektin tavoitetta. Ohjelman aktiivinen kehitystyö jatkuu edelleen. Ylläpidon lisäksi sovellus saa uusia toiminnallisia ominaisuuksia. Näistä viimeisimpänä julkaistiin tuki EAD3-formaatille tammikuussa 2020.

Aktiivinen kehitys luo puitteet käytön laajentumiselle

Tietoarkisto kehitti alkuperäisen Kuhan vuonna 2014 aineistojensa kuvailutietojen viemiseksi Finna-hakupalveluun OAI-PMH rajapinnan kautta. Vuonna 2016 Tietoarkistossa kehitettiin OSMH-rajapintamääritystä hyödyntävä Omicrops-palvelinsovellus. Kuha2 syntyi ajatuksesta luoda yksi yhtenäinen taustapalvelu tarjoilemaan sisältöä molempien rajapintojen tarpeisiin. Kokonaisuus purettiin pienempiin osiin mikropalveluarkkitehtuuria soveltamalla. Jokaisesta tehtävästä syntyi itsenäinen prosessi, joka keskustelee toisten prosessien kanssa standardoituja rajapintoja käyttäen.

CESSDA lanseerasi vuonna 2018 CESSDA Data Catalogue (CDC) -hakupalvelun, jonka on tarkoitus sisältää mahdollisimman monen CESSDAn palveluntuottajan aineistokuvailut. Se haravoi palveluntuottajien OAI-PMH-rajapintoja. Liittyäkseen CDC:hen palveluntuottaja tarvitsee hakupalvelun kanssa yhteensopivan kuvailuformaatin ja avoimen OAI-PMH-rajapinnan, jonka kautta kuvailut tarjotaan harvestoitavaksi. Kuha2 tukee sekä OAI-PMH-rajapintamääritystä että CDC:n käyttämää DDI2-formaattia. Tiivis yhteistyö Tietoarkiston ja CESSDAn välillä varmisti Kuha2:n yhteensopivuuden CESSDA Data Cataloguen kanssa.

CESSDA harvestoi palvelutuottajien tarjoman metadatan Kuha2-rajapintojen kautta avoimeen yhteisluetteloonsa.

DDI-standardia käytetään yhteiskuntatieteellisissä tietoarkistoissa datan kuvailuun. Standardista on yleisessä käytössä kolme eri versiota. Jotta Kuha2-sovellus toisi hyötyä myös muita versioita käyttäville organisaatioille, kehitimme tuontitoiminnallisuuteen tuen myös DDI1 ja DDI3 versioille. Tämän tuen ja CESSDA Data Cataloguen myötä Kuha2 on käytössä myös Tietoarkiston ulkopuolella. Tiedossamme on kolme muuta CESSDA-arkistoa, jotka hyödyntävät Kuha2-sovellusta omassa organisaatiossaan. Tietoarkisto on tarjonnut näille käyttöönottotukea sekä räätälöinyt asiakasohjelmaa siten, että käyttäjien metadatakuvailut tulkitaan sovelluksessa oikein. Kuha2:n käytön yleistymisen myötä CESSDA on saanut hakupalvelunsa piiriin uusia organisaatioita.

Käyttäjilleen Kuha2 tarjoaa helppokäyttöisen, avoimen, dokumentoidun ja tuotantovalmiin sovelluksen helpottamaan liittymistä CESSDAn hakupalveluun tai muihin vastaaviin harvestointia hyödyntäviin palveluihin. Käytön laajentumisen myötä virheraportteja ja toiveita uusille ominaisuuksille saadaan myös oman organisaation ulkopuolelta. Tietoarkistolla on valmiudet vastaanottaa ja katselmoida sovelluksen lähdekoodin muutoksia, sekä mahdollisesti liittää niitä osaksi sovellusta.

Avoimuuden periaatteet Tietoarkiston toiminnassa

Yhteistyö eri toimijoiden kesken edistää aineistojen löydettävyyttä ja käyttöä. Avoimet rajapinnat saattavat aineistojen kuvailut kaikkien hyödynnettäviksi ja mahdollistavat niiden soveltamisen yhä uusiin käyttötarkoituksiin. Avoin lähdekoodi vapauttaa käyttäjät teknologia- ja toimittajariippuvuuksilta, parantaa tietoturvan tasoa, helpottaa laadunvarmistusta ja saattaa ideat ja toteutukset kaikkien hyödynnettäviksi. Näitä työkaluja käyttäen Tietoarkisto toimii kansainvälisellä kentällä edistäen osaltaan teknologisten ratkaisujen kehittämistä ja tieteen avoimuutta.

Lisätietoa:

» Kuha2-dokumentaatio

Toni Sissala
sovelluskehittäjä
etunimi.sukunimi [at] tuni.fi

1OSMH (Open Source Metadata Harvester) on CESSDAn kehittämä metadatan harvestointiprotokolla.

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD's Kuha2 software improves discoverability of European research data.

FSD’s Kuha2 software improves discoverability of European research data

Kuha2 is a collection of applications intended for sharing descriptive social science metadata. It is targeted at cultural memory and research organisations that aim to make their data descriptions accessible for other parties in a machine-readable format by using automatic collection of data, in other words harvesting. This improves the visibility and findability of research data, strengthens cooperation between organisations and enhances the practices of data description.

The Kuha2 software consists of multiple server applications and a client application, and it supports OAI-PMH and OSMH application programming interfaces (APIs). The development of the Kuha2 software began in early 2017 as part of the CESSDA SaW project. The aim of the project was to support new and aspiring CESSDA archives in finding, utilising and developing technical solutions. At the end of 2017, Kuha2 was published as open-source software. The use and expansion of this first version that was suitable for production use was extensively documented. Kuha2 adhered to the aims of the SaW project in that no extensive technical knowledge was required to be able to use the software. Active development of the software is still in progress. In addition to software maintenance, new functional features are continuously added. For example, support for EAD3 format was released in January 2020.

Active development establishes the conditions for extensive use

FSD developed the original Kuha in 2014 for the purpose of transferring descriptive metadata to Finna, a search service that provides information from Finnish archives, libraries and museums, by using OAI-PMH protocol. In 2016, FSD developed the Omicrops server application that utilises OSMH protocol. Kuha2 was born from the idea to create one unified background service that would provide content for the needs of both APIs. The unified entity was dismantled into smaller parts by adapting microservice architecture. Each task became an independent process which communicates with other processes by using standardised APIs.

In 2018, CESSDA launched the CESSDA Data Catalogue (CDC) search service that aims to include descriptive metadata from as many CESSDA service providers as possible. It scrapes data from service providers using the OAI-PMH API. In order to integrate to CDC, the service provider needs a data description format compatible with the search service as well as an open OAI-PMH API that serves descriptive metadata for harvesting. Kuha2 supports both the OAI-PMH protocol and the DDI2 format used by CDC. Close cooperation between FSD and CESSDA ensured the compatibility of Kuha2 with the CESSDA Data Catalogue.

CESSDA harvests metadata provided by service providers to its open Data Catalogue via Kuha2-APIs.

The DDI standard is used in social science data archives for data description. In common practice, three different versions of the standard are in use. To benefit a larger group of organisations, Kuha2's import functionality was enhanced to support the DDI1 and DDI3 versions in addition to DDI2, which is used by FSD. Due to extensive support for DDI and the traction gained by CESSDA Data Catalogue, Kuha2 is in use outside FSD as well. To our knowledge, three other CESSDA archives utilise the Kuha2 software in their organisations. FSD has offered them support in getting started and customised the client application so that the users' descriptive metadata are interpreted correctly by the software. As the use of Kuha2 has become more common, CESSDA has gained new organisations as service providers for the CDC.

For its users, Kuha2 provides an easy-to-use, open, documented and production-ready software to facilitate joining the CESSDA search service or other corresponding services that utilise harvesting. With the expansion of use, error reports and requests for new features come in from outside our own organisation as well. FSD is prepared to receive and review source code changes, and possibly merge them as part of the software.

The principles of openness in FSD operation

Cooperation with different actors advances the discoverability and use of research data. Open APIs make descriptive metadata accessible to anyone and promotes reuse for new purposes. Open-source software allows its users to detach themselves from dependencies on technological solutions and product suppliers. It also improves the level of data security, makes quality assurance easier, and brings ideas and applications accessible for everyone. Using the aforementioned tools, FSD operates in an international field, advancing the development of technological solutions and open science.

More information:

» Kuha2 Documentation on Read the Docs

Toni Sissala
Software Developer
firstname.surename [at] tuni.fi

1OSMH (Open Source Metadata Harvester) is a harvesting protocol developed by CESSDA.

This blog entry is also available in Finnish:
Tietoarkiston kehittämä Kuha2 edistää eurooppalaisten aineistojen löydettävyyttä.

9. huhtikuuta 2020

Tietoarkisto ja aineistonhallinta koronakriisin aikaan

Tietoarkistossa siirryttiin nopeasti etätyöskentelyyn maaliskuun puolivälissä. Onneksi etätyön mahdollistavia tietoteknisiä ratkaisuja oli otettu käyttöön jo aiemmin ja Tietoarkistolle räätälöityä etäyhteyttä valmisteltu Tietoarkiston teknisten palvelujen ja Tampereen yliopiston tietohallinnon yhteistyöllä. Yhteys saatiin käyttöön nopeutetulla aikataululla suurelle osalle tietoarkistolaisista heti ensimmäisen etätyöviikon aikana.

Arki jatkuu ja kokoukset rullaavat

Lähes kaikki tietoarkistolaiset pystyvät nyt hoitamaan tehtävänsä normaalisti sosiaalisesta etäisyydestä huolimatta. Sovellus- ja järjestelmäkehitys ja -ylläpito jatkuvat. Tietoarkiston aineistonkäsittelijät ovat julkaisseet etänä useita uusia aineistoja. Asiakkaat ovat myös luovuttaneet aineistoja ja ladanneet aineistoja Ailassa, mistä voimme päätellä, että etätyö sujuu mallikkaasti myös muissa yliopistoissa ja tutkimusorganisaatioissa.

Itse olen kokoustanut Teamsillä, Zoomilla ja GoToMeetingillä. Kokouksissa hetkellisiä ongelmia on aiheuttanut mobiilidatayhteyteni pätkiminen. Muutoin etäkokoukset ovat ajankäytön näkökulmasta kasvokkain järjestettäviä tehokkaampia. Uupumaan jää kuitenkin epävirallisempi kuulumisten vaihtaminen. Kansainvälisessä ja kotimaisessakin yhteistyössä tärkeitä tietoja ja vertaistukea välittyy epävirallisissa käytävä- ja lounaskeskusteluissa, minkä vuoksi kaikkia kokouksia ei kannata jatkossakaan järjestää virtuaalisina. Jotakin tästä nyt opittavasta työtavasta toivoisi jäävän käyttöön myös koronakriisin jälkeiseen aikaan.

Akuutisti tarvittava avoin data ei vähennä pitkäaikaissaatavuuden merkitystä

Koronakriisin vuoksi monet ovat innostuneet keräämään tutkimusaineistoja. Myös muun kuin lääke- ja terveystieteellisen tiedon tarve on polttava. Tietoarkiston tekstiaineiston keräämiseen tarkoitettua Pennaa on suunniteltu jo muutamien aineistonkeruiden välineeksi. Toivon, että saamme koronapandemian vaikutuksia käsitteleviä keruita käyntiin vielä lisää.

On tietenkin tärkeätä saada aineistot mahdollisimman nopeasti mahdollisimman laajan tutkijajoukon käyttöön, jotta tutkimustiedosta on hyötyä ajankohtaiseen tiedontarpeeseen. Toivon kuitenkin, että tässäkään tilanteessa ei unohdeta aineistojen pitkäaikaissaatavuuden merkitystä. Ei tarvita epidemiologin koulutusta sen ymmärtämiseen, että koronakriisi ei ole viimeinen laatuaan. Nyt kerättävien aineistojen löydettävyys, saatavuus ja käytettävyys ovat ratkaisevia, jotta tutkijoilla on tulevaisuudessa nopeasti käytettävissään tietoa ihmisten kokemuksista ja reagoinnista vastaavissa kriisitilanteissa. Arkistoituna tutkimusdata tarjoaa myös vertailukohdan tulevaisuudessa, kun tutkijat keräävät uutta aineistoa.

CTS-sertifikaatti on luotettavan repositorion merkki

Muistattehan nytkin aineistoa kerätessänne ja tallennuspaikkaa valitessanne, että kaikki ad hoc -repositoriot, tai jo pitempään toiminnassa olleetkaan repositoriot, eivät takaa aineiston pitkäaikaissaatavuutta eivätkä anna tukea julkaisemisen tietoturvakysymyksissä. Suomessa CTS-sertifioituja, luotettaviksi arvioituja, repositorioita on kaksi: Tietoarkisto ja Kielipankki.

Jos tunnette houkutusta tallentaa ihmistieteellisen datanne kansainväliseen repositorioon, tarkistakaa käyttöehdot ja mahdolliset vastuuvapauslausekkeet ja muistakaa, että me kotimaiset CTS-sertifikaatin haltijat olemme kansainvälisiä toimijoita.

Lisätietoa:

» Aila
» Penna
» Aineistonhallinnan käsikirja
» CoreTrustSeal (CTS) -sertifikaatti
» Koronavirus ja Tietoarkiston toiminta poikkeusoloissa
» Uusi palvelinympäristö parantaa toimintavarmuutta ja säästää energiaa

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

31. maaliskuuta 2020

Supporting Certification - SSHOC Project Helps Digital Repositories in Becoming More Trustworthy

Good news on the Social Sciences and Humanities Open Cloud (SSHOC) project: the first deliverable in task 8.2, which is led by the Finnish Social Data Archive, was published in late March. The deliverable lays the ground for the SSHOC trust work that is needed in order to facilitate the adoption of Trustworthy Digital Repository (TDR) standards and the FAIR principles in data repositories across the social sciences and humanities.

The task team also specified modes of support in building trust and helping repositories reach TDR certification, charted the current trust landscape within the SSHOC communities, and selected the repositories that will be the main focus of the support activities provided by task 8.2 within the timeframe of the project.

SSHOC is one of the five cluster projects within the European Open Science Cloud (EOSC) initiative, and the project focuses on increasing and improving the reuse of research data in the social sciences and humanities. Task 8.2, Trust & Quality Assurance, concentrates on developing an agreed approach to assessing the trustworthiness and quality of data repositories. The task joins colleagues from three ERICs (CESSDA, CLARIN and DARIAH) and one aspiring ERIC (E-RIHS).

Flexible yet sustainable approach to trust

The diversity of repositories within the SSHOC communities requires an approach to TDR certification that is sustainable but also adaptable to a wide range of data infrastructures at varying levels of maturity. The task team selected the CoreTrustSeal as the standard certification reference for SSHOC.

The CoreTrustSeal consists of sixteen requirements for which applicants are asked to provide self-assessment statements along with relevant evidence. The CoreTrustSeal is sufficiently stringent but significantly less costly and labour-intensive than formal audit against ISO/DIN standards. Certification requirements for the CoreTrustSeal are also reviewed every three years in comparison with every five years for ISO/DIN standards.

As a community-driven TDR framework, with over 80 past certifications (in March 2020), CoreTrustSeal is open to feedback and continuously considering the widest possible range of certification candidates. However, the task team also identified certain types of organisations for which the CoreTrustSeal requirements are not applicable. Identifying these cases will help develop the CoreTrustSeal framework to better support a variety of repositories.

Support for certification efforts

It is evident that achieving CoreTrustSeal certification requires resources and work from repositories. Even though the workflows and processes themselves related to trustworthy preservation of data may be well established, work may be needed in producing publicly available documentation to show that these processes are sufficient to meet the requirements of certification.

For this reason, the task team specified modes of support provided to repositories for attaining the CoreTrustSeal. The level of SSHOC support required will depend on the starting state of the repositories. The team will amend the modes of support according to the repositories' needs.

The task team aims to raise awareness of the relevance of certification of repositories and the role of the CoreTrustSeal in this via existing communication channels. Webinars and workshops held for repositories will guide and support them in their certification efforts. The team will also provide feedback on self-assessments primarily to the selected repositories (see Table 1 in the report).

For its first support event, SSHOC task 8.2 will host a webinar on Thursday 23 March (more details on the way). In addition to the support activities, further work in 2020 for task 8.2 includes liaising with other relevant projects, such as EOSC-Nordic and FAIRsFAIR.

Further information:

» Development Manager Mari Kleemola
» SSHOC D8.2 Deliverable: Certification plan for SSHOC repositories
» SSHOC project website
» CoreTrustSeal

Niko Koski
Information Specialist
firstname.surname [at] tuni.fi

15. tammikuuta 2020

Digitaalisen tutkimusdatan pitkäaikaissaatavuutta jo vuodesta 1999

Viime vuonna Tietoarkisto juhli 20-vuotista taivaltaan. Olemme tutkimusaineistojen digitaalisen pitkäaikaissäilytyksen pioneereja Suomessa. Aluksi haimme mallia toimintaamme eurooppalaisilta ja muilta kansainvälisiltä yhteiskuntatieteellisiltä data-arkistoilta, ja työmme käynnistyi ripeästi.

Ensimmäiset pitkäaikaissäilytettävät aineistopaketit valmistuivat vain runsaan puolen vuoden kuluttua Tietoarkiston perustamisesta. Nämä olivat Puolueiden ajankohtaistutkimukset, joiden kuvailut julkaisimme verkkosivuillamme syyskuussa 1999. Jo tätä ennen olimme palvelleet ensimmäistä asiakastamme, kun kesäkuussa 1999 välitimme Eurobarometri-dataa Turun yliopiston tutkijalle.

Datan tekijän ja jatkokäyttäjän kohtaamispaikka

Tällä hetkellä aineistovarannossamme on jo yli 1500 tutkimusdataa ja Aila-dataportaalimme on osa eurooppalaista avoimen tieteen pilvipalvelua EOSC Marketplacea. Palveluillamme on vuosien varrella ollut tuhansia käyttäjiä. Tällä hetkellä Ailassa on yli 2600 rekisteröitynyttä käyttäjää ja verkkosivuillamme vieraillaan reilusti yli miljoona kertaa vuodessa. Ailasta tutkijat, opettajat ja opiskelijat saavat datat käyttöönsä helposti ja maksutta kunkin aineiston käyttöehtojen mukaisesti.

Tutkimusaineiston tallentaminen Tietoarkistoon on myös helppoa. Ennen aineiston siirtoa tehdään käsittelysopimus, jolla varmistetaan muun muassa henkilötietojen vastuullinen käsittely ja aineiston laillinen siirtäminen Tietoarkistoon. Tämän jälkeen Tietoarkiston asiakaspalvelu avaa Ailaan työtilan, jossa tutkija siirtää tiedostot tietoturvallisesti Tietoarkiston aineistopalvelun käsiteltäviksi.1

Huolehdimme saatavuudesta ja ymmärrettävyyden säilymisestä

Tietoarkiston perustehtävä on alusta asti ollut varmistaa digitaalisten tutkimusaineistojen säilyvyys, käytettävyys ja saatavuus tutkijoiden käyttöön sekä nyt että kaukana tulevaisuudessa. Digitaaliset tutkimusaineistot eivät säily itsestään, vaan niitä pitää hoivata koko elinkaaren ajan.

Tietoarkisto seuraa ohjelmistojen kehittymistä ja huolehtii arkistoitujen tutkimusdatojen tiedostomuotojen pysymisestä ajantasaisena ja käyttökelpoisena. Koska tutkimusdatamme sisältävät yleensä tietoa ihmisistä, panostamme tietosuojaan koko tutkimusdatan säilytyksen ajan. Laadimme vuosittain selosteet aineistoihin kohdistuneista tietosuojatoimenpiteistä sekä varmistamme, ettei aineistoihin synny teknologioiden kehittyessä tietosuojariskejä.

Pelkkä datan hoivaaminen ei yksin riitä takaamaan aineiston pitkäaikaista käytettävyyttä. Tarvitaan myös metadataa eli kuvailevaa tietoa aineiston sisällöstä ja taustasta. Tietoarkisto tekee aineistoille laajat, tasalaatuiset kuvailut. Ilman niitä tutkimusdatan arvo ei säily eikä data ole jatkokäyttökelpoista tai tutkimus toistettavaa. Analyysien kannalta on esimerkiksi ihan eri asia, onko data kerätty 1980-luvulla vai 2010-luvulla, onko otanta satunnainen vai ei tai onko otannan perusjoukko Suomen väestö vai helsinkiläiset.

Tietoarkisto tarkkailee jatkuvasti kuvailujen laatua ja ajanmukaistaa ja rikastaa metadataa esimerkiksi ottamalla käyttöön uusia kansainvälisiä sanastoja. Aineistoille annetaan myös pysyvät tunnisteet. Näin Tietoarkisto voi taata datojen pitkäaikaisen käytettävyyden ja kansainvälisen yhteentoimivuuden.

Vuodesta 2017 alkaen olemme hyödyntäneet kansallista pitkäaikaissäilytyspalvelua tutkimusaineistojemme bittitason säilytykseen. Palvelun suunnittelussa ja rakentamisessa olemme olleet mukana vuodesta 2008 ja pilotointivaiheemme alkoi 2015.

Sertifiointi luotettavuuden merkkinä

Tietoarkiston asiantuntijoiden pitkäjänteisen, jatkuvan, huolellisen ja innovatiivisen työn tuloksena olemme onnistuneet kehittämään ja rakentamaan toimivat prosessit, jotka varmistavat aineistojen pitkäaikaissaatavuuden. Tästä osoituksena saimme Data Seal of Approval (DSA) -sertifikaatin vuonna 2014 ensimmäisenä suomalaisena PAS-organisaationa. Tällä hetkellä meillä on voimassa vaatimuksiltaan DSA:ta tiukempi CoreTrustSeal (CTS) -sertifikaatti.

1 Lue lisää: Tietoarkistoblogi 9/2018: Ailassa nyt tallennustyökalu aineistojen arkistointiin ja Ohjeita aineiston arkistoijalle.

Lisätietoa:

» Tietoarkiston CoreTrustSeal-sertifikaatti (PDF)
» Aila
» Aila EOSC Marketplacessa
» Tietotilinpäätökset
» Tietoarkistoblogi: Tietoarkisto jatkaa uudella vuosikymmenellä luotettuna tutkimusaineistojen asiantuntijana

Mari Kleemola
kehittämispäällikkö, varajohtaja

Katja Moilanen
tietoarkkitehti

etunimi.sukunimi [at] tuni.fi