29. toukokuuta 2020

Tietoarkiston kehittämä Kuha2 edistää eurooppalaisten aineistojen löydettävyyttä

Kuha2 on yhteiskuntatieteellisten aineistokuvailujen jakamiseen tarkoitettu sovelluskokonaisuus. Sen käyttäjiä ovat muisti- ja tutkimusorganisaatiot, jotka haluavat saattaa koneluettavat aineistokuvailunsa toisten osapuolten hyödynnettäväksi käyttäen datan automaattista keräämistä eli harvestointia. Tämä edistää aineistojen näkyvyyttä ja löydettävyyttä, vahvistaa organisaatioiden välistä yhteistyötä ja parantaa kuvailukäytäntöjä.

Kuha2 koostuu useasta palvelinsovelluksesta ja asiakasohjelmasta. Se tukee OAI-PMH- ja OSMH1 -rajapintamäärityksiä. Kuha2-kehitystyö käynnistyi alkuvuodesta 2017 osana CESSDA SaW -hanketta. Hankkeen päämäärä oli tukea uusia ja kehittyviä CESSDA-arkistoja teknisten ratkaisujen löytämisessä, hyödyntämisessä ja kehittämisessä. Loppuvuodesta 2017 Kuha2 julkaistiin avoimena lähdekoodina. Tämän ensimmäisen tuotantokäyttöön soveltuvan version käyttö ja laajentaminen oli kattavasti dokumentoitu. Sovellus oli käytettävissä ilman laajaa teknistä osaamista, ja seurasi siten SaW-projektin tavoitetta. Ohjelman aktiivinen kehitystyö jatkuu edelleen. Ylläpidon lisäksi sovellus saa uusia toiminnallisia ominaisuuksia. Näistä viimeisimpänä julkaistiin tuki EAD3-formaatille tammikuussa 2020.

Aktiivinen kehitys luo puitteet käytön laajentumiselle

Tietoarkisto kehitti alkuperäisen Kuhan vuonna 2014 aineistojensa kuvailutietojen viemiseksi Finna-hakupalveluun OAI-PMH rajapinnan kautta. Vuonna 2016 Tietoarkistossa kehitettiin OSMH-rajapintamääritystä hyödyntävä Omicrops-palvelinsovellus. Kuha2 syntyi ajatuksesta luoda yksi yhtenäinen taustapalvelu tarjoilemaan sisältöä molempien rajapintojen tarpeisiin. Kokonaisuus purettiin pienempiin osiin mikropalveluarkkitehtuuria soveltamalla. Jokaisesta tehtävästä syntyi itsenäinen prosessi, joka keskustelee toisten prosessien kanssa standardoituja rajapintoja käyttäen.

CESSDA lanseerasi vuonna 2018 CESSDA Data Catalogue (CDC) -hakupalvelun, jonka on tarkoitus sisältää mahdollisimman monen CESSDAn palveluntuottajan aineistokuvailut. Se haravoi palveluntuottajien OAI-PMH-rajapintoja. Liittyäkseen CDC:hen palveluntuottaja tarvitsee hakupalvelun kanssa yhteensopivan kuvailuformaatin ja avoimen OAI-PMH-rajapinnan, jonka kautta kuvailut tarjotaan harvestoitavaksi. Kuha2 tukee sekä OAI-PMH-rajapintamääritystä että CDC:n käyttämää DDI2-formaattia. Tiivis yhteistyö Tietoarkiston ja CESSDAn välillä varmisti Kuha2:n yhteensopivuuden CESSDA Data Cataloguen kanssa.

CESSDA harvestoi palvelutuottajien tarjoman metadatan Kuha2-rajapintojen kautta avoimeen yhteisluetteloonsa.

DDI-standardia käytetään yhteiskuntatieteellisissä tietoarkistoissa datan kuvailuun. Standardista on yleisessä käytössä kolme eri versiota. Jotta Kuha2-sovellus toisi hyötyä myös muita versioita käyttäville organisaatioille, kehitimme tuontitoiminnallisuuteen tuen myös DDI1 ja DDI3 versioille. Tämän tuen ja CESSDA Data Cataloguen myötä Kuha2 on käytössä myös Tietoarkiston ulkopuolella. Tiedossamme on kolme muuta CESSDA-arkistoa, jotka hyödyntävät Kuha2-sovellusta omassa organisaatiossaan. Tietoarkisto on tarjonnut näille käyttöönottotukea sekä räätälöinyt asiakasohjelmaa siten, että käyttäjien metadatakuvailut tulkitaan sovelluksessa oikein. Kuha2:n käytön yleistymisen myötä CESSDA on saanut hakupalvelunsa piiriin uusia organisaatioita.

Käyttäjilleen Kuha2 tarjoaa helppokäyttöisen, avoimen, dokumentoidun ja tuotantovalmiin sovelluksen helpottamaan liittymistä CESSDAn hakupalveluun tai muihin vastaaviin harvestointia hyödyntäviin palveluihin. Käytön laajentumisen myötä virheraportteja ja toiveita uusille ominaisuuksille saadaan myös oman organisaation ulkopuolelta. Tietoarkistolla on valmiudet vastaanottaa ja katselmoida sovelluksen lähdekoodin muutoksia, sekä mahdollisesti liittää niitä osaksi sovellusta.

Avoimuuden periaatteet Tietoarkiston toiminnassa

Yhteistyö eri toimijoiden kesken edistää aineistojen löydettävyyttä ja käyttöä. Avoimet rajapinnat saattavat aineistojen kuvailut kaikkien hyödynnettäviksi ja mahdollistavat niiden soveltamisen yhä uusiin käyttötarkoituksiin. Avoin lähdekoodi vapauttaa käyttäjät teknologia- ja toimittajariippuvuuksilta, parantaa tietoturvan tasoa, helpottaa laadunvarmistusta ja saattaa ideat ja toteutukset kaikkien hyödynnettäviksi. Näitä työkaluja käyttäen Tietoarkisto toimii kansainvälisellä kentällä edistäen osaltaan teknologisten ratkaisujen kehittämistä ja tieteen avoimuutta.

Lisätietoa:

» Kuha2-dokumentaatio

Toni Sissala
sovelluskehittäjä
etunimi.sukunimi [at] tuni.fi

1OSMH (Open Source Metadata Harvester) on CESSDAn kehittämä metadatan harvestointiprotokolla.

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD's Kuha2 software improves discoverability of European research data.

Ei kommentteja: