4. toukokuuta 2021

Arkistoidut aineistot tukevat tutkimuksen toistettavuutta

Toistettavuus on tieteellisen tutkimuksen perusperiaatteita. Se tarkoittaa, että tutkija itse tai hänestä riippumaton taho kykenee toistamaan kokeen tai tutkimuksen. Näin voidaan selvittää, kuinka tutkimustuloksiin on päädytty, onko kokeessa mahdollisesti virheitä tai koetuloksissa satunnaisvaihtelua, ja edistää siten tutkimuksen luotettavuutta ja läpinäkyvyyttä.

CSC järjesti 23. huhtikuuta webinaarin, jossa käsiteltiin tutkimuksen toistettavuutta eri näkökulmista sekä esiteltiin toistettavuutta edistäviä työkaluja.

Toistettavuus edellyttää, että tutkimuksen vaiheista on saatavilla tarpeeksi tietoa. Lisäksi tutkimusaineiston on oltava myös muiden kuin alkuperäisen tutkijan saatavilla. Hyvä aineistonhallinta onkin keskeisessä osassa toistettavuuden edistämisessä. Mitä paremmin aineiston keruu ja muokkaaminen sekä sen analysointiin käytetyt menetelmät, ohjelmistot ja ohjelmistoympäristöt on dokumentoitu, sitä helpompi tutkimus on toistaa. FAIR-periaatteiden (löydettävyys, saavutettavuus, yhteentoimivuus ja uudelleenkäytettävyys) soveltaminen tutkimuksen koko elinkaaren ajan edistää tutkimuksen toistettavuutta.

Tutkimuksen toistettavuutta tukee myös aineiston arkistoiminen luotettuun, pitkäaikaissäilytykseen erikoistuneeseen ja jatkokäytön mahdollistavaan arkistoon. Tietoarkisto edistää ihmistieteiden aineistojen saatavuutta ja löydettävyyttä tarkistamalla arkistoitavat aineistot yksityiskohtaisesti, kuvailemalla aineistot ja niihin tehdyt muutokset yksityiskohtaisesti ja kontrolloituja sanastoja käyttämällä, tarjoamalla aineistojen metatiedot avoimesti CC BY 4.0 -lisenssillä ja antamalla aineistoille pysyvät tunnisteet.

Data Stewards by The Turing Way Community, & Scriberia. CC BY 4.0

Nämä kaikki edistävät FAIR-periaatteiden toteutumista. Periaatteet edellyttävät myös metatiedon koneluettavuutta. Tietoarkiston aineistokuvailut ovatkin saatavissa myös ohjelmallisten rajapintojen kautta.

Hyödyntämällä arkistoitua aineistoa tutkimuksessaan tutkija voi luottaa siihen, että tutkimusaineisto on tiedeyhteisön saatavilla kattavasti dokumentoituna. Tutkija säästää aikaa ja vaivaa, ja voi keskittyä dokumentoimaan aineiston käsittelyyn, menetelmällisiin valintoihin ja tuloksiin liittyviä asioita.

Anonymisointi voi muodostua haasteeksi toistettavuudelle

Webinaarissa käsiteltiin toistettavuutta yleisesti ja hiukkasfysiikan tapausesimerkin kautta. Toistettavuuden periaate pätee kaikilla tieteenaloilla, mutta ihmistieteissä tunnisteellisten tutkimusaineistojen anonymisointi luo omat haasteensa aineiston jatkokäytölle ja tutkimuksen toistettavuudelle.

Sensitiivisestä ja tunnisteellisesta aineistosta on usein tarpeen karkeistaa tai poistaa suoria tai epäsuoria tunnisteita. Jatkokäyttöön tulevalla aineistolla ei välttämättä voi toteuttaa alkuperäisten tutkijoiden tekemiä analyysejä sellaisenaan.

Hyvin ja ajoissa suunniteltu aineistonhallinta auttaa tässäkin: kun tutkittavilta kerätyt henkilötiedot on minimoitu ja heitä on informoitu aineiston jatkokäytöstä, aineisto voidaan arkistoida mahdollisimman vähin muutoksin.

Ihanteellisessa tapauksessa tutkimusaineisto on avoimesti tiedeyhteisön saatavilla tulosten koettelemiseksi, mutta joskus aineistoa ei voi avata edes rajoitetusti. Syitä voivat olla esimerkiksi siihen sisältyvät tunnisteet, aineiston arkaluonteisuus, tai että aineisto sisältää liiketoiminnan kannalta salassa pidettävää sisältöä. FAIR-periaatteiden noudattaminen ei edellytäkään aineiston avointa saatavuutta, vaan itse aineisto voi olla rajoitettua tai jopa kokonaan salattua. Periaatteiden mukaista sen sijaan on, että rajoitetusta tai salatusta aineistosta on saatavissa metatietoa, joka kuvaa sen rakennetta, kohdetta, keruutapaa, sovellettuja menetelmiä ja malleja sekä hallinnointia tutkimusprojektin aikana.

Tutkimuksen ja aineistosta tehtyjen johtopäätösten läpinäkyvyyden kannalta on suositeltavaa avata aineistosta vähintään kattavat kuvailutiedot, kuin säilyttää kaikki tiedot muun tiedeyhteisön tai yhteiskunnan ulottumattomissa.

Lisätietoa:

» CSC:n webinaari 23.4.2021: Mitä tutkimuksen toistettavuus tarkoittaa?

» Aineistonhallinnan käsikirja

Data Stewards -kuva (2020, March 3). Illustrations from the Turing Way book dashes. Zenodo. http://doi.org/10.5281/zenodo.4323154

Henri Ala-Lahti
tietoasiantuntija

Tuomas J. Alaterä
erityisasiantuntija

etunimi.sukunimi [at] tuni.fi

23. maaliskuuta 2021

Palveluita tutkimuksen tueksi kehitetään hankeyhteistyöllä

Tietoarkisto osallistuu jatkuvasti useisiin erilaisiin kehityshankkeisiin. Hankkeissa kehitetään nykyisiä palveluita ja suunnitellaan uusia tutkijoille sekä tutkimuksen tueksi. Hanketyössä pyritään löytämään ratkaisuja eri toimijoiden yhteisiin tarpeisiin. Eurooppalaisten yhteiskuntatieteellisten tietoarkistojen tutkimusinfrastruktuuri CESSDAn palveluntuottajana Tietoarkisto osallistuu aktiivisesti sen moniin työryhmiin ja projekteihin. Lisäksi Tietoarkisto tekee yhteistyötä muiden kansainvälisten ja kansallisten tahojen kanssa.

Monet tietoarkistolaiset osallistuvat hankkeisiin eri tavoin. Hanketyö on arkipäivää erityisesti Projektit ja kehittäminen -moduulin jäsenille, joiden työajasta suurin osa kuluu hanketehtävien parissa. Kehittämispäällikkö Mari Kleemola ja erityisasiantuntija Taina Jääskeläinen kertovat hanketyön arjesta sekä kuulumisia hankkeista, joihin he osallistuvat.

Mihin hankkeisiin osallistut ja mitä niissä tehdään?

Mari: Osallistun SSHOC- (Social Sciences & Humanities Open Cloud) ja EOSC Nordic (European Open Science Cloud) -hankkeisiin sekä CESSDAn Trust-projektiin. Lisäksi toimin CESSDAn Tools-työryhmän vetäjänä.

– Näillä hankkeilla on rinnakkaisia tehtäviä, joilla on synergiaetuja. Esimerkiksi SSHOC- ja CESSDA Trust -hankkeissa edistetään luotettujen aineistovarantojen sertifiointia tukemalla data-arkistoja sähköisten aineistojen luotettavassa säilytyksessä ja laadun takaamisessa. Olen CoreTrustSeal-sertifikaatin johtokunnan jäsen ja minulle on kertynyt sertifiointiin liittyvää asiantuntemusta, jota voin tuoda hankkeisiin. Hankkeista puolestaan saadaan palautetta, jota voidaan käyttää sertifioinnin ja data-arkistojen kehittämisessä.

– EOSC Nordic ja SSHOC -projekteissa sekä Tools-työryhmässä kehitetään myös uusia palveluita ja parannetaan aineistojen ja niiden kuvailutietojen yhteentoimivuutta. Kaikilla hankkeilla on yhteisenä tavoitteena Euroopan avoimen tieteen pilvipalvelun eli EOSCin rakentaminen.

Taina: Yli puolet työajastani kuluu CESSDAn hankkeisiin. Toimin sekä CESSDAn aineistoluettelon että sanastopalvelun sisältövastaavana. Rooliin kuuluu ohjausryhmän vetäminen, käyttäjien edustaminen, vaatimusmäärittely, yhteistyö teknisen puolen vastuuhenkilöiden kanssa, tiedottaminen, sidosryhmäyhteistyö ja monenlainen toiminnan sujuvuuden varmistaminen. Lisäksi osallistun monikielisen ELSST-asiasanaston (European Language Social Science Thesaurus) sisällön kehittämiseen ja koulutan kaikki sen kääntäjät.

– CESSDAn aineistoluettelossa on 15 kansallisen palveluntuottajan julkaisemat tutkimusaineistokuvailut, joita on tällä hetkellä yli 30 000. Se on erinomainen lähde löytää yhteiskuntatieteellisiä ja joitakin terveystieteellisiä tutkimusaineistoja eri maista. Luettelosta on julkaistu uusi versio viime kuussa.

– CESSDAn sanastopalvelussa luodaan, ylläpidetään ja käännetään monikansalliseen käyttöön tarkoitettuja sanastoja. Monet sanastoista on luotu DDI Allianssin tutkimusaineistojen kansainvälisen kuvailustandardin osaksi, ja osallistun sen sanastoryhmän työhön itsekin. CESSDAn jäsenorganisaatiot kääntävät näitä omille kansallisille kielilleen.

– Näiden lisäksi osallistun kahteen EU-projektiin: TRIPLE (Transforming Research through Innovative Practices for Linked Interdisciplinary Exploration)- ja SSHOC-projekteihin. Molemmissa on samoja elementtejä kuin CESSDA-hankkeissa, mutta nämä koskevat useampaa eurooppalaista tutkimusinfrastruktuuria ja tieteenalaa, kuten kielitieteitä ja humanistisia tieteitä. Kummassakin projektissa olen yhden työpaketin jäsenenä, useimmiten liittyen sanastoihin, niiden hyödyntämiseen tai laajoihin aineistoluetteloihin. TRIPLEssä kiinnostaa erityisesti nähdä, missä määrin algoritmeilla onnistutaan rikastuttamaan eri maista ja eri kielillä tulevaa metadataa.

Mikä hanketyössä on antoisinta?

Mari: Hanketyössä oppii paljon uutta eikä siinä ole kahta samanlaista päivää. Se avaa näköaloja Eurooppaan ja muualle maailmaan ja tarjoaa tilaisuuden nähdä, mitä muualla tehdään ja miten. Hankkeiden kautta voimme myös vaikuttaa siihen, että Suomen avoimen tieteen hyviä käytäntöjä omaksuttaisiin kansainvälisesti. On myös antoisaa olla osaltani vaikuttamassa alan kehitykseen ja rakentamassa CESSDAa ja sen palveluita yhteiskuntatieteilijöille.

Taina: Olen viihtynyt toimiessani ja verkostoituessani eri maista tulevien ihmisten kanssa. On mielekästä tehdä työtä, jossa voi kerrankin hyödyntää kaikkia asiantuntemusalueitaan. Olen taustaltani sekä informaatikko että kielenkääntäjä, joten metadatan harmonisointi ylikielirajojen ja datan löydettävyys kiinnostavat minua aina. Vuosikausien kieliharrastuksestani on ollut yllättävän paljon iloa, koska huomasin voivani tutkailla sanastoja tai aineistokuvailuja kahdeksalla eri kielellä ja pysyä suunnilleen kärryillä siitä, onko siellä vääriä tietoja väärässä paikassa jne. Taidan olla kansainvälisessä työskentelyssä kuin kala vedessä.

– Antoisaa on huomata, että on pystynyt organisoimaan asioita niin, että tavoitteet saavutetaan ja maaliin päästään, vaikka olisi tullut kuinka monta yllättävää mutkaa matkan varrella. Koko ajan saa myös oppia uutta eikä tylsää päivää ole.

Entä mikä on haastavinta?

Mari: Haastavaa on se, että kansainvälisessä hanketyössä tehdään enimmäkseen virtuaalisesti tiimityötä eri taustoista tulevien ihmisten kanssa. Se vaatii erilaisten näkökulmien, tieteenalakäytäntöjen ja ihmisten työtapojen huomioon ottamista ja yhteensovittamista. Monesti tapaaminen ja tutustuminen edes kerran kasvokkain helpottaa yhteistyötä.

Taina: Kun kehitetään kansainvälisiä palveluja, tavoitteesta ollaan usein yksimielisiä mutta matkan varrella joudutaan neuvottelemaan siitä, miten tavoitteisiin parhaiten päästään. Data-arkistot ovat keskenään hyvin erilaisia: osa hyvin resursoituja ja osa vähemmän, osa toiminut vuosikymmeniä, osa on toiminnan alkutaipaleella. Tämä asettaa omat haasteensa esim. metadatan harmonisoinnissa.

– Käyttäjien edustajien ja IT-puolen on myös hyvä jatkuvasti keskustella siitä, paljonko kukin käyttäjien toive vaatii koodauspuolella. Joskus haluttu toiminnallisuus on helposti toteutettavissa ja joskus se vaatii runsaasti työtä. Jälkimmäisessä tapauksessa käyttäjien edustajien on pohdittava, onko se vaivan arvoista. Tärkeintä olisi tunnistaa ja jättää pois paljon IT-työtä vaativat vähemmän tärkeät tavoitteet, jotta voidaan keskittyä olennaisempiin.

– Sisältövastaava on tietyissä asioissa vahtikoira, joka tarkkailee mm. metadatan laatua ja yhteensopivuutta CESSDAn aineistoluettelon ja sanastojen vaatimusten kanssa. Tehtävässä täytyy neuvotella eri maissa sijaitsevien organisaatioiden kanssa heidän metadatansa laadusta ja yhteensopivuudesta sekä hoputtaa esim. sanastojen kääntäjiä tekemään oma kieliversionsa ajoissa. Ystävällisistä reaktioista päätellen ratkaisuja etsivää vahtikoiratoimintaani ei kuitenkaan ole koettu ikäväksi.

Kuinka koronavuoden poikkeusolot ovat vaikuttaneet hanketyöskentelyyn?

Mari: Ehdin onneksi tavata suurimman osan tämänhetkisten hankkeiden yhteistyökumppaneista ennen poikkeusolojen alkua, joten yhteistyö sujuu hyvin myös virtuaalisesti. Kasvokkaisten tapaamisten puuttuessa vapaamuotoinen ideointi on kuitenkin hankalampaa. Kasvokkaisissa kokouksissa epävirallisella sosiaalisella kanssakäymisellä on suuri merkitys - työtä tehdään ihmisten kanssa ja välillä on hyvä jutella heidän kanssaan muustakin kuin työasioista!

Taina: Normaalioloissakin kansainväliset projektit tarkoittavat sähköposteja ja videokonferensseja, joten siihen koronavuosi ei ole tuonut muutosta. Zoom oli kovassa käytössä jo aiemmin. Esimerkiksi aineistoluettelon uuden version teknisen puolen tekijät olivat Iso-Britanniassa ja Norjassa, sanastotyökalun koodari puolestaan Saksassa.

– Ainoa mikä on jäänyt pois, ovat kasvokkaiset tapaamiset ja konferenssit. Niitä kaipaa ja olisi hyvä välillä olla, vaikka en lentokentillä notkumisesta ja muusta matkustamisen aikasyöpöistä pidä. Verkostoituminen on paljon helpompaa, kun ihmiset on tavannut kasvotusten. Monet asiat saa helpommin ja nopeammin selvitettyä paikan päällä ja tauoilla. Jos projektissa on paljon ihmisiä, joita on aina tavannut vain etänä, on toiminnan sujuvuudessa ja verkostoitumisessa eroa verrattuna siihen, että ryhmä olisi ainakin kerran tavannut kasvotusten.

– Etätyön huonoin puoli on työpäivien venyminen, koska tekemistä tuntuu aina riittävän loputtomiin.

Lisätietoa:

» Tietoarkiston hankesivut
» Kehittämispäällikkö Mari Kleemola
» Erityisasiantuntija Taina Jääskeläinen

Henri Ala-Lahti
tietoasiantuntija
etunimi.sukunimi [at] tuni.fi