4. toukokuuta 2021

Arkistoidut aineistot tukevat tutkimuksen toistettavuutta

Toistettavuus on tieteellisen tutkimuksen perusperiaatteita. Se tarkoittaa, että tutkija itse tai hänestä riippumaton taho kykenee toistamaan kokeen tai tutkimuksen. Näin voidaan selvittää, kuinka tutkimustuloksiin on päädytty, onko kokeessa mahdollisesti virheitä tai koetuloksissa satunnaisvaihtelua, ja edistää siten tutkimuksen luotettavuutta ja läpinäkyvyyttä.

CSC järjesti 23. huhtikuuta webinaarin, jossa käsiteltiin tutkimuksen toistettavuutta eri näkökulmista sekä esiteltiin toistettavuutta edistäviä työkaluja.

Toistettavuus edellyttää, että tutkimuksen vaiheista on saatavilla tarpeeksi tietoa. Lisäksi tutkimusaineiston on oltava myös muiden kuin alkuperäisen tutkijan saatavilla. Hyvä aineistonhallinta onkin keskeisessä osassa toistettavuuden edistämisessä. Mitä paremmin aineiston keruu ja muokkaaminen sekä sen analysointiin käytetyt menetelmät, ohjelmistot ja ohjelmistoympäristöt on dokumentoitu, sitä helpompi tutkimus on toistaa. FAIR-periaatteiden (löydettävyys, saavutettavuus, yhteentoimivuus ja uudelleenkäytettävyys) soveltaminen tutkimuksen koko elinkaaren ajan edistää tutkimuksen toistettavuutta.

Tutkimuksen toistettavuutta tukee myös aineiston arkistoiminen luotettuun, pitkäaikaissäilytykseen erikoistuneeseen ja jatkokäytön mahdollistavaan arkistoon. Tietoarkisto edistää ihmistieteiden aineistojen saatavuutta ja löydettävyyttä tarkistamalla arkistoitavat aineistot yksityiskohtaisesti, kuvailemalla aineistot ja niihin tehdyt muutokset yksityiskohtaisesti ja kontrolloituja sanastoja käyttämällä, tarjoamalla aineistojen metatiedot avoimesti CC BY 4.0 -lisenssillä ja antamalla aineistoille pysyvät tunnisteet.

Data Stewards by The Turing Way Community, & Scriberia. CC BY 4.0

Nämä kaikki edistävät FAIR-periaatteiden toteutumista. Periaatteet edellyttävät myös metatiedon koneluettavuutta. Tietoarkiston aineistokuvailut ovatkin saatavissa myös ohjelmallisten rajapintojen kautta.

Hyödyntämällä arkistoitua aineistoa tutkimuksessaan tutkija voi luottaa siihen, että tutkimusaineisto on tiedeyhteisön saatavilla kattavasti dokumentoituna. Tutkija säästää aikaa ja vaivaa, ja voi keskittyä dokumentoimaan aineiston käsittelyyn, menetelmällisiin valintoihin ja tuloksiin liittyviä asioita.

Anonymisointi voi muodostua haasteeksi toistettavuudelle

Webinaarissa käsiteltiin toistettavuutta yleisesti ja hiukkasfysiikan tapausesimerkin kautta. Toistettavuuden periaate pätee kaikilla tieteenaloilla, mutta ihmistieteissä tunnisteellisten tutkimusaineistojen anonymisointi luo omat haasteensa aineiston jatkokäytölle ja tutkimuksen toistettavuudelle.

Sensitiivisestä ja tunnisteellisesta aineistosta on usein tarpeen karkeistaa tai poistaa suoria tai epäsuoria tunnisteita. Jatkokäyttöön tulevalla aineistolla ei välttämättä voi toteuttaa alkuperäisten tutkijoiden tekemiä analyysejä sellaisenaan.

Hyvin ja ajoissa suunniteltu aineistonhallinta auttaa tässäkin: kun tutkittavilta kerätyt henkilötiedot on minimoitu ja heitä on informoitu aineiston jatkokäytöstä, aineisto voidaan arkistoida mahdollisimman vähin muutoksin.

Ihanteellisessa tapauksessa tutkimusaineisto on avoimesti tiedeyhteisön saatavilla tulosten koettelemiseksi, mutta joskus aineistoa ei voi avata edes rajoitetusti. Syitä voivat olla esimerkiksi siihen sisältyvät tunnisteet, aineiston arkaluonteisuus, tai että aineisto sisältää liiketoiminnan kannalta salassa pidettävää sisältöä. FAIR-periaatteiden noudattaminen ei edellytäkään aineiston avointa saatavuutta, vaan itse aineisto voi olla rajoitettua tai jopa kokonaan salattua. Periaatteiden mukaista sen sijaan on, että rajoitetusta tai salatusta aineistosta on saatavissa metatietoa, joka kuvaa sen rakennetta, kohdetta, keruutapaa, sovellettuja menetelmiä ja malleja sekä hallinnointia tutkimusprojektin aikana.

Tutkimuksen ja aineistosta tehtyjen johtopäätösten läpinäkyvyyden kannalta on suositeltavaa avata aineistosta vähintään kattavat kuvailutiedot, kuin säilyttää kaikki tiedot muun tiedeyhteisön tai yhteiskunnan ulottumattomissa.

Lisätietoa:

» CSC:n webinaari 23.4.2021: Mitä tutkimuksen toistettavuus tarkoittaa?

» Aineistonhallinnan käsikirja

Data Stewards -kuva (2020, March 3). Illustrations from the Turing Way book dashes. Zenodo. http://doi.org/10.5281/zenodo.4323154

Henri Ala-Lahti
tietoasiantuntija

Tuomas J. Alaterä
erityisasiantuntija

etunimi.sukunimi [at] tuni.fi