13. tammikuuta 2011

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät "yleisemmät teemat". Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa "Riding the wave. How Europe can gain from the rising tide of scientific data". Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan "täsmästandardin" käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi