18. helmikuuta 2022

Viittaa dataan - myös omaan dataasi!

Dataviittauksen tiekartan julkaisemisesta on kulunut jo muutama vuosi. Tavoitteena oli tehdä dataan viittaamisesta osa suomalaista julkaisukäytäntöä. Suosituksena oli ja on sekä ihmislukijalle että koneelle ymmärrettävien dataviittausten käyttäminen. Tutkimusaineistoihin viitataan kuitenkin edelleen hyvin vaihtelevasti ja usein ei ollenkaan.

Olen selaillut havaintoni todentamiseksi hyvin sattumanvaraisesti Tietoarkistolle keskeisten tieteenalojen lehtiä. En siis osaa sanoa, miten asia toteutuu jollakin muulla tieteenalalla enkä väitä, että kukaan ei koskaan viittaa. Joissakin tapauksissa tutkimusaineistoon viittaaminen on peräti esimerkillistä.

Tietoarkisto on jo pitkään ohjeistanut seikkaperäisesti, miten tutkimusaineistoon voi viitata tieteellisessä tekstissä. Malliviittaukset ovat olleet aina saatavilla aineiston kuvailutietojen osana. Vuosien saatossa olemme muuttaneet kielenkäyttöä asiakasystävälliseen suuntaan, ja viittausvaatimuksen rinnakkaisterminä on nykyisin käytössä malliviittaus. Käytettyyn aineistoon viittaaminen on silti yksi käyttöehto, johon asiakas sitoutuu ladatessaan aineiston. Malliviittaus on saatavilla aineiston lataussivulla ja tarkempaan viittausohjeeseen pääsee sen yhteyteen sijoitetusta linkistä.

Toinen havaintoni vaatisi enemmän selvittelyä, mutta mututuntumani on, että toisen tutkijan aineistoon viitataan (tavalla tai toisella) useimmiten. Sen sijaan omaan aineistoon viittaaminen ei ole yleinen käytäntö. Omaan dataan ei viitata välttämättä edes silloin, kun aineisto on jo Tietoarkistossa (tai jossain tallennuspalvelussa) ja viittaus olisi kohtuullisen helppo kopioida suoraan artikkelin lähteisiin. Tietoarkistoon tallennettuun aineistoon voi viitata myös silloin, kun sen arkistointiprosessi ei ole valmis. Toisin sanoen aineistolle voi saada pysyvän tunnisteen ja niin sanotun alustavan aineistonimen. Suunnitelmissamme on myös tekijöiden tutkijatunnisteiden (ORDIC) hyödyntäminen.

Tiivistetysti saat Tietoarkistosta seuraavat "viittauspalvelut":

14. helmikuuta 2022

Datarakkautta ilmassa ja tutkimusaineistojen jatkokäyttö huipussaan

Love Data -viikko1 on taas käsillä. Teemana tänään ystävänpäivänä alkavalla viikolla on ”data kuuluu kaikille!” (Data is for everyone). Meillä Tietoarkistossa huolehditaan tänne tallennetun tutkimusdatan saatavuudesta. Saatavuus-sana pitää sisällään sekä säilytyksen että datan löydettävyyden ja pääsyn siihen.

Kaikki aineisto ei ole kuitenkaan kokonaan kaikkien saatavilla. Käyttöehdot rajoittavat jatkokäyttäjien piiriä. Toisaalta Tietoarkiston julkaisemista aineistoista on avoimesti saatavilla niin paljon yksityiskohtaista kuvailutietoa, että ihan jokainen voi halutessaan saada hyvän käsityksen vaikkapa siitä, suhtautuvatko ihmiset epäilevästi kaikkiin uutisiin valeuutisten takia3. Asia selviää Kirkon tutkimuskeskuksen Suomalaisten henkinen kriisinkestävyys -aineiston muuttujakuvailusta, vaikka varsinaisen datan voi saada vain tutkimukseen, opetukseen tai opiskeluun.

Tietoarkiston aineistoluettelon noin 1700 aineistosta on vapaasti saatavilla 109 aineistoa. Nämä aineistot voi ladata rekisteröitymättä, ja niitä voi käyttää mihin tahansa haluamaansa lailliseen tarkoitukseen Creative Commons -lisenssillä . Lähde on silti mainittava ja merkittävä tehdyt muutokset. Aiemmin lataajilta pyydettiin tieto käyttötarkoituksesta ja sähköpostiosoite tilastointia varten. Creative Commons Nimeä 4.0 Kansainvälinen -lisenssiä3 aloimme käyttää vuoden 2020 joulukuussa.

Vapaasti käytettävien aineistojen määrä on alle kymmenesosa kaikista Tietoarkiston aineistoista, mutta niitä ladataan eniten. Kaksi kulunutta koronavuotta ovat olleet arkistoitujen aineistojen jatkokäytössä huiman kasvun aikaa. Vuoden 2021 kasvua vauhditti mainittu lisenssimuutos. Kyseisten aineistojen latausmäärä kasvoi yli tuhannella vuodessa. Aineistojen käyttötilastojen muutoksia on julkaistu Tietoarkiston tiedotteessa4. Kulunut tammikuu 2022 on jälleen kaikkien aikojen vilkkain tammikuu ainakin aineistojen latausten perusteella.

Vaikka data kuuluu kaikille ja suuret aineistojen latausmäärät ilahduttavat, Tietoarkisto on ensisijaisesti tutkimuksen tuki-infrastruktuuri. Aineistot ovat niin avoimia kuin ne voivat olla, ja rajoituksille on perusteet. Meidän on tavoiteltava paitsi suuria käyttäjämääriä, myös huolehdittava aineiston soveltuvuudesta tutkimustarkoituksiin. Tavoitteet eivät aina kohtaa, mutta datan sisältämä tieto kuuluu kaikille, olipa pääsy siihen avointa tai ei.

Iloista Love Data -viikkoa! Lataa dataa Ailasta!

Lisätietoa:

1 Join us for Love Data Week 2022! “Data is for everyone” starts February 14.
2 Kirkon tutkimuskeskus: Suomalaisten henkinen kriisinkestävyys II 2020 [sähköinen tietoaineisto]. Versio 1.0 (2021-09-14). Yhteiskuntatieteellinen tietoarkisto [jakaja]. http://urn.fi/urn:nbn:fi:fsd:T-FSD3509. Muuttuja [q3_3].
3 Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)
4 Aineistojen käyttö kasvoi huimasti myös toisena koronavuonna: latausten kärjessä avoimesti lisensoidut datat

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi