11. joulukuuta 2012

Saitko viestin tietoarkiston aineistonhankkijoilta?

Saitko tietoarkistosta sähköpostia, jolla suostuttelemme sinua arkistoimaan aineistosi? Tietoarkistosta on lähtenyt tänä vuonna yli 250 samansisältöistä viestiä tutkijoille, joilla saattaa olla arkistoitavaa arvokasta tutkimusaineistoa. Mitään spämmiä viestit eivät ole, vaikka yhdenmukainen sisältö saattaa sen vaikutelman antaa – niille jotka ovat saaneet jo useamman hankintakirjeen. Käymme läpi kaikki tietokannassamme niin sanotulla hankintalistalla olevat aineistot muutaman kerran vuodessa ja lähetämme viestit massapostituksena arviomme mukaan hankittaviksi soveltuvista aineistoista.

Vastauksia saamme vaihtelevasti. Jotkut ottavat viestin vakavasti, toiset luultavasti deletoivat pyynnön asiaa paljon miettimättä. Hankinnan massaposteja on lähetetty tietoarkistosta noin viisi vuotta. Jotakin muutosta tuntuu reaktioissa tapahtuneen. Aiempaa useammin vastaus on myönteinen. Tutkija kysyy vain, miten edetään. Yhä useammin vastaus on jotakin seuraavanlaista: "Teette hienoa työtä ja tutkimusaineistojen arkistointi on tärkeää, mutta valitettavasti en voi antaa aineistoani arkistoon, koska olen aiheen arkaluontoisuuden vuoksi luvannut tutkittavilleni, että aineistoa ei käytetä muuhun tarkoitukseen." Jotkut pitävät arkistointia suorastaan arveluttavana.

Joskus jaksan ymmärtää, toisinaan ihmettelen. Pari kummallisinta arkaluonteista aineistoa, joita emme saaneet arkistoon ovat – aiheita hieman karkeistaen – erään lemmikkieläimen omistajien haastattelujen litteraatiot ja erään niin sanotun tosi-TV-sarjan osallistujien haastattelujen litteraatiot. Mitä tulenarkaa on eläimen omistamisessa? Mitä tosi-TV-sarjan osallistujat ovat jättäneet paljastamatta? Jännittävää! Jäänee ikuiseksi arvoitukseksi.

Onneksi nykyään saamme arkistoon sensitiivisiäkin tietoja sisältäviä aineistoja ja aineistoja, joita kerätessään tutkijat eivät ole tulleet ajatelleeksi, että joku muu voisi hyötyä aineistosta. Tutkijat luottavat siihen, että aineisto pysyy tallessa ja käyttökunnossa tietoarkistossa ja että tutkittavien tietoja käsitellään samojen tutkimuseettisten periaatteiden mukaisesti kuin alkuperäistutkimuksessakin.

Varovaisen positiivisen muutoksen taustalla lienee Suomen Akatemian ja muiden rahoittajien lisääntynyt kiinnostus rahoittamiensa hankkeiden aineistoja kohtaan. Rahoittajat ovat alkaneet vaatia aineistonhallintasuunnitelmia rahoituksen hakijoilta useissa muissakin maissa, ei pelkästään Suomessa. Samoin toimii myös Ruotsin Vetenskapsrådet.

Tietoarkistoissa muutokset ovat kasvattaneet tietopalvelun työmäärää – mikä on myönteistä. Mitä useammalle tutkijalle saamme kertoa, miten tutkimusdata tulee kerätä ja käsitellä ja miten tutkittaville pitää kertoa aineiston käyttötarkoituksesta, sitä useampi arvokas aineisto tulee (vähän) helpommin arkistoon, kun hanke päättyy. Mielellämme korostamme, että aineiston arkistoiminen on myös yksi tieteellinen meriitti muiden joukossa.

Uusimman Tietoarkisto-lehden teema on terveyden tutkimuksen aineistot. Lehdestä voit lukea muutamia esimerkkejä arkistoiduista aineistoista, jotka sisältävät sensitiivistä tietoa. Juuri siksi ne on kannattanut arkistoida.

Helena Laaksonen
informaatikko
etunimi.sukunimi@uta.fi

14. syyskuuta 2012

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi - vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

23. huhtikuuta 2012

Kannatusmittauksia moneen junaan

Olin hiljattain muutaman kuukauden projektitehtävissä toimittaakseni kokoomateoksen viime eduskuntavaaleista. Muutosvaalit 2011 -teoksen kirjoitti 18 politiikan ja viestinnän tutkijaa ja hankkeen rahoitti oikeusministeriö. Tutkimuksen pääaineistona oli Taloustutkimuksen heti eduskuntavaalien jälkeen kokoama käyntikysely. Aineisto on nyt tallennettu tietoarkistoon, josta se on saatavissa maksutta jatkokäyttöön tutkimukseen, opetukseen ja opiskeluun.

En nyt esittele tätä tutkimusta mutta pysyn eduskuntavaaliteemassa. Avaan ja arvioin hieman niihin liittyvää kannatusmittaustoimintaa. Ennen vaaleja vaalitulosta ja valitsijoiden äänestyskäyttäytymistä ennakoivat erityisesti viestimet ja puolueet. Puolueet tilaavat äänestysaikomusmittauksia kampanjasuunnittelun tueksi. Tällaiset gallupit ovat pääsääntöisesti salaisia, eikä niiden ennustearvoa tai muuta laatua ole siksi mahdollista arvioida.

Viestinten teettämät julkiset puoluekannatusmittaukset tarjoavat puolestaan valitsijoille, puolueille ja ehdokkaille tietoa siitä, mitä kansalaiset puolueista ajattelevat ja miten he aikovat äänestää. Moniin muihin kyselytutkimusaiheisiin verrattuna puoluekannatusmittaukset ovat sikäli kiinnostavia, että niiden tietoja voidaan verrata sekä menneiden että tulevien vaalien tuloksiin. Tavallisesti kyselytutkimuksissa ei nimittäin ole mahdollista verrata käyttäytymisaikomuksia ja mielipiteitä todelliseen käyttäytymiseen.

Tietoja menneiden vaalien äänestyskäyttäytymisestä käytetäänkin vakiintuneesti tarkentamaan arvioita tulevien vaalien tuloksesta ja mittaushetken puoluekannatuksesta. Näitä menettelyjä selostetaan esimerkiksi YLE Uutisten puoluekannatusmittarissa. Käytännössä nämä menettelyt lisäävät mittausten osumatarkkuutta siten, että puolueiden eduskuntavaalivaalikannatus on yleensä kyetty ennakoimaan yhdestä kahteen prosenttiyksikön tarkkuudella suuntaan tai toiseen.

Viime eduskuntavaalit olivat tosin poikkeus. Viimeksi julkistetut valtakunnalliset mittaukset eivät päässeet kiinni kampanjan parin viime viikon aikana tapahtuneisiin muutoksiin. Esimerkiksi Taloustutkimuksen viimeisin valtakunnallinen mittaus yliarvioi keskustan ääniosuuden kolmella ja aliarvioi perussuomalaisten ääniosuuden lähes neljällä prosenttiyksiköllä. Kannattaa muuten lukea Pertti Suhosen artikkeli Muutosvaalit 2011 -kirjasta. Siinä hän analysoi kiinnostavasti puoluekannatusmittauksia ja niiden metodiikkaa sekä muita viime eduskuntavaalien alla julkaistuja mielipidetutkimuksia.

Kirjoitin itse viime vuoden lopulla tiiviin analyysin viime eduskuntavaalien vaalipiirikohtaisista kannatusmittauksista. Se julkaistiin Matti Wibergin toimittamassa Populismi – Kriittinen arvio -kirjassa (Edita). Puoluekannatuksen osumatarkkuuden osalta vaalipiirikohtaiset mittaukset olivat suurin piirtein yhtä onnistuneita tai epäonnistuneita kuin valtakunnalliset mittaukset. Joukkoon mahtui tosin joitakin pahasti pieleen menneitä arvioita.

Muutamissa vaalipiirikohtaisissa mittauksissa yritettiin myös aprikoida kyselytiedoin läpimenevien ehdokkaiden nimiä. Tämä on mielestäni täysin turhaa puuhastelua, koska niin monet valitsijat päättävät ehdokkaastaan hyvin myöhään ja useat äänestäjät eivät halua kertoa ehdokkaansa nimeä vaalisalaisuuden säilymisen vuoksi.

Vaalipiirikohtainen puoluekannatusarviointi kyllä toimii, kunhan pohjana käytetään kunnollisia otoksia, kuten nyt pääosin nähtiin. Sen sijaan kansanedustajien nimien ennakointi huterien ja epäedustavien tietojen perusteella on edesvastuutonta ja loukkaa pahimmillaan räikeästi kampanjoivien ehdokkaiden tasavertaisuutta.

Toisen esimerkin erittäin heikkolaatuisesta kyselyennakoinnista tarjoavat ovensuukyselyt, joita jotkin maakuntalehdet toteuttivat viime eduskuntavaaleissakin joillakin ennakkoäänestyspaikoilla. Ensimmäisten ennakkoäänestyspäivien äänestäjäkunta on millä tahansa äänestyspaikalla erittäin epäedustava otos koko arvioitavasta äänestäjäkunnasta, koska esimerkiksi iäkkäimmät äänioikeutetut käyttävät vaaleissa hanakasti mahdollisuutta äänestää ennakkoon. Lisäksi monet juuri äänestäneet eivät halua kertoa äänestämäänsä puoluetta äänestyspaikkojen liepeillä, jolloin kantansa salanneiden osuus kasvaa. Tämäkin heikentää merkittävästi ovensuukyselyiden luotettavuutta.

Onneksi Suomessa ei tarvitse käyttää ovensuukyselyjä vaali-iltojen tuloslähetyksissä, kuten useissa maissa tehdään. Meillä niin moni käy äänestämässä ennakkoon, että vaalihuoneistojen sulkeutumisen jälkeen heti julkistettavat ennakkoäänitulokset riittävät tyydyttämään tiedonnälän. Ennakkoäänet eivät tosin yleensä ennakoi puolueiden lopullista ääniosuutta paljonkaan tarkemmin kuin viimeiset valtakunnalliset gallupit, mutta ovat ne kuitenkin oikeita laskettuja ääniä.

Palataanpa lopuksi Muutosvaalit-tutkimukseen. Kun Taloustutkimus haastatteli vaalien jälkeen noin 1300 satunnaisesti valittua äänioikeutettua, tiedot vuoden 2011 vaaleissa äänestetystä eivät olleet osumatarkkuudeltaan sen parempia kuin vaaleja edeltäneet mittaukset. Vaalien jälkeen aineistolle on kuitenkin mahdollista laskea painokerroin, joka painottaa eri puolueiden äänestäjien määrät vaalitulosta vastaavaksi dataa analysoitaessa. Näin on mahdollista tarkastella melko luotettavasti ja vaalitulostietoja monin verroin monipuolisemmin sitä, miten eri väestöryhmät äänestävät ja millaisia syitä he valinnoilleen antavat.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

9. helmikuuta 2012

Teekkarin näkemys aineistojen luokittelusta


Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.



Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin "datalla" viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi