Sanotaan, että tilastollinen lukutaito on tärkeä taito. Olen samaa mieltä. Tilastomatikkaa ei kuitenkaan yleisesti ottaen osata järin hyvin. Tavallinen tallaaja on tilastomatikasta usein autuaan tietämätön. Paha vain, että tavallisten tallaajien lisäksi autuaan tietämättömiä näyttävät olevan vähän muutkin kuin pelkällä peruskoulutuksella porskuttavat. Helsingin Sanomien eilisessä kolumnissa toimittaja (tai "päivästä riippuen" vaihtoehtoisesti myös tutkija) Tanja Aitamurto toi esiin avoimen datan hyötyjä:
"Muutin uuteen naapurustoon täällä San Franciscossa. Piti selvittää, mihin olisi turvallisinta pysäköidä auto: missä olisi vähiten ilkivaltaa ja pienin vaara, että Volkswagen Cabrioni varastetaan?
...
Tarkastelin myös San Franciscon kaupungin sähköisestä rikoskartasta, missä päin naapurustoani oli tapahtunut minkäkinlaisia rikoksia. Kun silmäilin rikoksia, tajusin, kuinka paljon niitä tapahtuukaan ihan vieressäni. Tieto ryöstöistä ja pahoinpitelyistä lähikulmilla ahdisti. .... Samalla olin kiitollinen kaupungille, joka oli julkaissut rikoskartan verkossa.
...
Tavoite on, että datasta on hyötyä kansalaiselle. Hyöty voi olla bussiaikataulupalvelu kännykässä tai sairaaloiden leikkaustietokanta .... Tuolla sivustolla on hurja havaita, kuinka suuria eroja esimerkiksi sydänleikkausten onnistumisessa on sairaaloittain. Ne, jotka pystyvät, voivat tiedon perusteella valita sairaalan leikkaustaan varten.
Juuri tällaista avoimesta datasta tuleva hyöty on. ... Tietoa, joka auttaa päättämään, mitä ehdokasta äänestää vaaleissa, kun on selannut kampanjarahoitusdataa."
Kolumnin
luettuani olin lähestulkoon kauhuissani. Aitamurto ei tuonnut lainkaan esiin sitä, ettei datan käyttö ole kuin ohjekirjan lukua, vailla syvemmän tulkinnan häivääkään. Olin pitänyt avointa dataa ilmiönä
hyvänä asiana. Kuitenkin nyt jouduin huomaamaan, miten ilmiön, jota voisi
hyödyntää mitä moninaisimmin tavoin, kohtalona saattakin olla tulla
tilastollisen lukutaidottomuuden vuoksi täydellisen väärinkäytetyksi.
Kuka sen keräsi ja miksi?
Jos jonkun tarkoituksena on datan avulla
pyrkiä osoittamaan, että paikka X on asuntosijoittajalle kannattava alue, on tarkoituksenmukaista määritellä rikos siten, että kyseinen
alue saadaan näyttämään rikoksista puhtaalta. Jos naapurilähiössä on kioskeja,
mutta alueella X ei, on syytä pitää mukana pienet kioskinäpistykset. Jos
alueella X tehdään paljon pysäköintirikkeitä ja ajetaan usein päin punaisia,
kannattaa nämä jättää pois määrittelystä. Datasta voi aina saada lähestulkoon
haluamansa!
On siis ymmärrettävä, kuka sitä on kerännyt ja mihin tarkoitukseen.
Mikä oli otanta-asetelma,
vastausprosentti ja millaista puuttuneisuus?
Alueen turvattomuudesta saa kovin
erilaisen kuvan, jos sitä kysyy osallistujilta tapahtumassa "Koetko
ympäristösi turvattomaksi? Tule juttelemaan!" sen sijaan, että asiasta
kysyy satunnaisotannalla valitulta, aluetta tilastollisessa mielessä
edustavalta ryhmältä. Edustavuus on datan A ja O. Jos kysytään vain
"äänekkäiltä" tai niiltä, jotka jo valmiiksi edustavat tiettyä ryhmää
aiheen suhteen, saadaan täysin harhaisia tuloksia (eli harhaista dataa).
Turvattomaksi kokijat kertovat yhden tarinan. Toisenlainen tarina kuullaan
kysyttäessä asiaa Facebook-ryhmältä "Suunnitteletko asuntosi myyntiä
alueella X?".
Avoimen datan käyttäjän on siis ymmärrettävä jotakin otannasta ja
edustavuudesta.
Oma ajattelu, kriitiinen
lukutaito ja ilmiöiden ymmärtäminen?
Jos alueella X varastetaan paljon
autoja, johtuuko se alueesta X, vai jostakin alueella X tapahtuvasta asiasta, joka
muualta puuttuu? Kuvitellaan, että alueella X asuu varakasta väkeä. Heillä on
enemmän ja kalliimpia autoja kuin naapurilähiöissä. Mitä miettii varas? Lähdenpä keikalle alueelle X. Niin
alueen X autovarkaustilastot alkavat huonontua. Toimittaja lukee avointa dataa,
kirjoittaa huomiostaan, ja kaikki alueen X autonomistajat ryhtyvät pysäköimään
hienot menopelinsä alueelle B. Mitä miettii varas? Lähdenpä keikalle alueelle B. Siispä toimittaja (tai päivästä
riippuen tutkija) Aitamurto, olihan niin
että tilastollisen lukutaidon lisäksi sinullakin on myös kriittistä lukutaitoa
ja kykyä ilmiöiden ymmärtämiseen?
Nimittäin toimittaja (tai
päivästä riippuen tutkija) Aitamurto, jos valitset sairaalan
sydänleikkauksellesi löydettyäsi avoimen datan avulla sairaalan, jossa on
pienin kuolleisuus, voikin käydä köpelösti. Sillä tulitko ajatelleeksi, että
jossakin lienee sairaala Z, jossa työskentelevät maailmamme parhaimmat
sydänkirurgit. Heille, ja vain heille, lennätetään kriittisimmät tapaukset
ympäri maailman. Ne tapaukset, jotka on jo kuolemaan tuomittu - joiden edessä
toiset lääkärit ovat joutuneet antamaan periksi. Kaikissa muissa sairaaloissa
näistä tapauksista selviäisi henkiin korkeintaan muutama sadasta. Sairaala Z:n
superlääkärit ovat kuitenkin niin uskomattomia, että pelastavat sadasta
kolmisenkymmentä. Viereisessä sairaala H:ssa sen sijaan hoidetaan tavallisia
tapauksia, joiden henkiinjäämisennuste on normaalisti yli 80 prosenttia.
Surkeasta hallinnosta, huonoista laitteista sekä riitaisasta työilmapiiristä sekä
siitä johtuvasta heikosta henkilökunta-aineksesta johtuen sairaala H kuitenkin
jättää henkiin vain kuutisenkymmentä tapausta sadasta. Toimittaja (tai päivästä
riippuen tutkija) Aitamurto löytänee itsensä jälkimmäisestä.
Tähän saakka tilanteemme tilastomatematiikan osaamisen suhteen on ollut huolestuttava. Avoimen datan myötä siitä saattaa muodostua katastrofaalinen.
Tämän kirjoituksen tavoitteena on lisätä tietoisuutta siitä, kuinka
varovaisia meidän tulee olla käyttäessämme numeroita maailmankuvamme
muodostamisen sekä päätöksentekomme tukena. Lisäksi sen tavoitteena on
havahduttaa huomaamaan, kuinka kriittistä on tilastotieteen osaaminen, ja
kuinka juureva on tilastotieteen merkitys ajassamme.
Huolesi datalukutaidosta on aivan keskeinen ja tärkeä.
VastaaPoista"Olin pitänyt avointa dataa ilmiönä hyvänä asiana."
Minä pidän edelleen, sillä lukutaitoa on melkoisen mahdoton oppia, jos ei ole mitään luettavaa. Kyllähän kirjapainon ja lukutaidon yleistymisen alkuaikoina oltiin vallan huolissaan siitä, miten kansan käy, kun saattavat saada käsiinsä ties millaista roskakirjallisuutta... no eipä asiassa olla satojen vuosien aikana paljoa edistytty, roskalehdistö myy ja viihdyttää edelleen ja jotkut uskovat kaiken, mitä on printattuna, mutta lukutaito ja jopa kriittinen lukeminen on kyllä yleistynyt ja tuonut valtaisia yhteiskunnallisia hyötyjä.
Aikanaan julkisen datan opaskirjassa teimme seuraavanlaisen suosituksen:
Julkinen data (Poikola, Kola, Hintikka 2010) s. 85 (suosituksia osio)
15. Avoimen datan tuominen koulutukseen ja yleissivistykseen
Avointa dataa tulisi hyödyntää opetuksessa harjoitusmateriaalina, ajankohtais-tamassa ilmiöiden nykytilaa ja konkretisoimassa asioiden mittasuhteita. Datanlähdekritiikkiä ja data-lukutaitoa voitaisiin opettaa esimerkiksi mediakasvatuk-sen yhteydessä. Järjestetään dataan liittyvää täydennyskoulutusta datan kanssatekemisissä oleville ammattiryhmille, kuten journalisteille.
Kiitos, Antti, hienosta vertauksesta!
VastaaPoistaMahtaakohan jo olla olemassa käsitettä roskadata? Kattamaan mielipidegallupit ja -indikaattorit, nettikyselyt sun muut.
Mutta kyllä, olen samaa mieltä kanssasi siitä, että avoin data on joka tapauksessa hyvä asia varjopuolineenkin, ja myös väistämätöntä edistystä.
Jäin miettimään, missä määrin suosituksenne ovat mahtaneet käydä toteen? Toivottavasti uuden Opsin laatijat ja muut suunnitelmia tekevät henkilöt muistavat ne!
FODEen vielä terveisiä: ei tämä minustakaan avoimen datan vika ole, enkä sen jemmaamista kannata. Datan tuottamisen ongelmat ovat sen verran monisyisiä (viitaan esimerkiksi Sami Laineen kommentissaan mainitsemaan rajapintaan), että asiantuntijallekin on haastavaa tehdä "oikeita" tulkintoja, sikäli kuin sellaisia filosofisessa mielessä edes on. Mutta tilastollista lukutaitoa tarvitaan perustasolla lisää, ja tämä kirjoitus toivon mukaan kiteytti hieman miksi.
VastaaPoistaKiinnostuneet lukekoot pidemmälle menevää keskustelua Facebookista ryhmästä Finnish Open Data Ecosystem.
Hieman kauhuissani kuulin erään toimittajan selittävän, että asiat selviävät nykyään luotettavammin kun dataa on paljon.
VastaaPoistaEi se määrä vaan se laatu. Datajournalismissakin
Mark Twain aikoinaan popularisoi sanonnan "Lies, damned lies, and statistics". Sanontaa varioi vuosi sitten ilmestynyt juttu "Lies, Damned Lies, and Open Data", jossa pohdiskellaan poliittisesti tarkoitushakuista datan käyttöä:
VastaaPoistahttp://www.slate.com/articles/technology/future_tense/2012/09/open_data_movement_how_to_keep_information_from_being_politicized_.html
Aiemmin on puhuttu numerosokeudesta tai numerotaidottomuudesta (innumeracy), ehkä nyt tulisi kantaa huolta datasokeudesta.
Kirjoittaja on arvokkaalla asialla mutta sössii ensimmäisessä kappaleessa argumenttiaan. Voisitko nähdä sen verran vaivaa että kävisit katsomassa mistä nuo avoimet rikoskartat pruukaavat olemaan Amerikassa kotoisin. Poliisilta. Tinahattu päässäsi virittelet jo salaliittoteoriaa uhaten otantavirheillä yms. Joista et kuitenkaan todista yhtään olevan kyseisessä tilanteessa läsnä. Oletko itse saanut toimia tutkijana tuollaisella argumentaatiolla? Yksityiskohtia kiitos. Lopusta (siitä miten luvuista omaa toimintaa ohjaavia johtopäätöksiä pitäisi tehdä) olenkin sitten kanssasi samaa mieltä. Tuo lääkäriesimerkki on vanha klassikko, jota on syytäkin toistaa.
VastaaPoistaLisäksi...sotket keskenään "tilastomatikan" ja tilastomatikalla aikaan saatujen tilastojen *tulkinnan*.
VastaaPoista(huomauttaisin myös tässä vaiheessa että rikosten WGS-84 koordinaattien piirtäminen kartalle on mielestäni aika kaukana "tilastomatematiikasta", hot spot-*analyysi* yms. spatiaalinen tilastomatikka on oma osa-alueensa) (yleensäkin, datan graafinen esittäminen ei ole vielä kovin kummoista "analyysiä")
VastaaPoistaTilastomatikka on siellä tilastollisen tulkitsemisen takana, siksipä puhun molemmista. Ja koska olen nähnyt varsin suoraviivaista "dataan luottoa" riittävästi, katsoin tarpeelliseksi nostaa siihen liittyvää problematiikkaa esiin.
VastaaPoistaEn tekstissä kritisoi enkä käsittele näitä nimenomaisia datoja, vaan sitä, että niiden tulkitsemiseen kehotettiin tuomatta esiin, mitä tulkitseminen edellyttää, eli miksi niihin voisi (tai ei voisi) luottaa. Esimerkit ovat siis kuvitteellisia. En kuitenkaan itse lähtisi siitä, että kun data on poliisilta, siihen ei voisi liittyä ongelmia.
Tinahattua en ole vielä tullut hankkineeksi, mutta sellaisen hommattuani aion kyllä laittaa siihen sulan onnistuneesta salaliittoteoriasta! Mutta ehkä viittaat siihen, että data on yleensä kerätty johonkin tarkoitukseen, niinpä ennen kuin se on olemassa, on tehty varsin monta subjektiivista päätöstä. Virheet tai harhat tuskin useinkaan ovat tahallisia, mutta niitä kuitenkin kertyy jossakin mittakaavassa parhaaseenkin dataan.
Tutkimusraportin kirjoittaminen poikkeaa hieman blogikirjoituksesta, ja mikäli tutkijana onnistun sähläämään dataan liittyen sillä saralla, ovat vertaisarvioijat ja kollegat onneksi tiukkana seulana apunani. En tosin itse kuvittele kenenkään, tutkijankaan, tuottavan absoluuttista faktaa, vaan ehdollisia, vaihtoehtoisia ja jossain määrin loogisia päättelyketjuja ja malleja.
Argumentaatio voi vain parantua tullessaan koetelluksi. Kohti entistä ehompaa, puolin ja toisin!
Ugh, olet puhunut ja olet oikeassa. (Mutta älä luota niihin vertaisarvioijiinkaan, osa niistäkin on ajattelussaan laiskoja).
VastaaPoistaKiitos yhtäkaikki tärkeän aiheen käsittelystä...ja sinulla lie ammattisi ansiosta suuret mahdollisuudet myötävaikuttaa tuleviin sukupolviin asian osalta (matikan tunneilla).
*On arvokasta että kiinnität omaa ja kouluväen (opettajat ja oppilaat) huomiota asiaan.* Kiitos.
Tsemppiä tutkimustyöhön, toivottaa väitellyt vm. 2007. Ja terveiset Kaisallekin :P
No nyt pistit pahan! Kuka, kuka... ? Päivän puzzle! :D
VastaaPoistaAjattelussaan laiskoja on kaikkialla. Ja tulee aina olemaan. Siinä pohjimmainen syy, miksi koulun täytyy tukea ennen kaikkea itsenäistä ajattelua, ja lisäksi yhteistä asioiden arviointia ja käsittelyä, aihepiiristä viis.
Datasokeuden taustatekijöistä
VastaaPoistahttp://peruskoulupesula.blogspot.fi/2013/10/ei-oo-muistikuvaa.html