sunnuntai 22. syyskuuta 2013

Ajattele puolestani, numero


Sanotaan, että tilastollinen lukutaito on tärkeä taito. Olen samaa mieltä. Tilastomatikkaa ei kuitenkaan yleisesti ottaen osata järin hyvin. Tavallinen tallaaja on tilastomatikasta usein autuaan tietämätön. Paha vain, että tavallisten tallaajien lisäksi autuaan tietämättömiä näyttävät olevan vähän muutkin kuin pelkällä peruskoulutuksella porskuttavat. Helsingin Sanomien eilisessä kolumnissa toimittaja (tai "päivästä riippuen" vaihtoehtoisesti myös tutkija) Tanja Aitamurto toi esiin avoimen datan hyötyjä:

"Muutin uuteen naapurustoon täällä San Franciscossa. Piti selvittää, mihin olisi turvallisinta pysäköidä auto: missä olisi vähiten ilkivaltaa ja pienin vaara, että Volkswagen Cabrioni varastetaan?
...
Tarkastelin myös San Franciscon kaupungin sähköisestä rikoskartasta, missä päin naapurustoani oli tapahtunut minkäkinlaisia rikoksia. Kun silmäilin rikoksia, tajusin, kuinka paljon niitä tapahtuukaan ihan vieressäni. Tieto ryöstöistä ja pahoinpitelyistä lähikulmilla ahdisti. .... Samalla olin kiitollinen kaupungille, joka oli julkaissut rikoskartan verkossa.
...
Tavoite on, että datasta on hyötyä kansalaiselle. Hyöty voi olla bussiaikataulupalvelu kännykässä tai sairaaloiden leikkaustietokanta .... Tuolla sivustolla on hurja havaita, kuinka suuria eroja esimerkiksi sydänleikkausten onnistumisessa on sairaaloittain. Ne, jotka pystyvät, voivat tiedon perusteella valita sairaalan leikkaustaan varten.
Juuri tällaista avoimesta datasta tuleva hyöty on. ... Tietoa, joka auttaa päättämään, mitä ehdokasta äänestää vaaleissa, kun on selannut kampanjarahoitusdataa."


Kolumnin luettuani olin lähestulkoon kauhuissani. Aitamurto ei tuonnut lainkaan esiin sitä, ettei datan käyttö ole kuin ohjekirjan lukua, vailla syvemmän tulkinnan häivääkään.  Olin pitänyt avointa dataa ilmiönä hyvänä asiana. Kuitenkin nyt jouduin huomaamaan, miten ilmiön, jota voisi hyödyntää mitä moninaisimmin tavoin, kohtalona saattakin olla tulla tilastollisen lukutaidottomuuden vuoksi täydellisen väärinkäytetyksi.

Kuka sen keräsi ja miksi?
Jos jonkun tarkoituksena on datan avulla pyrkiä osoittamaan, että paikka X on asuntosijoittajalle kannattava alue, on tarkoituksenmukaista määritellä rikos siten, että kyseinen alue saadaan näyttämään rikoksista puhtaalta. Jos naapurilähiössä on kioskeja, mutta alueella X ei, on syytä pitää mukana pienet kioskinäpistykset. Jos alueella X tehdään paljon pysäköintirikkeitä ja ajetaan usein päin punaisia, kannattaa nämä jättää pois määrittelystä. Datasta voi aina saada lähestulkoon haluamansa!
On siis ymmärrettävä, kuka sitä on kerännyt ja mihin tarkoitukseen.

Mikä oli otanta-asetelma, vastausprosentti ja millaista puuttuneisuus?
Alueen turvattomuudesta saa kovin erilaisen kuvan, jos sitä kysyy osallistujilta tapahtumassa "Koetko ympäristösi turvattomaksi? Tule juttelemaan!" sen sijaan, että asiasta kysyy satunnaisotannalla valitulta, aluetta tilastollisessa mielessä edustavalta ryhmältä. Edustavuus on datan A ja O. Jos kysytään vain "äänekkäiltä" tai niiltä, jotka jo valmiiksi edustavat tiettyä ryhmää aiheen suhteen, saadaan täysin harhaisia tuloksia (eli harhaista dataa). Turvattomaksi kokijat kertovat yhden tarinan. Toisenlainen tarina kuullaan kysyttäessä asiaa Facebook-ryhmältä "Suunnitteletko asuntosi myyntiä alueella X?".
Avoimen datan käyttäjän on siis ymmärrettävä jotakin otannasta ja edustavuudesta.

Oma ajattelu, kriitiinen lukutaito ja ilmiöiden ymmärtäminen?
Jos alueella X varastetaan paljon autoja, johtuuko se alueesta X, vai jostakin alueella X tapahtuvasta asiasta, joka muualta puuttuu? Kuvitellaan, että alueella X asuu varakasta väkeä. Heillä on enemmän ja kalliimpia autoja kuin naapurilähiöissä. Mitä miettii varas? Lähdenpä keikalle alueelle X. Niin alueen X autovarkaustilastot alkavat huonontua. Toimittaja lukee avointa dataa, kirjoittaa huomiostaan, ja kaikki alueen X autonomistajat ryhtyvät pysäköimään hienot menopelinsä alueelle B. Mitä miettii varas? Lähdenpä keikalle alueelle B. Siispä toimittaja (tai päivästä riippuen tutkija) Aitamurto, olihan niin että tilastollisen lukutaidon lisäksi sinullakin on myös kriittistä lukutaitoa ja kykyä ilmiöiden ymmärtämiseen?

Nimittäin toimittaja (tai päivästä riippuen tutkija) Aitamurto, jos valitset sairaalan sydänleikkauksellesi löydettyäsi avoimen datan avulla sairaalan, jossa on pienin kuolleisuus, voikin käydä köpelösti. Sillä tulitko ajatelleeksi, että jossakin lienee sairaala Z, jossa työskentelevät maailmamme parhaimmat sydänkirurgit. Heille, ja vain heille, lennätetään kriittisimmät tapaukset ympäri maailman. Ne tapaukset, jotka on jo kuolemaan tuomittu - joiden edessä toiset lääkärit ovat joutuneet antamaan periksi. Kaikissa muissa sairaaloissa näistä tapauksista selviäisi henkiin korkeintaan muutama sadasta. Sairaala Z:n superlääkärit ovat kuitenkin niin uskomattomia, että pelastavat sadasta kolmisenkymmentä. Viereisessä sairaala H:ssa sen sijaan hoidetaan tavallisia tapauksia, joiden henkiinjäämisennuste on normaalisti yli 80 prosenttia. Surkeasta hallinnosta, huonoista laitteista sekä riitaisasta työilmapiiristä sekä siitä johtuvasta heikosta henkilökunta-aineksesta johtuen sairaala H kuitenkin jättää henkiin vain kuutisenkymmentä tapausta sadasta. Toimittaja (tai päivästä riippuen tutkija) Aitamurto löytänee itsensä jälkimmäisestä.

Tähän saakka tilanteemme tilastomatematiikan osaamisen suhteen on ollut huolestuttava. Avoimen datan myötä siitä saattaa muodostua katastrofaalinen.

Tämän kirjoituksen tavoitteena on lisätä tietoisuutta siitä, kuinka varovaisia meidän tulee olla käyttäessämme numeroita maailmankuvamme muodostamisen sekä päätöksentekomme tukena. Lisäksi sen tavoitteena on havahduttaa huomaamaan, kuinka kriittistä on tilastotieteen osaaminen, ja kuinka juureva on tilastotieteen merkitys ajassamme.

12 kommenttia:

  1. Huolesi datalukutaidosta on aivan keskeinen ja tärkeä.

    "Olin pitänyt avointa dataa ilmiönä hyvänä asiana."

    Minä pidän edelleen, sillä lukutaitoa on melkoisen mahdoton oppia, jos ei ole mitään luettavaa. Kyllähän kirjapainon ja lukutaidon yleistymisen alkuaikoina oltiin vallan huolissaan siitä, miten kansan käy, kun saattavat saada käsiinsä ties millaista roskakirjallisuutta... no eipä asiassa olla satojen vuosien aikana paljoa edistytty, roskalehdistö myy ja viihdyttää edelleen ja jotkut uskovat kaiken, mitä on printattuna, mutta lukutaito ja jopa kriittinen lukeminen on kyllä yleistynyt ja tuonut valtaisia yhteiskunnallisia hyötyjä.

    Aikanaan julkisen datan opaskirjassa teimme seuraavanlaisen suosituksen:

    Julkinen data (Poikola, Kola, Hintikka 2010) s. 85 (suosituksia osio)

    15. Avoimen datan tuominen koulutukseen ja yleissivistykseen
    Avointa dataa tulisi hyödyntää opetuksessa harjoitusmateriaalina, ajankohtais-tamassa ilmiöiden nykytilaa ja konkretisoimassa asioiden mittasuhteita. Datanlähdekritiikkiä ja data-lukutaitoa voitaisiin opettaa esimerkiksi mediakasvatuk-sen yhteydessä. Järjestetään dataan liittyvää täydennyskoulutusta datan kanssatekemisissä oleville ammattiryhmille, kuten journalisteille.

    VastaaPoista
  2. Kiitos, Antti, hienosta vertauksesta!
    Mahtaakohan jo olla olemassa käsitettä roskadata? Kattamaan mielipidegallupit ja -indikaattorit, nettikyselyt sun muut.
    Mutta kyllä, olen samaa mieltä kanssasi siitä, että avoin data on joka tapauksessa hyvä asia varjopuolineenkin, ja myös väistämätöntä edistystä.

    Jäin miettimään, missä määrin suosituksenne ovat mahtaneet käydä toteen? Toivottavasti uuden Opsin laatijat ja muut suunnitelmia tekevät henkilöt muistavat ne!

    VastaaPoista
  3. FODEen vielä terveisiä: ei tämä minustakaan avoimen datan vika ole, enkä sen jemmaamista kannata. Datan tuottamisen ongelmat ovat sen verran monisyisiä (viitaan esimerkiksi Sami Laineen kommentissaan mainitsemaan rajapintaan), että asiantuntijallekin on haastavaa tehdä "oikeita" tulkintoja, sikäli kuin sellaisia filosofisessa mielessä edes on. Mutta tilastollista lukutaitoa tarvitaan perustasolla lisää, ja tämä kirjoitus toivon mukaan kiteytti hieman miksi.

    Kiinnostuneet lukekoot pidemmälle menevää keskustelua Facebookista ryhmästä Finnish Open Data Ecosystem.

    VastaaPoista
  4. Hieman kauhuissani kuulin erään toimittajan selittävän, että asiat selviävät nykyään luotettavammin kun dataa on paljon.

    Ei se määrä vaan se laatu. Datajournalismissakin

    VastaaPoista
  5. Mark Twain aikoinaan popularisoi sanonnan "Lies, damned lies, and statistics". Sanontaa varioi vuosi sitten ilmestynyt juttu "Lies, Damned Lies, and Open Data", jossa pohdiskellaan poliittisesti tarkoitushakuista datan käyttöä:

    http://www.slate.com/articles/technology/future_tense/2012/09/open_data_movement_how_to_keep_information_from_being_politicized_.html

    Aiemmin on puhuttu numerosokeudesta tai numerotaidottomuudesta (innumeracy), ehkä nyt tulisi kantaa huolta datasokeudesta.

    VastaaPoista
  6. Kirjoittaja on arvokkaalla asialla mutta sössii ensimmäisessä kappaleessa argumenttiaan. Voisitko nähdä sen verran vaivaa että kävisit katsomassa mistä nuo avoimet rikoskartat pruukaavat olemaan Amerikassa kotoisin. Poliisilta. Tinahattu päässäsi virittelet jo salaliittoteoriaa uhaten otantavirheillä yms. Joista et kuitenkaan todista yhtään olevan kyseisessä tilanteessa läsnä. Oletko itse saanut toimia tutkijana tuollaisella argumentaatiolla? Yksityiskohtia kiitos. Lopusta (siitä miten luvuista omaa toimintaa ohjaavia johtopäätöksiä pitäisi tehdä) olenkin sitten kanssasi samaa mieltä. Tuo lääkäriesimerkki on vanha klassikko, jota on syytäkin toistaa.

    VastaaPoista
  7. Lisäksi...sotket keskenään "tilastomatikan" ja tilastomatikalla aikaan saatujen tilastojen *tulkinnan*.

    VastaaPoista
  8. (huomauttaisin myös tässä vaiheessa että rikosten WGS-84 koordinaattien piirtäminen kartalle on mielestäni aika kaukana "tilastomatematiikasta", hot spot-*analyysi* yms. spatiaalinen tilastomatikka on oma osa-alueensa) (yleensäkin, datan graafinen esittäminen ei ole vielä kovin kummoista "analyysiä")

    VastaaPoista
  9. Tilastomatikka on siellä tilastollisen tulkitsemisen takana, siksipä puhun molemmista. Ja koska olen nähnyt varsin suoraviivaista "dataan luottoa" riittävästi, katsoin tarpeelliseksi nostaa siihen liittyvää problematiikkaa esiin.

    En tekstissä kritisoi enkä käsittele näitä nimenomaisia datoja, vaan sitä, että niiden tulkitsemiseen kehotettiin tuomatta esiin, mitä tulkitseminen edellyttää, eli miksi niihin voisi (tai ei voisi) luottaa. Esimerkit ovat siis kuvitteellisia. En kuitenkaan itse lähtisi siitä, että kun data on poliisilta, siihen ei voisi liittyä ongelmia.

    Tinahattua en ole vielä tullut hankkineeksi, mutta sellaisen hommattuani aion kyllä laittaa siihen sulan onnistuneesta salaliittoteoriasta! Mutta ehkä viittaat siihen, että data on yleensä kerätty johonkin tarkoitukseen, niinpä ennen kuin se on olemassa, on tehty varsin monta subjektiivista päätöstä. Virheet tai harhat tuskin useinkaan ovat tahallisia, mutta niitä kuitenkin kertyy jossakin mittakaavassa parhaaseenkin dataan.

    Tutkimusraportin kirjoittaminen poikkeaa hieman blogikirjoituksesta, ja mikäli tutkijana onnistun sähläämään dataan liittyen sillä saralla, ovat vertaisarvioijat ja kollegat onneksi tiukkana seulana apunani. En tosin itse kuvittele kenenkään, tutkijankaan, tuottavan absoluuttista faktaa, vaan ehdollisia, vaihtoehtoisia ja jossain määrin loogisia päättelyketjuja ja malleja.

    Argumentaatio voi vain parantua tullessaan koetelluksi. Kohti entistä ehompaa, puolin ja toisin!

    VastaaPoista
  10. Ugh, olet puhunut ja olet oikeassa. (Mutta älä luota niihin vertaisarvioijiinkaan, osa niistäkin on ajattelussaan laiskoja).

    Kiitos yhtäkaikki tärkeän aiheen käsittelystä...ja sinulla lie ammattisi ansiosta suuret mahdollisuudet myötävaikuttaa tuleviin sukupolviin asian osalta (matikan tunneilla).

    *On arvokasta että kiinnität omaa ja kouluväen (opettajat ja oppilaat) huomiota asiaan.* Kiitos.

    Tsemppiä tutkimustyöhön, toivottaa väitellyt vm. 2007. Ja terveiset Kaisallekin :P

    VastaaPoista
  11. No nyt pistit pahan! Kuka, kuka... ? Päivän puzzle! :D

    Ajattelussaan laiskoja on kaikkialla. Ja tulee aina olemaan. Siinä pohjimmainen syy, miksi koulun täytyy tukea ennen kaikkea itsenäistä ajattelua, ja lisäksi yhteistä asioiden arviointia ja käsittelyä, aihepiiristä viis.

    VastaaPoista
  12. Datasokeuden taustatekijöistä

    http://peruskoulupesula.blogspot.fi/2013/10/ei-oo-muistikuvaa.html

    VastaaPoista

Huomaa: vain tämän blogin jäsen voi lisätä kommentin.