Datan jäljillä 2: Avoimen datan merkitys ja hyödyt
Datan jäljillä -podcast-sarjan toisen jakson aiheena on avoin data, sen merkitys ja hyödyt. Tässä jaksossa keskustelemassa ovat projektisuunnittelija Anna Eskola ja projektiasiantuntija Laura Mattila Metropolia Ammattikorkeakoulusta sekä johtava asiantuntija Tarmo Toikkanen Suomen itsenäisyyden juhlarahasto Sitrasta.
Podcastissa vinkatut lisämateriaalit:
Datan jäljillä -podcast-sarja toteutetaan osana Metropolian data-agenttitoimintaa, jonka tarkoituksena on kannustaa hyvään aineistonhallintaan ja edistää aineistojen avoimuutta.
Tallenteen kesto: 23:05 min
Käsikirjoitus: Anna Eskola, Laura Mattila ja Hanna Repo Jamal, Metropolia Ammattikorkeakoulu
Podcast tiedostona: Lataa omalle laitteellesi (21.1MB)
MetroPodian RSS-syöte: RSS
[musiikkia]
Laura Mattila: Hei ja tervetuloa kuuntelemaan Datan jäljillä -podcast-sarjaa, joka toteutetaan osana Metropolian data-agenttitoimintaa. Tämän toiminnan tarkoituksena on kannustaa hyvään aineistonhallintaan ja edistää aineistojen avoimuutta. Tässä jaksossa me keskustellaan avoimesta datasta, sen merkityksestä ja hyödyistä. Minä olen Laura Mattila. Työskentelen projektiasiantuntijana Metropolia Ammattikorkeakoulussa ja toimin myös data-agenttina. Tänään on keskustelemassa myös Anna Eskola Metropoliasta. Anna kertoisitko vähän itsestäsi?
Anna Eskola: Kiitoksia. Tosiaan minun nimi on Anna Eskola ja työskentelen Metropoliassa projektisuunnittelijana TKI-hankkeissa. Siinä sivussa, kuten Laurakin, toimin data-agenttina. Ja me kaikki Metropolian data-agentit ollaan käyty läpi koulutus, jossa on pureuduttu hyvään aineistonhallintaan ja aineistojen avoimuuteen. Mutta koska me ajateltiin, että on hyvä, sukeltaa vielä vähän syvemmälle näihin teemoihin, niin tähän Datan jäljillä -podcastiin me ollaan kutsuttu joukko vieraita juttelemaan kanssamme näistä teemoista. Ja tällä kertaa meillä on vieraana Tarmo Toikkanen. Tarmo, haluaisitko kertoa hieman, kuka olet, mistä tulet ja mikä on sinun suhteesi avoimeen dataan?
Tarmo Toikkanen: Joo, mielelläni tosi kiva olla täällä teidän podcastissa mukana. Tosiaan Tarmo Toikkanen, tällä hetkellä olen Sitrassa johtavana asiantuntijana ja siellä ratkomassa reilun datatalouden osaamishaastetta oikeastaan, että millä tavalla Suomessa tulisi ymmärtää datatalous ja sen mahdollisuudet ja hyödyntää dataa liiketoiminnassa, julkisessa päätöksenteossa, ehkä sote-uudistuksessakin voisi dataa hyödyntää. Mutta sen lisäksi tosiaan olen myöskin Creative Commons Suomen vetäjä. Eli Creative Commons on se avoin lisenssi, jolla avointa dataa tehdään eli sen parissa 15 vuotta ainakin puuhaillut. Myöskin tekijänoikeuksiin perehtynyt enemmän kuin enemmän kuin laki sallii ja toiminut aika paljon opettajakouluttajana, myöskin metropolialaisia kouluttanut useampaan kertaan näissä tekijänoikeusasioissa. Ja no niin ehkä nyt mainitaan sekin, että tässähän on rinnalla jo muutaman vuoden ajan Suomessa syntynyt avoimen tieteen ja tutkimuksen strategia ja erinäköisiä suosituksia. Olen siinä työssä ollut mukana useissa työryhmissä eli tarkistanut, että siinä siellä sitten lisenssiasiat menevät oikein. Ja siellähän just tulee sellaisia suosituksia, jotka ihan suoraan vaikuttavat siihen, että miten Metropoliassakin tulisi suhtautua tietoon, sisältöihin, oppimateriaaleihin ja dataan ja opetuskäytäntöihin.
Anna Eskola: Aloitetaanko ihan pienellä sellaisella määrittelevällä kysymyksellä: Mitä avoin data itse asiassa on ja mitä se ei ole?
Tarmo Toikkanen: Data on helppo sana, että sitten sitä silleen voi viljellä, mutta että datahan tarkoittaa käytännössä tietoaineistoja. Eli voi ajatella excel-taulukoita tai tietokantoja, tilastoja… Oikeastaan mitä tahansa tällaista jollain tavalla tietoa, jota voidaan sitten tietokoneella kivasti murskata ja analysoida. Että sitten jos puhutaan vaikka oppimateriaaleista, niin sitten me puhuttaisiin avoimesta tiedosta ja avoimista materiaaleista. Mutta kun me puhutaan datasta, niin silloin se käytännössä on tällaista numeerista dataa, jota sitten jollain tavalla koneella pystytään käsittelemään.
Ja datasta tulee avointa siten, että siihen laitetaan avoin käyttölisenssi eli nyt tässäkin hyvä huomata tämä, mitä varmaan on moneen kertaan ja muistutettu, että se että dataa tai aineistoa julkaistaan jossain vaikka internetissä, niin silloin se on julkista. Monesti me sanotaan, että nythän se on avoimesti, mutta ei se on vasta julkista ja tekijänoikeudet pätee ja sitä saa vaan lähinnä yksityishenkilöt katsella. Mutta että avoimuus tarkoittaa sitä, että sitä dataa saa muut tahot saa sitten kopioida, saa muokata, saa jalostaa, saa jatkojulkaista. Ja se ei onnistu ilman, että siihen annetaan lupa ja se lupa tehdään sitten tyypillisesti avoimella lisenssillä.
Laura Mattila: Nyt me puhuttiin yleisesti datasta, niin miten ehkä näkisit sen… Mainitsit tuossa esittelyssä datatalouden, niin voisitko vähän avata tätä datatalouden käsitettä. Mitä sillä tarkoitetaan ja miten avoin data kytkeytyy siihen?
Tarmo Toikkanen: Joo erinomainen kysymys. Datatalous on ihan sillä tavalla uutta juttua, että tulee mieleen, että kun nyt Sitrassa olen hommissa, niin silloin joskus 5-6 vuotta sitten kiertotalous oli ihan uusi ja ihmeellinen juttu ja silloin tehtiin aika paljon Sitrassa töitä siihen, että siinä tehtiin tunnettua. Ja nykyään kiertotalous alkaa olemaan sille useammille jollain tavalla ymmärretty ja tiedetään, mitä siinä tapahtuu. Niin datatalous on ihan samassa vaiheessa, että se on uusi juttu ja tarvitsisi ymmärtää, että mitä se pitää sisällään. Mutta jos se nyt ihan tiivistää, niin datatalous tarkoittaa siis taloudellista toimintaa, jossa nimenomaan se datan kerääminen ja datan hyödyntäminen on keskeinen osa. Ja sillä tavalla, jos ajattelee, että aika harva elämänalue enää toimii ilman dataa. Että ei se maanviljelijän traktorikaan… Sehän on pyörillä kulkeva tietokone, joka samalla muokkaa maata. Että kaikki lähtien siitä, että mitkä ovat sääennusteet ja sade-ennusteet ja miten kastella, miten kannattaa kasveja kastella siellä pellolla, niin tämä kaikki on… Datalla siitä tehdään tehokkaampaa. Datatalous on vähän sellainen, että se koskee meitä kaikkia. Mutta sitä on hyvä tälleen erikseen vähän miettiä, että mikä se on se datan rooli ikään kuin minkä tahansa yrityksen tai oppilaitoksen ohjautuvuudessa, päätöksenteossa. Millä tavalla ikään kuin saadaan toimintaa sujuvoitettua.
Ja nyt tänä keväänä ajankohtainen varmasti on tuolla hallitusneuvotteluissakin kovasti miettinyt, että mistä säästöjä saadaan, että meillä on nyt sote-uudistus tehty, uudet hyvinvointialueet käynnissä, mutta vielä ei ole niitä säästöjä saatu. Ja kyllä se aika selvää on, että kyllä siellä pitäisi saada se data liikkumaan järkevästi, jotta saadaan sitten tavallaan käsityötä pois ja saadaan ihmisten aika paremmin käytettyä. Ja se on sellainen konkreettinen esimerkki, että missä tällainen datatalousajattelu olisi kovin tarpeen.
Laura Mattila: Toi varmaan myös oppilaitosten arjessa näkyy myös se, että miten sitä… Täälläkin on hyvin paljon erilaista dataa, että miten sitä hyödynnetään ja miten ehkä saadaan automatisoitua tiettyä toimintaa ja sitten ehkä pistettyä paukkuja sinne, minne taas tarvitaan enemmän semmoista, ehkä ohjausta ja käsityötä ja muuta. Että miten sitä dataa hallitaan ja hyödynnetään kaikista parhaiten?
Tarmo Toikkanen: Joo. Ja tietysti jos ajattelet, että oppilaitoksessa aika paljon siitä datasta liittyy niihin opiskelijoihin, opiskelijoiden suoritusmerkintöjä, miten sitä etenee… Sitten, jos ajattelee, että sitä lähdetään analysoimaan, sieltä saadaan… Sieltähän voidaan, vaikka tunnistaa esimerkiksi oppimisvaikeuksia. Nyt tulee se kysymys sitten, että okei, kenen luvalla – tai toivottavasti sen opiskelijoiden luvalla – näitä tietoja analysoidaan, johtopäätöksiä tehdään.
Mutta sitten tullaan näihin datatalouden periaatteisiin, että okei… Että jos tällaista tehdään, että se oppilaitoskin, sen olisi hyvä miettiä: Että hetkinen, että jos me kerätään ihmisten dataa, pystytäänkö me tarjoamaan jotain hyödyllistä heille. Mikä olisi se opiskelijan ikään kuin näkymä siihen, että jos kerran sitä hänen suoritustaan analysoidaan, että hän saisi jonkin näköistä ikään kuin näkymää, että ahaa okei, tämmöiset menee hyvin, tommoisessa voisi tsempata, mitkä ovat vahvuuksia, heikkouksia. Ettei vaan silleen, että kerätään data, riistokalastetaan se data ja hyödynnetään jossain sisäisissä prosesseissa, vaan myöskin ne joiden… jotka ovat siinä mukana niin olisi siinä kanssa jollain tavalla saamassa hyötyjä. Niin se olisi sellaista, ehkä sitä uudenlaista datatalousajattelua.
Anna Eskola: Nyt jos mietitään sitä, että dataahan on tosiaan monenlaista ja sitä kertyy melkein kaikesta, mitä tapahtuu. Mutta miten sitten, jos ajatellaan nimenomaisesti tutkimusdataa ja muuta dataa, niin onko niissä eroja ja onko siinä eroja siinä, että jos niitä avataan?
Tarmo Toikkanen: Hyvä kysymys, Anna. Siis tavallaan, jos ajattelee sitä, että Suomessakin meillä on jo pitkään ollut ihan suositukset siitä, että julkisen sektorin datat pitää olla avoimia, jotta niitä voi kuka tahansa liiketoiminnassakin hyödyntää. Ja nehän ovat tietysti tärkeitä, että siellä on dataa kaikesta kaupunkien toiminnasta: jätehuollosta, vesihuollosta, säästä, ihan kaikesta. Eli juuri se, että kun se säädata on avointa, niin siitä sitten voi rakentaa vaikka maanviljelykseen lisäarvopalveluita, että paremmin nähdään, että okei, miten kannattaa suhtautua seuraavan yön hallauhkaan. Tämmöisiä asioita. Että tavallaan se data, että kun se koskee meidän oikeata elämää tällä hetkellä, niin se on tosi tärkeätä tosi arvokasta. Ja sillä pystytään ihan oikeasti rakentaa tosi merkittäviä palveluita, kun vähän mietitään ja keksitään, miten ne tehdään.
Että tutkimusdata tietysti sitten on… Se on vähän erilaista. Että se ei sillä tavalla ehkä ole päivässä ja ajassa liikkuvaa. Että se voi olla kyselytutkimusta tai muuta tällaista muulla tavalla kerättyä dataa, jota sitten analysoidaan ja analyysi voi kestää vuosia. Eli siinä sitten miettii, että se ei sillä tavalla ehkä jokapäiväisesti vaikuta meihin kaikkiin. Mutta se on… ehkä se hyöty sitten tulee siihen tutkimusyhteisölle. Oikeastaan myöskin siihen tutkimuksen laadulle ja tutkimuksen avoimuudelle. Että nämähän vaatimuksia, mitä nyt EU:ssa Suomenkin rahoittajilla tulee, että enää ei riitä, että julkaistaan se tutkimusartikkeli tai edes että se julkaistaan open accessina, vaan että aletaan jo vaatia, että hei että myöskin se aineisto pitää julkaista ja pitää julkaista myös se tutkimusmenetelmät, kuinka se aineisto on analysoitu. Jotta muut tahot voivat ikään kuin ajaa sen saman analyysin samalle datalla ja nähdä, että hei oliko tämä oikein, oliko tämä analyysi järkevä, onko tämä hyvää tiedettä. Ja mahdollistaa kaikkea muuta. Että sitten tehdään Suomessa jotain, niin sitten Ruotsissa vaikkapa voidaan ikään kuin katsoa, ahaa tällä tavalla, että jos me kerätään samalla menetelmällä vastaavaa dataa, me voitaisiin katsoa, toimiiko tämä sama efekti ruotsalaisissa yhteiskunnassa.
Eli se datan avaaminen avaa nimenomaan sen tutkimuksen toistettavuuden, laajennettavuuteen, vertailtavuuteen, siihen yleensä luotettavuuteen hirmuisen paljon lisää. Että se on ehkä se tärkein hyöty ja tärkein ehkä ero tutkimusdatalla ja tavallaan siellä oikean elämän, oikean maailman jokapäiväisellä datalla.
Anna Eskola: Joo. Jos ajatellaan sitä, että dataa ollaan avaamassa, niin millä tavoin sitä, että sitä ollaan avaamassa, tarvitsisi huomioida siinä vaiheessa, kun aineistoja kerätään tai dataa kerätään? Ja riippuuko se siitä, että minkä tyyppisestä datasta on kyse?
Tarmo Toikkanen: Kyllähän se riippuu. Oikeastaan se tärkein huomio tässähän on se, että jos siellä on henkilödataa, siis dataa tai tietoa ihmisistä, niin siinä vaiheessa pitää olla huomattavan tarkkana. Että jos kerätään tilastollista tietoa tai lasketaan puita metsässä tai jotain tällaista, niin semmoisen tietokannan julkaisemisesta ei kauheasti tule ongelmia. Mutta sitten tosiaan, jos se on, että on kyselytutkimuksella kerätty ihmisistä tietoa, niin sitten pitää ruveta miettimään näitä, että… Ja siis tietenkin okei, että jos rahoittaja edellyttää, että tietoaineisto pitää julkaista, pitää avata eli julkaista avoimella lisenssillä, niin sitten juurikin tää, että jaha.. Että millä tavalla sen datan voin kerätä ja miten sitä pitää… Pitääkö sitä jollain tavalla suojata näiden ihmisten yksityisyyttä anonymisoinnilla tai muun näköisellä käsittelyllä. Ja oikeastaan lähtökohtaisesti ihan tieteen eettiset periaatteetkin, että kyllähän näille tutkittaville henkilöille täytyy kertoa, että mitä tietoa heistä kerätään ja mitä sillä tiedolla tehdään. Ja nythän se tavallaan tilanne on uusi, että se ei ole enää, että hei, me haastattelemme sinua, käytämme sitä tässä yhdessä opinnäytetyössä. Vaan että mitä siitä julkaistaankaan, niin sitä voi kuka tahansa muu ikään kuin lähtee jatkoanalysoimaan muihin tutkimuksiin, että se vaikuttaa siihen, että mihin kaikkeen sitä käytetään. Että just siinä oltava herkkä, että sitten kun alkaa olemaan henkilöiden tiedot ikään kuin siinä aineistona, niin sitten pitää olla tosi tarkkana. Siinä ei voi tietenkin olla, että sitä ei vaan voi julkaista, että se on sen laatuista dataa niin yksityistä, että sitä ei voi muuta ottaa kuin jotain lainauksia ehkä siihen opinnäytetyöhön, mutta että sitä ei voi lähteä kokonaisuutena julkaisemaan. Ja se on sitten tietenkin tilanne, joka pitää ikään kuin rahoittajan kanssa käydä läpi, että tässä ollaan.
Mutta nämä ovat… Tämä on juuri se, että tätä pitäisi suunnitelmallisesti miettiä, että se on harmi sitten, kun on opinnäytetyö jo valmiina ja oltaisiin valmis pistää kaikki pakettiin ja.. Ai jaa, tämä pitäisi julkaistakin. Sitten ollaan kyllä tosi pahassa pulassa, että nämä pitää just etukäteen olla tiedossa, että mitä ollaan tekemässä, jotta saadaan se koko tieto käsittelyprosessi kuntoon.
Laura Mattila: Joo. Siinä korostuu tosi selkeästi se suunnitelmallisuus ja asioiden miettiminen etukäteen. Ja niiden riskien tunnistaminen ja sen varmistaminen, että tietää, mitä tekee ja tuntee myös sen lainalaisuudet ja säädökset, mitkä ohjaavat sitä toimintaa. Olisiko sinulla antaa jotain hyvää esimerkkiä hyvästä avatusta aineistosta?
Tarmo Toikkanen: Hyvää tutkimusdataahan tulee koko ajan. Että se jo lähtee siitä, että jos tehdään julkisella rahalla, EU-rahalla tutkimusta, niin sitten tutkimusaineisto on pakko kerätä ja useimmilla oppilaitoksilla on jo valmiina ne serverit, joihin se tietoaineisto voidaan ladata, arkistoida, josta siihen pääsee käsiksi. Mutta tietenkin tutkimusaineistossa se, mikä on hyvää ja mikä on hyödyllistä, se on hirveän tilannekohtaista, että valtaosalle ihmisistä joku tietty tutkimus, eihän sillä ole mitään merkitystä. Mutta sitten just, kun joku haluaa tehdä jatkotutkimusta justiinsa samasta aiheesta, sitten se onkin yllättävän arvokasta. Että oho, sieltä Metropolian tietokannasta löytyykin tällainen tietoaineisto vuosien takaa, jossa on tehty tätä samaa. Nyt me voidaan siitä lähteä tekemään vertailua. Että luulen, että tämmönen serendipiteetti tässä on hyvä pitää mielessä, että me emme tiedä, mitä kaikkea hyötyä tällä aineistolla voisi olla. Minulla olisi itse asiassa esimerkki tästä. Jossain päin Lontoota on semmoinen pölyinen museo, johon on kerätty teelehtiä, siis yli vuosisadan ajan. Eli eri puolilta brittien imperiumia kerätty teelehtiä ja arkistoitu, säilötty niitä. Niitä on tyyliin sadan vuoden ajalta ja yli ja kukaan ei tiennyt… No siellä ne on, mutta mitä näillä tekee. Ja nyt ihan muistaakseni vuosi tai kaksi sitten keksittiin, että hei me voidaan tehdä tämmöistä e-dna-tutkimusta elikkä environmental dna. Elikkä näiden teelehtien pinnalla on muiden kasvien siitepölyä ja eläinten dna-jäämiä, elikkä me voidaan sadan vuoden ajalta niitä eri maissa kerättyjä teelehtiä analysoimalla, me voidaan saada tietoa, miten on ympäristö ja eläin- ja kasvilajit muuttuneet sadan vuoden aikana. Ihan käsittämättömän hieno aineisto, mutta ei sitä kerättäessä kukaan kekannu, että tämmöistä voisi tehdä.
Anna Eskola: Varmasti ei kekannut. Jos on sata vuotta sitten aloitettu teelehtien keruu, niin ei ole osattu kuvitellakaan, mitä dna-kuvioita vielä… Mites, puhuit aiemmin siitä, että tosiaan silloin, kun näitä aineistoja avataan, niin siihen niin kun täytyy antaa lupa. Eli silloinhan kyse useimmiten on tuosta juurikin CC-lisensoinnista. Onko siihen muita tapoja siihen luvan antamiseen kuin se CC-lisensointi?
Tarmo Toikkanen: Periaatteessa on. Sen lisensoinnin voi tehdä niin kuin haluaa, mutta käytännössä Creative Commons on se käytännön standardi ja virallinen standardi. Eli rahoittajatkin suoraan sanoo, että tämmöisellä CC-lisenssillä tai sitä avoimemmalla. Että toki sen voi muutenkin muotoilla, mutta että ei ole kauhean hyvää syytä lähteä itse keksimään enää lisenssejä, että se CC. Se on oikeastaan kaikkialla käytössä, paitsi lähdekoodissa, ohjelmiston lähdekoodeille omat lisenssinsä. Mutta kaikki muu avoin tieto tällä planeetalla on CC-lisensoitua, niin täytyy olla aika erikoinen tapaus, että jotain muuta tarvitsisi tehdä. Että sieltä CC:stä löytyy kuitenkin ne kuusi eri lisenssiä, joista voi valita että, mikä on itselle sopiva. Joskin rahoittajat yleensä sanoo, että millä pitää mennä. Ja tietysti hyvä huomioida tässä se, että siis tietoaineiston lisensointi, tämä on tämmöinen eurooppalainen juttu, joka pitää tehdä, koska Euroopassa tietokannat on suojattu lähioikeudella ja siksi se lupa pitää antaa CC-lisenssillä. Mutta että Euroopan ulkopuoliset toimijat. Että niiden lainsäädännössä tietoaineistot eivät ole tekijänoikeudella suojattuja eli tarkoittaa, että jos meillä Suomessa kehitetään tai tuotetaan jotain dataa ja se julkaistaan eikä laiteta lisenssiä, niin käytännössä me annetaan kaikille muille maailman organisaatioille ja tutkijoille avoin pääsy ja jatkokäyttöoikeus siihen paitsi eurooppalaiset, mikä on vähän hassu tilanne. Eli siitäkin syystä se CC-lisensointi on kovin tärkeää, koska muuten me vaan kielletään sen käyttöön muilta suomalaisilta tutkijoilta, eurooppalaisilta tutkijoilta, mutta annetaan amerikkalaisille, kiinalaisille ja muille tutkijoille vapaat kädet tehdä mitä haluavat.
Anna Eskola: Ihan älyttömän hyvä pointti. Jos ajatellaan sitä, että jotkut ihmiset ehkä vielä vierastavat sitä ajatusta, että pitäisi lisensoida niitä omaan vaivannäköä pohjaavia juttujansa. Niin meillä on vähän sivuttu jotain, että mitä kaikkea hyötyä siihen liittyy. Mutta jos summattaisiin sitä, että minkä tyyppisiä hyötyjä tähän CC-lisensointiin kaiken kaikkiaan liittyy.
Tarmo Toikkanen: Joo. Että tietysti se tavallaan, se yhteiskunnan tietoaineisto, se oli se oma juttunsa. Siitä voi rakentaa vaikka minkä näköistä liiketoimintaa ja se on ihan oikeasti ihan oleellisen tärkeää. Mutta että jos miettii tutkimusdataa, tietysti voi olla tilanteita, että löytyy, että joku yritys pystyy hyödyntämään tutkimusaineistoa jossain liiketoiminnassa. Mutta se on aika erikoinen tilanne.
Tiivistäen sanoisin, että kyse on juuri siitä tieteen läpinäkyvyydestä, tieteen toistettavuudesta. Ja ikään kuin myös siitä, että se data sitten on ihan oikeasti, se on arkistoitu jonnekin. Siihen on pääsy muilla. Että ei käy silleen, että sitten kun kymmenen vuoden päästä tulee vaikka jotain vilppiepäilyjä, että no hei, että mites tämä menikään. Ja sitten, että no oletko rakas tutkija muistanut arkistoida kaiken tämän datan ja kymmenen vuoden ajan säilyttää jossain. Että onhan se… Että sillä tavalla helpottaa itse tutkijankin elämää, että se data on arkistoituna jonkun oppilaitoksen tai tutkimuslaitoksen servereille. Jos siellä nyt on, on avoimen päässyt ja kaikki muut laitettua, niin tavallaan kaikki tää datan verifiointi ja läpinäkyvyys. Kaikki tämä onnistuu ilman, että siinä nyt tarvitsee sen tutkijan lupaa, koska kuitenkin jokin tutkija, joka on paikka sitten vaikka vilpillä tehnyt.. Sellaistakin tapahtuu maailmalla aika paljon. Niin hän nyt tietenkään ei sitten välttämättä antaisi lupia mihinkään.
Että siinäkin mielessä tämä, että säännönmukaisesti tutkimusaineistot avataan, on aika hyvä sellainen tasapuolinen, tasa-arvoinen tapa tehdä tutkimusta. Niin ehkä se, että se datan merkitys ikään kuin tutkimuksessa ja se, että kun me hiljakseen aletaan kaikki ymmärtää, ehkä mediakin alkaa ymmärtää, että yksittäinen tutkimus vaikka ravintohyödyistä, niin se ei kerro mitään. Että voidaan saada tuloksia, että suola on tosi pahasta ja suola on tosi hyvästä suolalla ei ole mitään väliä… Vasta sitten kun me voidaan yhdistää kymmeniä ja satoja tutkimuksia meta-analyyseihin. Sitten alkaa… Voidaan sanoa jotain. Ja se että jos meta-analyysit tehdään pelkästään tutkimuspaperin perusteella, niin se on vähän epämääräistä. Sitten että jos päästään niihin aineistoihin käsiksi ja voidaan uudelleen rouskuttaa analyysit niistä lävitse, niin toki me päästään paljon luotettavampiin tieteellisiin johtopäätöksiin.
Laura Mattila: Tässä oli hyviä pointteja. Sittenhän siinä on aina se, että se CC-lisensoinnilla julkaistu aineisto, niin siinähän ehdoissa aina voidaan määrittää se, että se tekijä mainitaan aina, kun sitä aineistoa jatkohyödynnetään. Eli siinä mielessä aina tulee kunnia sille tekijälle. Että ei se mene hukkaan niin sanotusti, ettei kukaan voisi sieltä ilman lupaa mitään ottaa. Että se siinä tulee se meritoituminen ja myös se tekijän nimi tulee aina mainittua sitten. Että se on ehkä se, mikä osalla ei välttämättä… Unohtuu tai ei välttämättä ymmärretäkään ihan sitä, miten ne CC-lisenssit toimii ja miten niitä käytetään.
Tarmo Toikkanen: Kyllä tosi hyvä pointti, Laura. Joo, tämä on siis oleellisen tärkeää, että ne lisenssit lähtevät siitä, että tekijät mainitaan ja kunnia sille kenelle se kuuluu. Jollain voi olla sellainen pelko, että hetkinen että olen tehnyt aineiston jostain, että mitä jos… hetkinen annanko minä nyt luvan, että joku voi kopioida sen, vaikka feikata jotain numeroita sinne julkaista sen ja mitä, mitä, mitä. Niin tässä rakenteet menevät siten, että jos joku tekee muunnelman – vilpillisen tai muunlaisen – niin hänen pitää sitten julkaistessa todeta, että hän on tehnyt tämän muunnelman, niin sen alkuperäisen aineiston teki joku muu. Ja se löytyy muuten tuon linkin takaa. Jolloin kuka tahansa, joka pääsee tällaiseen vähän arveluttavampaan aineistoon, niin pysty löytämään sen alkuperäisen, vähän vertaamaan, että mistä tässä on kyse. Eli missään tilanteessa ei päädytä siihen, että se alkuperäinen tutkija joutuisi jotenkin niin kun… Että näyttäisi siltä, että hän olisi tehnyt jotain hassuja muutoksia. Että ne pitää olla jonkun, sen muutoksen tekijän nimissä. Jos sitä ei tehdä oikein, niin silloinhan ei ole seurattu lisenssiehtoja ja sitten kyse on tekijänoikeusrikoksesta ja sitten voi suoraan lähteä oikeusistuimeen. Tai no ehkä siinä välissä kannattaa laittaa viestiä, hei, hei – sellainen ystävällinen viesti… että hei, tämä ei mennyt ihan oikein, voitko korjata tilanteen. Sitten jos ei tapahdu mitään, niin sitten lähdetään hakemaan oikeutta.
Mutta joo. Ja se kääntöpuoli, niin kuin Laura sanoit, juurikin se, että kun se oma aineisto sitten päätyy uusiin meta-analyyseihin tai muihin, niin siellähän se ikään kuin kulkee sitten se attribuutio, että keiden kaikkien aineistoja täällä käytetään. Niin tavallaan se oma työ päätyy monella muulla tapaa näkyviin kuin vain siten, että ollaan sitaattina jossain jatkotutkimuksessa. Ja tämäkin on semmoisia, mitä ne tässä Suomen avoimen tieteen ja tutkimuksen strategiassa mietitään, että miten tämä tutkijan meritoituminen… Ei pelkästään se, että on sitaatteja jatkotutkimuksessa vaan se, että jos sitä ikään kuin se… Tietokannan, tutkijan tekemän tietokannan jatkokäyttö eri paikoissa, että se myöskin pitäisi ymmärtää, että tämä on myöskin aika arvokasta meritoitumista ja että se pitää huomioida siinä pistelaskupelissä, mitä nyt tutkijat tekevät.
Anna Eskola: Mutta tämä on ollut tosi mielenkiintoista keskustelua. Nopea ja tehokas sukellus siihen, että mitä kaikkea avoimeen dataan liittyy. Raapaistiin datataloutta, tutkimusdataa ja lisensointia. Nyt jos me ajatellaan sitä, että mitä me haluttaisiin, että kuulijalle jää mieleen siitä, että mitä kaikkea me tässä on puhuttu, niin ainakin minulle itselleni nousee se ajatus päähän, että kyllä tässä tuli ihan selväksi se, että CC-lisenssien käyttäminen kannattaa ihan ehdottomasti. Mites Laura ja Tarmo, mitä te ajattelisitte, että kuulijan olisi hyvä viedä kotiinsa tästä jaksosta?
Laura Mattila: No varmaan nuo CC-lisenssit, mitkä sinä Anna, myös mainitsit. Ja ehkä semmoinen, että suhtautuu uteliaasti avoimeen dataan ja sen mahdollisuuksiin. Ja sitten toisaalta, jos tuntuu, ettei ymmärrä asiasta riittävästi, niin sitten selvittää ja tutustuu lisää, että ja kysyy apua. Silleen moni asia selviää. Miten Tarmo?
Tarmo Toikkanen: Näitä asioita. Ja sitten se, mikä itse asiassa Laura sanoit aikaisemmin kanssa tämän, että suunnitelmallisuus. Että miettii, että miten se itse kerätyn avaaminen, mitä se pitää huomioida siinä koko tutkimusprosessissa. Ehkä se mikä jäi mainitsematta, että toki siis tutkimus- ja opinnäytetyötäkin voi tehdä avoimen datan tukeutuen. Eli kaikkea dataa ei tarvitse kerätä itse, että voi löytyä aikaisempien tutkijoiden tai opiskelijoiden keräämään dataa, jota voi analysoida eri tavalla tai voi yhdistää toiseen aineistoon, hyödyntää avoindata.fi:stä löytyvää – siis julkisen sektorin tuottamaa tilastodataa – mitä tahansa dataa, mitä sieltä löytyykään kannattaa käydä kattoon. Sieltä voi löytyä vaikka ideoita, että minkäs uuden tulokulman tai lisädatan saisin omaan tutkimukseeni, saisin vahvistettua sitä omaa näkökulmaa, ne ehkä jäi mainitsematta. Ja sitten tietenkin noin yleensä, että avointiede.fi, siellä ne pysyvästi ovat nämä suositukset ja linjaukset siitä, että… Nämä tulee vaikuttaa yhä enemmän myöskin ihan oppilaitosten rahoitukseen ministeriön suunnasta elikkä nämä on sellaisia mittareita: kuinka paljon julkaistaan avointa dataa, avointa tutkimusta, avointa opetusta. Että nämä on ihan oikeasti sellaisia, mitkä on hyvä oppilaitoksen toiminnassa huomioida, että niihin kannattaisi hieman tutustua.
Anna Eskola: Ihan mahtavia vinkkejä. Kiitokset tosi paljon teille molemmille. Kiitokset Laura, kiitokset Tarmo ja erityisesti iso kiitos kaikille kuulijoille. Tämä oli Datan jäljillä -podcast-sarjan toinen jakso. Sarjan kaikki jaksot löydät Metropodiasta ja seuraavassa jaksossa me käsittelemme aineistojen avaamista käytännön tasolla. Kuulemisiin!
[musiikkia]
Ei kommentteja