Netvisor Professional-paketti -20 % / 24 kk

Raportointi ja mittarit

Datan käsittely, laatu ja merkitys yrityksessä

2 min luku | 5.12.2022

Digitalisoitu data ympäröi meitä. Menitpä sitten ruokakauppaan, lääkärille, parkkihalliin tai autokorjaamoon, tulet yhdistetyksi dataa keräävään taustajärjestelmään. Datan tallennustilan edullinen saatavuus ja prosessointitehon kasvu on lisännyt tämän vuosituhannen aikana räjähdysmäisesti datan kiinnostavuutta yritysten kilpailutekijänä ja aineettomana pääomana.

Muutama vuosi sitten puhuttiin, että kaikki data kannattaa varastoida kritiikittömästi siltä varalta, että sille on vielä joskus käyttöä. Tällä hetkellä tilanne alkaa olla se, että datan määrä, tunnistettavuus ja laatu melkeinpä haastaa sen hyödynnettävyyttä.

Internetissä olevan datan määrä kaksinkertaistuu joka vuosi. Datan kerääminen ja varastointi asettaa toimijoille myös vastuita ja rajoituksia, erityisesti mitä tulee henkilötiedoiksi laskettaviin tekijöihin. Tämä on hyvä, sillä kaikkialla tapahtuva arvokkaan datan kerääminen tekee siitä toisaalta erittäin houkuttelevaa myös rikollisille toimijoille.

Viime aikojen ikävät tapahtumat ja lisääntyneet kyberuhkat ovat lisänneet tietoisuutta siitä, millaista dataa yrityksissä kerätään tai voidaan kerätä ja miten sitä tulee kerääjän varastoida ja suojata.

Onkin erittäin suositeltavaa, että yritys pyrkii ennakoiden tunnistamaan minkälaista dataa yrityksessä prosessoidaan ja millä tavoin, sekä toisaalta minkälaista arvoa sillä on ja hyödynnetäänkö sitä maksimaalisesti, mutta kuitenkin kestävästi.

Toimijoiden vahvan tunnistamisen merkitys on kasvanut ja tulee kasvamaan huomattavasti. Yhä suurempi osa yhteiskunnan toiminnasta digitalisoituu, jolloin myös sitä säätelevä lainsäädäntö lisääntyy jatkuvasti. Näissä asioissa on hyvä pysähtyä määräajoin ja tarkastella kuinka asiat omassa yrityksessä ovat, jotta ikäviltä yllätyksiltä vältyttäisiin.

Oikea data, oikeaan käyttöön, oikein välinein

Data on tavallisesti joukko havaintoja, merkintöjä ja ominaisuuksia. Data itsessään ei vielä merkitse mitään ja se on periaatteessa arvotonta. Vasta tulkinnan avulla datasta syntyy informaatiota joka jalostuu inhimillistettynä arvokaaksi tiedoksi ja parhaimmillaan viisaudeksi.

Dataa voidaan käsitellä ja jalostaa monin eri tavoin. Kun dataa käsitellään alkuperäisjärjestelmässä sen ydintoimintaan liittyen, puhutaan datan primäärikäytöstä; esimerkiksi kun sähköinen ostolasku lähetetään, vastaanotetaan, tiliöidään ja maksetaan taloushallintojärjestelmässä.

Data ei kuitenkaan ole tämän jälkeenkään hyödytöntä, vaan monenlaista prosessista syntyvää dataa voidaan käyttää vielä sekundäärisesti esimerkiksi opettamaan järjestelmään upotettuja algoritmejä oletustiliöimään saman toimittajan samaa tuotetta koskeva lasku seuraavalla kerralla samalla tavoin tai antamaan työaikaa säästäviä suosituksia järjestelmän käyttäjälle.

Parhaimmillaan datalla voidaan muodostaa digitaalinen kaksonen datan luoneen prosessin todellisuudesta

Voi olla, että laskun liitteitä on pyritty myös tunnistamaan kuvantunnistusmenetelmin käyttökokemuksen parantamiseksi ja työn sujuvoittamiseksi. Laskun käsittelyprosessista saadaan myös kerätyksi hyödyllistä käyttödataa esimerkiksi, kuinka kauan operaatio kesti ja mitä kautta käyttäjä tuli sivustolle laskua käsittelemään.

Transaktiodatasta voidaan taas tarkastella esimerkiksi päivä-, kuukausi- tai vuositasolla käsiteltävien ostolaskujen määriä. Lokidatan perusteella voidaan taasen havainnoida järjestelmän teknistä tehokkuutta mittaavia suureita.

On myös olemassa monenlaista sensoreista ja sijanneista kerättävää dataa, mitä voidaan hyödyntää vaikkapa olosuhteiden tai lokaation tunnistamiseen, sekä käyttökokemuksen räätälöintiin ja parantamiseen. Lyhyesti todeten parhaimmillaan datalla voidaan muodostaa digitaalinen kaksonen datan luoneen prosessin todellisuudesta.

Oikea data

Datan laadulla on merkittävä vaikutus sen potentiaaliseen arvoon. Laadukas data on paitsi sopivaa ja oikeaa juuri kyseisen ilmiön tulkitsemiseen, se on myös laadultaan mahdollisimman virheetöntä, jotta datan hyödyntäminen voisi olla tehokasta.

Laatu lähtee datan muodostamisvaiheesta, oli se sitten käsin syötettyä tai koneen tuottamaa. On esimerkiksi kiinnitettävä huomiota, että oikeat tiedot tulevat syötetyksi oikeisiin kenttiin ja oikeassa muodossa. Tilinumeroissa ja henkilötunnuksissa on olemassa tarkistusmerkit, mutta esimerkiksi yrityksen Y-tunnukset voidaan useimmiten kirjata virheellisesti ilman, että järjestelmä siitä syöttövaiheessa varoittaa.

Jonkin verran tätä ilmiötä voidaan ehkäistä käyttöliittymäsuunnittelussa ja tietokannassa erilaisin tietotyyppi- ja kenttäpituusrajoituksin, sekä yksinkertaisesti nimeämällä esimerkiksi kenttäotsikot kuvaavasti. Siitä huolimatta käyttäjällä on erittäin merkittävä rooli datan laadun osalta.

On ymmärrettävää, että käyttäjää kiinnostaa kulloisellakin hetkellä päästä vain omassa prosessissaan eteenpäin, esimerkiksi syöttäessään yrityskorttia muodostaessaan usein pakolliseksi tiedoksi määritellyksi y-tunnukseksi “0000000-0”, koska ei tiedä oikeaa tunnusta eikä se vaikuta juuri tähän prosessiin.

Pahimmillaan tietokannasta voi kuitenkin tämän käytännön jäljiltä löytyä kymmenen yritystä joidenka y-tunnus on tuo sama ‘dummy’, jolloin datan kohdennettavuus ja arvo kärsii ja joku myynnin raportoinnista tai analytiikasta vastaava repii jo harmaiksi muuttuneita vähiä hiuksiaan.

Laadukas data on sopivaa ja oikeaa juuri kyseisen ilmiön tulkitsemiseen ja myös mahdollisimman virheetöntä

On myös mietittävä mihin kenttään mikäkin data sopii. Tuotteet kuuluvat tuote-kenttään, asiakas asiakas-kenttään ja mikäli esimerkiksi laskulla on useampia vapaatekstikenttiä, ei kannata yhteen merkkijonoon kirjoittaa useita eri asioita kuvaavia seikkoja pötköön.

Duplikaatit, eli kaksoiskappaleet haittaavat usein datan laatua ja myös järjestelmän käytettävyyttä. Esimerkiksi uutta asiakasta tai tuotetta luotaessa kannattaa varmistaa huolellisesti, ettei sitä jo ole olemassa mahdollisesti hiukan eri tavoin kirjoitettuna.

Jälkeenpäin usealla eri asiakaskortilla olevien laskujen yhdistäminen asiakkuuden alle vaikkapa raportointitarkoituksiin voi olla huomattavasti hankalampaa. Järjestelmään syötettävissä arvoissa on syytä välttää erikoismerkkejä ja tarpeettomia välilyöntejä kentän alussa, lopussa tai välissä ja pienten sekä isojen kirjaimien käytössä kannattaa olla huolellinen.

Pieni ero, mutta esimerkiksi “Yritys Oy”, “ Yritys Oy”, “Yritys Oy” ja pahimmassa tapauksessa myös “Yritys oy” voidaan pelkästään merkkijonoa tutkien tulkita erillisiksi yrityksiksi ilman hakusäännöille tehtäviä lisäehtoja.

Keinoäly asettaa tiukat vaatimukset datan laadulle

Nykypäivänä puhutaan paljon keinoälystä (Artifical Intelligence) ja oppivista menetelmistä (Machine Learning). Vaikka oppivat algoritmit kehittyvätkin jatkuvasti, ne eivät ole silti lähelläkään inhimillisiä.

Aikaisemmin datan loppukäyttäjiä olivat pääasiallisesti ihmiset, jotka pystyvät arvioimaan datan oikeellisuutta objektiivisemmin. Nykyään dataa hyödyntävät myös yhä monimutkaisemmissa sovelmissa koneet, jotka tekevät päätöksiä eri sääntöihin perustuen.

Tämä asettaa datan oikeellisuuden osalta vielä suuremmat vaatimukset, sillä koneelle ei voi selittää inhimillisiä merkityksiä, vaan sillä pitää olla määrämuotoiset säännöt toimiakseen.

Koneelle ei voi selittää inhimillisiä merkityksiä, vaan sillä pitää olla määrämuotoiset säännöt toimiakseen

Dataa välittäessä tulee myös tarkastaa, että data päätyy perille asti eheänä. Tätä voidaan kontrolloida ottamalla vaikkapa tarkistesummia rivimääristä ja mittariarvoista, sekä aikaleimoista.

Datan välittämisessä ja tulkitsemisessa onkin pitkälti kyse myös luottamuksen viestinnästä. Luottamuksen menettämiseen ei tarvita kovinkaan montaa virheellistä integraatiosanomaa tai raporttia. Tästä syystä testaamisen ja verifioinnin merkitys on erittäin suuri. Teknisen oikeaksi arvioinnin lisäksi kannattaa validointiprosessiin yleensä ottaa mukaan myös ilmiön tunteva liiketoimintaedustaja.

Oikeaan käyttöön

Välitettiin dataa sitten jatkojalostettavaksi järjestelmiin tai ihmisten tulkittavaksi analytiikkaan, tulee aina varmistaa, että välitetty data on välineellisesti oikeaa ratkaisemaan tavoiteltava ongelma ja että vastapuoli on oikeutettu vastaanottamaan kyseisen datan.

Välineellinen arviointi voidaan tehdä kohdeprosessin ja lähdedatan tuntevien ihmisten toimesta tehtävällä määrittelyllä. Oikeutuksen hallintaa säädellään käyttöoikeuksin, käyttöoikeusryhmin ja -roolein.

Yrityksen sisäiset datavirrat kannattaa tunnistaa, tiedostaa ja dokumentoida. Lähtökohtaisesti ihmiset toimivat järkevämmin ja tekevät parempia päätöksiä, mitä enemmän saavat informaatiota osakseen.

Toisaalta taas tiettyjä asioita on sensitiivisyyssyistä suojattava käyttöoikeuksin. Esimerkiksi raportointivälineiden käyttöoikeusryhmien miettimiseen ja hallintotapaan kannattaa käyttää alussa aikaa, se palkitsee myöhemmin myös ylläpidossa.

Oikeilla välineillä

Digitalisoinnin ja sähköisten apuvälineiden pitäisi lähtökohtaisesti helpottaa ja nopeuttaa työskentelyä ja lisätä automatisaatiota. Mitä dataan ja sen tulkintaan tulee, suurelle osalle yrityksistä datan käsittelyyn ja raportointiin riittävät esimerkiksi taloushallintojärjestelmät itsessään.

Mikäli kuitenkin päädyt tilanteeseen, että joudut toistuvasti esimerkiksi kuukausittain ottamaan leikkaa-liimaa -metodein dataa ulos järjestelmän tulosteista, voi olla järkevää tarkastella esimerkiksi erillistä BI-raportointijärjestelmää datan käsittelyyn ja visualisointiin.

Käsityönä tehtävä datan käsittely lisää yleensä myös riskiä inhimillisiin virheisiin, jotka osaltaan heikentävät datan laatua. Jotta data tulisi mahdollisimman tehokkaasti käyttöön yrityksen päätöksenteon tueksi, tulee datan laadun lisäksi sen saatavuuteen ja sovellusten käytön helppouteen kiinnittää huomiota.

Kirjoittaja: Teppo Salmi on datan ja analytiikan moniottelija ja apostoli Visma Solutionsin Data & Finance-tiimistä, jonka mielestä ihminen on kuitenkin viimekädessä tärkein. Dataa oikein hyödyntäen voidaan paitsi tehdä parempia päätöksiä, säästää ihmisten aikaa ja hermoja automatisoimalla rutiinitehtäviä. Oikein käsitellyllä ja tulkitulla datalla voidaan luoda digitaalinen kaksonen todellisuudesta.

Teppo Salmi

Teppo Salmi on datan ja analytiikan moniottelija ja apostoli Visma Solutionsin Data & Finance-tiimissä. Tepon mielestä ihminen on kuitenkin tärkein. Dataa oikein hyödyntäen voidaan paitsi tehdä parempia päätöksiä, säästää aikaa ja hermoja automatisoimalla rutiinitehtäviä. Oikein käsitellyllä ja tulkitulla datalla voidaan luoda digitaalinen kaksonen todellisuudesta.