Alessa Blogi

Data-analyytikon työn 5 pahinta haastetta

Kirjoittanut Esa Raivio | 30.12.2020 8:18:17

Leijonanosa analytiikon työajasta kuluu harmillisesti asioihin, jotka eivät edistä työtyytyväisyyttä tai auta kehittämään yrityksen liiketoimintaa. Toivotko sinäkin, että olisi enemmän aikaa ja kykyä vastata liiketoiminnan tarpeisiin? Näiden viiden haasteen tunnistaminen on ensi askel kohti parempaa tulevaisuutta:

1. “Johto ei tajua, miten kauan aikaa datan hakemiseen ja käsittelyyn menee.”

Sinulta pyydetään 15 uutta käppyrää presentaatioon huomisaamuksi - ihan kuin heiluttelisit taikasauvaa töiksesi. Organisaation on vaikeaa käsittää, että pyynnöt eivät onnistu käden käänteessä?

Info World nimesi tilanteen “The 80/20 Data Science Dilemma”:

 Hurjat 80 % data-analyytikon työstä menee datan hakuun ja valmisteluun. Vain 20 % ajasta jää  analyysiin.

Datan esikäsittely ja putsaaminen on tietysti tehtävä huolellisesti, muutoin analyysillä ei ole heppoista arvoa.  

Aikaa tärvääntyy manuaaliseen työhön: copy-paste, kaavoja ja makroja. Välillä tuntuu siltä, että voisit tehdä töissä järkevämpääkin. Vaikka olisit guru taulukkolaskennassa tai osaat koodata, datan putsaaminen on perinteisin keinoin h-i-d-a-s-t-a.  

Datan putsausta hidastaa:

Arvot, joissa on  %, &, tai muita epätoivottuja merkkejä 
Tyhjät arvot, jotka sotkevat ennusteesi
• Epäidenttiset duplikaatit: “Sakari Mäkinen” ja “S. Mäkinen”
• Mittayksikköjen muunnokset (unssit kiloiksi, jalat metreiksi) 
• Valuuttakonversiot
• Välilyönnit
• Muista kielistä mukaan eksyneet erikoiskirjaimet
• True/false -kirjaukset, jotka pitäisi muuttaa yes/no, tai toisin päin

 

2. “En pysty hyödyntämään kaikkea dataa, jota meillä on.”

Jotta saat oivalluksia esiin, on yhdisteltävä dataa useista lähteistä. Mutta hommaa hankaloittavat erilaiset tiedostotyypit, erilaiset datanlähteet, kuten SQL-tietokannat, erilaiset formaatit, kuten xlsx, csv, xml, aws, jne.  Eri lähteiden datan yhdistäminen on työlästä ja hidasta.

Voit tarvita useampaa ohjelmointikieltä ja monenlaista ratkaisua: R, Python, SQL...; dplyr, sqldf, data.table ... joten kokeilut vievät aikaa.

SQL, R, ja Python ovat kankeita, jos haluat rakentaa  yhden ratkaisun tekemään nämä:

• Yhdistämään dataa eri formaateissa useista eri lähteistä
• Hakemaan ja korvaamaan dataa ilman, että kosket alkuperäiseen datalähteeseen
• Aggregoimaan arvoja perustuen ryhmiin
• Muodostamaan datasetin, joka sisältää kaikki kombinaatiot useasta taulukosta

 

3. ETL viivästyttää "En saa tietoja muilta nopeasti”

IDC-tutkimus toteaa, että itse asiassa "ETL is slowing down real-time data analytics". Melkein 2/3 perinteisesti käsiteltävästä datasta on ainakin viisi (!) päivää vanhaa ennen kuin se on analytiikan tietokannassa.

Usein analyytikko on datan osalta riippuvainen muista: IT:llä on kiire ja pyyntöösi ei ehditä heti reagoida. Tai odotat jonkun lähettävän tiedostoja sähköpostilla. Tai tarvitset apua tietokannan ainoalta pääkäyttäjältä.

Odotellessa et voi edistää raporttia, vaikka deadlinet painavat päälle. Peräti 62% data-analyytikoista on samassa tilanteessa ainakin joltakin osin. 

Datan hankkiminen organisaation sisällä on hidasta, joten raporttien tekoon menee päiviä. Käytännössä työstät jo vanhentunutta dataa. Osaisit tarjota parempaa tietoa, jos saisit datan nopeammin.

Haluatko hakea itse dataa - lähes mistä tahansa lähteestä - ilman IT:n tai jonkun muun apua? Varaa 15 min konsultaatio ja kerromme miten.  

 

4. “En kykene antamaan bisnekselle kaikkia vastauksia, joita tarvittaisiin ja haluaisin antaa.”

Datan rikastaminen tuo merkittävästi lisäarvoa liiketoiminnalle: Esimerkiksi myynti kohdistaa toimenpiteitä tarkemmin, jos sillä on käytettävissään tietoja toimialasta, kokoluokasta, talousluvuista jne. Sijaintidatan avulla voidaan optimoida esim. logistiikkaa jne. Asiakasdatan demografiset tiedot ja ostokäyttäytyminen tukevat markkinointia.

Lisäksi edistyneen analytiikan mahdollisuudet kilpailuedun luomiseen ovat rajattomat. 

Mutta: moni analyytikko ei pysty nykyisillä työkaluillaan hyödyntämään sijaintidataa, saati tarjoamaan ennusteita tai suosituksia liiketoiminnalle. Mallien rakentamiseen on usein pyydettävä asiantuntijan apua.

"Vuoteen 2021 mennessä, 66% analytiikkaprosesseista ei keskity vain menneeseen (mitä on tapahtunut ja miksi) vaan ottaa kantaa tuleviin toimenpiteisiin." - Ventana Research Assertions, Microstrategy Blog

Siirtyminen edistyneeseen analytiikkaan, sijaintidatan ja tekoälyn hyödyntämiseen ja koneoppimiseen ei ole mahdollista pelkän taulukkolaskennan avulla. 

 

5. “Haluaisin testata mallintaa ja testata skenaarioita itse.”

Analyytikot haluavat tehdä enemmän ennusteita ja skenaarioita, mutta eivät ole varmoja, miten siirtyä deskriptiivisestä raportoinnista eteenpäin. 

Tarve prediktiivisten ja preskriptiivisten mallien - kuten päätöspuu, A/B-testaus, logistinen regressio  - hyödyntämiselle kasvaa kovaa vauhtia.Ennen ainoastaan data scientist pystyi rakentamaan edistynyttä analytiikkaa ja preskriptiivisiä malleja. Nykyisin ne ovat analyytiikonkin ulottuvilla. 

Jos olet riippuvainen muista henkilöistä edistyneessä analytiikassa, sinulla on vaihtoehtoja: Moderni itsepalveluanalytiikan teknologia mahdollistaa edistyneen analytiikan aloittamisen - ilman koodaustaitoja.

 

Haluatko edetä ripeästi business analyytikkona?

Analyytikoissa on paljon niitä, jotka puurtavat samaa rataa.

Jos SINÄ haluat olla se, joka irrottautuu kierteestä, lataa Analyytikon opas menestykseen: