Leijonanosa analytiikon työajasta kuluu harmillisesti asioihin, jotka eivät edistä työtyytyväisyyttä tai auta kehittämään yrityksen liiketoimintaa. Toivotko sinäkin, että olisi enemmän aikaa ja kykyä vastata liiketoiminnan tarpeisiin? Näiden viiden haasteen tunnistaminen on ensi askel kohti parempaa tulevaisuutta:
Sinulta pyydetään 15 uutta käppyrää presentaatioon huomisaamuksi - ihan kuin heiluttelisit taikasauvaa töiksesi. Organisaation on vaikeaa käsittää, että pyynnöt eivät onnistu käden käänteessä?
Info World nimesi tilanteen “The 80/20 Data Science Dilemma”:
Hurjat 80 % data-analyytikon työstä menee datan hakuun ja valmisteluun. Vain 20 % ajasta jää analyysiin.
Datan esikäsittely ja putsaaminen on tietysti tehtävä huolellisesti, muutoin analyysillä ei ole heppoista arvoa.
Aikaa tärvääntyy manuaaliseen työhön: copy-paste, kaavoja ja makroja. Välillä tuntuu siltä, että voisit tehdä töissä järkevämpääkin. Vaikka olisit guru taulukkolaskennassa tai osaat koodata, datan putsaaminen on perinteisin keinoin h-i-d-a-s-t-a.
Datan putsausta hidastaa:
• Arvot, joissa on %, &, tai muita epätoivottuja merkkejä
• Tyhjät arvot, jotka sotkevat ennusteesi
• Epäidenttiset duplikaatit: “Sakari Mäkinen” ja “S. Mäkinen”
• Mittayksikköjen muunnokset (unssit kiloiksi, jalat metreiksi)
• Valuuttakonversiot
• Välilyönnit
• Muista kielistä mukaan eksyneet erikoiskirjaimet
• True/false -kirjaukset, jotka pitäisi muuttaa yes/no, tai toisin päin
Jotta saat oivalluksia esiin, on yhdisteltävä dataa useista lähteistä. Mutta hommaa hankaloittavat erilaiset tiedostotyypit, erilaiset datanlähteet, kuten SQL-tietokannat, erilaiset formaatit, kuten xlsx, csv, xml, aws, jne. Eri lähteiden datan yhdistäminen on työlästä ja hidasta.
Voit tarvita useampaa ohjelmointikieltä ja monenlaista ratkaisua: R, Python, SQL...; dplyr, sqldf, data.table ... joten kokeilut vievät aikaa.
SQL, R, ja Python ovat kankeita, jos haluat rakentaa yhden ratkaisun tekemään nämä:
• Yhdistämään dataa eri formaateissa useista eri lähteistä
• Hakemaan ja korvaamaan dataa ilman, että kosket alkuperäiseen datalähteeseen
• Aggregoimaan arvoja perustuen ryhmiin
• Muodostamaan datasetin, joka sisältää kaikki kombinaatiot useasta taulukosta
IDC-tutkimus toteaa, että itse asiassa "ETL is slowing down real-time data analytics". Melkein 2/3 perinteisesti käsiteltävästä datasta on ainakin viisi (!) päivää vanhaa ennen kuin se on analytiikan tietokannassa.
Usein analyytikko on datan osalta riippuvainen muista: IT:llä on kiire ja pyyntöösi ei ehditä heti reagoida. Tai odotat jonkun lähettävän tiedostoja sähköpostilla. Tai tarvitset apua tietokannan ainoalta pääkäyttäjältä.
Odotellessa et voi edistää raporttia, vaikka deadlinet painavat päälle. Peräti 62% data-analyytikoista on samassa tilanteessa ainakin joltakin osin.
Datan hankkiminen organisaation sisällä on hidasta, joten raporttien tekoon menee päiviä. Käytännössä työstät jo vanhentunutta dataa. Osaisit tarjota parempaa tietoa, jos saisit datan nopeammin.
Datan rikastaminen tuo merkittävästi lisäarvoa liiketoiminnalle: Esimerkiksi myynti kohdistaa toimenpiteitä tarkemmin, jos sillä on käytettävissään tietoja toimialasta, kokoluokasta, talousluvuista jne. Sijaintidatan avulla voidaan optimoida esim. logistiikkaa jne. Asiakasdatan demografiset tiedot ja ostokäyttäytyminen tukevat markkinointia.
Lisäksi edistyneen analytiikan mahdollisuudet kilpailuedun luomiseen ovat rajattomat.
Mutta: moni analyytikko ei pysty nykyisillä työkaluillaan hyödyntämään sijaintidataa, saati tarjoamaan ennusteita tai suosituksia liiketoiminnalle. Mallien rakentamiseen on usein pyydettävä asiantuntijan apua.
"Vuoteen 2021 mennessä, 66% analytiikkaprosesseista ei keskity vain menneeseen (mitä on tapahtunut ja miksi) vaan ottaa kantaa tuleviin toimenpiteisiin." - Ventana Research Assertions, Microstrategy Blog
Siirtyminen edistyneeseen analytiikkaan, sijaintidatan ja tekoälyn hyödyntämiseen ja koneoppimiseen ei ole mahdollista pelkän taulukkolaskennan avulla.
Analyytikot haluavat tehdä enemmän ennusteita ja skenaarioita, mutta eivät ole varmoja, miten siirtyä deskriptiivisestä raportoinnista eteenpäin.
Tarve prediktiivisten ja preskriptiivisten mallien - kuten päätöspuu, A/B-testaus, logistinen regressio - hyödyntämiselle kasvaa kovaa vauhtia.Ennen ainoastaan data scientist pystyi rakentamaan edistynyttä analytiikkaa ja preskriptiivisiä malleja. Nykyisin ne ovat analyytiikonkin ulottuvilla.
Jos olet riippuvainen muista henkilöistä edistyneessä analytiikassa, sinulla on vaihtoehtoja: Moderni itsepalveluanalytiikan teknologia mahdollistaa edistyneen analytiikan aloittamisen - ilman koodaustaitoja.
Analyytikoissa on paljon niitä, jotka puurtavat samaa rataa.
Jos SINÄ haluat olla se, joka irrottautuu kierteestä, lataa Analyytikon opas menestykseen: