Trafin ajoneuvodata Power BI Designerissa (Osa 1)


Trafin ajoneuvodata Power BI Designerissa (Osa 1)



Trafin uusimmassa 3.0 ajoneuvodatassa on tekniset tiedot kaikista noin 5 miljoonasta Suomessa liikenteessä olevasta ajoneuvosta. Data sisältää 36 sarakkeen verran erilaista ajoneuvoihin liittyvää tietoa, kuten käyttöönottopäivän, polttoaineen, mallin, merkin, värin, jne. Jos tarvitset välinettä suurten datamäärien analysointiin, kannattaa ehdottomasti tutustua ilmaiseen beta-vaiheessa olevaan Microsoftin Power BI Designeriin.

Mikä Power BI Designer?

Power BI Designer se tulee sisältymään Microsoftin uuteen Power BI -tuotepaketointiin ja mikä merkittävintä, myös tuotepaketoinnin ilmaisversioon! Vihdoinkin myös Microsoft tarjoaa tiedon muokkaamiseen, yhdistelemiseen ja analysointiin maksuttoman välineen Tableaun ja QlikView/Sensen rinnalle.

Power BI Designer on käytännössä yhdistelmä Excelin Power-apuohjelmia (Power Query, Power Pivot ja Power View), mutta ilman Exceliä. Vaikka kyseessä on vasta beta-tuote, se toimii jo vakaasti. Tosin ominaisuuksia puuttuu vielä ja esimerkiksi tietolähteitä ja visualisointeja kehitetään aktiivisesti. Viimeisimpänä uutena tietolähteenä julkistettiin Google Analytics connector.

Kerron tässä jutussa vaihe vaiheelta miten lataat Trafin ajoneuvodatan Power BI Designeriin, jotta pääset tutkimaan dataa.

Muista kuitenkin, että kyseessä on beta-tuote, jossa voi esiintyä vielä bugeja ja jonka kehitys on vielä kesken. Designerista julkaistaan uusia korjattuja versioita kuukausittain. Uusista versioista tiedotetaan tiimin blogissa.

Power BI Designerin asennus

Hae ja asenna ohjelma: http://www.microsoft.com/en-us/download/details.aspx?id=45331
Ohjelmasta on versiot sekä 64- että 32-bittisiin käyttöjärjestelmiin.

Trafin ajoneuvodata

Hae Trafin sivuilta sekä datassa käytetty Excel-muotoinen koodisto että Ajoneuvojen avoin data 3.0 ainesto zip-paketti ja pura se:  http://www.trafi.fi/tietopalvelut/avoin_data

Avoin data csv-aineiston lataus Designeriin

Aloita Power BI Designerissa valitsemalla Home > New Source > CSV ja valitsemalla Trafin sivuilta lataamasi csv-tiedosto.csv valinta

Odota rauhassa. Aineiston lataaminen vie aikaa, sillä sen koko on yli 700 MB.

Kun data on latautunut, voisit periaatteessa aloittaa raporttien luonnin datasta vetämällä kenttä- eli sarakeotsikoita arkille tai rastittamalla niitä oikealla olevasta kenttäluettelosta. Tulet kuitenkin nopeasti huomaamaan, että Trafin datan kentät sisältävät vain runsaasti erilaisia koodeja. Esimerkiksi ajoneuvoryhmä ja kunta ovat numeerisia koodeja, joiden valitseminen raporttiin aiheuttaa kyseisten koodien yhteissummien esittämisen kaaviossa esimerkiksi pylväinä. Erotat kaikki numeeriset kentät niiden edessä olevasta summa-symbolista.

kenttaluettelo
Voit käydä tarkastelemassa dataa vasemmasta alakulmasta Query-vaihtoehdolla ja pääset takaisin raporttiarkille Report-vaihtoehdolla. Huomaa, että Query-näkymässä näytetään vain pieni otos datasta. Kun olet Query-näkymässä, anna samalla kyselylle eli taululle nimeksi esimerkiksi Ajoneuvot ikkunassa oikealla näkyvästä Query Settings -paneelista. Paina Enter nimen kirjoittamisen jälkeen.query-nakyma

 

Koodistotiedoston koodistojen lataus

Jotta Trafin aineistoa pystyy järkevästi analysoimaan ja tekemään siitä erilaisia raportteja, sinun pitää vielä ladata Excel-muotoisesta koodistosta esimerkiksi ajoneuvoryhmä- ja kuntakoodit selitteineen (… ja kaikki muut 16 erilaista koodiryhmää). Ne ovat kaikki yhtenä listana, joten joudut jakamaan listan useaksi eri tauluksi, jotta saat yhdistettyä koodit ja niiden selitteet järkevästi ajoneuvotietoihin.

koodisto

Kuvailen tässä esimerkkinä parin koodiryhmän (koodistonkuvauksen) lataamisen ja voit itse jatkaa ohjeiden perusteella loppuun. Muistathan, että kyseessä beta-versio, joten tallenna usein.

Ensimmäisen koodiryhmän lataus (kuntien numerot ja nimet)

Valitse Home > New Source > Excel ja valitset Trafin sivuilta lataamasi Excel-koodistotiedosto.

Rastita Taul1 ja siirry muokkaamaan kyselyä Editillä.

navigator

Anna kyselylle eli taululle nimeksi Kunta, sillä tämän ensimmäisen kyselyn tarkoituksena on ladata kuntakoodit omaan tauluunsa. Määritä myös, että ensimmäisen rivin tiedot sijoitetaan otsikoiksi Use first row as headers -toiminnolla. Sitä mukaa kun suoritat toimintoja, ne ilmestyvät vaiheina Query Settings -paneeliin. Vasemmalla puolestaan näkyy kaikki tässä tiedostossa olevat kyselyt, jotta niiden välillä voi helposti siirtyä.

use first row as headers
Suodata tähän kyselyyn vain fi-kieliset Kuntien numerot ja nimet ja poista LYHYTSELITE-sarake. Älä jätä useita eri kieliä, sillä jatkossa kun yhdistät tauluja, jokainen kuntakoodi saa esiintyä tässä luettelossa vain kerran. Jos jätät luetteloon useita kieliä, kuntakoodit ovat listalla duplikaatteina.

suodata

Poista myös KOODISTONKUVAUS- sekä KIELI-sarakkeet. Niitä tarvittiin vain suodattamiseen. Vaihda jäljelle jääneiden sarakkeiden otsikot kaksoisnapsauttamalla, jonka jälkeen lopputuloksen pitäisi näyttää tältä:

kunnat

Tunnus-kenttää tullaan tarvitsemaan taulujen välisen yhteyden muodostamisessa ja Tunnus on tietotyypiltään tekstiä. Käy siis vielä tarkistamassa Ajoneuvot-taulun kunta-kentän tietotyyppi. Yhdistävien kenttien pitää olla samaa tietotyyppiä. Kunta näyttää olevan Ajoneuvot-datassa kokonaislukuna, joten vaihda sen tietotyypiksi Text.

kunta tietotyyppi

 

Trafin dataan liittyvä pikkuvihje. Data on melko sekavaa ja esimerkiksi koodistosta voi löytyä myös tekstimuotoisia koodeja sellaisista sarakkeista, jotka vaikuttavat ensisilmäykseltä numeeriselta ja jotka ovat numeerisia Ajoneuvot-datassa. Tässä datassa yhdistävät kentät kannattaa pääsääntöisesti määrittää teksti-tyyppisiksi, jotta vältyt monilta selvittelyiltä ja ongelmilta. Ongelmat alkavat viimeistään siinä vaiheessa, kun ryhdyt tekemään taulujen välisiä yhteyksiä. Älä kuitenkaan vaihda tekstimuotoon sellaisia kenttiä, joilla haluat laskea.

Muiden koodiryhmätaulujen muodostaminen monistamalla

Ennen taulujen yhdistämistä, muodostetaan vielä toinen koodistoryhmä. Käytän esimerkkinä Polttoaine-koodeja.

Koska loput koodistoryhmät käsitellään samalla tavalla kuin kunnat, Kunta-kyselyn voi monistaa ja tehdä duplikaattiin tarvittavat muutokset. Tee siis kyselystä kaksoiskappale.

duplicate

 

Valitse monistettu kysely ja vaihda kyselyn eli taulun nimeksi Polttoaine. Muuta Filtered Rows vaiheeseen liittyvää kaavaa. Vaihda tilalle suodatettavaksi tiedoksi Polttoaine. Kun jatkat muiden koodiryhmien kanssa omatoimisesti, tarkista kunkin koodiryhmän kirjoitusmuoto koodistotiedostosta. Muuta myös Renamed Columns -vaiheen kaavaa. Otsikoksi pitää kirjoittaa Kunta-tekstin tilalle Polttoaine. Ole tarkkana kaavoja muokatessasi, että kirjoitat kaiken täsmälleen oikein. Jos kaavarivi ei ole näkyvillä, saat sen esiin View > Formula bar -valinnalla.

polttoaine-kyselyn muokkaus

Tarkista vielä vastaavan kentän tietotyyppi Ajoneuvot-aineistossa (käytä mieluiten molemmissa tauluissa Text-muotoa tässä Trafin datassa). Huomaa, että esimerkiksi Polttoaine-kentän vastinekentän nimenä on Ajoneuvot-taulussa kayttovoima.  Joudut siis tekemään hieman salapoliisitöitä, sillä Trafi on käyttänyt eri termejä csv- ja Excel-tiedostoissa.

Jatka samalla periaatteella muodostamalla kaikista koodistoryhmistä omat taulut. Myönnän, että Trafin data on hivenen monimutkainen aineisto ensimmäiseksi Power BI Designer harjoitteeksi. 😉

Taulujen välisten yhteyksien muodostaminen

Jotta tauluista voi raportoida, niiden välille pitää luoda yhteydet.

  1. Siirry ensin vasemmasta alakulmasta Report-näkymään.
  2. Valitse Manage ja luo Ajoneuvot-taulun ja jokaisen muun taulun välille yhteys yksi kerrallaan New-painikkeella. Valitse ruuduista ne sarakkeet, joiden perusteella yhteys muodostetaan. Muista, että sarakkeiden tietotyyppien pitää olla samat, jotta yhteyden muodostaminen onnistuu. Muista myös, että käsittelet poikkeuksellisen suurta rivimäärää, joten tietyt operaatiot voivat olla hitaita. Hyväksy jokainen yhteys OK-painikkeella.
    yhteydet

Jos et pysty muodostamaan jotain yhteyttä, joudut ehkä muokkaamaan tietotyyppejä tai tutkimaan, mistä syystä yhteyttä ei voi muodostaa. Tarkista onko sarakkeeseen esimerkiksi muodostunut jostain syystä virheilmoituksia tai oletko valinnut sarakkeet, joiden perusteella yhteyttä ei ole tarkoitus muodostaa.

Seuraavassa jutussa kerron raporttien laatimisesta.

 

 



Microsoft MVP (Microsoft Most Valuable Professional). Heidi toimii vanhempana konsulttina ja kouluttajana Sulavalla ja hänen keskeiseen osaamisalueeseen kuuluvat Power BI ja Excel. Hän on toiminut konsulttina, kouluttajana ja luennoitsijana yli kahdenkymmenen vuoden ajan ja kirjoittaa myös Excel ja Power BI –aiheista blogia HExcelligent.fi