Matplotlib vodič

Matplotlib (Uvodni dio)

Analize i vizualizacije podatake najčešće sam radio u Excelu. Prošle godine zainteresirao me programski jezik Python. Krenuo sam ga samostalno učiti i puno puta započinjao iznova. Brzina učenja bila je manja od brzine zaboravljanja. Odgledao sam nekoliko desetaka tutoriala na internetu. Jedini način da se nauči kodirati je da počnem kodirati. Jednako važno je znati područje interesa. U mom slučaju analiza i vizualizacija podataka su područje koje me najviše zanima. Kako bi pomogao sebi u budućnosti odlučio sam napisati par redaka o Matplotlib biblioteci.

Analiza i vizualizacija podataka u Pythonu podrazumijeva korištenje biblioteka Matplotlib, Pandas, Numpy i druge. O potonje dvije sam već pisao i koristio u skriptima koje možete pronaći na ovim stranicama. Sada je došao red na matplotlib biblioteku. Koristimo je za vizualizaciju podataka s kojima radimo. Za sada ćemo krenuti s jednostavnim primjerom. Sve primjere koje prikazujemo odrađeni su pomoću Jupyter Notebooka. Riječ je o super alatu koji mi omogućava da vrlo brzo odradim računske i analitičke operacije na velikim bazama podataka.

(more…)

Najam bicikli Python analiza

Najbolji način da se nauči što je više osnovnih pojmova o statistici i vjerojatnosti je kroz primjere.U ovom slučaju koristiti ćemo se bazom podataka koja se odnosi na korištenje javnih bicikli u jednom američkom gradu. Kako se radi o Amerikancima, možete biti sigurni da je analitika posao koji znaju kako se radi. Primjere za to možete naći od gospodarstva, obrazovanja, sporta. U donošenju odluka oslanjaju se na ankete i rezultate istraživanja.
Riječ je o sustavu s 500 bicikli, koje se nalaze na 50 stanica – mjesta raspoređenih u jednom gradu. Na svakoj stanici postoji sustav za zaključavanje i popratni kiosk gdje korisnici usluge mogu platiti godišnju članarinu, jednodnevnu ili trodnevnu naknadu za korištenje.
(more…)

BCG i DLA Piper istraživanje vezano za GDPR

Boston Consulting Group i DLA Piper u dva su navrata proveli istraživanje u pet europskih država ( Francuska, Njemačka, Italija, Španjolska i Velika Britanija ) i u SAD-u. Naziv studije koja je objavljena na intrenetu “Leveraging GDPR to become a trusted data steward”. Na ukupno 28 stranica studija daje snažan doprinos u razumijevanju i očekivanju tvrtki i potrošača vezano za korištenje osobnih podataka.

Promatrane skupine ( non-millennials i millennials ) nakon dva provedena testiranja 2014. i 2016.godine, postale su svjesnije opasnosti kada je u pitanju dijeljenje osobih podataka na internetu. U konačnici može se zaključiti kako četiri od pet građana, neovisno o godinama, iskazuje zabrinutost u svezi dijeljenja osobnih podataka. Kada su u pitanju skupine non-millennialsa evidentno je tijekom dvije godine ojačala spoznaja kako s podacima treba oprezno rukovati (Exibit 1).

Istraživanje je pokazalo kako zabrinutost potrošača oko podataka ovisi o vrsti podataka. ( Exibit 2.) U Europi preko 80% ispitanika smatra financijske podatke i podatke s kreditnih kartica strogo privatnim. Potrošači su manje zabrinuti, ali još uvijek to iznosi 50 %, kada je riječ o podacima koji se tiču njihove lokacije, telefonske komunikacije, korištenja interneta i elektronske pošte.

Istraživanje je pokazalo kako su potrošači bitno zabrinuti oko vlastitih podataka što ih koriste online tvrtke ( društvene mreže, pretraživači, online prodavatelji ), financijske tvrtke ( podaci s kreditnih kartica ), i vladine organizacije. Za tvrtke koje rade u takvom okruženju postavljeni pragovi i očekivanja po pitanju sigurnosti podataka su visoka. Izgradnja povjerenja potrošača prema subjektima koji upravljaju ili koriste njihove podatke jako je bitna komponenta (Exibit 3.). Zanimljivo je uočiti kada je u pitanju korištenja podataka od strane hotela ( turistički sektor ), potrošači imaju veliku razinu povjerenja da se njihovim podacima upravlja na korektan način.

BCG istraživanje pokazuje da u rasponu od 48% do 62% potrošači ne vjeruju tvrtkama da su iskrene u načinu na koji tretiraju njihove podatke (Exibit 4.) Od toga 14% do 25% potrošača vjeruje tvrtkama da su ispravno postupile u odnosu na njihove osobne podatke. U istraživanju potrošači i tvrtke bili su pitani za pet vrsta korištenja podataka, odnosno kako bi tvrtke trebale tražiti dopuštenje za korištenje podataka ili kako bi trebala obavjestiti vlasnika podataka da se koriste njegovim podacima (Exibit 5.)

Generalno tvrtke njih 25% do 34% misli kako nije prihvatljivo korištenje podataka korisnika od strane trećih subjekata. Naprimjer 50% tvrtki odobrava korištenje osobnih podataka za promociju proizvoda trećih subjekata, dok 80% korisnika smatra da je to prihvatljivo. Zaključak je kako tvrtke ne koriste dovoljno mogućnosti koje im pružaju prikupljeni podaci, već igraju na kartu izlaganja što manjem riziku. Razlika je u tome što vlasnicima osobnih podataka nije toliko bitno kako se koriste podaci, više ih zanima da znaju kada se koriste.

Povjerenje je riječ koja će se primjenom GDPR redefinirati u kontekstu digitalne ekonomije (Exibit 6.) Činjenica je da značajan preko 70% osoba nije spremna povjeriti svoje podatke tvrtkama.

Uvođenje GDPR uzrokovati će promjene prije svega u komunikacijskom kanalu. Umjesto pull metoda ( prikupljanja ) tvrtke će sada značajnim dijelom komunikaciju voditi push metodom ( informiranjem ) potrošača (Exibit 7.) Komunikacijska praksa danas značajno podržava potrošače kako bi saznali kako se koriste njihovi osobni podaci. Ipak većina potrošača tu mogućnost ne koristi, već se istovremeno ne prestaje čuditi kada se njihovi podaci koriste u drugom kontekstu. Istraživanje je pokazalo kako velika većina tvrtki nema načina da objasni potrošačima koje sve podatke imaju o njima, ili kako se koriste tim podacima.

Tvrtke koje se odluče implementirati GDPR zaraditi će povjerenje dobro informiranih potrošača. Podatke o njima upotrijebiti će kako bi kreirati proizvode ili usluge dodane vrijednosti. Kada potrošači vjeruju tvrtci spremni su s njom podijeliti i druge osobne podatke. Tvrtke trebaju procese usklađenja s GDPR nastaviti kako bi postale usitinu promicatelji sigurnosti poslovanja.

Python biblioteke set i csv u analizi podataka

Standardne biblioteke

Programski jezik Python posjeduje bogate standardne biblioteke modula koje omogućavaju kompleksno programiranje bez potrebe za instaliranjem dodatnih modula. Ako ste instalirali Python ( verzija 3.x) na svom računalu, velika je vjerojatnost da možete pristupiti alatima. U ovom konkretnom slučaju tema ovog članka su dva modula: set ( koji omogućava manipulaciju nad kolekcijom jedinstvenih podataka ) i csv ( modul koji omogućava čitanje i pisanje csv fileova ).

Set

Krenuti ćemo s jednostavnim primjerom. U intersekciji dviju grupa podataka imena ljudi koji rade u odjelu marketinga i managementa, pomoću Python modula set možemo kreirati novi skup koji se sastoji od imena ljudu koje nalazimo u oba odjela. Za rad na ovom zadatku koristio sam Juypiter Notebook. Iz primjera na kojem smo radili dobili smo rezultat kako ime Marko i Nikola imamo u oba odjela. Princip intersekcije puno više dolazi do izražaja kada radimo na većem setu podataka.

(more…)

Grafička vizualizacija – Hrvatski turizam u 2017.godini

U očekivanju podataka ostvarenih rezultata u siječnju 2018.godine, vrijeme sam prikratio analizirajući 2017.godinu. Podaci o broju ostvarenih dolazaka i noćenjima dostupni su na službenim stranicama Hrvatske turističke zajednice. S obzirom da nisam u mogućnosti koristiti usluge servisa, iskoristio sam mogućnost da na svoj način pripremim podatke. Malo više detalja o tome možete pronaći u ovom članku.

S obzirom da su korišteni podaci kako ih je HTZ pripremila, radi realizacije ove ideje trebao sam napraviti nekoliko prilagodbi. Uglavnom je riječ o grupiranju informacija. U konačnici takav pristup nije bitno utjecao na ishod, ali je bitno uštedio vrijeme kod izrade grafike. U grafički prikaz nisu uvršteni podaci koji su navedeni prema stavkama Ostale zemlje Europe, Južne i Srednje Amerike, itd. Kako bi se lakše snašli, ostvaren broj dolazaka ima u legendi iskazanu vrijednost od 5.000 ali to nije najveća vrijednost. Države koje imaju ostvaren rezultat preko 5000 imaju svoj teritorij označen u tamno crvenoj boji.

U donjem dijelu prikazani su rezultati ostvarenih noćenja prema državama u Hrvatskoj. Važno je istaknuti da podaci po državama s preko 10.000 ostvarenih noćenja imaju naglašenu zelenu boju. Raspon vrijednosti u ovoj analizi samo je jedan od mogućih načina prezentiranja podataka. Odabir granice 10.000 je moj slobodan izbor jer sam uvjeren kako bi previše nijansi zelene boje na karti utjecalo na prezentaciju ostvarenih rezultata.

Točne informacije o ostvarenim dolascima i noćenjima u Hrvatsku možete pogledati na stranicama Hrvatske turistička zajednice. Prikaz rezultata samo je jedan od načina na koji se mogu promatrati turistički rezultati.

Ako imate pitanja vezano za ovu vizualizaciju, ili neku drugu koju možete vidjeti na stranicama, javite se na email [email protected]

Što donosi nova verzija paketa Pandas ?

Prije nešto više od godine dana odlučio sam da ću naučiti programirati. Nakon nekoliko uzastopnih pokušaja i brzih odustajanja zadržao sam se na Pythonu  (u siječnju 2018.godine objavo sam članak kako početi raditi s Pythonom koristeći se Jupyter Notebookom). Moja glavna namjera bila je iskoristiti “snagu” programiranja kako bi efikasnije manipulirao podacima. Nakon MS Excela htio sam prijeći na višu razinu.

(more…)