Matplotlib vodič

Matplotlib (Uvodni dio)

Analize i vizualizacije podatake najčešće sam radio u Excelu. Prošle godine zainteresirao me programski jezik Python. Krenuo sam ga samostalno učiti i puno puta započinjao iznova. Brzina učenja bila je manja od brzine zaboravljanja. Odgledao sam nekoliko desetaka tutoriala na internetu. Jedini način da se nauči kodirati je da počnem kodirati. Jednako važno je znati područje interesa. U mom slučaju analiza i vizualizacija podataka su područje koje me najviše zanima. Kako bi pomogao sebi u budućnosti odlučio sam napisati par redaka o Matplotlib biblioteci.

Analiza i vizualizacija podataka u Pythonu podrazumijeva korištenje biblioteka Matplotlib, Pandas, Numpy i druge. O potonje dvije sam već pisao i koristio u skriptima koje možete pronaći na ovim stranicama. Sada je došao red na matplotlib biblioteku. Koristimo je za vizualizaciju podataka s kojima radimo. Za sada ćemo krenuti s jednostavnim primjerom. Sve primjere koje prikazujemo odrađeni su pomoću Jupyter Notebooka. Riječ je o super alatu koji mi omogućava da vrlo brzo odradim računske i analitičke operacije na velikim bazama podataka.

(more…)

Najam bicikli Python analiza

Najbolji način da se nauči što je više osnovnih pojmova o statistici i vjerojatnosti je kroz primjere.U ovom slučaju koristiti ćemo se bazom podataka koja se odnosi na korištenje javnih bicikli u jednom američkom gradu. Kako se radi o Amerikancima, možete biti sigurni da je analitika posao koji znaju kako se radi. Primjere za to možete naći od gospodarstva, obrazovanja, sporta. U donošenju odluka oslanjaju se na ankete i rezultate istraživanja.
Riječ je o sustavu s 500 bicikli, koje se nalaze na 50 stanica – mjesta raspoređenih u jednom gradu. Na svakoj stanici postoji sustav za zaključavanje i popratni kiosk gdje korisnici usluge mogu platiti godišnju članarinu, jednodnevnu ili trodnevnu naknadu za korištenje.
(more…)

Python i sport

Python za sportske znanstvenike:

Deskriptivna statistika dio 2 – Standardna devijacija i varijanca

Prvi članak koji je napisan imao je ideju uvesti vas u svijet funkcionalnog kodiranja. Funkcije artitmetička sredina ( mean ) i medijan ( median ) mogle su se izračunati korištenjem biblioteke i to na način from statistics import mean, median. Korištenje biblioteke statistics za sada ćemo staviti sa strane. U ovom članku funkcije koje smo pisali u prvom tekstu, sada ćemo dodatno ojačati.Kao što govori naslov, naš fokus će biti dvije nove kalkulacije koje se odnose na: Varijancu i Standardnu devijaciju. Riječ je o funkcijama koje su povezane. Varijanca je definirana kao kvadrat standardne devijacije.
(more…)

Python za sportske znanstvenike

Python za sportske znanstvenike:

Deskriptivna statistika ( aritmetička sredina i medijan )

Cijeli članak napisan je u Jupyter Notebook zbog čega nije moguće pokrenuti kod koji je napisan. S obzirom da sam početnik u programiranju, sigurno ću s vremenom naučiti kako postaviti mogućnost da se kod u članku aktivira. Za sada ću se ipak koncentrirati na sadržaj.

Python je tijekom protekllih godina stekao veliku popularnost i postao je izborom mnogih znanstvenika koji svakodnevno rade s podacima. Nije slučajno da i među znanstvenicima koji se bave sportom postaje sve češći alat koji se koristi.

Premda ovaj članak može biti od koristi sportskim znanstvenicima on nije uvod u programski jezik. Više će biti riječi o tome kako na funkcionalan način pristupiti rješavanju problema i analiziranju podataka. Uvodni dio odnositi će se na dvije osnovne statističke mjere centralne tendencije: aritmetička sredina ( mean ) i medijan ( median ). U zagradama se nalazi prijevod na engleski jezik. To su riječi koje ćemo kasnije koristiti u procesu kodiranja.

(more…)

Python biblioteke set i csv u analizi podataka

Standardne biblioteke

Programski jezik Python posjeduje bogate standardne biblioteke modula koje omogućavaju kompleksno programiranje bez potrebe za instaliranjem dodatnih modula. Ako ste instalirali Python ( verzija 3.x) na svom računalu, velika je vjerojatnost da možete pristupiti alatima. U ovom konkretnom slučaju tema ovog članka su dva modula: set ( koji omogućava manipulaciju nad kolekcijom jedinstvenih podataka ) i csv ( modul koji omogućava čitanje i pisanje csv fileova ).

Set

Krenuti ćemo s jednostavnim primjerom. U intersekciji dviju grupa podataka imena ljudi koji rade u odjelu marketinga i managementa, pomoću Python modula set možemo kreirati novi skup koji se sastoji od imena ljudu koje nalazimo u oba odjela. Za rad na ovom zadatku koristio sam Juypiter Notebook. Iz primjera na kojem smo radili dobili smo rezultat kako ime Marko i Nikola imamo u oba odjela. Princip intersekcije puno više dolazi do izražaja kada radimo na većem setu podataka.

(more…)

Grafička vizualizacija – Hrvatski turizam u 2017.godini

U očekivanju podataka ostvarenih rezultata u siječnju 2018.godine, vrijeme sam prikratio analizirajući 2017.godinu. Podaci o broju ostvarenih dolazaka i noćenjima dostupni su na službenim stranicama Hrvatske turističke zajednice. S obzirom da nisam u mogućnosti koristiti usluge servisa, iskoristio sam mogućnost da na svoj način pripremim podatke. Malo više detalja o tome možete pronaći u ovom članku.

S obzirom da su korišteni podaci kako ih je HTZ pripremila, radi realizacije ove ideje trebao sam napraviti nekoliko prilagodbi. Uglavnom je riječ o grupiranju informacija. U konačnici takav pristup nije bitno utjecao na ishod, ali je bitno uštedio vrijeme kod izrade grafike. U grafički prikaz nisu uvršteni podaci koji su navedeni prema stavkama Ostale zemlje Europe, Južne i Srednje Amerike, itd. Kako bi se lakše snašli, ostvaren broj dolazaka ima u legendi iskazanu vrijednost od 5.000 ali to nije najveća vrijednost. Države koje imaju ostvaren rezultat preko 5000 imaju svoj teritorij označen u tamno crvenoj boji.

U donjem dijelu prikazani su rezultati ostvarenih noćenja prema državama u Hrvatskoj. Važno je istaknuti da podaci po državama s preko 10.000 ostvarenih noćenja imaju naglašenu zelenu boju. Raspon vrijednosti u ovoj analizi samo je jedan od mogućih načina prezentiranja podataka. Odabir granice 10.000 je moj slobodan izbor jer sam uvjeren kako bi previše nijansi zelene boje na karti utjecalo na prezentaciju ostvarenih rezultata.

Točne informacije o ostvarenim dolascima i noćenjima u Hrvatsku možete pogledati na stranicama Hrvatske turistička zajednice. Prikaz rezultata samo je jedan od načina na koji se mogu promatrati turistički rezultati.

Ako imate pitanja vezano za ovu vizualizaciju, ili neku drugu koju možete vidjeti na stranicama, javite se na email [email protected]