Kontroly ČOI v OpenRefine


Po několika málo zkušenostech s OpenRefine došlo i na tenhle větší úkol. Po stažení dat z webu ČOI o tom, kdy a kam někdo poslal kontrolu v roce 2012 bylo potřeba je vyčistit a něco s nimi udělat, na což je, jak známo, OpenRefine ideální.

Zajímavou výzvou byl už jeden z prvních kroků – zjistit, zda proběhlo víc kontrol v Čechách nebo na Moravě. Neb jsem z Vysočiny, dobře vím, že máme tedy Čechy, Moravu a pak tu Vysočinu, která je tak nějak napůl a nedá se úplně snadno rozhodnout, kam ji přidat. Napadla mě dvě řešení – rozdělit Vysočinu podle bývalých okresů (Havlíčkův Brod a Pelhřimov jako Čechy a Jihlavu, Žďár nad Sázavou a Třebíč jako Moravu). Problém je, že víc než polovina záznamů nemá o konkrétním okrese, a vlastně ani městě žádnou informaci a obsahuje pouze strohé „Vysočina“.

(tady by byl moc pěkný screenshot, kdyby se mnou WordPress stále neodmítal spolupracovat. Čímž chci tak trochu deklarovat že mě pěkně sere a vážně uvažuju o tom že ten blog začnu psát prostě v HTML, protože jsem si vždycky myslela, že WP je věc, co se nemůže rozbít)

Nicméně podle CZ-NUTS je Vysočina spolu s Jihomoravským krajem „Jihovýchod“, takže tedy asi Morava. Nejlepší na tom je, že je to skoro jedno, vzhledem k 66288 kotrolám v Čechách, 30891 na Moravě a 4363 na Vysočině. Ať ji přilepíme kamkoliv, Čechy z toho vychází „vítězně“.

Co se týče čištění dat pomocí regulárů, srabsky jsem je všechny zkopírovala, ale už uznávám, že asi k něčemu budou a bylo by určitě moc fajn je umět. Problém je, že se to asi zas tak snadno nenaučím, tak jako se zas tak snadno nenaučím programovat – můj mozek totiž není zvyklý operovat s delšími abstraktními sekvencemi. A dost ho to bolí.

Postup clusterování a slučování ulic a úprava názvů ulic a obcí pak byla docela jednoduchá.

Co mi z toho vyšlo je, že nejvíc kontrol proběhlo v Českých Budějovicích na ulici Nádražní – což by se dalo vysvětlit tím že je fakt dlouhá (asi jako půlka Budějovic) a těch podniků tam tadíž bude dost. Screenshot mapy by mi byl důkazem.

Přes všechnu tu krásu ale chápu, že ta data nebyla zrovna špičková a cokoliv s nimi mohlo být a bylo uděláno to nemohlo úplně zachránit, takže ta přesnost jakýchkoliv tvrzení z nich vyplývající nebude zrovna velká. :-( Ale na hraní dobrý.



Share
Tags
Written by Xsi


Leave a Comment