time-icon4 minutes of reading

Jak z juniora vyrůst v datového hackera

Najít na trhu hotové datové seniory je skoro nemožný úkol. Navíc problémy, které řešíme v TapiXu (jeden z našich datových produktů) jsou jedinečné, a vyžadují specifické zkušenosti a mindset. Proto nabíráme nováčky a věnujeme se jejich rozvoji.

Začínáme od klikání a školení

Každý juniorní nováček proto začíná prvních pár týdnů s manuálním obohacováním platebních transakcí, aby si dobře „ošahal“ data a procesy, které bude postupně automatizovat. 

Máme připravené školení, kde podrobně probíráme oblasti, na kterých pracujeme. Jsou to různé metody automatizací a kontroly konzistence dat. Tato část onboardingu je pro nás klíčová, aby si nová posila zažila všechny edge cases, které se v těchto komplikovaných datech vyskytují. V dlouhodobém horizontu si tak ušetří čas a práci.  

Po vstupním procesu začíná junior na drobnějších úkolech, kdy vylepšuje různé stávající skripty, aby se seznámil s databází a typickými algoritmickými postupy a databázovými tabulkami, které používáme. 

Na tyto první krůčky navazují čím dál komplexnější úkoly, které nováčky naučí si práci rozdělovat na dílčí kroky, a zároveň si v nich osvojí víc technologických postupů. 

Technická znalost a business feel

Hledáme lidi, kteří ovládají jak základy SQL a Pythonu, tak mají cit pro business. U absolventů můžeme přimhouřit oko nad pouhou základní znalostí, pokud vidíme, že mají zdravý selský rozum a je z nich cítit energie a potenciál.

Obecně máme zkušenost se dvěma typy juniorů – těmi z technických škol, kteří vynikají v Pythonu, SQL a dalších technologiích, ale mívají problém v business feelu a těmi z ekonomických škol, kteří to mají přesně naopak.  

V Pythonu používáme primárně knihovny Pandas, Numpy a sqlalchemy pro práci s databázemi a analýzu. Dále folium a googleplaces na vizualizaci dat na mapě, a Django. V SQL nováčky čeká průřez práce od jednoduchých queries, po psaní funkcí, procedur a optimalizaci kódu.  

Co se týče technologií, kromě výše zmíněných dvou používáme Jenkins pro automatizaci, a Power BI na reporting a vizualizaci dat. V Djangu rozvíjíme webové prostředí, kde se anotují jednotlivé kontroly konzistencí včetně těch, které píšeme za pomocí ML. I když ML není jádro naší práce, je to odvětví, které neustále rozvíjíme, a do kterého může junior také nahlédnout. Často používáme standardní statistické koncepty okořeněné o selský rozum. 

Zájemcům o práci v Dateio doporučujeme oprášit základy statistiky a vědět jaký je rozdíl mezi mediánem, průměrem a modusem 😊  

Máme několik PostgreSQL databází, každá obsahuje trochu jiné informace, takže u nás se člověk perfektně naučí pracovat s daty napříč databázemi, jejich transportem za pomocí psql a podobně. Další specifikum naší práce je, že kromě strukturovaných dat zpracováváme i transakční open data jako jsou data získaná skrz PSD2, hacking dat za pomocí regexů a jejich parsování. Čištění dat čeká na ty, kteří se už z juniora posunuli na mediora. 

Naši databázi budujeme automatizovaným čerpáním ze spousty různých zdrojů. Při této automatizaci se naši dataři seznámí s napojováním dtb na různé API jako třeba Google Places API, a zároveň se naučí scrapovat data za pomocí knihoven requests a Beautiful Soup.  

Komplexní projekty a mentoring

Dateio rychle roste a naši zaměstnanci s ním. Proto se postupem času dostávají nejen ke komplexnější práci, ale očekáváme od nich i mentorování mladších kolegů. Čeká na ně i zajímavá spolupráce s jinými odděleními – například s naším sales teamem nebo s druhým datovým týmem, který má na starosti cílení slev. 

Na seniory čeká samostatná práce na větších projektech. Například aktuálně řešíme výpočet CO2 footprintu jednotlivých nákupů. 

Z čeho všeho se takový projekt skládá? 

Nejprve je třeba nastudovat metodologii a zjistit odkud tahat jednotlivá vstupní data a jaké vzorečky používat ve výpočtovém algoritmu apod. Vyrobíme napojení na API, které automatizujeme skrz Jenkinse, a ve spolupráci s backendovými programátory rozšíříme TapiXové API o další užitečný endpoint. Toto API využívají denně stovky tisíc klientů. Závěrečnou třešničku na dortu je pomoc našim produkťákům a markeťákům s popisem této nové feature 😊 

Jestli ti to zní dobře, podívej se na volné pozice v datovém týmu na našich kariérních stránkách a nebo napiš na jobs@dateio.eu