time-icon4 minutes of reading

Od maminek na mateřské po neuronové sítě

Čištění dat z platebních transakcí byla zpočátku mravenčí ruční práce. Před sedmi roky jsme se učili datům rozumět, údaje jsme si googlili a hledali na webu. Začínali jsme na pár tisícovkách obohacených transakcí měsíčně, ale postupně jsme manuální práci algoritmizovali a budovali svůj datový engine. Dnes zpracujeme tisíckrát víc transakcí s enormní mírou automatizace. 

Čištění dat z platebních transakcí byla zpočátku mravenčí ruční práce. Před sedmi roky jsme se učili datům rozumět, údaje jsme si googlili a hledali na webu. Začínali jsme na pár tisícovkách obohacených transakcí měsíčně, ale postupně jsme manuální práci algoritmizovali a budovali svůj datový engine. Dnes zpracujeme tisíckrát víc transakcí s enormní mírou automatizace. 

K čemu vlastně jsou platební data?

Data z platebních transakcí jsou ošklivá a nestrukturovaná data, která ve své syrové podobě nemají prakticky žádný užitek. Není jednotný standard, jak je zapisovat, a na výpisu můžete vidět údaje jako: 

 „KAUFLAND VAM DEKUJE“ nebo „ALBERT 0598“.

Naším cílem je udělat z nich něco kvalitnějšího. Porozumět, u kterého konkrétního obchodníka se transakce stala, a obohatit informaci o přesnou lokalitu, logo a typ nákupu. De facto jde o informace, které se ztratily po cestě od obchodníka do banky. 

Vlevo je příklad výpisu platebních kartových dat, ze kterých uděláme očištěná a obohacená data (vpravo).

Na začátku byla ruční práce

Když jsme v roce 2013 začínali, museli jsme data ručně vyčistit. Měli jsme nasmlouvané maminky na mateřské, které nám s tím pomáhaly. Občas to byla detektivní práce. Ono nestačí jen identifikovat klíčové slovo „Tesco“. Je třeba pochopit, zda se jedná o konkrétní prodejnu Tesco, nákup u Tescomy nebo třeba výběr z bankomatu v Tesku. Každý zápis je třeba správně vyhodnotit. 

Samozřejmě to nebyl škálovatelný přístup. Jak firma rostla, začali jsme práci algoritmizovat a automatizovat. To, co jsme dřív dělali intuitivně, jsme přepisovali do jednotlivých technických kroků.

Spolu s automatizací čištění dat se ale začala zvyšovat i chybovost. Bylo třeba zavést statistické algoritmy a neuronové sítě, které uměly detekovat abnormality a chyby algoritmů. Je třeba zjistit, proč nastala chyba a jak zamezit jejímu vzniku. To je dlouhodobá, systematická a důsledná práce. 

Může se například stát, že obchodní řetězec zavře pobočku v Liberci a platební terminál převeze do prodejny v Plzni. Ale terminál nikdo nezaktualizuje a transakce se pořád zapisují jako Obchod XY, Liberec. My musíme mít metody, jak to poznat. Statistické algoritmy analyzují sekvenci nákupů a upozorní nás na abnormality.

Čištění dat je spousta malých kroků

Data z terminálu jsou často neúplná a někdy vyloženě zavádějící. Typický případ jsou občerstvení McDonald’s, která fungují jako franšízy. Na zápisu transakce není známý brand, ale právnická osoba, která franšízu provozuje. Musíme pak pracně dohledávat, kdo za obchodem reálně stojí, a správně ho identifikovat.

Stále potřebujeme v procesu člověka, ale většina algoritmů si už vystačí sama a na manuální posouzení se už nedostane. 

Od tisíců ke stovkám milionů

První roky počet automaticky identifikovaných transakcí narůstal jen postupně. V roce 2018 jsme byli schopni obohacovat jen asi 100 tisíc transakcí měsíčně. 

Jak ale objemy stoupaly, museli jsme vylepšovat naši datovou mašinu. Na grafu jsou vidět schody, kdy jsme díky novým algoritmům skokově vyskočili až o 30 %. Dnes zpracováváme přes půl miliardy transakcí za měsíc, což je cca třikrát větší objem dat než v celé České republice.

Počet rozpoznaných obchodníků

Stále je kam růst

Infrastruktura platebních terminálů se neustále mění. Životnost terminálu je 3 až 4 roky. To znamená, že ročně se obmění 25 % terminálů, které musíme znovu správně identifikovat a zařadit.

Zlepšujeme svůj engine a vymýšlíme nové postupy, jak čištění dat zpřesňovat a ještě víc automatizovat. Teprve teď jsme začali přidávat opravdu pokročilé algoritmy a vidíme neskutečný potenciál.

Zároveň otevíráme zahraniční trhy, kde musíme začínat prakticky od nuly. Objevujeme tam nové a nové problémy, které nás ale ve finále posunují dál. 

Naší obrovskou výhodou je, že data nejen obohacujeme, ale s výstupy také pracujeme. V rámci firmy máme produkty, které umožňují zákazníkům spouštět marketingové kampaně, které jsou extrémně přesně zacílené právě díky informacím o platebním chování spotřebitelů. 

Díky tomu neustále vidíme, jak jsou data hodnotná a co všechno se z nich dá vyčíst. Tohle spojení je celosvětově unikátní.