Nikola Kaspříková, data.tulipany.cz - analýzy databází a data mining

DATA MINING PRO ŘÍZENÍ VZTAHŮ SE ZÁKAZNÍKY

Klíčová slova: data mining, řízení vztahů se zákazníky, analytické CRM, business intelligence

1 Úvod k problematice data miningu pro CRM
Řízení vztahů se zákazníky neboli CRM (Customer Relationship Management) se v konkurenčním prostředí zejména u firem s velkým počtem zákazníků stává rozhodujícím činitelem, který může výrazně přispět k lepší výkonnosti firmy. Na základní úrovni systémy CRM podporují komunikaci s klientem. Například tím, že zajišťují pracovníkovi, který se zákazníkem jedná, dostupnost informací o dosavadním průběhu kontaktů mezi společností a zákazníkem nebo o produktech a službách, které klient využívá. V takovém případě hovoříme o kontaktním, operativním CRM. Pro zvládnutí náročnější úlohy poznání zákazníků a jejich potřeb jsou vytvářeny systémy analytického CRM a na CRM zaměřené prvky nástrojů business intelligence budované často nad datovými sklady (data warehouse), které lze chápat jako určité podstatné rozšíření operativního CRM a které jsou relevantní i pro řízení a rozhodování na vyšších úrovních. Reporty business intelligence mohou dát například v prostředí poskytovatele bankovních služeb odpovědi na otázky podobné následujícím: Ještě mnohem cennější mohou být odpovědi na otázky podobné následujícím: V motivačních otázkách zmíněných výše jsou rozlišitelné dvě skupiny úloh. První představuje poměrně přesně zadané dotazy, u kterých je předem dosti zřejmá forma odpovědi i postup, jak a s použitím kterých jednoznačně určených údajů k ní dospět. K uspokojení takových informačních potřeb řídicích pracovníků většinou postačuje provedení jednoduché popisné analýzy (reportu) obvykle pomocí (ve velkých korporacích zpravidla dostupných) standardních nástrojů datových skladů. Druhá skupina úloh, která již vyžaduje uplatnění pokročilejších technik – metod vytěžování dat (data mining) často doplněných některými postupy z oblasti průzkumu trhu - je vedena potřebou v datech objevit platné obecnější vztahy, někdy v ideálním případě dokonce kauzální zákonitosti, které se v datech mohou projevovat. Jedná se buď o snahu dosáhnout porozumění datům ve smyslu získání představy o tom, zda a které silné závislosti mezi veličinami existují, aniž by bylo předem úzce vymezeno mezi kterými; případně zda a které výrazné zajímavé podskupiny lze v datech identifikovat, aniž bychom předem přesně charakterizovali požadované vlastnosti zajímavé podskupiny. Nebo je sledovaným účelem nalezení závislostí mezi určitou veličinou, která je předmětem zvláštního zájmu, a ostatními veličinami, které by na ni mohly působit. Pak jde o konstrukci predikčních modelů. Sem spadá například předpověď, kteří klienti jsou vystaveni většímu riziku odchodu ke konkurenci (predikce churnu), kteří klienti spíše zareagují na marketingovou kampaň, kdo by mohl mít problémy se splácením úvěru nebo o kolik průměrně vzrostou během příštího roku vklady v segmentu nových klientů. Při konstrukci predikčních modelů jde o určení hodnoty cílové veličiny podle známých hodnot veličin vysvětlujících.

V podnikovém prostředí modely vytváříme kvůli potřebě získat návod k určitému jednání, které je zaměřeno na zvýšení výkonnosti firmy. Je třeba připomenout, že plná datová i obchodní integrace data miningových řešení do praxe podniku může představovat rozsáhlý a i z hlediska nákladů významný projekt, který tak klade určité nároky na kvalitu řízení projektu a to již v úvodní fázi business analýzy a propočtu očekávané návratnosti investice do zavedení sofistikovanějšího CRM.

2 Proces získávání znalostí z dat
Proces vytěžování dat obvykle představuje vykonání určité posloupnosti činností, přičemž v případě pozorování neuspokojivého vývoje řešení problému často zahrnuje návraty k předcházejícím fázím a pokusy o jejich úspěšnější zvládnutí. Požadavky na obsah jednotlivých fází jsou v obecné rovině společné snad všem data miningovým projektům a takové budou zmíněny, konkrétní obsah je vždy dán povahou řešeného problému.

Postup při vytěžování dat lze zjednodušeně shrnout do několika fází:

Celý proces začíná vymezením problému, který je potřeba řešit. Podle toho se určí zdroje dat potřebných pro analýzu a zvolí se typ modelu, který bude použit. V průběhu dalšího postupu se může ukázat, že vybraný postup nevede k uspokojivému závěru a je nutné buď znovu provést některé kroky jinak nebo projekt zastavit. Také se může stát, že při řešení úlohy se neočekávaně projeví nějaké překvapivé skutečnosti, které dají podnět k dalším analýzám. Porozumění problému a správné vymezení úlohy jsou pro úspěšnost projektu kritické body a vyžadují aktivní účast pracovníků s důkladnou znalostí problematiky dané aplikační oblasti. Po vytvoření modelu probíhá jeho validace, zhodnocení jeho vhodnosti, případně výběr nejlepšího z dostupných modelů, a to z hlediska požadavků zmíněných níže. Poté následuje využití modelu v praxi. Při dlouhodobějším charakteru využívání modelu v praxi je nutné průběžně sledovat jeho výkonnost a provádět údržbu (pozměňování struktury a parametrů modelu například při změnách podmínek prodeje jednotlivých produktů a podobně).

Požadované vlastnosti modelu:

Je zřejmé, že výše jmenované požadavky se co do možnosti splňování navzájem příliš nepodporují. Často je možné docílit zlepšení jedné ze sledovaných vlastností pouze za cenu zhoršení jiné. Analogicky ověřování přesnosti modelu na testovacích datech, se u modelů určených pro dlouhodobější používání po jejich nasazení do provozu sleduje, zda časem nedojde ke zhoršení sledovaných parametrů při používání modelu na nových datech a řeší se otázka načasování vytvoření nového modelu s použitím nově dostupných dat. Připomeňme, že například u segmentace pro účely marketingového řízení je nežádoucí zbytečně častá resegmentace (ve smyslu znovuobjevování struktury dat a určování počtu a charakteristik segmentů a obecných pravidel pro náležení k nim; nikoliv opakovaného přiřazení klientů, dříve již do některého segmentu zařazených, do (možná jiného) segmentu s využitím aktuálních dat o chování klienta, což je krok méně zásadní) a je ceněná určitá stálost vymezení segmentů, která usnadňuje jejich řízení. Nicméně i přesto je potřebné resegmentaci provést v situaci, kdy noví klienti přestanou snadno zapadávat do některého ze stávajících segmentů (klesá míra jednoznačnosti přiřazení klientů do segmentů), je pozorováno zvýšení variability v rámci jednotlivých segmentů (popisy segmentů přestávají mít dobrou vypovídací schopnost) nebo (v tomto bodě podobně jako u predikčních modelů) dojde ke změně povahy dat - jsou měřeny jiné charakteristiky, než podle kterých byly segmenty vytvářeny: například při změnách podmínek poskytování finančních produktů, zavádění nových služeb a podobně – nebo s ohledem na vývoj trhu dojde k podstatné změně struktury klientů.
3 Poznámky k predikčním úlohám
V rámci řízení vztahů se zákazníky je často potřeba umět na základě v současnosti dostupných informací o (současných nebo potenciálních) klientech správně odhadnout jejich klientské chování v budoucnosti. Při takto nebo podobně formulovaných úlohách je užitečné z dostupných dat zjistit, které veličiny a jak působí na veličinu, která je předmětem zvláštního zájmu. To je účelem predikčního modelování, pomocí kterého mohou být řešeny například následující úlohy: Pro vytváření predikčních modelů je dostupný klasický statistický aparát – především metody regresní analýzy a diskriminační analýza a novější techniky získávání znalostí z databází, mezi které patří umělé neuronové sítě nebo rozhodovací stromy. Lze říci, že existují po technické stránce efektivní a přesné postupy pro tvorbu modelů a pro výslednou kvalitu modelu je tak určující vhodná formulace úlohy, zahrnutí všech podstatných proměnných do analýzy a kvalitní příprava dat. Mezi problémy predikčního modelování patří skutečnost, že často by bylo potřebné objevit v datech kauzální vztahy, jejichž znalost je prospěšná třeba pro správný odhad důsledků (například v podobě koupě produktu) určité intervence (například v podobě nabídky určitého produktu vybrané skupině klientů), ale z dostupných dat to není možné; pouhá statistická závislost dvou veličin může být vysvětlena například působením latentní (nepozorované a v modelu neanalyzované) veličiny. V podobných souvislostech se často hovoří o jevu nazývaném Simpsonův paradox [viz ANDĚL, J.: Statistické modely. Statistika 2/2003], který lze pozorovat mj. na následujícím příkladě vyhodnocování vlivu marketingové kampaně na podporu aktivace nové služby GSM bankovnictví. Příklad. V kontingenční tabulce se sleduje, kolik z direct mailovou kampaní oslovených zákazníků banky si službu GSM bankovnictví aktivovalo a kolik jich nabídku nevyužilo, a pro srovnání se sleduje také situace ve skupině klientů z kampaní neoslovené kontrolní skupiny (kteří si službu mohli aktivovat samovolně, aniž by byli kampaní osloveni).
Tab. 1
počet klientůosloveníneoslovení
aktivovali100100
neaktivovali9001000
Na první pohled se podle tabulky 1 zdá, že kampaň byla úspěšná - relativní četnosti klientů, kteří si službu aktivovali, je v cílové skupině kampaně vyšší než v kontrolní skupině. Ale po provedení stratifikace podle proměnné indikující, zda klient již v době kampaně využíval službu internetového bankovnictví IB, se ukáže, že skutečnost může být jiná.
Tab. 2
osloveníosloveníneosloveníneoslovení
počet klientůIB anoIB neIB anoIB ne
aktivovali90106238
neaktivovali710190288712
Podle tabulky 2 se zdá, že kampaň naopak klienty spíše odradila od aktivace nabízené služby - pro každou skupinu klientů z hlediska využívání služby IB je procento aktivování propagované služby u oslovených klientů nižší. Skupina oslovených a neoslovených klientů má totiž odlišnou strukturu: ve skupině oslovených je větší podíl klientů využívajících službu IB a klienti využívající službu IB podle údajů z tabulky aktivují GSM bankovnictví spíše a to třeba nezávisle tom, zda byli vystaveni marketingové kampani. Takový jev by bylo možné vysvětlit třeba tím, že uživatelé IB mají blíže k moderním technologiím a proto budou rádi využívat i GSM bankovnictví. Potíž je v tom, že při další (nebo jiné) stratifikaci (když abstrahujeme od skutečnosti, že analýzy velkých kontingenčních tabulek s řídce obsazenými buňkami jsou problematické z hlediska statistické významnosti) by se opět mohlo dojít k odlišnému závěru s tím, že například klienti využívající IB si aktivují GSM bankovnictví, které je poměrně blízkým substitutem IB (takže by si vlastně GSM bankovnictví měli aktivovat spíše méně) kvůli působení nějaké další, v předchozích modelech neuvažované proměnné. Výše uvedený příklad ukazuje důležitost výběru proměnných pro analýzu a také alespoň částečně objasňuje motivaci konstruování samostatných predikčních modelů pro každou část databáze vhodně rozčleněné například podle segmentů, které by měly odstínit vlivy, které vedou ke zkreslování při predikčním modelování.
4 Řešení segmentačních úloh
Segmentace patří k základním nástrojům marketingového řízení a často jde o úlohu efektivně řešitelnou za podpory moderních technik analýzy dat - data miningu. Blíže o segmentaci pojednává text Segmentace klientské databáze pro řízení vztahů se zákazníky.
5 Závěr
Existují pokročilé metody metody analýzy a automatizovaného získávání znalostí z dat, jejichž využití umožňuje podstatně zlepšit úroveň řízení vztahů se zákazníky. Zároveň je při praktických data miningových úlohách nezastupitelná role analytika jak při formulaci úlohy tak při validaci výsledků.