AnalitykaCDOBiznesPolecane tematy
Czy wykorzystanie analityki Big Data ma sens?
Czy Big Data nie jest jedynie marketingowym chwytem na sprzedaż rozwiązań od dawna znanych? Niczym Bio lub Eko na produktach codziennego użytku. Jaką korzyść niosą rozwiązania informatyczne w obszarze Big Data dla biznesu? Ale konkretnie, bez sloganów o „ulepszaniu”, „usprawnianiu”, „poprawianiu” i „optymalizacji”…
Termin Big Data jest w mojej opinii niemal tak wyświechtany, jak innowacja. Nie ma tygodnia, aby w skrzynce pocztowej – oprócz reklam szkoleń, inwestycji, kredytów i nie wiadomo czego jeszcze – nie lądowało zaproszenie na konferencję z magicznym Big Data w nazwie. Jak grzyby po deszczu powstają start-up’y, na których stronach roi się od haseł Big Data. Każda szanująca się korporacja w sektorze IT posiada w portfolio rozwiązania Big Data – od sprzętu, przez oprogramowanie po usługi. Tylko czym jest Big Data?
Od Big Data do Big Idea
Jak mantra powtarzam tezę, że „w gromadzonych danych zawarta jest informacja, z której można czerpać wiedzę, aby osiągnąć przewagę konkurencyjną”. I choć brzmi to jak truizm, otwiera polemikę, która pozwala dotknąć wielu kwestii związanych z Big Data. I umożliwić ewolucję, przynajmniej mentalną, w kierunku Data Driven Business, czyli biznesu gdzie decyzje podejmuje się na podstawie wzbogaconej wiedzy, a nie jedynie przeczucia eksperta i raportów ex post.
Dane…
Wydawać by się mogło, że to oczywiste i proste. Każda organizacja gromadzi dane. Dużo danych. Dyrektorzy finansowi wiedzą o tym świetnie, patrząc przez pryzmat wydatków na systemy backup’owe czy storage’owe. Bank gromadzi dane o transakcjach kartami płatniczymi, wykonanych przelewach, obsłudze kredytu, produktach inwestycyjnych, wizytach w oddziałach czy wykorzystaniu bankowości internetowej. Czy zatem wie wszystko o przysłowiowym Kowalskim? Czy może mu przedstawić ofertę Just In Time na właśnie ten produkt, którego klient oczekuje?
Jak mantra powtarzam tezę, że „w gromadzonych danych zawarta jest informacja, z której można czerpać wiedzę, aby osiągnąć przewagę konkurencyjną”. I choć brzmi to jak truizm, otwiera polemikę, która pozwala dotknąć wielu kwestii związanych z Big Data. I umożliwić ewolucję, przynajmniej mentalną, w kierunku Data Driven Business, czyli biznesu gdzie decyzje podejmuje się na podstawie wzbogaconej wiedzy, a nie jedynie przeczucia eksperta i raportów ex post.
Otóż często nie, gdyż dane są gromadzone w oddzielnych systemach IT, realizujących odmienne cele, pracujących często w reżimie czasowym i z koniecznością zapewnienia ciągłości działania. Silosy danych dają pozorną pewność, że mamy wszystkie dane, aby czerpać z nich informacje, lecz w praktyce jest to niemożliwe. Ingerencja w krytyczne systemy IT – a zatem w krytyczne procesy – jest zbyt ryzykowna i zbyt kosztowna.
A gdyby tak skopiować te wszystkie dane w nowe miejsce i skorelować ze sobą? Technologie Big Data pozwalają na takie podejście tworząc „jezioro danych” (Data Lake). Dodatkowo, przy bardzo korzystnym TCO.
Dane, informacja…
Jezioro danych pozostaje jedynie… jeziorem. Czasem mętnym, skrywającym wszystko co może być interesujące. Dopiero zaawansowana analityka, opracowane indywidualnie dla każdego przypadku biznesowego modele statystyczno-matematyczne pozwalają na przeczesywanie zbiorów różnorodnych danych, identyfikowanie trendów, wyszukiwanie prawidłowości, określanie prawdopodobieństwa zajścia konkretnych zdarzeń. Analityka w rozumieniu Big Data pozwala na przewidywanie i prognozowanie, a zatem odnosi się do przyszłości bazując na przeszłości.
Dane, informacja, wiedza…
Opracowane przez specjalistów określanych mianem Data Scientist – podobno najbardziej pożądany zawód na świecie patrząc na ilość wakatów – modele matematyczno-statystyczne pozwalają na pozyskanie informacji z jeziora danych. Dopiero jednak kontekst biznesowy, nadany przez właściciela biznesowego pozwoli na realne wykorzystanie uzyskanej wiedzy. Niektóre fakty mogą być nie do zastosowania z biznesowego punktu widzenia.
Dane często gromadzone są w oddzielnych systemach IT, realizujących odmienne cele, pracujących często w reżimie czasowym i z koniecznością zapewnienia ciągłości działania. Silosy danych dają pozorną pewność, że mamy wszystkie dane, aby czerpać z nich informacje, lecz w praktyce jest to niemożliwe. Ingerencja w krytyczne systemy IT – a zatem w krytyczne procesy – jest zbyt ryzykowna i zbyt kosztowna. A gdyby tak skopiować te wszystkie dane w nowe miejsce i skorelować ze sobą? Technologie Big Data pozwalają na takie podejście tworząc „jezioro danych” (Data Lake).
Procesy technologiczne w fabryce nie mogą być dowolnie zmieniane, a wymogi formalne nakładają na banki konkretne wymagania, niezależnie od biznesowego – statystycznego – uzasadnienia. Reklama danego produktu w sieciach handlowych może nie mieć potwierdzenia w wynikach sprzedaży lub generowanym zysku jednak i tak będzie emitowana budując jej wizerunek. Kluczowe jest więc wyłowienie tych statystycznie potwierdzonych informacji, które z biznesowego punktu widzenia są możliwe do zaaplikowania w codziennym biznesie i przyniosą największe korzyści.
Dane, informacja, wiedza, przewaga konkurencyjna
Sama wiedza nie wystarczy. Fakt, że sprzedaż piwa pociąga za sobą sprzedaż paluszków byłaby bezużyteczna gdyby nie odpowiednia ekspozycja towarów w sklepie. Precyzyjna segmentacja klientów niczego nie da jeśli e-Commerce nie będzie prezentował dynamicznie zmieniającej się treści w zależności od zalogowanego klienta. Informacja, że klient właśnie wykonał przelew kupując walutę musi skutkować telefonem od konsultanta z call center oferującego usługę e-Kantoru w ramach oferty banku.
Wykorzystanie uzyskanej na podstawie zaawansowanej analityki wiedzy często pociąga za sobą konieczność dostosowania procesów biznesowych i integracji z licznymi systemami IT. Wymaga więc zaangażowania wielu departamentów i wsparcia ze strony zarządu. Czego jednak się nie robi, gdy realne jest zbudowanie przewagi konkurencyjnej?
Hadoop jako podstawowa technologia Big Data
Gwoli wyjaśnienia na początku, Hadoop to ekosystem technologiczny, który – bazując na niezbyt drogim sprzęcie – pozwala na efektywne kosztowo i czasowo przetwarzanie i przechowywanie dużych (rzędu PB) zbiorów danych, implementując w warstwie oprogramowania mechanizmy batchowego i strumieniowego przetwarzania danych, Data Governance, bezpieczeństwa, replikacji i innych. Dzięki heterogenicznej, modułowej budowie pozwala na spójne technologicznie podejście do realizacji przypadków biznesowych dla przeróżnych branż, a jako technologia open source stanowi obecnie podwaliny pod rozwiązania i komercyjne platformy Big Data oferowane przez największych dostawców IT.
Technologia Hadoop pozwala skopiować duże ilości danych, pochodzących z różnych systemów informatycznych (silosów) w jedno miejsce tworzące Data Lake. Wszystko zaś bez ingerencji w krytyczne procesy, a zatem redukując ryzyko wdrożenia. Hadoop pozwala na przetwarzanie danych batch’owo, a zatem wyławianie informacji niczym cennych okazów z jeziora danych. Zaawansowane modele matematyczno-statystyczne prognozujące sprzedaż czy przewidujące awarię linii produkcyjnej mogą być przeliczane miliony razy codziennie na najbardziej aktualnych danych generując podstawy do podejmowania decyzji w oparciu o wiedzę.
Technologia Hadoop pozwala skopiować duże ilości danych, pochodzących z różnych systemów informatycznych (silosów) w jedno miejsce tworzące Data Lake. Wszystko zaś bez ingerencji w krytyczne procesy, a zatem redukując ryzyko wdrożenia. Hadoop pozwala na przetwarzanie danych batch’owo, a zatem wyławianie informacji niczym cennych okazów z jeziora danych. Zaawansowane modele matematyczno-statystyczne prognozujące sprzedaż czy przewidujące awarię linii produkcyjnej mogą być przeliczane miliony razy codziennie na najbardziej aktualnych danych generując podstawy do podejmowania decyzji w oparciu o wiedzę. Analiza strumieni zdarzeń w czasie rzeczywistym umożliwia w milisekundach rozpoznanie klienta logującego się do e-Commerce, ustalenie segmentu do którego należy, wyświetlenie na stronie www spersonalizowanej oferty w zakresie gamy produktów oraz indywidualnie przyznanych rabatów zwiększając szansę na sprzedaż. Integracja Hadoop’a z systemami transakcyjnymi pozwala na automatyzację, a zatem na zbudowanie realnej przewagi konkurencyjnej w codziennym biznesie.
Michał Koziara jest Big Data Evangelist w Silmine.