Analityka Artykuł z magazynu ITwiz CDO CIO Polecane tematy

Big Data bliżej do geometrii i równań różniczkowych niż rachunku prawdopodobieństwa

Paweł Klimczewski 25 marca 2014

0 818 5 minut(y) czytania

Praca z Big Data to praca w pełnym tego znaczenia świecie wielowymiarowym. Progiem, który przekracza biznes i nasz świat na początku XXI w. jest zaś próba stosowania matematycznej optymalizacji na wielką skalę.

Artykuł pochodzi z pierwszego numeru magazynu ITwiz. Zapraszamy do zakupu.

Big Data to często dane z wielu aktywności ludzkich. Do ich interpretacji potrzebna jest więc wiedza interdyscyplinarna. Poważnym ograniczeniem w rozwoju firm jest dziś brak tak przygotowanych kadr. Tylko największe koncerny i armia prowadzą prace rozwojowe na taką skalę, aby mieć wsparcie najwybitniejszych umysłów.

Nowy zawód: data scientist

Pojecie data scientist zostanie w swym angielskim brzmieniu zapewne do języka polskiego zapożyczone. Niestety większość ogłoszeń oferujących im prace jest z Berlina i Londynu, co pokazuje doskonale klimat w Polsce. Tymczasem przed nami „Internet rzeczy”, który dołoży kolejne petabajty do baz danych, ale dołoży też nową jakość w tych danych. Dziś zbieramy głównie informacje o zachowaniach komunikacyjnych i poznawczych klientów. Wkrótce będziemy mieli dane o tym, jak często trzaskają drzwiami lodówki i kiedy z niej coś wyjmują, a kiedy tylko tam zaglądają. To już bardzo dużo. Wtedy pomyślimy, jak dowiedzieć się, czy w lodówce szukali soku, czy kluczyków od samochodu.

Gdy już zatrudnimy osoby parające się data scientist i zaczniemy liczyć wszystko, nasze apetyty się zaostrzą. Tymczasem od lat wiadomo, że efektem może być kilku lub kilkunastoprocentowy wzrost konwersji. Tylko tyle? A może aż tyle? Tym bardziej, że wyczerpaliśmy już inne metody na zwiększanie liczby klientów i przychodów, a rynek nieustannie się kurczy. Szklanej kuli w najbliższym czasie spodziewać się nie należy, choć dzięki Big Data znacznie lepiej możemy się dziś wsłuchać w głos klientów i rynku. Nasze cyfrowe ślady kreują bowiem nową dziedzinę wiedzy. Big Data pisana wielkimi literami wygląda groźnie, ale i rodzi spore nadzieje.

Cybernetyczna geneza Big Data

Stanisław Lem Big Data określiłby zapewne mianem „cybernetyka”. Słowo to oznacza bowiem sterowanie i kontrolę. W języku polskim pojęcia „cybernetyka” po raz pierwszy użył Bronisław Trentowski w 1843 r. w pracy filozoficznej pod – jakże bliskim sercom dzisiejszych specjalistów od marketingu – tytułem: „Stosunek filozofii do cybernetyki, czyli sztuki rządzenia narodem”.

Wyzwaniem jest przewidzieć anomalię lub zjawisko rzadkie! Zdobywanie udziałów w rynku to wywoływanie zjawisk rzadkich i anomalii. Rynkowy spryt w języku matematyki zaś to znajdowanie ekstremum funkcji.

Gdy w latach 60. i 70. w telewizji dominowały przekazy z eksploracji księżyca. Dzieci na zajęciach z rysunków, przedstawiały rodziny spędzające wakacje na Marsie. Wszyscy wiemy, że sprawy nie poszły tak szybko, jak w ich wizjach. Przyszłość jest inna. Nie latamy do pracy helikopterami, lecz stoimy w coraz dłuższych korkach podtruwając się spalinami z coraz to droższej benzyny. Po powrocie do domu możemy za to liczyć na bajkowo kolorową reklamę z monitora w kuchni, jednego z wielu ekranów w naszym mieszkaniu.

Reklama jest dziś oczywiście doskonale dobrana dla pani domu i to wcale nie dzięki wysokiej technologii i zapierającemu dech algorytmowi, tylko za sprawą samej pani domu. W kuchni nikt jej nie przełącza telenoweli na kanał sportowy. Nasza pani domu definiuje się sama. Nie potrzebujemy do tego systemu rozpoznawania twarzy. W salonie zaś pan domu – też sam – ogląda mecz, gdzie co 20 minut z ekranu dostaje potwierdzenie, że kupił zgrzewkę najlepszego piwa. Ich dzieci zaś przy notebooku tracą czas na zamykanie pop-up’ów na stronie, gdzie miały być gotowe wypracowania z polskiego.

Niezliczone źródła danych

Każdy monitor jest podłączony do Internetu i sygnałem zwrotnym wszystko raportuje do centrali, a w każdym domu jest kilka takich monitorów, a domów – w samej Polsce – jest w kilkanaście milionów. Źródeł informacji mamy znacznie więcej niż mogliśmy zamarzyć. Są to także wszelkiej maści wyciągi, geolokalizacja, cookies, telemetria, itp., itd. I mamy z tym duży problem, a nawet kilka problemów – marketingowy, biznesowy, organizacyjny, technologiczny. Najważniejsze z nich dziś to fakt, że:

Posiadamy mnóstwo danych, z których tylko kilkanaście procent tłumaczy „coś”. Innymi słowy świat jawi się chaosem mimo, że za oknem jakoś to się kreci.
Danych przybywa, ale relacji pomiędzy nimi przybywa w tempie wykładniczym. Rośnie więc poczucie chaosu. Rosną koszty IT. Dostajemy mnóstwo ofert na kolejny system, który to wszystko połączy w jednym „systemie”, a prezes będzie miał codziennie rano nowy wykres.
Kilka lat temu tnąc koszty zlikwidowaliśmy dział rozwoju i nikt w firmie nie wie, co o tym myśleć.
Na domiar złego fizycy nadal nie wiedzą, czy świat jest chaotyczny, czy zdeterminowany. Czyli nie wiadomo, czy można i trzeba się martwic, czy też nie warto tego robić.

Nie wiedząc, jakie dane będą potrzebne gromadzimy często „wszystko”, a na końcu okazuje się, że i tak w postaci nieadekwatnej do potrzeb działu marketingu. Podobnych kłopotów można by uniknąć, gdyby w każdej organizacji był ktoś, kto rozumie w równym stopniu: zagadnienia IT, szczegóły mechanizmów rynkowych jego branży oraz matematykę na poziomie studiów kierunkowych, czyli wspomniany już data scientist. Niemożliwe? Raczej rzadko spotykane. Jednak takie połączenie kompetencji to dziś już konieczność. Przykłady? Amazon, Google, firmy ubezpieczeniowe…

Odnajdywanie igły w stogu siana

Jednocześnie jednak wciąż nikt nie potrafi powiedzieć „ile z tego Big Data będzie”? Na szczęście są pierwsze jaskółki „czyniące wiosnę”. Polski minister finansów miał sen. Rząd wprowadzi system ewidencji zakupu paliwa, dzięki któremu – przy obserwacji ruchu przez kamery – może, na podstawie tablic rejestracyjnych i rozmiarów opon, estymować zużycie paliwa dla każdego obywatela. Kto jeździ dużo, a mało tankuje podlega kontroli z urzędu na okoliczność zakupu paliwa bez akcyzy. Ten trochę makabryczny projekt nie jest fikcją i pokazuje, że można coś zrobić z Big Data, tzn. można na tym zarobić!

Wielkie zbiory danych nie są nowością, ale nowością może być ich zastosowanie, ponieważ cyfrowy świat i przekaz tworzą ku temu możliwości. Od dawna firmy ubezpieczeniowe i finansowe mają nasze profile, a mimo to wysyłają nam absolutnie nie pasujące do nas oferty wzbudzając naszą irytację. Czy proponujmy znajomym, od których pożyczamy 10 000 zł na 3%, że im teraz pożyczymy te 10 tys. zł na 7%? A banki tak robią, mimo że wszystko mają zapisane. Dzieje się tak, bo średni koszt irytacji klienta jest mniejszy niż prawdopodobieństwo zarobienia na średnim kliencie. Co innego gdyby móc oszacować koszt irytacji dla każdego z osobna, wtedy tym najbardziej nerwowym nie wysyłamy takich ofert. I to jest to!

Big Data to całe mnóstwo algorytmów szacujących tego typu wskaźniki. Aby sprawdzić, czy Jan Kowalski szybko się irytuje warto zachować jego rozmowy telefoniczne z konsultantem i harmoniczne jego głosu porównać z „modelem prawdopodobieństwa szybkiej irytacji”. Gdy popuścić wodze fantazji, dochodzimy do wniosku, że warto zapisywać wszystko. Kamery w Smart TV posłusznie reagują na nasze gesty. Każdy gest to wektor, aż się prosi więc, aby to przeanalizować i tworzyć konsumenckie profile, reguły oparte o nasz ruch. Mikrofon już nie jest tak bardzo potrzebny.

Nie powinniśmy się zdziwić, gdy telewizor – w odpowiedzi na nasze machanie – zapyta: „ Nie masz ochoty na ciasteczko? Zwykle o tej porze smakują Ci czekoladowe”. Taka stymulacja może znacznie zwiększyć sprzedaż i dlatego konferencje Big Data przestały zajmować już tylko szefów IT. Teoretycznie przy pomocy internetu komunikację możemy mutować na dowolną ilość wersji, tym samy celnie trafić w portfel naszego klienta zamiast go irytować.

Zrozumieć świat do końca

Cały ten zgiełk to kolejna odsłona wielkiej ludzkiej tęsknoty do panowania i przewidywania. Istnieje powszechne przekonanie, że są reguły pozwalające świat zrozumieć do końca i przewidywać. Wiara ta ma dwa podłoża: a) ignorancję – nawet wykształceni ludzie masowo kupowali, kupują i będą kupowali „sprawdzone systemy na totka”; b) idealizm – są empiryczne przesłanki (ale tylko przesłanki), aby sadzić, że przy bardzo pracochłonnych obliczeniach będziemy mogli przewidzieć, w które drzewo i kiedy uderzy piorun. Tymczasem wiemy już na klika dni na przód „że czkają nas burze na Dolnym Śląsku”. Jednak o tym, że w maju są burze na Dolnym Śląsku widzieli już Rzymianie, gdy wędrowali do Kalisza i dalej po bursztyn.

Od dawna firmy ubezpieczeniowe i finansowe mają nasze profile, a mimo to wysyłają nam absolutnie nie pasujące do nas oferty wzbudzając naszą irytację. Dzieje się tak, bo średni koszt irytacji klienta jest mniejszy niż prawdopodobieństwo zarobienia na średnim kliencie.

Od czasu do czasu na konferencji o Big Data można spotkać bystrego doktora, który przewidział burzę w grudniu na 24 h przed jej wystąpieniem, ale media go zignorowały. Mniejsza z mediami, wyzwaniem jest przewidzieć anomalię lub zjawisko rzadkie! Zdobywanie udziałów w rynku to wywoływanie zjawisk rzadkich i anomalii. Dużo jesteśmy w stanie zapłacić, aby Jan Kowalski wszedł na nasz portal po raz pierwszy w życiu i to najlepiej nie z przypadku, po kliknięciu w agresywny pop-up, ale z czystej ciekawości.

Rynkowy spryt w języku matematyki to znajdowanie ekstremum funkcji. Robiliśmy to niby wszyscy na maturze, ale w biznesie jest niestety tak, że zwykle nikt tej funkcji nie zna za dobrze więc rutynowe szukanie jej ekstremum nie jest rozwiązaniem. Alternatywnych rozwiązań jest kilka, a ich wybór zależy od tego ile mamy czasu. W platformach RTB czas na dokonanie wyboru to setne części sekundy, w sklepie internetowym analiza profili użytkowników może trwać tygodnie…

Autor jest prezesem firmy StatSoft.

Big Data bliżej do geometrii i równań różniczkowych niż rachunku prawdopodobieństwa

Artykuł pochodzi z pierwszego numeru magazynu ITwiz. Zapraszamy do zakupu.

Tagi