Dane to ropa XXI wieku. O ich potencjale gospodarczym i biznesowym świadczą dziś nie tyle możliwości samego gromadzenia zróżnicowanych danych, co umiejętne ich wykorzystanie w celu pozyskania rzetelnych, adekwatnych i przydanych w danym momencie informacji. Na świecie rośnie więc znaczenie i zapotrzebowanie na kompetencje pozwalające wyciągać wielorakie wnioski z dostępnych zbiorów danych. W szczególności poszukiwani są „mistrzowie danych”. Jak zapewnić im efektywne środowisko pracy? Warto sięgnąć po możliwości oferowane przez Apple MacBook Pro.
W każdym obszarze życia – od prywatnego, po zawodowe – generujemy i przetwarzamy gigabajty danych na sekundę. Co więcej, nie dotyczy to tylko nas, ludzi. Znaczące ilości danych tworzy i przetwarza dziś także coraz większa liczba otaczających nas urządzeń: lodówek, zabawek czy pojazdów. Nie dziwi więc, że na rynku pojawiają się nowe specjalizacje i zawody związane z gromadzeniem oraz wyciąganiem wniosków z dostępnych zbiorów danych. W szczególności dotyczy to szeroko rozumianego biznesu, który nauczył się doceniać walory wielowymiarowych analiz zróżnicowanych danych w procesach decyzyjnych – czy to na etapie planowania rozwoju działalności, czy też automatyzacji powtarzalnych operacji biznesowych. Do takich zawodów należy m.in. data scientist.
Naukowiec od danych
W praktyce, data scientist to osoba zajmująca się obszarem nazwanym data science – dosłownie nauka o danych – czyli interdyscyplinarna dziedzina naukowa tworząca mechanizmy, algorytmy i techniki wydobywania wzorców, spostrzeżeń, a finalnie użytecznej wiedzy z informacji ze zbiorów danych różnego rodzaju. Mogą być to, przykładowo, zbiory ustrukturyzowane, jak bazy i hurtownie danych, jak i nieuporządkowane – nagrania audio lub wideo, artykuły prasowe czy inne treści internetowe. Duża skala, zmienność i zróżnicowanie danych sprawiają, że mówimy wręcz o analityce Big Data.
Jako zawód rola data scientist charakteryzuje się szerokim interdyscyplinarnym zakresem kompetencji. Z jednej strony sięgają one typowych obszarów techniczno-informatycznych, w tym programowania, uczenia maszynowego – tradycyjnego i deep learning – przetwarzania języka naturalnego, SQL, wizualizacji danych oraz przygotowania obszernych prezentacji biznesowych. Z drugiej strony funkcja data scientist wymaga też tradycyjnej wiedzy, choćby z zakresu matematyki i statystyki. Rola ta, jak żadna inna, łączy w sobie przeogromny “głód” nauki wraz z miłością do eksperymentów i poszukiwań wzorów na wszystko.
Poszukiwane kompetencje i narzędzia
Jak można się domyśleć, specjaliści z tego obszaru są dziś bardzo poszukiwani i opłacani. Aby jednak mogli wykonywać swoje obowiązki w efektywny i skuteczny sposób – potrzebują wydajnego i pojemnego pod kątem danych stanowiska pracy.
Jako osoba, która częściowo realizuje zdania opisane dla data scientist, postawię tezę, że fundamentem efektywnej pracy z danymi jest posiadanie odpowiednio szybkiego i niezawodnego środowiska pracy. Środowiska, którego fundamentem musi być szybki, niezawodny i wygodny w obsłudze komputer osobisty.
Ja zdecydowałem się na MacBook Pro. W mojej ocenie jest to idealna platforma dla osoby wyspecjalizowanej w obszarze gromadzenia, przetwarzania, analizy i wizualizacji danych. Dlaczego?
Oto 4 argumenty za wykorzystaniem Apple MacBook Pro w pracy data scientist`a:
Argument 1: Bezpieczeństwo i niezawodność
Być może jest to nieco wyświechtany frazes, ale bezpieczeństwo i niezawodność działania narzędzi pracy mają fundamentalne znaczenie dla pracy mistrza danych, bo tak właśnie tłumaczona na język polski jest rola data scientist. W praktyce, funkcja ta wiąże się z koniecznością przetwarzania gigabajtów danych i o ile zazwyczaj tylko niektóre z nich podlegają regulacjom branżowym lub RODO, to ich utrata – a tym bardziej przejście w niepowołane ręce danych o sprzedaży, marży czy zyskach przedsiębiorstwa to katastrofa dla każdej szanującej się organizacji.
Z tego powodu ogromnego znaczenia nabiera kwestia ochrony danych zgromadzonych na komputerze osobistym. Cenna jest też niezawodność, rozumiana jako bezawaryjność pracy sprzętu Apple – zarówno w wymiarze sprzętowym, jak i aplikacyjnym. Dlatego mocne systemowe szyfrowanie dysków jest dziś koniecznością. Komputery osobiste Apple tego typu funkcjonalność posiadają w sposób natywny w formie usługi Apple FileVault – i to wraz ze sprzętową akceleracją. Oczywiście podobną funkcjonalność ochrony danych można osiągnąć na alternatywnych platformach, ale często są to mechanizmy mniej wydajne lub wymagające wykorzystania rozwiązań firm trzecich, które siłą rzeczy ustępują możliwościom rozwiązaniom dostarczanym bezpośrednio przez producenta sprzętu. Jeżeli więc często zabierasz swojego laptopa w podróże i przechowujesz w jego pamięci dane wrażliwe z punktu widzenia przedsiębiorstwa to funkcjonalność Apple FileVault staje się wręcz nieoceniona.
Argument 2: Wysoka wydajność i wsparcie dla zróżnicowanych narzędzi
Jak wspomniałem wcześniej, data scientist jest osobą, która musi w efektywny sposób łączyć kompetencje z różnych dziedzin. Niejako jest to człowiek renesansu, w którego rękach jest programowanie, modelowanie danych, obsługa baz danych SQL, noSQL, a także dziedziny, takie jak: machine learning (klasyfikatory, modele regresji), deep learning (np. przetwarzanie obrazu), web-scraping i NLP. W ślad za potrzebą posiadania ogromnej wiedzy idzie też konieczność wykorzystywania dużej ilości zróżnicowanych narzędzi. Setki zainstalowanych aplikacji, a do tego wirtualizacja i konteneryzacja to naturalne środowisko pracy osób na tego typu stanowiskach. Nie każdy komputer osobisty będzie w stanie sprostać takim potrzebom w wymiarze wydajnościowym. Potrzebny jest wydajny sprzęt z systemem operacyjnym łączącym stabilne środowisko Unixowe i ergonomiczny graficzny interfejs z możliwością łatwego korzystania z potrzebnych aplikacji biznesowych. Taki właśnie jest MacOS.
System ten należy do rodziny uniksowych środowisk operacyjnych, co nie tylko sprawia, że jest stabilny, ale też wspiera szereg poleceń znanych ze środowisk serwerowych. W ramach MacOS dostęp więc do menadżera pakietów oprogramowania o otwartym kodzie źródłowym (np. Homebrew), dzięki czemu możemy doposażyć możliwości MacBooka Pro choćby o aplikacje typu OCR do przetwarzania obrazami, dokumentami czy plikami PDF, a następnie łatwo uruchamiać je w tle, z linii poleceń i otwierać w setkach odseparowanych wątków. Nasz laptop może zatem zamienić się w wysokowydajny węzeł obliczeniowy.
Dodatkowo głównym językiem programowania w pracy data scientist`a jest obecnie Python, który często korzysta z baz danych (SQL lub NoSQL). W środowisku MacOS wszystkie te bazy można jednym poleceniem zainstalować lub uruchomić jako osobne kontenery. Oczywiście analogiczne środowisko pracy można również skonfigurować na alternatywnych platformach, jednak będziemy mieli w nich do czynienia z ograniczeniami tradycyjnych systemów uniksowych i stracimy dostęp do graficznych narzędzi biurowych albo wręcz przeciwnie, pakiety graficzne będą, ale stracimy możliwości serwera na poziomie terminala. W tym kontekście MacBook Pro zapewnia idealny kompromis pomiędzy graficznym GUI a czarnym terminalem.
Argument 3: Wielozadaniowość i wsparcie dla najpopularniejszych narzędzi biurowych
W obszarze podstawowych aplikacji biznesowych standardem są dziś narzędzia pakietu Microsoft Office. Z racji na swoje umocowanie w organizacji biznesowej oraz duża liczbę interakcji z zarządami i kluczowymi użytkownikami biznesowymi, data scientist musi również dysponować narzędziami, które pozwolą mu w łatwy sposób przedstawić wnioski z analiz i przekazać je innym pracownikom w czytelnej i łatwo dostępnej dla nich formie.
Wyłącznie platforma MacOS zapewnia możliwość jednoczesnego trenowania modelu do analizy emocji (Python/scikit-learn/Spacy), wydobywania danych z połowy polskich serwisów e-commerce (Scrapy) i zapisywania wyników do uruchomionej w środowisku dockerowej platformy ElasticSearch oraz swobodnej pracy z dokumentami Worda czy PowerPointa. Wszystko pracuje stabilnie, zaś instalacja wszystkich wymienionych wyżej rozwiązań jest trywialna i sprowadza się do pojedynczych kliknięć lub komend w wierszu poleceń.
Argument 4: Integracja z innymi urządzeniami
Nierozłącznym elementem pracy na stanowisku data scientist jest nieustanne poszerzanie horyzontów, śledzenie trendów i pomysłów na nietypowe sposoby przetwarzania danych lub pozyskiwania ich z mało popularnych dotąd źródeł. Oznacza to, że wszelkiego rodzaju e-booki, artykuły branżowe czy webinary są “pochłaniane” przez mistrza danych w ilościach hurtowych o różnych porach dnia i nocy. Wiele osób na potrzeby pozyskiwania rozwoju kompetencji korzysta z dodatkowych urządzeń – głównie tabletów. Oczywiście takich, które zapewnią dobrą rozdzielczość, możliwością wygodnego pisania (zawsze świetnie jakiś szybki eksperyment wykonać na Google Collab), a przede wszystkim pełną integracją z komputerem przenośnym i podstawowym środowiskiem codziennej pracy. Wspólny schowek, przesyłanie dużej ilości danych, rozszerzenie MacBook Pro o dodatkowy ekran powoduje – dzięki Sidecar – że iPad staje się idealnym brakującym elementem stanowiska pracy mistrza danych. Naprawdę trudno taki duet stworzyć na alternatywnych środowiskach operacyjnych.
Mam nadzieję, że poyższe argumenty przekonują Państwa choćby do wypróbowania duetu MacBook Pro i iPad w bardzo wymagającej pracy z danymi. Z drugiej strony, artykuł ten rozpoczyna cykl publikacji poradnikowych (tutoriali), za pośrednictwem których będziemy starali się na praktycznych przykładach pokazać jak wykorzystać unikalne możliwości platformy Apple do poprawy efektywności pracy z danymi. Pokażemy m.in. jak zbudować Pythonowe środowisko pracy na komputerach Apple, jak stworzyć web-crawler, scraper i na podstawie tych danych zbudować klasyfikatory o wysokiej przydatności biznesowej, a także – jak stworzyć model pozwalający rozpoznawać osoby na zdjęciach lub firmie z wykorzystaniem kamery i drzemiącej wydajności w MacBook Pro. W praktyce rozwiniemy więc powyższe argumenty, aby udowodnić hipotezę, że MacBook Pro jest wymarzonym stanowiskiem pracy dla pracowników ery informacji i sztucznej inteligencji.
Sebastian Kondracki,
Chief Innovation Officer,
przedsiębiorca, co-founder kilku firm IT.
Programista, analityk biznesowy. Twórca pierwszych portali internetowych.
Stworzył i wdrożył aplikacje dla firm z obszaru bankowości, windykacji, prawa, compliance, e-commerce.