CIO Polecane tematy

Skuteczne wyszukiwanie danych staje się coraz ważniejsze

Przemysław Gamdzyk 22 października 2014

0 806 4 minut(y) czytania

Mamy doskonałe narzędzia bazodanowe, potrafimy uporządkować wprowadzane do nich dane z poziomu różnych systemów dziedzinowych i biznesowych. Wydawałoby się, że w ten sposób można zapanować nad całością informacji w firmie. Praktyka jednak uczy, że istnieje, druga, ciemna strona niedostępności informacji. Jej wyszukiwanie pozostaje więc jednym z głównych wyzwań dla każdej organizacji.

O ile różne systemy – jak chociażby CRM – wymuszają stosowanie ściśle określonych formatów i zakresów gromadzonych danych, a co najważniejsze dobrze określają repozytorium ich gromadzenia, o tyle na poziomie przechowywania innego rodzaju informacji – plików, e-maili, dokumentów PDF i innych ważnych zbiorów danych, zapisanych w różnorodny sposób – zazwyczaj bowiem każdy robi to, co chce i co uważa za najlepsze. Tutaj pośpiech i nakierowanie na bieżące zadania nie sprzyja długofalowemu myśleniu o organizacji informacji. W efekcie trudno ją potem zlokalizować, a koszta związane z tym poszukiwaniem, czy częstokroć niemożnością dotarcia do potrzebnych danych, są dla organizacji ogromne.

Okienko na słowa-klucze

Zamiast żmudnego, uporządkowanego, systematycznego odkładania wszystkiego na wirtualnych, ponumerowanych półkach, różnorodne informacje zazwyczaj składujemy w sposób dość chaotyczny i przypadkowy, a przypomina to odkładanie kolejnych rzeczy na najbliższe wolne miejsce na strychu. Kłopot pojawia się wtedy, gdy trzeba coś odnaleźć. Wtedy często jesteśmy bez szans – nie znajdziemy tego, czego szukamy, bez przeprowadzenia gruntownych porządków, na które w praktyce informatycznej przestrzeni informacyjnej często nas już nigdy nie będzie stać. Z punktu widzenia użytkownika wyszukiwanie informacji po prostu „nie działa”.

Teoretycznie pomoc mają dawać tutaj silniki wyszukiwania, indeksujące całą dostępną zawartość plików i dokumentów, gdzie użytkownik stara się zlokalizować potrzebne mu informacje za pomocą wpisywania słów kluczowych. Jak bardzo jest to ułomne i jak trudno znaleźć właściwy dokument, dobrze wie każdy, kto korzystać z takiej „wyszukiwarki” w intranecie, czy na firmowych stronach WWW.

Odpowiedzi na zapytanie wcale nie niosą tego, czego tak naprawdę szukamy. Na ogół mamy dwie sytuacje – albo w ogóle nie ma żadnych wyników, albo jest ich bardzo dużo – nie do ogarnięcia, a kolejność ich podania nijak ma się do rzeczywistej wartości informacji. Stąd rodzi się nie tylko rozczarowanie użytkowników, ale przede wszystkim pojawiają się koszty – żmudnego docierania do potrzebnej informacji, częstokroć zakończone niepowodzeniem, bo użytkownik również szybko się zniechęca.

Znaczenie strategii

Remedium może być strategia dotycząca zarządzania informacją w firmie. Chodzi o długofalowe, przemyślane i konsekwentnie stosowane podejście do wszystkiego, co składa się na całą chmurę informacyjną w firmie – także w odniesieniu do każdego dokumentu i innych obiektów będącym nośnikami informacji w firmie, którą potencjalne mogą być potrzebne w przyszłości.

Odpowiedzi z wyszukiwarki na zapytanie wcale nie niosą tego, czego tak naprawdę szukamy. Na ogół mamy dwie sytuacje – albo w ogóle nie ma żadnych wyników, albo jest ich bardzo dużo – nie do ogarnięcia, a kolejność ich podania nijak ma się do rzeczywistej wartości informacji.

Martin White, konsultant w brytyjskiej firmie Intranet Focus, wskazuje na kilka kluczowych czynników sukcesu. Przede wszystkim potrzebne jest traktowanie informacji jako zasobu o istotnym znaczeniu biznesowym. Dzisiaj w wielu firmach to rzecz wyłącznie deklaratywna, w żaden sposób nie przekładająca się na realne działania. Gdyby bowiem biznes faktycznie uznał informacje za zasób decydujący o wartości firmy, to musiałyby za tym pójść działania zmierzające do podniesienia wartości tego zasobu.

W praktyce trzeba dbać o rozwój metadanych, opis struktury i architektury informacji w firmie. Niezbędne jest również inwestowanie w kompetencje i zasoby ludzkie w obszarze zarządzania informacją i jej wyszukiwania. To ciągle raczej wyjątek a nie reguła.

Jakość na agendzie

Zazwyczaj dbanie o jakość danych i informacji to coś na kształt hobby – ktoś się może tym w firmie zajmować, ale na ogół czyni to z własnej inicjatywy, trochę poza normalnymi obowiązkami. Brakuje systemowego wsparcia dla takich działań, zachęt, motywacji. Nie także widać troski o to, aby śledzić, w jaki sposób ludzie szukają informacji i czego zazwyczaj poszukują. Nie ma więc danych potrzebnych do tego, aby wiedzieć, jak lepiej ustawić cały proces. Nie ma szkoleń, a co więcej brakuje działań wspierających tych, od których zależy jakość informacji. Chodzi tutaj o elementy oceny pracowników i celów, które są przed nimi stawiane, o to, aby dbanie o jakość informacji zwyczajnie się pracownikom opłacało, by byli do tego motywowani.

Ważne jest długofalowe, przemyślane i konsekwentnie stosowane podejście do wszystkiego, co składa się na całą chmurę informacyjną w firmie. W praktyce trzeba dbać o rozwój metadanych, opis struktury i architektury informacji w firmie. Niezbędne jest też inwestowanie w kompetencje i zasoby w obszarze zarządzania informacją i jej wyszukiwania. To ciągle raczej wyjątek a nie reguła.

Tutaj można wskazać różne poziomy dojrzałości – im wyższy, tym większe korzyści i możliwości efektywnego wykorzystania informacji. Poziom najniższy to brak polityki firmowej, zarządzaniem informacją zajmuje się każdy w firmie na swój użytek. Granica, której nie przekracza większość firm, to funkcjonowanie takiej polityki, która jest zarządzania i egzekwowana przez dział IT. Wyższe poziomy zakładają istotne zaangażowanie biznesu – gdzie docelowo za jakość informacji w firmie powinien odpowiadać konkretny członek zarządu.

Informacja o danych

Każdy dokument może być opisany szeregiem danych, które będą później stanowić fundament efektywnego wyszukiwania informacji. To przede wszystkim nazwa dokumentu, data jego powstania i modyfikacji, autorstwo, zestaw opisujących go metadanych, ale także zestaw wielu innych elementów. Celem jest to, aby każdy dokument, plik, elementarny zestaw informacji opisać tak, by potem dało się całość efektywnie przeszukiwać i zadawać szczegółowe pytania w wyszukiwarce.

Istotne, że sam mechanizm wyszukiwania staje się wtedy uniwersalnym mechanizmem dostępu do informacji. Zamiast budowania mechanizmów zapytań bazodanowych, tworzy się schematy zapytań w wyszukiwarce firmowej. W praktyce okazuje się, że działa to nieporównanie szybciej. Pojawiają się już wdrożenia, w których to właśnie tak rozumiany ‘search’ staje się centralnym narzędziem organizacji informacji. Mogą to być chociażby sklepy internetowe, czy systemy analizy informacji. Zamiast zapytań bazodanowych o wyselekcjonowanie konkretnych elementów, używa się tutaj w sposób zautomatyzowany mechanizmów wyszukiwania.

Granica, której nie przekracza większość firm, to funkcjonowanie takiej polityki zarządzania informacją, która jest zarządzania i egzekwowana przez dział IT. Wyższe poziomy zakładają istotne zaangażowanie biznesu – gdzie docelowo za jakość informacji w firmie powinien odpowiadać konkretny członek zarządu.

To dość istotna zmiana – w której wyszukiwaniu informacji, kontekst tego działania i dostępne narzędzia nie są pomocnicze wobec organizacji informacji, ale znajdują się w centralnym miejscu. Oczywiście bez przyjęcia strategii zarządzania informacją i jej konsekwentnej egzekucji, ten sposób nie będzie działał, bo wymaga on dyscypliny przy powiększaniu zasobów informacyjnych.

Narzędzia wyszukiwania informacji

W obszarze firmowych rozwiązań wyszukiwania dostępne są różne narzędzia – według „magicznego quadrantu” Gartnera liderami rynku jest tutaj Google, HP Autonomy, Coveo oraz Perceptive Software, natomiast widać wyraźny trend – wzrost znaczenia rozwiązań Open Source (jak np. Elastic Search).

W szybkości docierania do informacji i jej wyszukiwania pomagają także nowe sposoby gromadzenia danych w bazach innych niż relacyjne. Spośród wszystkich alternatywnych technologii obecnie najszybciej rośnie liczba wdrożeń i zastosowań tzw. grafowych baz danych (graph database), które sprawdzają się wszędzie tam, gdzie mamy do czynienia z dużą złożonością powiązań pomiędzy danymi. Zamiast rekordów SQL, przechowywane są tutaj informacje o grafach łączących węzły informacji.

Wg. Forrestera już w roku 2017 będą one wykorzystywane w 25% większych firm. Grafowe bazy danych wykorzystują dzisiaj firmy internetowe, chociażby LinkedIn, ale potencjalnych zastosowań jest coraz więcej z uwagi na wzrost możliwych do gromadzenia danych obrazujących powiązania, przede wszystkim z serwisów social media i serwisów internetowych czy też różnorodnych plików typu log (śledzenie informacji z systemów IT i różnego rodzaju zdarzeń systemowych i na styku człowiek-maszyna). W przypadku intensywnie powiązanych danych różnica w szybkości odpowiedzi baz SQL i baz grafowych może sięgać nawet 3 rzędów wielkości! Niekwestionowanym liderem takich rozwiązań jest zestaw Neo4j firmowany przez Neo Technology.

Materiał został przygotowany na bazie konferencji Findability Day 2014. Spotkanie organizowane przez firmę Findwise gromadzi ponad 200 uczestników i jest największym spotkanie poświęconej wyszukiwaniu i organizacji informacji w naszej części Europy.

Tagi