AnalitykaArchitektura IT

Czy Data Governance może być oparty na open source? Sprawdzamy Open Metadata i Data Hub

Artykuł ekspercki

Wraz ze wzrostem złożoności architektur danych i rosnącymi wymaganiami regulacyjnymi organizacje coraz częściej szukają sposobu na spójne zarządzanie metadanymi, definicjami biznesowymi i przepływem danych. Dziś nie wystarczy już samo „skatalogowanie” zasobów – dane muszą być powiązane z procesami ETL, modelami hurtowni, słownikami referencyjnymi i raportowaniem.

Czy Data Governance może być oparty na open source? Sprawdzamy Open Metadata i Data Hub

W tym kontekście narzędzia klasy Data Catalog odgrywają ważną rolę w ekosystemie danych: porządkują pojęcia, zwiększają przejrzystość i skracają czas dotarcia do informacji.

Problem zaczyna się jednak wtedy, gdy katalog danych staje się kolejnym ciężkim projektem korporacyjnym -kosztownym, złożonym i trudnym w codziennym użyciu.

Dla organizacji kluczowe jest także realne TCO takich rozwiązań – obejmujące zarówno koszty wdrożenia i utrzymania, jak i nakład pracy zespołów DevOps i Data Engineering.

W praktyce, duże organizacje finansowe uruchamiają wielkie projekty, które mają spełnić wyśrubowane wymagania regulacyjne aby objąć swoim zakresem wszystkie dane oraz przepływy, które funkcjonują w organizacji. Wdrożenia często kończą się formalnym „sukcesem”, ale realne wykorzystanie narzędzia przez użytkowników biznesowych jest znikome.

Powód jest prosty: rozwiązanie, które miało pomagać, okazuje się zbyt skomplikowane, by stać się częścią codziennej pracy.

W Sanmargar Team zadaliśmy sobie pytanie: czy można to zrobić prościej i skuteczniej?

Postanowiliśmy poszukać rozwiązania, w którym narzędzie typu open-source pozwoli wprowadzić DataCatalog tak, by ten praktycznie wspierał procesy biznesowe.

Wybór aplikacji do testów

Szukając rozwiązania, które realnie wspiera użytkowników biznesowych, a nie tylko spełnia formalne wymagania, skupiliśmy się na stosunkowo prostych narzędziach open-source. Zależało nam na narzędziach, które można szybko uruchomić i z których da się korzystać na co dzień. Bez długiego wdrożenia, skomplikowanej obsługi i czasochłonnych szkoleń.

Po wstępnej analizie wybraliśmy dwa najbardziej obiecujące narzędzia, które wzięliśmy pod lupę i dokładnie przetestowaliśmy:

  1. Open Metadata
  2. DataHub

Uruchomiliśmy je we własnej, dedykowanej infrastrukturze. Podłączyliśmy do różnych źródeł danych, nakarmiliśmy zestawem pojęć biznesowych, reguł walidacji oraz parametrów jakości danych.

Open Metadata

Open Metadata to narzędzie zaprojektowane jako jedno, centralne miejsce do zarządzania metadanymi w organizacji. Łączy informacje techniczne, biznesowe i operacyjne, dzięki czemu ułatwia zrozumienie, skąd pochodzą dane, jak są wykorzystywane i kto za nie odpowiada.

Platforma umożliwia automatyczne zbieranie informacji o danych z popularnych hurtowni, procesów ETL i narzędzi BI. Wspiera śledzenie przepływu danych, zarządzanie jakością danych i porządkowanie definicji biznesowych.
Twórcy narzędzia postawili na prostotę obsługi i czytelny interfejs, tak aby z narzędzia mogli korzystać jednocześnie specjaliści IT i użytkownicy biznesowi.

DataHub

Drugie narzędzie wytypowane do testów to dojrzała platforma open source do zarządzania metadanymi, tworzona z myślą o dużych i rozproszonych środowiskach danych oraz organizacjach pracujących w modelu data mesh.

Data Hub oferuje rozbudowany model metadanych, zaawansowane mechanizmy data lineage oraz szerokie możliwości integracji z hurtowniami danych, systemami przetwarzania i narzędziami analitycznymi.

Istotnym elementem platformy jest bogaty ekosystem konektorów i mechanizmów ingestion, które umożliwiają pozyskiwanie metadanych zarówno w trybie wsadowym, jak i zdarzeniowym.

Skalowalność i elastyczność czynią DataHub atrakcyjnym rozwiązaniem dla organizacji o złożonej architekturze danych, choć wiąże się to z wyższymi wymaganiami w zakresie konfiguracji, utrzymania i zarządzania środowiskiem.

Cechy idealnego narzędzia Data Catalog

Aby porównać najważniejsze cechy analizowanych narzędzi, przyjęliśmy zestaw praktycznych kryteriów, opartych na realnych doświadczeniach z wdrożeń. Zależało nam przede wszystkim na dwóch rzeczach: jak szybko narzędzie można uruchomić oraz na ile jest ono użyteczne dla użytkowników biznesowych.

Na tej podstawie wyodrębniliśmy 10 kategorii funkcjonalnych ocenianych podczas analizy porównawczej.:

1. Interfejs, który nie wymaga instrukcji
2. Wyszukiwanie, które działa
3. Zrozumienie danych bez zaglądania do hurtowni
4. Jasne zasady odpowiedzialności
5. Praca ze słownikami w jednym miejscu
6. Definicje biznesowe, które żyją w biznesowym tempie
7. Data lineage i analiza wpływu zmian
8. Jakość danych pod kontrolą
9. Integracja z ekosystemem danych
10. Szybkie uruchomienie i łatwe utrzymanie

Wnioski z testów narzędzi Data Catalog

Testy narzędzi OpenMetadata oraz DataHub pokazują, że oba projekty open-source dobrze spełniają podstawowe funkcje katalogowania danych, choć różnią się zakresem funkcjonalności, złożonością operacyjną i wymaganiami dotyczącymi utrzymania.

Wybór pomiędzy OpenMetadata a DataHub powinien być zatem uzależniony od wielkości środowiska danych, dojrzałości zespołów technicznych oraz potrzeb w zakresie zaawansowanego zarządzania metadanymi i integracji z ekosystemem danych.

W pełnej wersji artykułu znajdziesz szczegółowe porównanie  analizowanych narzędzi open-source klasy Data Catalog. Oceny oparte na praktycznych testach i realnych scenariuszach użycia. Pokazujemy nie tylko różnice funkcjonalne, ale także konsekwencje tych różnic dla wdrożeń, utrzymania i codziennej pracy z danymi.

Jeśli chcesz zobaczyć, które rozwiązania sprawdzają się w praktyce, jakie kompromisy trzeba brać pod uwagę i jaki potencjał niosą narzędzia OS Data Catalog w organizacjach o różnej skali – zapraszamy do lektury.

Pełna treść artykułu dostępna jest pod poniższym linkiem.

Czy Data Governance może być oparty na open source? Sprawdzamy Open Metadata i Data Hub

Grzegorz Orłowski – Product Manager w Sanmargar Team (grzegorz.orlowski@sanmargar.com).

Sanmargar Team Sp. z o.o. specjalizuje się w realizacji projektów z zakresu zarządzania i przetwarzania danych; jest producentem Metastudio DRM – rozwiązania do zarządzania danymi referencyjnymi i podstawowymi.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *