MENU
Advertisement

Biostatystyka, czyli analiza małych zbiorów danych

22 marca 2016Architekci IT, Polecane tematy

W czasach, gdy termin Big Data bije w mediach rekordy popularności, biostatystycy zmagają się często z przeciwnym zagadnieniem – zbyt niskiej ilości danych. Biostatystyka pełni kluczową rolę m.in. w medycynie opartej na dowodach (ang. Evidence-based medicine) oraz badaniach klinicznych. Żaden nowy lek ani terapia nie zostaną wprowadzone do użytku bez wnikliwej statystycznej analizy danych pochodzących z badań nad ich efektywnością i bezpieczeństwem.

DeathtoStock_Wired6

Biostatystyka to dynamicznie rozwijająca się, interdyscyplinarna nauka z pogranicza statystyki stosowanej i biologii, bez której nie sposób wyobrazić sobie nowoczesnej medycyny, farmacji, genetyki, ekologii i innych nauk biotechnologicznych. Z jej początkami – ponad 100 lat temu – związane są takie postacie, jak sir Francis Galton, Karl Pearson, czy Ronald Fisher. Jest nauką równie fascynującą, co niełatwą, wymagającą nieustannego nadążania za nowościami, przyswajania specjalistycznej wiedzy i terminologii z zakresu badanych zjawisk, znajomości przepisów, wytycznych i zaleceń, a wreszcie – doświadczenia, intuicji i znacznej spostrzegawczości. Z tej perspektywy biostatystyka stanowi fascynujące wyzwanie dla pasjonatów nauk ścisłych i medycznych. Z jakimi problemami spotykają się oni w swej codziennej pracy?

Rola statystyki w bionaukach

Z chwilą zatrudnienia Ronalda Fishera w Stacji Badawczej w Rothamsted na początku XX wieku, nauki biologiczne (w tym medycyna) weszły w nową fazę rozwoju, intensywnie wykorzystując narzędzia matematyczne do opisu, modelowania, symulacji i predykcji zjawisk fizykochemicznych zachodzących w żywych organizmach oraz ich zachowań.

Statystyczna analiza danych pozwala dokonać syntezy dużego zbioru danych w postaci mniej licznego zbioru kilku czytelnych, dobrze interpretowalnych i powszechnie uznanych wskaźników. Zajmuje się tym dział statystyki o nazwie Statystyka opisowa. Kolejnym, kluczowym elementem analizy jest uogólnienie rezultatów badania z grupy przebadanych pacjentów (próba statystyczna) na populację wszystkich pacjentów dotkniętych danym schorzeniem. Proces ten nosi nazwę estymacji, zaś narzędzi do jego przeprowadzenia dostarcza Statystyka matematyczna. W trakcie tego etapu dokonuje się tzw. statystycznej weryfikacji hipotez oraz modelowania statystycznego w poszukiwaniu optymalnej formuły opisującej dane zjawisko.

Wyróżnia się analizę konfirmacyjną (potwierdzającą) dla zbioru hipotez postawionych a priori (przed rozpoczęciem badania) oraz eksploracyjną, przeprowadzaną w celu poszukiwania pewnych wzorców i reguł. Dokonuje się także prób redukcji wymiarowości danych, co znacznie ułatwia dalszą analizę oraz interpretację otrzymanych wyników.

Biostatystyk stanowi swego rodzaju „pomost” pomiędzy światem matematyki i medycyny. Nigdy jednak nie wchodzi w kompetencje klinicysty. Może jedynie sugerować pewne kwestie, jednak ostateczna decyzja zawsze należy do osoby z wykształceniem medycznym.

Światowy rynek badań klinicznych charakteryzuje się wyjątkowo dynamicznym rozwojem. W laboratoriach nieustannie syntezowane są nowe substancje o znaczeniu terapeutycznym. Ponieważ ich wprowadzenie na rynek wymaga przeprowadzenia odpowiednich badań, powstaje znaczne zapotrzebowanie na specjalistów z zakresu biostatystyki. Niebagatelny wpływ na taki stan rzeczy ma gwałtowny rozwój technologii IT i ciągłe zwiększanie mocy obliczeniowej komputerów.

Biostatystyka – nauka interdyscyplinarna

Biostatystyka – podobnie jak demografia, ekonometria i inne interdyscyplinarne, oparte o statystykę, nauki – wymaga zarówno należytego przygotowania matematycznego i praktycznej znajomości szerokiej (i stale poszerzającej się) gamy algorytmów i metod analitycznych, jak również przyswojenia sobie specjalistycznej terminologii dziedzinowej oraz wiedzy z zakresu badanych mechanizmów.

Przez większość czasu biostatystyk współpracuje z klinicystami, tj. osobami o wykształceniu medycznym różnych specjalizacji, diagnostycznym, bądź farmaceutycznym. Operuje na specyficznych dla tych dziedzin modelach i posługuje się specjalistyczną terminologią. Zachowanie formalizmu we wzajemnych kontaktach biostatystyka z klinicystami pozwala – podobnie jak w matematyce – znacznie zredukować liczbę dwuznaczności i błędnych interpretacji, a także uprościć komunikację, bo nie trzeba co chwila wyjaśniać podstawowych pojęć.

To jednak nie wszystko. Istnieje szeroka gama określeń charakteryzujących badania i biostatystyk powinien rozumieć ich znaczenie. Przykładowo można wyróżnić badania eksperymentalne i obserwacyjne, przekrojowe i longitudinalne, prospektywne i retrospektywne, kohortowe i przypadek-kontrola, o schemacie równoległym i naprzemiennym. Dodatkowo, w przypadku badań klinicznych niezbędna jest solidnie ugruntowana wiedza na temat reguł ich przeprowadzania oraz znajomość odpowiednich zaleceń, regulacji i wytycznych.

Nie mniej istotne dla sprawnego przeprowadzenia badania jest zrozumienie przez biostatystyka przynajmniej podstaw badanych zagadnień. Skutkuje to podniesieniem świadomości analityka co do oczekiwań badaczy w zakresie interesujących ich zjawisk i w następstwie umożliwia dokładniejsze wykonanie zadania. Nie sposób również, w tym momencie, pominąć zagadnień związanych z bezpieczeństwem. Doświadczony i dobrze zaznajomiony z badanym zagadnieniem biostatystyk jest w stanie wykrywać i sygnalizować badaczom pewne anomalie (co czasem może uratować nie tylko badanie, lecz nawet życie pacjenta) oraz błędy, które zostały przeoczone na etapie wstępnej walidacji danych, np. błędnie przypisane jednostki bądź zakresy referencyjne.

Każda firma będąca dostawcą usług badawczych – zwana CRO – przygotowuje i wdraża do użycia bibliotekę Standardowych Procedur Pooperacyjnych (SOP) regulujących praktycznie każdy aspekt jej funkcjonowania. SOP’y upraszczają także proces adaptacji nowych pracowników minimalizując potrzebę odrywania innych pracowników od ich zajęć. Rzeczywisty stopień realizacji SOP weryfikują odbywające się okresowo audyty wewnętrzne i zewnętrzne.

Z biegiem czasu, w miarę przyswajania kolejnych porcji wiedzy dziedzinowej, analityk może być w stanie samodzielnie wskazywać badaczom potencjalnie interesujące wzorce, a także aktywnie proponować strategie dalszych analiz. Niebagatelne znaczenie ma także uzyskanie przez analityka pewnej samodzielności w sytuacji, gdy kontakt z badaczami jest okresowo bądź permanentnie utrudniony.

Niebagatelna jest również umiejętność czytelnego i jasnego formułowania przekazu płynącego z wyników jego analiz, posługiwania się zrozumiałymi analogiami. Biostatystyk stanowi swego rodzaju „pomost” pomiędzy światem matematyki i medycyny. Nigdy jednak nie wchodzi w kompetencje klinicysty. Może jedynie sugerować pewne kwestie, jednak ostateczna decyzja zawsze należy do osoby z wykształceniem medycznym.

Kolejnym, kluczowym zadaniem biostatystyka jest zastosowanie właściwych metod do właściwych problemów medycznych. Nieprawidłowy dobór testu statystycznego (a jest ich kilkaset), wybór nieodpowiedniej postaci modelu, zaniechanie sprawdzenia założeń bądź niewłaściwa reakcja na brak ich spełnienia, błędna interpretacja wyników, niewłaściwa strategia postępowania z obserwacjami nietypowymi, czyli ogólnie rzecz ujmując „błąd w sztuce” prowadzić może nie tylko do porażki badania i w konsekwencji nie wprowadzenia leku na rynek (bądź jego wycofania i wysokich strat), ale także obniżenia wiarygodności firmy badawczej na rynku. Biostatystyk bierze na siebie dużą odpowiedzialność i zawsze musi umieć uzasadnić podjęte działania. Wiedza dziedzinowa staje się niezbędnym dopełnieniem wiedzy statystycznej.

Regulacje prawne

Badania kliniczne objęte są licznymi regulacjami i wytycznymi. Ich celem jest takie zorganizowanie procesu przeprowadzenia badań, by ich wyniki mogły być uznane za wiarygodne pomiędzy różnymi krajami. Przykładem może być tu zbiór wytycznych (guidelines) oraz zasad Dobrej Praktyki Klinicznej (GCP ) opracowanych w ramach Międzynarodowej Konferencji ds. Harmonizacji (ICH ), stanowiącej wspólne przedsięwzięcie organów regulacyjnych Unii Europejskiej, Stanów Zjednoczonych oraz ekspertów przemysłu farmaceutycznego. Inny przykład stanowią wytyczne CFR realizujące zalecenia FDA zawarte w dokumencie Title 21 CFR Part 11. Warto wspomnieć o deklaracji CONSORT. Bardzo istotne są przepisy lokalnego prawa.

Analiza danych wielowymiarowych niesie ze sobą wiele trudności i pułapek. Utrudniona jest także interpretacja wyników takich analiz. Dlatego jednym z pierwszych etapów analizy takich danych jest redukcja ich wymiarowości, tj. określenie, które zmienne są dla danej analizy istotne.

Dodatkowo, każda firma będąca dostawcą usług badawczych – zwana CRO – przygotowuje i wdraża do użycia bibliotekę standardowych procedur operacyjnych (SOP) regulujących praktycznie każdy aspekt jej funkcjonowania. W rezultacie powstaje baza wiedzy na temat procesów w firmie. Podejście to w znacznym stopniu pomaga zapewnić ich powtarzalność. Uzyskuje się także pełną transparentność działalności poszczególnych działów firmy. Ułatwia to też zarządzanie jakością i bezpieczeństwem. SOP’y upraszczają także proces adaptacji nowych pracowników minimalizując potrzebę odrywania innych pracowników od ich zajęć. Rzeczywisty stopień realizacji SOP weryfikują odbywające się okresowo audyty wewnętrzne i zewnętrzne.

Warto w tym miejscu nadmienić, że biostatystyk bierze aktywny udział w procesie tworzenia specjalistycznych SOP’ów dotyczących zadań realizowanych przez dział biometrii. Na tym jednak formalizm się nie kończy. Jednym z dalszych, kluczowych zadań biostatystyka jest wspólne z klinicystami zaprojektowanie badania , sporządzenie jego Protokołu oraz Planu Analizy (SAP). Dodatkowo – dzięki procedurom regulującym zasady postępowania w momencie stwierdzenia odstępstw od Protokołu oraz Planu badania – powstaje rejestr pozwalający, w razie potrzeby, ustalić osobową odpowiedzialność za zaistniałą sytuację. Jak widać, niełatwa praca biostatystyka dodatkowo obwarowana jest licznymi regulacjami i zaleceniami. Naruszenie dowolnego z nich może zaważyć na powodzeniu całego badania.

Small Data zamiast Big Data

W czasach, gdy termin Big Data bije w mediach rekordy popularności, biostatystycy zmagają się często z przeciwnym zagadnieniem – zbyt niskiej ilości danych. O ile w przypadku badań prospektywnych i eksperymentalnych jednym z pierwszych procesów jest określenie niezbędnej liczby rekrutowanych pacjentów tak, aby osiągnąć pożądaną moc analiz , o tyle w badaniach retrospektywnych bazuje się na danych, które zostały zgromadzone w przeszłości i nie mamy już żadnego wpływu na liczebność badanej grupy pacjentów.

Przyczyn niskiej liczebności badanej grupy pacjentów jest wiele. Do najczęściej występujących można zaliczyć: koszty rekrutacji i utrzymania pacjentów w badaniu, problemy z utrzymaniem pacjenta w badaniu zgodnie z harmonogramem zawartym w Protokole (pacjenci rezygnują z badania, wypadają z badania w efekcie zdarzeń niepożądanych lub śmierci, nie zjawiają się na kolejne wizyty), problemy z rekrutacją pacjentów spełniających określone kryteria, starania by oszczędzić pacjentowi (np. dziecku) bolesnych badań, co w konsekwencji redukuje ilość pozyskanych informacji, naruszenie procedur warunkujących poprawne wykonanie oznaczeń z krwi lub zdarzenia losowe (niewłaściwie przeprowadzony transport i przechowywanie próbek krwi, awaria aparatury pomiarowej), niewywiązanie się dostawcy usług diagnostycznych z umowy (np. w zakresie przesyłania wyników badań), niewywiązanie się należycie z obowiązków przez monitorów badań klinicznych (CRA) i wiele innych, niewymienionych tu powodów.

W sytuacji, gdy danych do analizy jest niewiele, biostatystyk musi wykazać się zręcznością, wiedzą, doświadczeniem i intuicją, aby zapewnić odpowiednią jakość wykonywanych analiz w takich warunkach. Czasem osiągnięcie wszystkich celów badania staje się nawet niemożliwe, ponieważ przy niewielkiej liczebności próby metody statystyczne tracą swą moc – zdolność do wykrywania statystycznie istotnych różnic.

Biostatystyk dysponuje pewnym zbiorem metod pozwalających analizować zbiory danych o niskiej liczebności, np. metody Monte Carlo. Jednakże w przypadku zbyt małej liczebność próby nie są one w stanie zapewnić dostatecznej różnorodności wygenerowanych zbiorów danych, a tym samym, naśladować dostatecznie dobrze populacji. Istnieją także inne metody, np. statystka małych obszarów, ale zawsze należy pamiętać, iż wnioskowanie na podstawie prób o ekstremalnie niskiej liczebności jest niebezpieczne, gdyż może prowadzić do fałszywych wniosków. Mówiąc obrazowo, nie sposób na podstawie dwóch osób wnioskować na temat tysięcy.

Niska jakość danych…

W idealnej sytuacji analityk powinien mieć dostęp do przewidzianego w Protokole kompletu danych, bez brakujących i „podejrzanych” (suspicious) wartości. Niestety, sytuacja taka w praktyce zdarza się rzadko. Nie spotkałem jeszcze takiej. Wówczas trzeba zmierzyć się z rzeczywistością w postaci danych o niskiej jakości i niekompletnych.

Przez większość czasu biostatystyk współpracuje z klinicystami, tj. osobami o wykształceniu medycznym różnych specjalizacji, diagnostycznym, bądź farmaceutycznym. Operuje na specyficznych dla tych dziedzin modelach i posługuje się specjalistyczną terminologią. Zachowanie formalizmu we wzajemnych kontaktach biostatystyka z klinicystami pozwala – podobnie jak w matematyce – znacznie zredukować liczbę dwuznaczności i błędnych interpretacji, a także uprościć komunikację.

Przykładem czynników degenerujących jakość danych mogą być: manualne wprowadzanie informacji, które powinny pochodzić ze znormalizowanych słowników , wskutek czego pojawiają się błędy (literówki, różne warianty zapisu tej samej wartości, i inne, np. „MTX”, „metotreksat”, „metrotexat”), brak lub niejednolite jednostki wyniku badania (mieszanie jednostek, np. mg/dL, mmol/L, g/mL, etc.), tzw. błędy grube powstające wskutek pomyłki (np. źle postawiony przecinek, błąd operatora aparatury pomiarowej), niespójny zapis wartości numerycznych (np. „85, 98, > 100”, co w konsekwencji oznacza brak dokładnej wartości ostatniego pomiaru) i wiele innych.

W tej sytuacji biostatystyk, który zazwyczaj współpracuje z działem Data Management opracowuje szereg procedur walidacyjnych post factum. Należą do nich różnego rodzaju podsumowania (wykaz wartości w kolumnie tabeli wraz ich częstością występowania), testy wskazujące dane „podejrzane” (np. wartości odstające , wpływowe i wysokiej dźwigni), a także graficzne prezentacje danych.

…i ich złożoność danych

To kolejny duży problem w biostatystyce. Zjawiska fizykochemiczne generują bowiem dane o złożonej strukturze. Przejawia się to znaczną liczbą atrybutów opisujących m.in. stan kliniczny i psychofizyczny pacjenta, jego dane demograficzne, historię zdarzeń medycznych, stosowaną terapię i wiele innych informacji. Zgodnie z teorią relacyjnych baz danych, atrybuty te przechowywane są w tabelach grupujących je pod pewnym względem i powiązanych ze sobą w określony sposób. Lista tabel oraz opis ich zawartości (atrybutów) nosi nazwę „schematu danych” i – jak wszystko w przypadku badań klinicznych – podlega normalizacji w postaci zbioru standardów CDISC (CDASH, STDM, ADaM).

Z punktu widzenia statystyki, analiza danych wielowymiarowych niesie ze sobą wiele trudności i pułapek. Utrudniona jest także interpretacja wyników takich analiz. Dlatego jednym z pierwszych etapów analizy takich danych jest redukcja ich wymiarowości, tj. określenie, które zmienne są dla danej analizy istotne. Czasem wystarczy dokonać „ręcznego” wyboru zmiennych, czasem niezbędne jest przeprowadzenie statystycznych procedur zastępujących kilka zmiennych ich „agregatami”, jednak ma to sens tylko w przypadku, gdy możliwa jest ich sensowna interpretacja.

Istotne dla przeprowadzenia badania jest zrozumienie przez biostatystyka przynajmniej podstaw badanych zagadnień. Skutkuje to podniesieniem świadomości analityka, co do oczekiwań badaczy w zakresie interesujących ich zjawisk, w następstwie umożliwia to dokładniejsze wykonanie zadania.

Dane wielowymiarowe wymagają wyrafinowanych metod statystycznych, właściwych dla technik data mining, odpowiedniej wiedzy matematycznej, dużego doświadczenia w ich analizowaniu i dbałości o weryfikację założeń stosowanych metod.

Bazy danych i język SQL

Aby operować na wielowymiarowych danych zapisanych w powiązanych ze sobą tabelach, wygodnym jest umieścić te dane w relacyjnej bazie danych, a następnie odpytywać ją za pomocą języka SQL. Biegła znajomość biostatystyka w zakresie zagadnień i mechanizmów bazodanowych pozwala mu znacznie przyspieszyć wykonanie analiz i podnieść jakość ich wykonania. Typ danych przypisany do kolumny (reprezentującej atrybut) tabeli, mechanizmy walidacyjne , łatwość wykonania najbardziej złożonych nawet podsumowań przyczyniają się znacznie do minimalizacji ryzyka pomyłki.

Typowy arkusz kalkulacyjny z prostymi narzędziami analitycznymi typu „Autofiltr” wystarcza jedynie do najprostszych kwerend. Język SQL o dostatecznie rozbudowanym dialekcie pozwala tworzyć dowolnie złożone kwerendy w sformalizowany i łatwy do zrozumienia sposób. Skrypt SQL można następnie przesłać np. wiadomością e-mail do innego analityka, np. celem weryfikacji, dzięki czemu unika się dwuznaczności związanych z opisywaniem czynności z użyciem arkusza kalkulacyjnego. Bardzo łatwo można modyfikować zapytanie – zmieniać istniejące warunki, dodawać nowe, łączyć je operatorami logicznymi, zagnieżdżać, „wyłączać”, czego nie sposób powiedzieć o arkuszu kalkulacyjnym.

Jak widać, praca biostatystyka obfituje w wyzwania i wymaga znacznej wiedzy interdyscyplinarnej z pogranicza statystyki, medycyny, diagnostyki i informatyki – w tym teorii relacyjnych baz danych. Nabycie dostatecznej wiedzy i doświadczenia wymaga wielu lat ciężkiej pracy i nauki. Nauki, która wymaga prawdziwego samozaparcia i wytrwałości. Jednak satysfakcja, jakiej doświadcza się podczas pracy przy badaniu najnowszych leków i terapii oraz świadomość, że dzięki temu lekarze i pacjenci otrzymują nowe możliwości walki ze schorzeniami, rekompensuje ten wysiłek z nawiązką.

Narzędzia biostatystyka

Biostatystyk wykorzystuje szeroki zbiór narzędzi analitycznych. Należą do nich:

  • ·       Relacyjne bazy danych – oprogramowanie do przechowywania danych w ustrukturyzowanej formie, umożliwiające formułowanie dowolnie złożonych kwerend (zapytań), a także modyfikowanie przechowywanych danych za pomocą komend języka SQL.
  • ·       Arkusze kalkulacyjne – pozwalające na dokonanie szybkiego przeglądu „szerokich” w sensie liczby atrybutów danych, korygowanie ich i wykonanie prostych podsumowań.
  • ·       Pakiety statystyczne – zaawansowane i bogate w możliwości oprogramowanie pozwalające wykonać praktycznie dowolny rodzaj analiz, a także zaprogramować własne procedury statystyczne. W badaniach klinicznych wykorzystuje się często pakiet SAS, GNU R, S Plus, Statistica, SPSS i Stata.c. Niektóre z wymienionych pakietów, jak np. Statistica, oferują wygodny interfejs graficzny, zaś inne, jak np. GNU R są narzędziami typowo konsolowymi i do pracy z nimi wymagana jest biegła znajomość określonego języka.
  • ·       Dedykowane oprogramowanie – przeznaczone specjalnie do rozwiązywania określonych problemów, np. analiz PK/PD ,np. Phoenix WinNonlin.
  • ·       Języki programowania (zwykle wysokiego poziomu, w tym skryptowe) – pozwalające na stworzenie własnych, dowolnie złożonych narzędzi analitycznych, raportujących bądź ułatwiających gromadzenie i walidację danych. Szczególnie przydatne języki to m.in.: C#, Java, Python, Perl. Programy pozwalające na pełne wykorzystanie funkcji systemu operacyjnego można pisać także w językach R, S, SAS lub Visual Basic (Statistica).

Adrian Olszewski jest biostatystykiem, architektem systemów, pracującym w firmie KCR.

 

Podobne tematy:

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

« »

Zapisz się na nasz newsletter - otrzymasz 2 raporty

Ponad 50-cio stronicowe wydania w wersji PDF:

1. "Biznes In-memory"
2. "Cloud Computing:
      Aplikacje i Infrastruktura"

Wyślemy do Ciebie maksymalnie 4 wiadomości w miesiącu.

Dziękujemy

Na podany e-mail wysłaliśmy link z prośbą o weryfikację
adresu. Po kliknięciu w link otrzymasz dostęp do raportów.