CDOSztuczna inteligencjaAnalitykaCIOPolecane tematy

Porządkowanie w danych medycznych to proces, który nigdy się nie kończy

Z dr hab. Janem Poleszczukiem, profesorem Instytutu Biocybernetyki i Inżynierii Biomedycznej im. M. Nałęcza PAN, współzałożycielem i CTO start-up’u CliniNote rozmawiamy o niskiej jakości procesów gromadzenia danych na przykładzie sektora zdrowia oraz konsekwencjach tego stanu rzeczy dla prób adaptacji rozwiązań AI.

Porządkowanie w danych medycznych to proces, który nigdy się nie kończy
Prof. Jan Poleszczuk, Clini Note; fot. Piotr Waniorek/zelaznastudio.pl

W ciągu ostatnich lat nastąpiła rewolucja pod względem możliwości przetwarzania danych w informację. Czy nastąpiła też rewolucja pod względem podejścia do danych?

Z pewnością obserwujemy rewolucję narzędziową. Od 2021 roku nastąpił wręcz zalew nowych narzędzi opartych na tzw. generatywnej sztucznej inteligencji. Teraz pojawia się fala ogromnego zainteresowania i nadziei związanych z agentami AI. Natomiast zupełnie nie dostrzegam zmiany w sektorze ochrony zdrowia w podejściu do jakości danych dla modeli i narzędzi, które powstają i które przymierza się do zastosowania w praktyce.

Wiele osób pracujących w placówkach medycznych traktuje te narzędzia jako cudowne rozwiązanie, które zwalnia je z dbania o jakość danych. Myślą, że AI zrobi wszystko za nich.

Z tym wiązane były od zawsze powszechnie największe nadzieje na zastosowanie AI w medycynie.

Może pora to zrewidować. Agenci AI są przydatni w zadaniach, od których nie zależy ludzkie życie. Często dyskutuję o tym, że można używać Chata GPT do generowania notatek czy wypisów. Co się stanie, jeśli czat wygeneruje błędnego maila lub podanie? Można to skorygować. Natomiast jeśli narzędzie ma podsumować historię choroby, to jego ewentualne błędy stają się niebezpieczne.

Jeśli narzędzie się pomyli, jeśli coś pominie, a człowiek tego nie zauważy, skutki mogą być opłakane. Dopóki nie podniesiemy jakości danych wyjściowych, nie zmieni się wiele. AI nie powinno być włączane w proces leczenia.

Ostatnio dyskutowałem o algorytmach, które podsumowują i przygotowują wypisy ze szpitala. Technicznie to oczywiście możliwe. Pytanie brzmi: na ile to będzie wiarygodne i stabilne?

Ile takich wypisów można wykonać bez halucynacji w ciągu dnia?

Właśnie. Musimy myśleć o wpływie tych narzędzi na służbę zdrowia. Od dłuższego czasu mamy narzędzia do analizy obrazów, które podnoszą jakość i wykrywają więcej bardzo wczesnych stadiów chorób. Jednak nikt nie myśli o przypadkach, które wejdą do systemu, choć nie są podejrzane. Jeśli wykryjemy trzy dodatkowe rzeczywiste przypadki, ale wprowadzimy niepotrzebnie do diagnostyki trzydzieści, to wydłuży to kolejki, koszty i czasy oczekiwania.

Musimy patrzeć szerzej. Dla systemu ta sytuacja oznacza, że udało się objąć kilka osób opieką, na przykład wdrożyć im leczenie, ale kilka – a może więcej osób – spod parasola tej opieki wypadło ze względu wydłużony czas oczekiwania na dostęp do diagnostyki pogłębionej.

Wróćmy do danych, na których działają modele. Znany jest przykład modelu do obrazowania raka skóry, który uczono na zdjęciach z natury. Obrazy ze zbioru uczącego model skadrowano jednak w taki sposób, że na zdjęciach ze zmianą nowotworową widniała linijka, przykładana przez diagnostę już po kwalifikacji. Model nauczył się wskazywać zawsze zdjęcia z linijką – taka to była „mądrość” modelu… To rodzi pytanie o niechlujność w trenowaniu modeli, w przygotowywaniu im zestawów danych.

Stanowi to ogromny problem. Dostępność narzędzi jest ogromna. Każdy może wrzucić dane i coś uzyskać, ale zupełnie brakuje metodologii weryfikacji wyniku. Ostatnio stażystka z zagranicy podpięła po prostu jeden z ogólnych modeli językowych do notatek i z dumą oznajmiła: „działa”. Zapytałem, skąd wie, że działa, że generuje prawidłowo zbiór odpowiedzi?

Mamy do czynienia z prawdziwą inflacją modeli LLM. Wiele osób nie zwraca uwagi na to, co to jest dokładność i zrównoważona dokładność, itd. Dominuje podejście ad hoc: znaleźliśmy dostępny od ręki, działający – bo odpowiadający model – więc aplikujmy go do działania. Ponieważ to jest podejście powszechne, to rodzi naprawdę poważne problemy, których konsekwencje będą się nawarstwiały i będą trudne do naprawienia.

Niedawno usłyszałem, że problemem staje się mechanizm psychologiczny: po adaptacji sztucznej inteligencji, abdykuje krytycyzm i przekonanie, że człowiek może mieć rację a AI się mylić. Każda sugestia czy wynik pochodzący z AI jest brany za pewnik i automatycznie oznacza odrzucenie sugestii człowieka.

Dotychczas nowe technologie były namacalne i weryfikowalne. Także te związane z AI. Teraz do pracy zaprzęgamy metody, których nie można zweryfikować w prosty sposób – brak na to czasu albo umiejętności.

Załóżmy, że model się pomyli i zamiast wycięcia prawej nerki, zarekomenduje wycięcie lewej. Lekarz tego nie sprawdzi, czytając wygenerowany wynik. Musiałby wejść w historię choroby i za każdym razem ją analizować.

W jaki sposób można systemowo budować wyjaśnialność, aby jednak modele LLM znalazły zastosowanie w leczeniu? Może poprzez krzyżową weryfikację dodając kolejne modele, aby weryfikowały pracę poprzednich?

To uruchamia dyskusję o kosztach, bo jak widać na przykładzie ochrony zdrowia – muszą one rosnąć, aby uzyskiwać wiarygodne wyniki. Tymczasem w Polsce większość szpitali nie ma dobrze sfinansowanego działu IT, tylko zasoby wystarczające na to, żeby komputer się włączył i działały bazowe systemy szpitalne obsługujące dokumentację.

Koszt utrzymania rozwiązania bazującego na AI, które będzie dynamicznie zintegrowane z bazą, jest wysoki. Systemy szpitalne, które generują dane, stale się zmieniają, m.in. zmienia się też sposób kodowania tych danych. Wszystko to na bieżąco powinno być uwzględnione przez system oparty na AI. Tymczasem szpitale mają problem z utrzymaniem podstawowych systemów, trudno więc obecnie nawet myśleć wyposażaniu ich w rozwiązanie, które jest aż takim wyzwaniem finansowym. Uważam, że to nierealne.

Można więc powiedzieć, że przed konsekwencjami błędów rozwiązań AI chroni nas zbyt wysoki próg wejścia w rozwiązania systemowe.

Finanse na medycynę są skończone, więc oznaczałoby to de facto alternatywę: czy lepiej inwestować w rozwój kadry – kompetencje lekarzy, czy też w rozwój, poprawę efektywności i trafności odpowiedzi rozwiązania AI. Większość osób powie, że taniej będzie rozwijać AI. Ja mam co do tego zasadnicze wątpliwości, jeśli zsumuje się całokształt kosztów.

Pozostaje więc praca u podstaw nad jakością danych. Jakie narzędzia tu znalazłyby zastosowanie?

Perspektywa dostarczenia narzędzi, które realnie wsparłyby lekarzy w produkowaniu standardowych danych, nie jest z kolei wcale atrakcyjna dla dostawców. Myślę tu o narzędziach, które podniosłyby jakość danych na wejściu i ułatwiłyby tym samym ich dalsze przetwarzanie, integrowanie i porównywanie.

Gdybyśmy podnieśli jakość danych na wejściu, ułatwiając pracę lekarzom, to AI może nie byłoby tak potrzebne. Jeśli zadbamy o jakość danych, to wchodzimy zarazem w domenę „old school” data science – generowanie wypisu z gotowych elementów, bez interpretacji i halucynacji.

W szpitalu, w którym wdrożono by taki standardowy sposób gromadzenia danych, późniejsze generowanie wypisu nie stanowiłoby problemu.

W przeciwnym razie każdy przypadek mógłby mieć dowolną, nieskończoną liczbę wersji wypisu.

Dlatego w następnym kroku wystarczy lekarzowi dać narzędzia, które pomogą mu – a nie zastąpią go – przy dokonaniu pisaniu wypisu. Na przykład pomogą wciągać dane. To już byłby uzysk bez generowania dużych kłopotów. Nie musimy od razu automatycznie generować wypisów.

Jak na to wszystko zapatrują się sami użytkownicy, lekarze? Czy są wdzięczni cyfryzacji za możliwości, jakie im otwiera?

Przez ostatnie dekady rozwiązania IT uprzykrzały życie lekarzom. Starsi lekarze często powtarzają, że teczka pacjenta z kartami wypełnianymi ręcznie lub na maszynie była szybsza i wygodniejsza. Byłem świadkiem, jak wizyta trwała dwadzieścia minut, z czego dziesięć minut zajęło logowanie się do systemu i wpisywanie recepty.

Dlatego rozwiązaniem informatycznym, które rzeczywiście by pomogło byłby system do automatycznego uzupełniania druków wystandaryzowaną informacją. Cała reszta to kłopot. Lekarze niechętnie zmieniają metody pracy. A systemy projektują ludzie, którzy nie rozumieją workflow, dlatego wymyślają rozwiązania dla nieistniejących problemów, generując nowe.

Czy standardy, zasady i procedury w systemie ochrony zdrowia nie są gotową bazą do stworzenia uporządkowanego systemu zarządzania danymi?

Służba zdrowia nie wymusi odgórnie standardyzacji danych. Jest kilka przyczyn, między innymi rozproszenie celów i wielość interesów.

Pamiętam inicjatywę, żeby centralnie zbierać pewne dodatkowe dane na temat pacjentów. Postulowałem, żeby zbierać tylko dwie informacje, które rozwiązywałyby 90% problemów. Reszta mogłaby być w postaci tekstu, ale te dwie dane byłyby kluczowe. Jednak do dyskusji włączyły się różne środowiska i liczba kategorii gromadzonych danych z dwóch urosła do dziesięciu. Efekt był do przewidzenia – nie byliśmy w stanie gromadzić ich w odpowiedniej jakości. Kiedy oczekujemy dziesięciu danych, jakość zbioru danych nie wzrośnie.

Przede wszystkim, brakuje myślenia strategicznego, w jaki sposób korzystać z danych. Zbieramy dane, żeby rozliczać wydatki, a nie po to, żeby mieć większy pożytek, efektywność leczenia, procesów. W służbie zdrowia dane są postrzegane z perspektywy procesów rozliczeniowych.

Dlatego uważam, że inspiracja do zmian nie przyjdzie z góry, ale z dołu. Staramy się jako CliniNote gromadzić lekarzy, którzy chcieliby pracować z narzędziami, które realnie usprawnią ich procedury, zbieranie danych, bez wydłużania czasu pracy.

Może sytuacja w sektorze zdrowia jest nietypowa i gdzie indziej wygląda to lepiej?

W innych sektorach faktycznie dąży się do ułatwienia użytkownikowi końcowemu wprowadzania danych do takich systemów, jak CRM. W dziale sprzedaży procesy są tak ułożone, żeby handlowiec nie spędzał całego życia na uzupełnianiu CRM-a. Tam dbają o to, żeby użytkownik końcowy nie miał dodatkowej pracy, a jednocześnie, aby posiadać kluczowe dane.

Skala jest inna, a pieniądz i jasno sformułowany efekt są właściwymi motywatorami. Tego nie ma w służbie zdrowia. Pieniądze są związane z rozliczeniami i pensjami, nikt nie powie: dostaniecie więcej pieniędzy za lepsze zbieranie danych.

Ustawy o jakości danych mogłyby przyczynić się do zmian, ale jakość będzie można oceniać, gdy zacznie się już w nowy sposób zbierać dane.

Jak ocenia Pan koncepcję europejskich przestrzeni danych – zdrowie to tylko jeden z sektorów. Może to dałoby właściwy impuls zmiany podejścia do danych?

Mam nadzieję, że ta inicjatywa w pierwszej kolejności upowszechni wiedzę, iż bez podnoszenia jakości danych u podstaw nie da się budować żadnych większych korzyści. Może w toku budowy poszczególnych przestrzeni danych stanie się wreszcie jasne, że nie da się robić analiz paneuropejskich bez usystematyzowania danych.

Sądzę jednak, że zmiana będzie zachodzić powoli. W Europejskiej Przestrzeni Danych Medycznych (EHDS) najważniejszy jest podstawowy cel wspólnego użytkowania, ale mam obawy również o jego spełnienie. Mówiąc krótko, obawiam się o wymianę danych strukturyzowanych. W każdym kraju są przekłamania, osobliwości, zwyczajowe albo wynikające z regulacji. Lekarz w danym kraju rozumie specyfikę systemu i może odpytać pacjenta w rodzimym języku. Problemem może się okazać brak znajomości kontekstu. To nie są wyimaginowane sytuacje. Ktoś wpisuje nieprawidłowo nowotwór złośliwy podczas diagnostyki, ale później okazuje się, że go nie ma. Pacjent jedzie następnie do innego kraju, nie jest w stanie porozumieć się po niemiecku, francusku czy angielsku, a lekarz nie wykona mu określonej procedury, ponieważ w dokumentach widzi nowotwór płuca, którego pacjent nie ma.

Dane są, ale bez kontekstu pozostają bezużyteczne. Jeśli pokażę lekarzowi izolowaną informację o kodzie C34 (w międzynarodowej klasyfikacji chorób ICD 10 to oznaczenie nowotworu płuca lub oskrzela), to nic z tym nie zrobi. Jeśli widzi, że C34 było sprawozdawane systematycznie i to przez jednostkę onkologiczną, to wiedzą, że pacjent był leczony. Izolowana dana bez kontekstu jest bezużyteczna.

Zatem, podsumowując, nie jesteśmy bliżej medycyny opierającej się w dużej mierze na danych z praktyki klinicznej. W żadnym obszarze, czy to dokumentacyjnym, czy zbierania danych klinicznych, czy technologii obrazowania – wszystko grzęźnie z wielu powodów.

Wszystko rozbija się o proces. Nawet jeśli mamy rozwiązania do transkrypcji głosu, nie rozwiązują one problemu generowania danych. Transkrypcja głosu nie wprowadza danych, ponadto nie dla wszystkich lekarzy jest idealna. Często łatwiej jest wstawić szablon, wypełnić i puścić dalej. Brakuje holistycznych rozwiązań.

Jest natomiast ogromna wiedza ekspercka, którą należy dobrze wykorzystać. Pamiętam artykuł, gdzie naukowiec wykazywał, że jeden neuron bywa lepszy niż sieć neuronowa. Często proste rozwiązania są skuteczne. Trzeba się zastanowić, czy Gen AI rzeczywiście „zrobi różnicę”.

W innych branżach nie ma takiego poziomu odpowiedzialności za pomyłkę. Jeśli model źle zarekomenduje książkę lub film, zniechęci 5% użytkowników, którzy przejdą na inną platformę, ale nikt nie umrze. Jeśli agent nie wyszuka czegoś, firma może ponieść straty, ale nikt nie straci życia.

Coś jednak musiało się udać – przecież na bazie doświadczeń z Zakładu Matematyki Onkologicznej powstał start-up CliniNote.

Zakład Matematyki Onkologicznej miał tworzyć modele i wdrażać innowacje w różnych dziedzinach. Przyznaję, że sądziłem, iż jeśli wgryzę się w szpitalne bazy danych, to nie będzie dla nas barier i ograniczeń.

Niestety, wszystko rozbija się znowu o jakość danych, która okazała się zbyt niska aby budować modele

Stąd idea CliniNote, narzędzia dla lekarzy, rozszerzenie do przeglądarki, które podpowiada lekarzowi, co i jak pisać, dając dynamiczne podpowiedzi lub inteligentne sparametryzowane wzory notatek. Lekarz zapisuje tekst, a obok tworzy się baza danych, z kontrolowaną jakością danych. To już jest genialna podwalina do budowania modelu albo generowania podsumowań.

CliniNote rozwija się, ale napotykamy dwie podstawowe przeszkody: długość rozmów ze szpitalem, IODO, IT oraz nasze małe zasoby. Lekarze na początku są sceptyczni, myśląc, że jesteśmy kolejną firmą informatyczną, która chce im utrudnić życie. Dlatego skupiamy się na tych, którzy mają najlepsze doświadczenia. Wtedy jednak problemem może być to, że kierownik chce zbierać 150 danych. My obstajemy przy tym, aby zbierać kluczowe dane, a nie tworzyć wielkie formularze. System powinien być elastyczny, dopasowany do potrzeb.

Podpięliśmy też Chat GPT w wersji light, żeby generował szablony. Nie pisze notatek, bo to ryzykowne, ale generuje szablony notatek z badania według parametrów podanych przez lekarza. Lekarz może je edytować i przyspieszać swoją pracę.

Ile czasu zajmie zatem uporządkowanie procesu produkowania danych w sektorze zdrowia?

To jest praca ciągła, nigdy nie skończy. Będą pojawiały się nowe zestawy danych i zmiany. Nie chodzi o jednorazowe rozwiązanie problemu, ale o zmianę podejścia do procesu. Potrzebujemy zmiany paradygmatu myślenia. To nie będą zafiksowane systemy jak w bankowości, gdzie zmiany są rzadkie. Systemy szpitalne żyją cały czas i każda zmiana musi uwzględniać dane. Pierwszym krokiem jest stworzenie narzędzi, które rozwiążą obecny stan, ale jednocześnie wytworzenie podejścia, metodologii. W szpitalach powinien być Chief Data Officer, aby zmiany nie były tylko podyktowane rozliczeniami i workflow, ale także dalszym wykorzystaniem danych medycznych.

Póki co, nawet istniejąca standaryzacja medyczna, ICD-10, pokrywająca się z NFZ i P1, to potężne źródło wyzwań dla takiej pracy. Słowniki zawierają niejasne albo zgoła nielogiczne, zupełnie nieużyteczne przypadki już na poziomie klasyfikacji oficjalnej. Naprawdę trudno zrozumieć lekarzowi i innym pracownikom ochrony zdrowia, SNOMED, ICD, nowe ontologie – LOINC, MeSH, OMOP, FHIR…

Teoretycznie wszystko jest pogrupowane, ale lekarz, który siedzi z pacjentem i ma napisać notatkę, nie będzie spędzał czasu na zastanawianiu się nad pokrętną niekiedy logiką tych słowników.

Nie ma zatem mowy o zautomatyzowanym i wielkoskalowym wykorzystaniu ontologii, jeśli chodzi o populacje.

Nie mamy w ogóle na to przestrzeni projektowej. Jesteśmy w programie paneuropejskim i dobijamy się o konkretne pytanie badawcze, które moglibyśmy rozwiązywać, gromadząc dane. Hasło „zbieramy dane” nie działa – wywołuje tylko zamieszanie. Będziemy ciągle przeżywać tę samą historię: każdy będzie zbierał dane po swojemu. Musi być jasna definicja celu.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *