Sztuczna inteligencjaRynekPolecane tematy
Badanie Harvardu: AI dorównuje lekarzom na SOR w wstępnej diagnostyce
Nowe badanie opublikowane w czasopiśmie Science pokazuje, że duże modele językowe mogą dorównywać, a w części przypadków nawet przewyższać lekarzy w wstępnej diagnostyce medycznej na izbach przyjęć. Wyniki dotyczą jednak ograniczonych warunków testowych i nie oznaczają gotowości AI do samodzielnych decyzji klinicznych.

Zespół badaczy z Harvard Medical School oraz Beth Israel Deaconess Medical Center przeanalizował, jak duże modele językowe radzą sobie w zadaniach diagnostycznych porównywanych z pracą lekarzy. W eksperymentach wykorzystano modele OpenAI o1 oraz GPT-4o. Jedno z kluczowych badań obejmowało 76 pacjentów zgłaszających się na izbę przyjęć w Beth Israel. Diagnozy postawione przez dwóch internistów porównano z wynikami generowanymi przez modele AI. Następnie niezależni lekarze oceniali poprawność diagnoz, nie wiedząc, czy pochodzą one od ludzi czy systemów AI.
Wyniki pokazały, że model o1 w każdym punkcie kontaktu diagnostycznego osiągał wyniki porównywalne lub lepsze od lekarzy prowadzących. Największe różnice odnotowano w fazie wstępnej triażu, gdzie dostęp do informacji o pacjencie jest ograniczony, a decyzje muszą być podejmowane szybko. W tym obszarze model o1 trafnie lub bardzo blisko trafnie diagnozował w 67% przypadków. Dla porównania jeden z lekarzy osiągnął 55%, a drugi 50%.
Naukowcy podkreślili jednak, że modele analizowały wyłącznie dane tekstowe z elektronicznej dokumentacji medycznej, bez dodatkowych informacji klinicznych. Oznacza to, że test dotyczył ściśle określonego zakresu danych, a nie pełnego procesu diagnostycznego w warunkach szpitalnych. „Przetestowaliśmy model w praktycznie każdym benchmarku i przewyższył wcześniejsze systemy oraz nasze standardy bazowe dla lekarzy” – wskazał Arjun Manrai z Harvard Medical School.
Obiecujące wyniki, ale wciąż daleko do zastosowań klinicznych
Autorzy zaznaczają jednocześnie, że wyniki nie oznaczają gotowości AI do podejmowania decyzji medycznych w realnych warunkach klinicznych. Badanie ma raczej wskazywać kierunek rozwoju i potrzebę dalszych badań prospektywnych w rzeczywistych środowiskach opieki zdrowotnej.
Istotnym ograniczeniem jest także fakt, że modele nie analizowały danych obrazowych ani innych modalności, co – jak wskazują badacze – może znacząco wpływać na ich rzeczywistą skuteczność diagnostyczną.
Głos w dyskusji zabrali również lekarze praktycy. Cytowany przez TechCrunch Adam Rodman z Beth Israel zwrócił uwagę, że obecnie brakuje formalnych ram odpowiedzialności za decyzje podejmowane z udziałem AI. Podkreślił też, że pacjenci wciąż oczekują udziału lekarza w kluczowych decyzjach terapeutycznych.
Z kolei część specjalistów zwraca uwagę na ograniczenia samej metodologii. Lekarka SOR Kristen Panthagani podkreśliła, że porównanie AI z internistami – zamiast lekarzami medycyny ratunkowej – może zawyżać ocenę skuteczności modeli. Jej zdaniem kluczowe w pracy SOR nie jest wskazanie ostatecznej diagnozy, lecz szybkie rozpoznanie stanów zagrożenia życia, czytamy na portalu TechCrunch.






