Sztuczna inteligencja Rynek Polecane tematy

Badanie Harvardu: AI dorównuje lekarzom na SOR w wstępnej diagnostyce

Mikołaj Marszycki 4 maja 2026

0 102 1 minuta czytania

Nowe badanie opublikowane w czasopiśmie Science pokazuje, że duże modele językowe mogą dorównywać, a w części przypadków nawet przewyższać lekarzy w wstępnej diagnostyce medycznej na izbach przyjęć. Wyniki dotyczą jednak ograniczonych warunków testowych i nie oznaczają gotowości AI do samodzielnych decyzji klinicznych.

Zespół badaczy z Harvard Medical School oraz Beth Israel Deaconess Medical Center przeanalizował, jak duże modele językowe radzą sobie w zadaniach diagnostycznych porównywanych z pracą lekarzy. W eksperymentach wykorzystano modele OpenAI o1 oraz GPT-4o. Jedno z kluczowych badań obejmowało 76 pacjentów zgłaszających się na izbę przyjęć w Beth Israel. Diagnozy postawione przez dwóch internistów porównano z wynikami generowanymi przez modele AI. Następnie niezależni lekarze oceniali poprawność diagnoz, nie wiedząc, czy pochodzą one od ludzi czy systemów AI.

Wyniki pokazały, że model o1 w każdym punkcie kontaktu diagnostycznego osiągał wyniki porównywalne lub lepsze od lekarzy prowadzących. Największe różnice odnotowano w fazie wstępnej triażu, gdzie dostęp do informacji o pacjencie jest ograniczony, a decyzje muszą być podejmowane szybko. W tym obszarze model o1 trafnie lub bardzo blisko trafnie diagnozował w 67% przypadków. Dla porównania jeden z lekarzy osiągnął 55%, a drugi 50%.

Naukowcy podkreślili jednak, że modele analizowały wyłącznie dane tekstowe z elektronicznej dokumentacji medycznej, bez dodatkowych informacji klinicznych. Oznacza to, że test dotyczył ściśle określonego zakresu danych, a nie pełnego procesu diagnostycznego w warunkach szpitalnych. „Przetestowaliśmy model w praktycznie każdym benchmarku i przewyższył wcześniejsze systemy oraz nasze standardy bazowe dla lekarzy” – wskazał Arjun Manrai z Harvard Medical School.

Obiecujące wyniki, ale wciąż daleko do zastosowań klinicznych

Autorzy zaznaczają jednocześnie, że wyniki nie oznaczają gotowości AI do podejmowania decyzji medycznych w realnych warunkach klinicznych. Badanie ma raczej wskazywać kierunek rozwoju i potrzebę dalszych badań prospektywnych w rzeczywistych środowiskach opieki zdrowotnej.

Istotnym ograniczeniem jest także fakt, że modele nie analizowały danych obrazowych ani innych modalności, co – jak wskazują badacze – może znacząco wpływać na ich rzeczywistą skuteczność diagnostyczną.

Głos w dyskusji zabrali również lekarze praktycy. Cytowany przez TechCrunch Adam Rodman z Beth Israel zwrócił uwagę, że obecnie brakuje formalnych ram odpowiedzialności za decyzje podejmowane z udziałem AI. Podkreślił też, że pacjenci wciąż oczekują udziału lekarza w kluczowych decyzjach terapeutycznych.

Z kolei część specjalistów zwraca uwagę na ograniczenia samej metodologii. Lekarka SOR Kristen Panthagani podkreśliła, że porównanie AI z internistami – zamiast lekarzami medycyny ratunkowej – może zawyżać ocenę skuteczności modeli. Jej zdaniem kluczowe w pracy SOR nie jest wskazanie ostatecznej diagnozy, lecz szybkie rozpoznanie stanów zagrożenia życia, czytamy na portalu TechCrunch.

Tagi