ChatGPT na 4. miejscu. Oto najlepsze medyczne modele AI

Dodano: 01.04.2026


Każdy czatbot AI różnie odpowiada na pytania o zdrowie. Różnice w precyzji mogą sięgać nawet 20%
Każdy czatbot AI różnie odpowiada na pytania o zdrowie. Różnice w precyzji mogą sięgać nawet 20%

Naukowcy sprawdzili, któremu modelowi AI można zaufać, gdy chcemy porozmawiać o zdrowiu. Zwycięzcę mało kto zna.

Newsletter OSOZ

Pacjenci i lekarze stosują ulubioną AI, ale nie zawsze najlepszą

Każdego dnia 40 mln ludzi pyta ChatGPT o zdrowie; w Google takich zapytań jest 1 mld, a większości odpowiedzi udziela już AI. Ale z AI korzystają też lekarze, najczęściej nieoficjalnie. To zjawisko ma już nawet swoją nazwę – shadow AI, czyli stosowanie rozwiązań generatywnej AI „w cieniu”, nawet jeśli nie jest to dozwolone. Przykładowo, na swoim prywatnym smartfonie. Według różnych badań robi to co piąty lekarz w USA. W Polsce skala zjawiska nie została zbadana.

Sięgając po AI w sprawach związanych ze zdrowiem, po prostu korzystamy z rozwiązań, które są najwygodniejsze. Jedni są przyzwyczajeni do Google, podczas gdy coraz więcej osób sięga do ChatGPT albo Gemini. Jak się okazuje, jakość i precyzja odpowiedzi w obszarze zdrowia zależą od modelu.

Postanowił to sprawdzić zespół naukowców z Uniwersytetu Stanforda, Harvardu oraz kilku innych instytucji akademickich w ramach projektu NOHARM (Numerous Options Harm Assessment for Risk in Medicine) badającego jakość odpowiedzi medycznych generowanych przez sztuczną inteligencję.

Dotychczasowe oceny dokładności systemów AI w medycynie polegały najczęściej na przetestowaniu, czy model jest w stanie zdać egzamin lekarski. Nowe modele radzą sobie z tym zadaniem bez problemu, osiągając ponad 90 proc. punktów. Ale jak podkreślają autorzy badania, egzamin studencki, a opieka nad pacjentem, diagnoza i zaplanowanie terapii to zupełnie różne sprawy. Dlatego naukowcy opracowali autorską bazę 100 konsultacji klinicznych, na które składały się pytania, które lekarze POZ kierowali do specjalistów za pośrednictwem elektronicznego systemu konsultacji w Stanford Health Care. Scenariusze kliniczne obejmowały towarzyszące wizycie decyzje, jak konieczność zlecenia dodatkowych badań, skierowanie pacjenta do specjalisty albo na oddział ratunkowy itd. Każdą z nich oceniali doświadczeni klinicyści. W badaniu wzięło udział 29 lekarzy posiadających certyfikaty specjalizacyjne, którzy przygotowali ponad 12 tys. ocen decyzji klinicznych.

Czarny koń rankingu modeli sztucznej inteligencji

Naukowcy przetestowali 31 narzędzi AI – zarówno komercyjnych systemów AI ogólnego przeznaczenia (ChatGPT, Gemini, Co-Pilot itd.) jak i specjalistycznych systemów medycznych.

Najlepszy wynik uzyskał oparty na bazie wiedzy medycznej AMBOSS LiSA 1.0. Osiągnął on wynik 62,3 proc. – w ponad sześciu na dziesięć decyzji jego rekomendacje były zgodne z oceną ekspertów. Warto zaznaczyć, że jest to płatny model przeznaczony dla lekarzy. Jak deklaruje firma, korzysta z niego ponad milion pracowników służby zdrowia w ponad 180 krajach, w tym ponad 50 uczelni medycznych. W Europie wdrożyła go m.in. największa grupa szpitali HELIOS.

Na kolejnych miejscach znalazły się przede wszystkim modele ogólnego przeznaczenia Gemini 2.5 Pro (59,9 proc.), GPT-5 (58,3 proc.) oraz Claude Sonnet 4.5 (58,2 proc.). Wyjątkiem jest medyczny Glass Health 4.0 (59 proc.). Z kolei w ogonie rankingu – mniejsze wersje modeli językowych z wynikami na poziomie 42–49 proc.

Te modele AI najdokładniej odpowiadają na pytania o zdrowie
Te modele AI najdokładniej odpowiadają na pytania o zdrowie

Autorzy badania podkreślają jednak, że różnice pomiędzy najlepszymi modelami wynosiły czasami ułamki punktu procentowego i nie miały dużego znaczenia w praktyce. Ciekawostką jest, jak poszczególne modele balansują między ostrożnością modeli a bezpieczeństwem pacjenta. W teorii im bardziej ostrożny system AI, tym mniejsze ryzyko błędnej rekomendacji. W praktyce okazuje się jednak, że nadmierna ostrożność również może być niebezpieczna. Potencjalnie poważne szkody dla pacjenta mogły wystąpić w 22 proc. analizowanych przypadków, a aż 77 proc. z nich nie wynikało z błędnych rekomendacji, lecz z pominięcia rekomendacji, która powinna zostać zasugerowana.

AI lepsza niż lekarze i gotowa do roli asystenta

W kolejnym kroku badacze porównali dokładność sztucznej inteligencji z dokładnością decyzji podejmowanych przez lekarzy internistów. Okazało się, że najlepszy w rankingu model sztucznej inteligencji osiągnął wynik o ponad 15 punktów procentowych wyższy niż lekarze, a w kategorii bezpieczeństwa pacjenta różnica przekraczała 10 punktów. Nie jest to pierwsze tego typu badanie, w którym decyzje AI były lepsze. Oczywiście, nie oznacza to, że AI może samodzielnie diagnozować czy leczyć. Praca lekarza to coś znacznie więcej niż przetwarzanie danych – chodzi o empatię, badanie fizykalne, podejmowanie decyzji na podstawie kontekstu chorego i wsparcie psychiczne.

Naukowcy przetestowali też rozwiązania wieloagentowe, czyli scenariusze, w których jeden model AI podejmuje decyzję, a kolejne ją weryfikują, pełniąc rolę agentów drugiej opinii. Modele pracujące w zespołach osiągały 6-krotnie wyższe wyniki w kategorii bezpieczeństwa niż pojedyncze systemy. Najlepsze rezultaty uzyskiwano, gdy współpracowały ze sobą modele różnych typów – np. model open source, komercyjny model językowy oraz system oparty na medycznej bazie wiedzy. Jak wynika z badania, nie wszystkie modele AI są równie dobre w odpowiadaniu na pytania dotyczące zdrowia. Do tego samo zdanie egzaminu medycznego przez AI nie oznacza, że system będzie dobrze radził sobie w pracy klinicznej. Jednak aby lekarze bezpiecznie korzystali z AI, trzeba jej zastosowanie dopuścić prawnie i wdrożyć profesjonalne, sprawdzone i wytrenowane na danych medycznych modele. To pozwoli uniknąć korzystania z modeli komercyjnych, których stosowanie – oprócz gorszych wyników – wiąże się z ryzykiem naruszenia zasad bezpieczeństwa danych i prywatności pacjentów.