ChatGPT lepszy od lekarza? Jak media wprowadzają w błąd


Szokujące doniesienia o tym, że AI lepiej diagnozuje niż lekarz. Na ile są prawdziwe?
Nawet jeśli badanie naukowe sugeruje, że AI lepiej diagnozuje niż lekarz, warto sprawdzić, jak zostało przeprowadzone

W prasie czytamy, że sztuczna inteligencja diagnozuje dokładniej niż lekarze i jest bardziej empatyczna niż człowiek, a do tego otrzymuje dużo lepsze wyniki na egzaminach medycznych niż studenci medycyny. A jaka jest prawda?

Dlaczego AI diagnozuje lepiej niż lekarz korzystający z pomocy AI?

W przeprowadzonym przez Andrew S. Parsonsa z UVA Health (USA) badaniu wzięło udział 50 lekarzy medycyny rodzinnej, chorób wewnętrznych i medycyny ratunkowej. Podzielono ich na dwie grupy i postawiono przed nimi zadanie diagnozowania skomplikowanych przypadków klinicznych. Pierwsza grupa otrzymała do pomocy ChatGPT w wersji premium (Plus). Druga mogła kierować się tylko swoją wiedzą medyczną i dotąd obecnymi narzędziami jak Google albo systemy wspomagania decyzji klinicznych. O diagnozę zapytano też ChatGPT. Zebrane wyniki diagnoz porównano między sobą. Grupa bez ChatGPT uzyskała 74% dokładności, a grupa z ChatGPT niewiele więcej, bo 76%. ChatGPT samodzielnie uzyskał aż 90% skuteczność.

Naukowcy byli zdezorientowani: ChatGPT nie pomógł lekarzom lepiej diagnozować chorób. Jedną z interpretacji było założenie, że lekarze nie kierowali się podpowiedziami sztucznej inteligencji, gdy się z nimi nie zgadzali, ufając bardziej swojej wiedzy i doświadczeniu niż chatbotowi. W psychologii mówi się o tzw. błędzie autorytetu (ang.: authority bias). Pojawiły się głosy, że to źle wróży współpracy lekarza z AI, bo ten pierwszy i tak nie słucha opinii z zewnątrz. Jednak jak wyjaśnił twórca badania, powód mógł być inny: wielu lekarzy po prostu nie wiedziało, jak korzystać z ChatGPT i jak w poprawny sposób pisać tzw. prompty (zapytania).

Autorzy badania sugerują jednak, że wyższa precyzja diagnoz osiągnięta, gdy ChatGPT samodzielnie oceniał przypadki kliniczne, wskazuje na duży potencjał AI. Naukowcy od lat podkreślają, że o ile lekarze dobrze diagnozują choroby, z którymi najczęściej spotykają się podczas praktyki klinicznej, to w przypadku np. chorób rzadkich albo skomplikowanych i nietypowych schorzeń są mniej skuteczni.

Statystyczny lekarz w swojej pracy ma na ogół do czynienia z ok. 500 różnymi chorobami z ok. 33 000 sklasyfikowanych. Trudno wymagać, aby znał je wszystkie, gdy leczy pacjentów o tym samym profilu demograficzno-społecznym. Ale wówczas pomocne może być AI. Już dzisiaj lekarze powinni mieć dostęp do szkoleń z AI, aby wiedzieć, jak bezpiecznie korzystać z nowych narzędzi jak ChatGPT.

Autor badania, Andrew S. Parsons, powiedział też wprost, że tylko „ułamek lekarzy zdawał sobie sprawę, że mogą dosłownie skopiować i wkleić całą historię leczenia do chatbota i po prostu poprosić go o udzielenie wyczerpującej odpowiedzi na całe pytanie”.

AI wykuła na pamięć pytania z egzaminów medycznych. Ale to nie czyni z niej lekarza

Jeszcze inne badania sugerowały wielokrotnie, że AI udziela bardziej empatycznych, zrozumiałych i wyczerpujących odpowiedzi pacjentom w porównaniu do lekarzy. W prawdziwym życiu, lekarz realizuje wiele innych zadań i uwzględnia nie tylko dane z elektronicznej dokumentacji medycznej, ale także sytuację pacjenta (rodzinną, społeczną, finansową), jego potrzeby; prognozuje potencjalne skutki leczenia, rozmawia z rodziną, kalkuluje ryzyko w stosunku do korzyści. Nie wspominając o ludzkim czynniku komunikacji z pacjentem, który dla wielu pacjentów może działać jak placebo. Lekarz daje motywację i nadzieję, towarzyszy choremu przez kolejne etapy choroby, wspiera. To element społeczny, którego przez ostatnie lata nie zdołał zastąpić Dr Google całkiem dobrze radzący sobie z diagnozowaniem.

Podobnie mylące mogą być badania porównujące wyniki ChatGPT i lekarzy studentów w amerykańskim egzaminie medycznym (United States Medical Licensing Examination, USMLE).  Najnowszy model generatywnej AI, czyli GPT-4o, uzyskał w testach USMLE prowadzonych od wiosny 2021 r. do jesieni 2023 r. średnią punktów 95,54%, a studenci – 72,15%. Tak, AI ma zaskakująco dobre zdolności kognitywne, ale rolą lekarze nie jest zdawanie egzaminów medycznych.

Doniesienia o AI lepszej niż lekarze są sposobem na przyciągnięcie uwagi, ale nie pokazują potencjału zastosowania AI w warunkach klinicznych, a jedynie laboratoryjnych. Wprowadzają w błąd i szkodzą debacie o obiecującej roli AI w medycynie. AI to nadal technologia nowa, która jednych zachwyca, a innych przeraża. I te emocje często dominują, podczas gdy naukowcy zgadzają się, że AI może pomóc lekarzowi, ale nie jest w stanie go zastąpić. Zwłaszcza generatywna AI, która jest bardzo dobrą maszyną statystyczną, ale nie może równać się z kompetencjami człowieka.