Wielki test ChatGPT w medycynie: dokładny w 90%


Wydana w kwietniu br. książka "The AI Revolution in Medicine. GPT-4 and Beyond" zawiera przykłady, co potrafi ChatGPT.
Wydana w kwietniu br. książka “The AI Revolution in Medicine. GPT-4 and Beyond” zawiera przykłady, co potrafi ChatGPT.

ChatGPT potrafi diagnozować rzadkie choroby genetyczne oraz precyzyjnie interpretować wyniki badań laboratoryjnych. Ale czasami popełnia zagrażające życiu błędy. Mimo to, pod kilkoma warunkami AI jest gotowe, aby pomóc lekarzom – twierdzą autorzy nowej książki „Rewolucja AI w Medycynie. GPT-4 i nie tylko” (The AI Revolution in Medicine. GPT-4 and Beyond).

Trzej eksperci – Peter Lee (Microsoft), Carey Goldberg (Massachusetts Institute of Technology) i Isaac Kohane (Harvard Medical School) – napisali fascynujący podręcznik o tym, jakie zadania rutynowo wykonywane przez lekarzy, pielęgniarki i personel administracyjny placówek medycznych może przejąć AI. W tym celu dokładnie przetestowali model GPT-4 w zakresie diagnozowania, obliczania parametrów medycznych, opracowywania zaleceń terapeutycznych, pisania listów klinicznych i odpowiadania na złożone pytania pacjentów. Wyniki ich eksperymentów są zdumiewające.

Potrafi myśleć logicznie, ma całą wiedzę medyczną w jednym palcu

Sam Altman – dyrektor generalny OpenAI – w przedmowie nie kryje nadziei, że AI stanie się pierwszym tak uniwersalnym pomocnikiem pracowników ochrony zdrowia. GPT-4, czyli najnowszy model generatywnej sztucznej inteligencji, umożliwi dostęp do wiedzy medycznej miliardom ludzi, którzy napotykają na trudności w korzystaniu ze świadczeń zdrowotnych; może generować streszczenia prac badawczych wspierając naukowców albo pomagać lekarzom lub pielęgniarkom w podejmowaniu decyzji klinicznych, tworzeniu dokumentacji i pracach administracyjnych.

Według ostatnich badań, już około 10% lekarzy korzysta z generatywnej sztucznej inteligencji, jak ChatGPT m.in. w diagnozie i leczeniu bardziej skomplikowanych przypadków klinicznych. Jednak rzeczywista skala może być znacznie większa. W dużej części zapytań AI dostarcza precyzyjnych i poprawnych odpowiedzi. Mimo to, lekarze eksperymentujący z AI wkraczają na nieznane terytorium pełne podstępnych pułapek.

Sztuczna inteligencja zachwyca dokładnością, ale czasami zmyśla fakty i myli się, jednak robi to w tak subtelny sposób, że łatwo przeoczyć jej błędy. Jest jak ostry nóż, który pomaga dobremu szefowi kuchni przygotować wspaniałe dania, ale którym amatorzy mogą sobie pokaleczyć palce. Gdy myli się podpowiadając, jak leczyć pacjenta, może zagrozić jego zdrowiu lub życiu.

Trzeba od początku podkreślić dwa fakty. ChatGPT na zdecydowaną większość pytań dotyczących kwestii medycznych odpowie poprawnie. Naukowcy i inżynierowie stworzyli zaawansowaną technologię o bezprecedensowych możliwościach. To coś znacznie potężniejszego niż internet czy smartfon, bo po raz pierwszy maszyna naśladuje możliwości kognitywne mózgu. Zła wiadomość: nikt nie wie, jak właściwie ChatGPT działa, bo opiera się na miliardach punktów danych o różnej jakości, zebranych w Internecie i przetwarzanych następnie przez model AI stworzony z 1 biliona parametrów (reguł). Prześledzenie i zrozumienie sposobu funkcjonowania jest i będzie niemożliwe. No ale skoro działa, nieważne jest jak. W końcu do dziś nie poznaliśmy jeszcze wszystkich zagadek ludzkiego mózgu.

Po serii testów i długich konwersacji autorów książki, wnioski napawają nadzieją: ChatGPT może wskazać diagnozę, na którą nie wpadliby lekarze i zaplanować leczenie zgodne z najlepszymi praktykami. Ale może też źle obliczyć czas przepływu wlewu dożylnego i w efekcie zabić chorego. Błędy nie dyskwalifikują z góry AI w medycynie, ale korzystanie z niej będzie wymagać nowych umiejętności posługiwania się modelami AI.

A to daje początek nowemu partnerstwu między pracownikami służby zdrowia a sztuczną inteligencją, transformując obecną medycynę opartą tylko na decyzjach podejmowanych przez ludzi w „medycynę symbiotyczną”. Ta symbioza człowieka i maszyny będzie harmonijna dając nam wiele korzyści, pod warunkiem, że nauczymy się, jak rozmawiać ze sztuczną inteligencją, aby uzyskać precyzyjne odpowiedzi, ale także jak weryfikować jej podpowiedzi.

Książka „The AI Revolution in Medicine. GPT-4 and Beyond” zawiera wyniki testów możliwości sztucznej inteligencji w rozwiązywaniu problemów medycznych i pomocy lekarzowi w codziennej pracy.

Asystent, którego trzeba kontrolować

GPT-4 wie zaskakująco dużo. Prawidłowo odpowiedział na 90 procent pytań z amerykańskiego egzaminu licencyjnego dla lekarzy (USMLE) zadanych przez autorów książki. Ma imponujące zdolności wyciągania wniosków i jest dobrym rozmówcą. Potrafi podsumować rozmowę między pacjentem a lekarzem i sporządzić notatki kliniczne, które można włączyć do elektronicznej dokumentacji medycznej. W testach prawidłowo przetłumaczył wyniki badań laboratoryjnych na standard medyczny FHIR.

AI potrafi nawet sprytnie unikać odpowiedzi na nieetyczne pytania. Jest elokwentna, kreatywna i potrafi porozumiewać się wieloma językami. Wyjaśni dziecku skomplikowane wyniki badań naukowych i przygotuje quizy medyczne dla studentów.

Z punktu widzenia pacjenta, ChatGPT pomaga podejmować bardziej świadome decyzje dotyczące leczenia, wyboru najbardziej odpowiedniego ubezpieczyciela zdrowotnego; świetnie sprawdza się jako doradca w kwestiach zdrowotnych i dobrego samopoczucia. Jeśli napiszesz, że „chcesz schudnąć”, AI poda ci listę porad o wiele bardziej wiarygodnych i opartych na faktach naukowych niż te, które otrzymasz od swojego najlepszego przyjaciela.

Subtelne błędy, poważne konsekwencje

GPT-4 to potężne narzędzie o nieskończonych umiejętnościach matematycznych, statystycznych, medycznych i lingwistycznych.

Niemniej jednak, cały entuzjazm wokół dużych modeli językowych trzeba na chwilę obecną ostudzić. Jest jeszcze zbyt wcześnie, by mówić o rewolucji. GPT-4 nadal się myli i wymyśla rzeczy, które brzmią przekonująco. Fabrykuje informacje i może uparcie mówić ci, że się mylisz, kiedy tak naprawdę masz rację. Za pierwszym razem AI może poprawnie odpowiedzieć na pytanie, tylko po to, by za drugim razem halucynować. Potrafi też zachowywać się jak dziecko przyłapane na gorącym uczynku, próbując się tłumaczyć, że błąd był „tylko literówką”.

Wciąż ma wiele ograniczeń: GPT-4 nie ma dostępu do wiedzy po styczniu 2022 r., kiedy to został przeniesiony do trybu offline. Nie posiada pamięci długoterminowej – po zakończeniu sesji konwersacyjnej, za kolejnym razem nie pamięta tego, co powiedział dzień wcześniej. Oznacza to, że ChatGPT nie jest w stanie rozpoznać pacjentów i ich problemów, a więc za każdą wizytą musi rozpoczynać całą analizę danych od nowa. Zapytania są ograniczone długością znaków, co może utrudniać analizę danych z często rozbudowanej elektronicznej dokumentacji medycznej.

Używaj, ufaj, ale sprawdzaj

Zrezygnowanie ze stosowania ChataGPT w medycynie tylko dlatego, że robi błędy, nie jest żadnym rozwiązaniem. Medycyna pilnie potrzebuje wsparcia w obliczu niedoboru pracowników służby zdrowia, obciążeń administracyjnych, rosnącego wypalenia zawodowego wśród lekarzy i pielęgniarek oraz ograniczonego i nierównego dostępu do opieki zdrowotnej. Tych problemów nie da się już rozwiązać za pomocą starych metod czy poprzez dokładanie pieniędzy.

Dyskutując ograniczenia sztucznej inteligencji, musimy być szczerzy: ludzie też popełniają błędy. Ocenia się, że błędy medyczne są trzecią główną przyczyną zgonów. GPT-4 ma potencjał, aby stać się i asystentem lekarza i pacjenta, współtworząc bezpieczniejszą medycynę, opiekę zdrowotną zorientowaną na pacjenta, wyposażając lekarzy w całkiem nowe umiejętności.

– Medycyna tradycyjnie opiera się na świętej relacji między lekarzem a pacjentem. Teraz przechodzimy do triady partnerstwa ze sztuczną inteligencją pośrodku – twierdzi Peter Lee, współautor książki.

Nikt nie ma wątpliwości, że z drugiej strony nie możemy kontynuować Dzikiego Zachodu w odniesieniu do sztucznej inteligencji. GPT-4 musi być regulowane, ale nie przesadnie, aby niepotrzebnie nie hamować rozwoju LLM w opiece zdrowotnej. Mamy zbyt wiele do stracenia, aby nie korzystać z AI.

Autorzy proponują, aby podobnie jak w przypadku mobilnych aplikacji zdrowotnych, aplikacje GPT-4 podzielić na te niskiego i wysokiego ryzyka. Pisanie zaleceń dotyczących zdrowego trybu życia nie wymaga regulacji, bo tutaj AI jest wiarygodna. Ale już stawianie diagnoz – które mają bezpośredni wpływ na zdrowie i życie pacjentów – wymaga nadzoru. Wszystko byłoby o wiele łatwiejsze, gdyby sztuczna inteligencja nigdy się nie myliła – podsumowują autorzy książki. Niestety, trudno się spodziewać, aby tak się stało w najbliższym czasie. Lekarze i pielęgniarki skorzystają jednak na sztucznej inteligencji, jeśli tylko nauczą się, jak z niej korzystać.

Czytaj także: Czy lekarze mogą bezpiecznie używać ChatGPT?