Dlaczego ChatGPT nie zdał polskiego egzaminu z interny?


ChatGPT zdał dziesiątki egzaminów medycznych na całym świecie, ale oblał polski z interny
ChatGPT zdał dziesiątki egzaminów medycznych na całym świecie, ale oblał polski test z interny

Grupa naukowców z Collegium Medicum im. Ludwika Rydygiera w Bydgoszczy zbadała, czy ChatGPT jest w stanie zaliczyć egzamin certyfikacyjny z chorób wewnętrznych. Przetestowali go na 10 zestawach pytań z lat 2013-2017. Odsetek prawidłowych odpowiedzi wahał się od 47,5 proc. do 53,33 proc., podczas gdy do zaliczenia potrzeba 60 proc.

Czy ChatGPT może konkurować z lekarzami?

Od czasu publikacji dużego modelu językowego (LLM) jakim jest ChatGPT, naukowcy testują jego możliwości pod kątem zastosowań w medycynie. Kilka miesięcy od jego premiery, AI zaliczyła pierwszy sukces zdając amerykański egzamin licencyjny (United States Medical Licensing Exam, USMLE) odpowiadając popawnie na 60 proc. pytań. AI zdała też m.in. egzaminy z radiologii w USA i Kanadzie (Canadian Royal College i American Board of Radiology), Europejski Egzamin z Podstaw Kardiologii czy nawet egzamin medyczny w Arabii Saudyjskiej.

Osiągnięcia AI różnią się znacznie w zależności od dziedziny medycyny. Przeprowadzone analizy porównawcze pokazują na przykład, że ChatGPT odpowiada poprawnie na średnio 40 proc. pytań w testach z biomedycyny, podczas gdy na egzaminach z diabetologii jest w stanie zdobyć nawet 100 proc. punktów.

Jednak od czasu premiery ChatGPT zaczęły pojawiać się wyspecjalizowane modele trenowane na danych z litereatury medycznej. Przykładem jest Med-PaLM2 opracowany przez Google, który odpowiedział poprawnie już na 85 proc. pytań z amerykańskiego egzaminu licencyjnego (USMLE), podczas gdy ChatGPT tylko na 60 proc.

Oczywiście, zdanie egzaminu to zdecydowanie za mało, aby zostać lekarzem. Trzeba też wziąć pod uwagę, że w wielu testach odrzucano pytania, które zawierały obrazy, nagrania wideo czy audio, bo AI nie jest w stanie ich przeanalizować. We wspomnianym europejskim egzaminie z podstawowej kardiologii to aż 36 proc. wszystkich pytań.

AI gorsza o 20 proc. niż ludzie

Aby zostać specjalistą chorób wewnętrznych w Polsce wymagane jest ukończenie szkolenia specjalizacyjnego i zdanie egzaminu certyfikacyjnego. Egzamin składa się z dwóch elementów: testu wielokrotnego wyboru, który obejmuje 120 pytań z 5 możliwymi odpowiedziami (tylko jedna jest prawidłowa, trzeba odpowiedzieć poprawnie na min. 60 proc. pytań), oraz egzaminu ustnego, do którego można przystąpić po pomyślnym zdaniu testu pisemnego. Od 2023 r. kandydat może zostać zwolniony z egzaminu ustnego, jeśli uzyska wynik min. 75 proc. w teście pisemnym.

Badanie polskich naukowców jako pierwsze wzięło pod lupę możliwości ChatGPT w dziedzinie medycyny wewnętrznej. W symulacji uwzględniono pytania z 10 sesji egzaminacyjnych z lat 2013-2017. To łącznie 1191 pytań, po usunięciu tych, na które AI nie jest w stanie odpowiedzieć (np. zawierających obrazki).

Liczba uzyskanych poprawnych odpowiedzi przez ChatGPT w serii 10 egzaminach wahała się od 47,5 proc. do 53,33 proc. (mediana, 49,37 proc.). A to oznacza, że AI w żadnym z nich nie uzyskała wymaganego progu 60 proc. poprawnych odpowiedzi.

Naukowcy zestawili osiągnięcia AI z wynikami studentów. Okazało się, że byli oni średnio o ok. 20 proc. lepsi niż AI – poprawne odpowiedzi przyszłych lekarzy-ludzi wahały się od 65,21 proc. do 71,95 proc. (mediana, 69,92 proc.).

Wyniki ChatGPT (niebieskie słupki) i ludzi (szare) w poszczególnych sesjach egzaminacyjnych w latach 2013-2017 (źródło: mp.pl)

ChatGPT najlepiej radził sobie z krótkimi pytaniami. W przypadku ludzi, korelacja pomiędzy poprawnością odpowiedzi a długością pytania była znacznie mniejsza. Duże różnice występowały też w zalezności od dziedziny medycyny. Oto jakie wyniki uzyskał w podziale na specjalizacje:

  • alergologia (71,43 proc.) – w tym przypadku zdałby egzamin,
  • choroby zakaźne (55,26 proc.),
  • endokrynologia (54,64 proc.),
  • nefrologia (53,51 proc.),
  • reumatologia (52,83 proc.),
  • hematologia (51,51 proc.),
  • gastroenterologia (50,97 proc.),
  • pulmonologia (46,71 proc.)
  • diabetologia (45,1 proc.),
  • kardiologia (43,72 proc.).

Jak zaznaczają autorzy, AI nie może na razie konkurować z wiedzą wyszkolonych specjalistów medycznych w dziedzinie chorób wewnętrznych. Egzamin z medycyny obnaża fakt, że ChatGPT to model matematyczny nie potrafiący wnioskować. Przykładowo, w dłuższych pytaniach AI nie była w stanie rozpoznać kluczowych informacji popełniając błędy logiczne.

Dlaczego polski egzamin okazał się zbyt trudny dla ChatGPT?

Skąd takie różnice pomiędzy wynikami testów w USA a w Polsce? Możliwą przyczyną są różnice językowe. ChatGPT najlepiej czuje się w środowisku języka angielskiego, bo w tym języku jest większość danych, na których model jest trenowany. Do tego wykorzystano stary już model 3.5 zawierający informacje do września 2021 roku. Od tego czasu pojawił się model 4.0, a dane zostały zaktualizowane na stan do kwietnia 2023 roku. ChatGPT jest też modelem ogólnym żywiącym się danymi z internetu. O wiele większą wydajność mają specjalizowane modele dla medycyny jak Med-PaLM2.

– Jest mało prawdopodobne, aby sztuczna inteligencja była w stanie zastąpić pracowników służby zdrowia w najbliższej przyszłości, szczególnie w dziedzinie medycyny wewnętrznej. Nawet najbardziej wyrafinowane algorytmy i technologie wspomagane przez AI nie są w stanie diagnozować i leczyć chorób bez udziału człowieka – podkreślają autorzy badania.

Jednak AI może wspierać lekarzy w procesie opieki nad pacjentem, analizując duże zbiory danych, wychwytując niewidoczne dla człowieka korelacje w elektronicznej kartotece pacjenta. Zastosowanie sztucznej inteligencji jest nieuniknione w związku z kryzysem kadr medycznych.