AI pokonała kolejną magiczną granicę w medycynie


Nowy model GPT-4o od OpenAI,
Nowy model GPT-4o od OpenAI,

Najnowszy model generatywnej sztucznej inteligencji, czyli GPT-4o, uzyskał rekordową liczbę punktów w amerykańskim egzaminie z medycyny ogólnej odpowiadając poprawnie na 94–100% pytań.

2020: AI uczy się medycyny

W 2020 roku, gdy pojawiły się pierwsze – jeszcze niedostępne do szerokiego zastosowania – modele generatywnej sztucznej inteligencji (LLM), naukowcy byli ciekawi, jak AI radzi sobie z diagnozowaniem chorób. Najprostszą metodą, aby to sprawdzić, jest przetestowanie wydajności na amerykańskim egzaminie medycznym.

Chodzi dokładnie o United States Medical Licensing Examination (USMLE), czyli trzystopniowy program egzaminacyjny niezbędny do uzyskania licencji lekarza w USA, co roku opracowywany przez Federację Stanowych Izb Lekarskich (FSMB). USMLE jest testem wielokrotnego wyboru, który składa się z siedmiu sekcji; każda z nich zawiera do 40 pytań, co daje łącznie do 280 pytań. Aby zdać egzamin, trzeba odpowiedzieć poprawnie na ok. 194 pytań (69%, ten poziom zmienia się co sezon egzaminacyjny).

Kiedy w 2020 do egzaminu przystąpił GPT-Neo – wówczas mało znany LLM – twórcy AI musieli pogodzić się porażką. Model odpowiedział poprawnie tylko na 30% pytań. Rozczarowanie było o tyle większe, że już wtedy AI była trenowana na ogromnych zasobach wiedzy.

2022: AI zdaje pierwszy egzamin z interny

Ale generatywna AI ma jedną cechę, której nie można ignorować – uczy się w zawrotnym tempie. W 2022 roku premierę miał GPT 3.5, z którego korzystał ChatGPT stworzony przez OpenAI. GPT 3.5 zachwycił swoimi możliwościami, także w medycynie uzyskując 60% maksymalnej liczby punktów w egzaminie USMLE. Niestety, nadal za mało, aby zdać egzamin. Ale premiera GPT-3.5 była początkiem szybkiego rozwoju kolejnych, coraz to lepszych modeli.

W 2023 roku Google zaprezentował Med-PaLM – model wytrenowany na danych stricte medycznych: z zasobów literatury medycznej, kartotek pacjentów, badań naukowych. To pozwoliło podnieść precyzję odpowiedzi. Pierwsza wersja modelu odpowiedziała na 67,2% pytań egzaminacyjnych. Kilka miesięcy później pojawił się udoskonalony Med-PaLM2, który zaskoczył wynikiem 86,5%. Wystarczyło niespełna pół roku, aby poprawić wynik o 20 punktów procentowych.

2024: AI lepsza niż studenci medycyny

Wszyscy byli zgodni, że AI będzie wkrótce zdolna odpowiedzieć na 100% pytań. Jednak nikt nie spodziewał się, że nastąpi to tak szybko. A dokładnie w maju 2024 roku, kiedy OpenAI zaprezentował udoskonalony model GPT-4, czyli GPT-4o („o” znaczy „omni”, podkreślając multimodalne zdolności modelu).

Pierwsze testy sugerowały, że to przełom – model odpowiedział poprawnie na 100% pytań w egzaminie jesiennym z 2021 roku. Testowany dalej na 30 unikalnych pytaniach niedostępnych online, GPT-4o utrzymał wskaźnik dokładności na poziomie 96%. Model konsekwentnie przewyższał studentów medycyny w sześciu egzaminach państwowych z lat 2021–2023, uzyskując średni wynik na poziomie 95,54% (w porównaniu z 72,15% studentów).

Porównanie wyników uzyskanych na amerykańskim egzaminie medycznym USMLE w semestrze wiosennym i jesiennym (2021-2023) przez GPT-4o i studentów
Porównanie wyników uzyskanych na amerykańskim egzaminie medycznym USMLE w semestrze wiosennym i jesiennym (2021-2023) przez GPT-4o i studentów

Czym wyróżnia się GTP-4o?

GPT-4o nie tylko zdaje egzamin medyczny jak najlepszy uczeń, ale także robi wrażenie, gdy korzystamy z ChatGPT. Udoskonalony model od OpenAI ma oferować bardziej naturalną interakcję człowieka z komputerem. Najważniejszą cechą jest multimodalność modelu – model może analizować i interpretować dane dostarczone w postaci obrazów, tekstów, dźwięków, nagrań wideo. Odpowiedzi na zapytania gotowe są średnio w 320 milisekund, co odpowiada czasu reakcji człowieka.

Jest to też pierwszy tak płynny model konwersacyjny pozwalający rozmawiać z ChatGPT tak jak z człowiekiem. Został wytrenowany na danych do października 2023, ale potrafi zaktualizować informacje wejściowe przeszukując Internet w czasie rzeczywistym. Mimo postępów w wydajności modeli AI w egzaminach medycznych, nie można popadać w przesadny optymizm. Wiele prac naukowych wskazuje na poważne błędy, jakie popełnia AI. Problemem są nadal halucynacje, a dokładna diagnoza wymaga nie tylko analizy danych, ale także poznania kontekstu choroby, rozmowy z pacjentem. Jednak wszystko wskazuje na to, że przy obecnym tempie rozwoju, sztuczna inteligencja w przeciągu kilku lat będzie gotowa, aby pełnić rolę narzędzia drugiej opinii i asystenta lekarza.