Co dzieje się z danymi, które lekarz wpisuje do ChatGPT?

Dodano: 08.04.2025


Lekarze coraz chętniej korzystają z ChatGPT w swojej pracy. Ale czy jest to bezpieczne?
Lekarze coraz chętniej korzystają z ChatGPT w swojej pracy. Ale czy jest to bezpieczne?

Nigdy nie wprowadzaj danych pacjenta do ChatGPT i podobnych chatbotów – radzą eksperci od ochrony danych osobowych. Jak w takim razie bez obaw korzystać ze sztucznej inteligencji? Które narzędzia generatywnej AI są najbezpieczniejsze, a których unikać?

Generatywna AI w ochronie zdrowia

Szacuje się, że ok. 25% Polaków już korzysta z generatywnej AI w życiu prywatnym i do celów zawodowych. Narzędzia takie jak ChatGPT, Perplexity, Co-Pilot albo Gemini mają swoich zwolenników, którymi są zwłaszcza osoby młode i wykształcone, ale i równie dużą grupę sceptyków obawiających się o swoją prywatność i ryzyko bycia wprowadzonym w błąd (halucynacje AI). Duża część osób nadal nie wie, jak w ogóle rozpocząć pracę z AI.

Według badania przeprowadzonego przez czasopismo naukowe BMJ Health and Care Informatics, co piąty lekarz rodzinny stosuje AI do tworzenia listów klinicznych. Z kolei z ankiety Fierce Healthcare na 107 lekarzach POZ wynika, że aż 76% z nich korzysta z dużych modeli językowych (LLM) podczas podejmowania decyzji klinicznych. 60% używa ich do  sprawdzania interakcji między lekami, 40% – do planowania leczenia, a 70% – do edukacji pacjentów. Faktyczne stosowanie ChatGPT w codziennej pracy może być jeszcze wyższe, bo nie wszyscy chcą się do tego przyznać.

Tymczasem mało osób wie, że każde zapytanie wpisane do czatbota jest zapamiętywane i przechowywane na serwerach, najczęściej poza Unią Europejską. A to może prowadzić nie tylko do łamania przepisów RODO, ale także grozi wyciekiem wrażliwych danych. ChatGPT, Co-Pilot, a może DeepSeek – które narzędzia oferują największą prywatność?

Ponad 60% Polaków w wieku 16-30 lat korzystała już z generatywnej AI
Ponad 60% Polaków w wieku 16-30 lat korzystało już z generatywnej AI

DeepSeek na czarnej liście

Zacznijmy od sensacji ostatnich tygodni, czyli chińskiego modelu DeepSeek R1. Po jego premierze, był on najchętniej pobieraną aplikacją na świecie – w okresie dwóch pierwszych tygodni oprogramowanie ściągnęło 3,6 mln osób. DeepSeek obiecuje wysoką wydajność modelu i precyzję odpowiedzi, a do tego jest całkowicie bezpłatny. Ale czy bezpieczny?

Nie do końca. Przed stosowaniem DeepSeek ostrzega Urząd Ochrony Danych Osobowych (UODO). Z polityki prywatności aplikacji wynika, że dane użytkowników mogą być przechowywane na serwerach zlokalizowanych w Chinach.

– Zgodnie z obowiązującymi przepisami rząd chiński posiada szerokie uprawnienia związane z dostępem do danych osobowych bez gwarancji ochrony przewidzianej w europejskim porządku prawnym – czytamy w oświadczeniu UODO. Do tego duży model językowy z Chin może wykorzystywać przekazywane przez użytkowników dane do dalszego trenowania modelu albo celów marketingowych.

Co-Pilot, ChatGPT, Gemini, Perplexity też pod znakiem zapytania

Nie tylko chiński model zapisuje dane z zapytań do dalszego trenowania AI. Robi to tak samo amerykański ChatGPT i Perplexity albo francuski LeChat od Mistral AI. Z jedną różnicą – w ich przypadku można to zastrzec dzięki opcji dostępnej w ustawieniach systemu.

Z kolei Microsoft 365 Copilot przechowuje dane dotyczące interakcji, w tym polecenia i odpowiedzi, jako część historii aktywności Copilot użytkownika. Jak deklaruje firma w warunkach użytkowania, dane te pozostają w usłudze chmurowej Microsoft 365 i są szyfrowane podczas przechowywania. Nie są one wykorzystywane do dalszego trenowania modelu AI, a użytkownicy mogą usunąć historię aktywności Copilot. Firma twierdzi także, że Copilot spełnia wymagania ogólnego rozporządzenia o ochronie danych (RODO).

Nawet jeśli czatbot nie przetwarza promptów wprowadzanych przez użytkownika – a te mogą czasami zawierać wrażliwe dane – pozostaje kolejny problem: większość popularnych dużych modeli językowych AI działa w chmurze danych, a serwery zlokalizowane są w USA. Przykładowo, jeśli korzystamy z ChatGPT, dane trafiają do centrum danych Microsoft Azure w Teksasie. A to oznacza naruszenie europejskich przepisów RODO. Taka była też argumentacja włoskiego urzędu ochrony danych osobowych, który w marcu 2023 zabronił korzystania z ChatGPT. Po kilku tygodniach, m.in. dzięki wprowadzeniu wspomnianej opcji zastrzeżenia danych do dalszego trenowania modeli, zakaz został uchylony.

Centrum danych Microsoft Azure. To tutaj przetwarzane są dane, które wpisujemy do ChatGPT (zdjęcie: Microsoft)
Centrum danych Microsoft Azure. To tutaj przetwarzane są dane, które wpisujemy do ChatGPT (zdjęcie: Microsoft)

Trzeba także pamiętać, że firmy tworzące duże modele językowe też są narażone na ataki hackerów albo wycieki danych spowodowane błędami oprogramowania. Takie miały miejsce np. w przypadku ChatGPT, choć żadne dane z rozmów nie zostały dotąd naruszone.

Czy są modele LLM, z których można korzystać bez obaw?

Odpowiedź jest prosta: tak, ale są to modele open-source. Działają one lokalnie i nie przesyłają danych na serwery zewnętrzne. Tylko takie modele mogą być stosowane bez obaw przez europejskie placówki medyczne. Niestety, ich stosowanie nie jest tak łatwe jak ChatGPT – wymagają instalacji na lokalnych serwerach przez osoby, które mają przynajmniej bazową wiedzę informatyczną. Ich obsługą i trenowaniem są w stanie zająć się tylko wykwalifikowani informatycy albo inżynierowie danych. Zaletą jest to, że można je dalej trenować na własnych bazach danych, tworząc czatboty przystosowane do różnych zadań, np. wyszukiwania danych w elektronicznej dokumentacji medycznej.

Wśród najpopularniejszych modeli o otwartym kodzie jest Llama 3 od Facebooka, a także Bloom, Mistral Small 3 albo MPT-7B.

Alternatywą są funkcje AI wprowadzane przez dostawców oprogramowania IT do programów gabinetowych. Opierają się one na bezpiecznych lokalnych modelach, a do tego są zintegrowane z systemem IT dzięki czemu nie trzeba się przełączać pomiędzy różnymi aplikacjami. Z czasem będzie ich przybywać, bo oferują duże ułatwienia w m.in. wyszukiwaniu danych.

Jeśli generatywna AI to tylko lokalna

Żaden z modeli generatywnej sztucznej inteligencji działających w chmurze danych nie powinien być wykorzystywany do analizy wrażliwych danych pacjentów. Dlatego zasadą nr 1 jest unikanie w promptach danych osobowych albo informacji mogących posłużyć do identyfikacji konkretnej osoby (np. na podstawie kilku znaczników jak wiek, miejsce zamieszkania, cechy charakterystyczne). Lekarz może ogólnie zapytać o diagnozę na podstawie objawów, ostatnie badania naukowe albo rekomendacje medyczne. Zaleca się przy tym wyłączenie pozwolenia stosowania zapytań do dalszego trenowania modelu. Największe korzyści i gwarancję bezpieczeństwa danych dają modele open source, choć ich wdrożenie wiąże się ze stworzeniem mocnego zaplecza bazowo-serwerowego. Najprostszym rozwiązaniem jest testowanie funkcji AI wprowadzanych do systemów IT.