Syntetyczne dane. Badania na danych bez pytań o RODO?

Dodano: 30.06.2025


Pod koniec 2024 roku ruszył europejski projekt SYNTHIA, którego celem jest opracowanie otwartej platformy do generowania danych syntetycznych
Pod koniec 2024 roku ruszył europejski projekt SYNTHIA, którego celem jest opracowanie otwartej platformy do generowania danych syntetycznych

Do rozwoju nowych metod wczesnego wykrywania Alzheimera albo opracowywania innowacyjnych leków na różne odmiany nowotworów niezbędne są ogromne ilości danych. I tu pojawia się problem: restrykcyjne przepisy ochrony danych osobowych skutecznie blokują badania z wykorzystaniem danych medycznych. Naukowcy ich unikają, bojąc się konfliktu z prawem. Alternatywą mogą być dane wygenerowane przez sztuczną inteligencję. Jeden z najbardziej obiecujących projektów w tym zakresie realizowany jest w Europie.

Dobre RODO, złe RODO

RODO to obosieczny miecz – z jednej strony słusznie chroni dane, które są własnością każdego z nas. Z drugiej – utrudnia, a czasami nawet uniemożliwia w praktyce przetwarzanie danych, które mają kluczowe znaczenie w medycynie i mogą ratować życie oraz zdrowie.

Najlepszym przykładem jest proces opracowania nowego leku. Najpierw trzeba przeprowadzić badania nowych cząsteczek w laboratorium, potem na zwierzętach, a następnie na ludziach. Wszystko po to, aby upewnić się, że lek jest nie tylko skuteczny, ale i bezpieczny. A to trwa latami: trzeba znaleźć ochotników do badań, prowadzić ich obserwację w warunkach szpitalnych i skrupulatnie analizować dane, aby na koniec uzyskać zielone światło od organów regulacyjnych. Wprowadzenie nowego leku na rynek trwa średnio 12 lat i może kosztować nawet do ok. 5 mld USD. I właśnie koszt oraz czas powodują, że firmy farmaceutyczne skupiają się na badaniach nad lekami, które mają największe szanse rynkowe i będą rentowne.

Teraz wyobraźmy sobie, że cały proces badań i rozwoju leku prowadzony jest na wirtualnej platformie z pomocą sztucznej inteligencji. Zamiast prawdziwych pacjentów, do badań wykorzystuje się cyfrowych bliźniaków, czyli wirtualne, nierealne osoby wygenerowane przez AI. W ten sposób można prowadzić dowolną ilość badań w tym samym czasie, a do tego po koszcie będącym ułamkiem tych obecnych. W efekcie nowoczesne i personalizowane terapie stałyby się szeroko dostępne i tańsze, a prace nad nowymi lekami i metodami diagnostycznymi – możliwe do realizacji w mniejszych grupach badawczych, nie tylko przez firmy farmaceutyczne. W tym kontekście mówi się nawet o demokratyzacji przemysłu farmaceutycznego.

Prawdziwe dane, ale nie od prawdziwych ludzi

Za każdym razem, gdy ChatGPT generuje nowy tekst albo nowy obrazek, nie robi nic innego, jak tworzy informacje syntetyczne – czyli takie, które odzwierciedlają cechy i strukturę danych rzeczywistych, ale nie pochodzą od prawdziwych ludzi. Takie dane mają dwie zalety: można wygenerować ich nieskończoną liczbę w krótkim czasie i po niskim koszcie oraz nie mają do nich zastosowania przepisy o ochronie danych osobowych. A to oznacza, że można je wykorzystywać dowolnie, bez zbierania zgód, bez czasochłonnej anonimizacji i bez biurokracji.

Chodzi o dane, które w medycynie są szczególnie pożądane, czyli odzwierciedlające szczegółowe profile demograficzne pacjentów, parametry zdrowia, historię leczenia, informacje genetyczne. Im więcej danych, tym lepiej. Oczywiście dane rzeczywiste można anonimizować, usuwając znaczniki umożliwiające identyfikację „dawcy danych”. Niestety jest to proces czasochłonny, a do tego nie eliminujący całkowicie obowiązków wynikających z przepisów dotyczących danych osobowych.

Obecnie istnieje kilka metod generowania danych syntetycznych. Wśród nich stosuje się m.in. sieci neuronowe, systemy oparte na predefiniowanych regułach i modelach statystycznych. Jeśli chodzi o generowanie kartotek pacjentów, bardzo obiecujące są tzw. Generative Adversarial Networks (GAN). Pozwalają one na uzyskanie sztucznych danych nieodróżnialnych od rzeczywistych, zachowujących nawet najbardziej złożone relacje w danych. Duże nadzieje wiąże się z metodami hybrydowymi, czyli mieszaniem danych rzeczywistych z syntetycznymi, które mogą się dobrze sprawdzić w badaniach, gdzie wprawdzie dane rzeczywiste są dostępne, ale niereprezentatywne (małe grupy pacjentów, terapie personalizowane itd.)

Po co medycynie dane syntetyczne?

Prace nad nowymi lekami to tylko wierzchołek możliwości danych syntetycznych. Równie dobrze sprawdzą się w rozwoju i testowaniu nowych algorytmów np. do diagnozy chorób na podstawie nowych markerów, prowadzenia wirtualnych badań klinicznych, symulacji sytuacji epidemiologicznej i planowania na tej podstawie polityki zdrowotnej. Zresztą są one już stosowane przez firmy farmaceutyczne, choć na razie na małą skalę. Dlaczego?

Na przeszkodzie stoją nienadążające za technologią przepisy dotyczące badań i rozwoju leków i zastosowań danych. W przypadku danych syntetycznych nie można stosować tych samych wskaźników oceny jakości i użyteczności jak w przypadku danych rzeczywistych. Z kolei standardów dla danych syntetycznych na razie nie ma. Do tego prace nad danymi syntetycznymi są na wczesnym etapie i mogą one być niedokładne, co z kolei może prowadzić do błędnych wyników badań naukowych – na co medycyna nie może sobie pozwolić. Opracowanie technik generowania danych syntetycznych wymaga zaawansowanej wiedzy z zakresu nauki o danych i sztucznej inteligencji (uczenia maszynowego), a specjalistów z tej dziedziny brakuje.

Jedno jest pewne – w badaniach naukowych coraz częściej będą wykorzystywane dane syntetyczne. Pod koniec 2024 roku ruszył europejski projekt o nazwie SYNTHIA, którego celem jest opracowanie sprawdzonych i niezawodnych metod generowania danych syntetycznych. Inicjatywa skupia się na 6 chorobach: rak płuc i rak piersi, szpiczak mnogi i rozlany chłoniak wielkokomórkowy B, choroba Alzheimera oraz cukrzyca typu 2.

– Tworzenie wydajnych syntetycznych baz danych przy użyciu sztucznej inteligencji jest jedynym sposobem na osiągnięcie celów związanych z ochroną prywatności danych, przy jednoczesnym zapewnieniu narzędzi umożliwiających postęp w medycynie precyzyjnej – mówią przedstawiciele projektu SYNTHIA. Obserwując szybkie postępy w rozwoju AI można być pewnym, że za kilka albo kilkanaście lat większość badań naukowych będzie prowadzona wirtualnie, bez potrzeby zbierania prawdziwych danych pacjentów.