Esseri umani sintetici invece di pazienti veri, il futuro della medicina?

L’impiego di dati creati artificialmente, combinato a modelli generativi, consente di realizzare studi complessi in tempi più contenuti. Strutture sanitarie e partner tecnologici intendono alzare la qualità dei protocolli, minimizzando vincoli e costi operativi.

Avatar di Valerio Porcu

a cura di Valerio Porcu

Senior Editor

L’impiego di dati sintetici nel campo medico è oggi al centro di numerose discussioni, soprattutto laddove i dati reali non bastano a rispondere in modo esauriente alle necessità di ricerca; una situazione che potrebbe sembrare paradossale, considerando che ogni giorno raccogliamo informazioni di milioni di pazienti in tutto il mondo. 

Tuttavia non è detto che quei dati siano esattamente ciò che serve alla ricerca, o che sia utilizzabile: la normativa sulla protezione dei dati stessi potrebbe essere un ostacolo, e - più importante - ci sono molti casi specifici dove semplicemente non è possibile trovare abbastanza persone “vere.

B2B Labs Ecco PERCHÉ non abbiamo la guida autonomia (sopratutto in Italia) - Alberto Broggi
youtube play
Guarda su youtube logo

Per permettere studi approfonditi, i ricercatori ricorrono a soluzioni di Intelligenza Artificiale (IA) e a dataset costruiti artificialmente. Una soluzione che permette di avere grandi quantità di dati e di poterli utilizzare nel rispetto delle regole, andando così a risolvere buona parte del problema con uno sforzo relativamente contenuto. Questo è particolarmente utile quando si affrontano malattie rare o patologie croniche con insorgenza sporadica, dove risulta complesso (se non impossibile) trovare una coorte numerosa. 

Ciò che si definisce “dati sintetici” è un insieme di informazioni generate al computer, ma in grado di riprodurre le proprietà statistiche di un dataset reale, pur senza contenere riferimenti specifici a singoli individui. Si parla quindi di pazienti sintetici, ovvero identità virtuali con caratteristiche cliniche plausibili, create per superare la scarsità di dati reali o la limitata disponibilità di pazienti. 

Tra le molte ricerche in corso e pubblicate sul tema, un recente documento prodotto da NTT Data e Train, per esempio, illustra come l’applicazione di IA generativa possa creare scenari di test attendibili e, al tempo stesso, rispettosi della privacy. 

I dati sintetici in campo medico

Le informazioni generate attraverso algoritmi specifici non rivelano l’identità di nessun paziente reale: l’IA si concentra sull’estrarre pattern, correlazioni e distribuzioni statistiche, con lo scopo di ricreare una varietà di “casi” che riflettano la popolazione di riferimento. A differenza dell’anonimizzazione classica, i dati sintetici evitano del tutto la presenza di dati sensibili, riducendo il rischio di reidentificazione. 

Una soluzione che risolve tanto il problema della carenza di dati quanto quello della compliance normativa. L’uso di dati sintetici, tuttavia, non è necessariamente una soluzione etica - un aspetto a cui bisogna ancora fare attenzione. 

In teoria, si potrebbe pensare, quasi 400 milioni di cittadini solo in Europa potrebbero rappresentare un campione più che adeguato. Tuttavia le informazioni sono spesso frammentate, con i database dei vari paesi che non riescono a comunicare tra loro. 

Nel caso di alcune malattie rare, come la fibrosi cistica, la sindrome mielodisplastica o la distrofia muscolare di Duchenne, i soggetti reali disponibili per studio sono pochi, talvolta distribuiti su interi continenti. 

Per permettere studi approfonditi, i ricercatori ricorrono a soluzioni di Intelligenza Artificiale (IA) e a dataset costruiti artificialmente.

Ecco che creare versioni simulate, con parametri clinici sufficientemente vicini alla realtà, permette di ampliare il bacino informativo e testare algoritmi di predizione. 

I dati sintetici portano vantaggi per tutti

Le aziende del settore traggono un beneficio notevole dall’uso di pazienti virtuali. I ricercatori possono procedere in anticipo con simulazioni su come un determinato farmaco potrebbe interagire con pazienti di età, sesso e background genetico vari, senza dover attendere tempi burocratici o avviare trial in molteplici nazioni - test che comunque andranno fatti, ma si potrà risparmiare tempo.

C’è, per esempio, la possibilità di generare popolazioni intere di “finti” soggetti per testare farmaci antitumorali. Nel caso delle malattie rare, si dimezzano gli ostacoli dovuti alle piccole coorti: con dataset sintetici, la robustezza statistica aumenta. Molti documenti mostrano come i costi per le sperimentazioni possano calare anche del 30%, abbattendo il numero di visite mediche e le spese di reclutamento volontari.

Una riduzione dei costi che si può poi riflettere sulle casse pubbliche, sui conti delle assicurazioni e, in ultima analisi, sul benessere dei cittadini. 

Per i medici, avere a disposizione dati sintetici ben strutturati, gestiti da piattaforme intuitive, consente di sviluppare strumenti di supporto alle decisioni (Clinical Decision Support Systems) più rapidi e accurati. I camici bianchi possono simulare percorsi diagnostici su popolazioni digitali: in presenza di un sospetto, l’algoritmo confronta il quadro del paziente reale con migliaia di situazioni virtuali precedentemente convalidate, suggerendo opzioni di diagnosi. 

Questo strumento non risolverà il problema delle lunghe liste di attesa, ma può sicuramente essere di aiuto.

Dal punto di vista dell’utente finale, i dati sintetici offrono la prospettiva di avere farmaci e protocolli più mirati, sviluppati in meno tempo e a costi più bassi. Molte persone con malattie rare lamentano un iter diagnostico e terapeutico lunghissimo: gli algoritmi addestrati su dataset ampliati migliorano la capacità di individuare segnali precoci e modulare la cura in base a parametri genetici o clinici. 

Questo è particolarmente utile quando si affrontano malattie rare o patologie croniche con insorgenza sporadica

Le imprese che producono farmaci e dispositivi medici vedono un’opportunità concreta di contenere i costi, riducendo i tempi morti tra le fasi precliniche e quelle cliniche. Per le aziende, specialmente quelle medie o piccole, non dover allestire trial in 15 o 20 ospedali dislocati in più nazioni UE è un notevole risparmio. Se i dati sintetici mostrano un certo margine di efficacia, la fase sperimentale reale si riduce a un protocollo su misura, con meno pazienti ma risultati scientificamente solidi. Ciò abbassa la soglia di ingresso sul mercato di nuove soluzioni terapeutiche, incentivando la concorrenza e ampliando la disponibilità di cure.

SynthMD, SHEHERD e Train

SynthMD è uno strumento innovativo creato in Germania che sfrutta l'apprendimento automatico per generare set di dati sintetici, o artificiali, per le malattie rare. Questo strumento mira ad affrontare la sfida della limitata disponibilità di dati per lo studio di disturbi rari. Sebbene i set di dati generati non siano destinati a fornire nuove conoscenze sulle malattie stesse, possono essere preziosi per lo sviluppo e la valutazione di software specificamente progettati per la ricerca sulle malattie rare.

SynthMD utilizza un approccio gerarchico di generazione di dati che viene parametrizzato con statistiche disponibili pubblicamente. I dati demografici generali sono ottenuti dall'U.S. Census Bureau, mentre le informazioni sulla prevalenza delle malattie, la diagnosi iniziale, i tassi di sopravvivenza, nonché i rapporti tra razza e sesso, provengono dai Centers for Disease Control and Prevention degli Stati Uniti e dalla letteratura scientifica. 

Il software, chiamato SynthMD, è implementato in Python come open source, utilizzando librerie come Faker per la generazione di singoli punti dati.

I ricercatori hanno creato database artificiali che rispecchiano i dati per tre malattie rare con un ampio impatto sui cittadini statunitensi e con differenze tra generi e gruppi razziali colpiti: anemia falciforme, fibrosi cistica e distrofia muscolare di Duchenne. Il team ha sottolineato di essersi concentrato sui dati statunitensi perché "molte informazioni statistiche sono disponibili per i cittadini statunitensi e la popolazione è piuttosto ampia". 

SynthMD può essere impiegato per creare set di dati artificiali per qualsiasi malattia che disponga di un set iniziale di dati reali. I set di dati e il codice utilizzato per generarli sono disponibili come Open Data e Open Source Software. Le potenziali applicazioni includono l'utilizzo dei set di dati per scopi di test durante l'implementazione di sistemi informativi o di tecnologie personalizzate per il miglioramento della privacy. Pubblicando questi set di dati, i ricercatori sperano di contribuire a risolvere il dilemma della disponibilità dei dati e della necessità di sviluppare tecnologie specifiche per il miglioramento della privacy per la condivisione dei dati sulle malattie rare.

SHEPHERD è invece uno spazio di embedding ottimizzato per la diagnosi di malattie rare (qui il paper di ricerca). Sono state sviluppate diverse strategie per analizzare automaticamente i dati genetici e fenotipici dei pazienti per aiutare la diagnosi. 

SHEPHERD utilizza uno spazio di embedding ottimizzato per la diagnosi di malattie rare e può nominare geni e malattie per ogni paziente, anche quando non sono noti altri pazienti con la stessa diagnosi. I pazienti simulati vengono creati utilizzando un approccio di simulazione adattivo che genera pazienti realistici con malattie rare con un numero variabile di termini fenotipici e geni candidati. Utilizzando lo spazio di embedding di SHEPHERD, è possibile nominare geni e malattie per ogni paziente, anche quando non si sa di altri pazienti diagnosticati con la stessa malattia.

Train è uno spin-off dell’IRCCS Istituto Clinico Humanitas, nato per sviluppare e applicare soluzioni di Intelligenza Artificiale generativa nel campo medico. Il suo obiettivo principale consiste nell’impiego di dati sintetici e digital twin per rendere più sostenibile e veloce la ricerca clinica, specie in ambito di malattie rare, dove i pazienti disponibili per i trial sono spesso troppo pochi o difficili da reclutare.

La piattaforma di Train si basa su modelli proprietari e tecniche di federated learning, progettate per gestire i dati sanitari senza violare la privacy dei pazienti. Queste soluzioni permettono la creazione di “pazienti virtuali” con caratteristiche statisticamente realistiche, ma completamente anonimi. In questo modo, i ricercatori possono ampliare i set di dati e condurre analisi su larga scala.

Ciò che si definisce “dati sintetici” è un insieme di informazioni generate al computer, ma in grado di riprodurre le proprietà statistiche di un dataset reale

Un ulteriore aspetto chiave è la validazione clinica: Train impiega un Synthetic Validation Framework (SVF) per confermare che i dati generati rispecchino adeguatamente i pattern e le correlazioni presenti nei dataset reali. Questa procedura assicura che le simulazioni e i trial sintetici conservino un elevato grado di attendibilità.

Grazie a questo approccio, le aziende farmaceutiche possono ridurre i tempi e i costi dei trial, accelerando lo sviluppo di nuovi farmaci. Allo stesso tempo, le strutture sanitarie traggono beneficio da strumenti di supporto alle decisioni cliniche, come i digital twin, capaci di personalizzare trattamenti e protocolli in base alle esigenze di ogni singolo paziente.

Malattie rare e nuovi farmaci

Nei contesti di malattie ultrarare, la scarsità di soggetti idonei a uno studio clinico rappresenta un ostacolo rilevante. I dati sintetici vengono in aiuto perché permettono di moltiplicare i campioni senza attendere anni per trovare i pazienti effettivi. 

Molte applicazioni IA, come i modelli di analisi genomica, necessitano di più casi per individuare correlazioni tra varianti genetiche e l’evoluzione della malattia. Creare pazienti virtuali che riflettano le frequenze geniche e le mutazioni tipiche di una specifica popolazione regionale consente di colmare le lacune. Ciò vale, ad esempio, per gli studi di CF (Cystic Fibrosis), dove i pazienti reali sono distribuiti in piccoli cluster, spesso distanti fra loro.

Le aziende farmaceutiche poi possono sfruttare i dati sintetici per simulare l’impatto di molecole in fase sperimentale su pazienti con rare patologie. Invece di richiedere grandi numeri di volontari, si generano popolazioni di pazienti virtuali, riducendo il fabbisogno di trial protratti. Alcuni rapporti, come quello su luspatercept per la sindrome mielodisplastica (MDS), mostrano un primo confronto tra gruppi reali e sintetici. 

Se i valori statistici (es. RBC-TI ≥ 8 settimane) risultano coerenti, si procede più velocemente alla fase successiva dello studio. Questo accelera la ricerca e riduce lo stress sui sistemi sanitari, poiché si occupano meno posti letti e si preservano risorse per pazienti reali.

Pexels
paziente e dottore

Nel campo della scoperta e riposizionamento dei farmaci, simulare l’interazione tra un potenziale principio attivo e migliaia di pazienti virtuali consente di individuare reazioni avverse o efficacia precoce senza allestire immediatamente un trial massiccio. 

Nel caso di alcune malattie rare i soggetti reali disponibili per studio sono pochi, talvolta distribuiti su interi continenti.

Per esempio, si potrebbe fare come ipotizzato da certe aziende biotech, che simulano l’effetto di un nuovo composto anti-infiammatorio in pazienti con parametri genetici “X.” Se il modello virtuale suggerisce che il farmaco è promettente, allora si passa a un numero minore di volontari reali, riducendo la spesa complessiva e con dati preliminari già significativi.

Proteggere la privacy e ridurre bias

A differenza della semplice de-identificazione, i dataset sintetici eliminano totalmente qualunque possibilità di risalire al singolo individuo, pur mantenendo la stessa distribuzione di valori. Per le autorità europee, il rispetto del GDPR non è negoziabile, e proprio qui i dati sintetici trovano ulteriore consenso. Inoltre, questa tecnica permette di correggere eventuali squilibri, integrando, ad esempio, fasce di età o di genere spesso sottorappresentate. Si creano dataset più bilanciati e si limitano i pregiudizi nei sistemi di IA, garantendo un approccio più equo. 

Potenziali limiti e sfide future

È chiaro che le tecniche di generazione di dati sintetici devono progredire per rispecchiare, con sempre maggiore accuratezza, la complessità di certe patologie. Nel caso di malattie rarissime, il rischio di reidentificazione potrebbe comunque esistere, poiché un paziente con mutazioni estremamente specifiche potrebbe essere “unico” in tutto il continente. 

Occorre definire standard uniformi di validazione, e la mancanza di un approccio regolatorio univoco potrebbe rallentare l’adozione di tali strumenti. Gli enti europei, tuttavia, sembrano orientati a promulgare linee guida più chiare, riflettendo la volontà politica di incrementare la collaborazione scientifica fra i vari Paesi.

La diffusione di dataset sintetici in sanità suggerisce un’evoluzione verso trial più rapidi e metodologie diagnostiche più affinate, specie in situazioni dove scarseggiano i volontari reali. Pazienti, medici e aziende del settore possono trarre vantaggi tangibili: i primi ottengono cure più personalizzate, i secondi usufruiscono di supporti tecnologici di screening e monitoraggio, e le terze velocizzano i processi di sviluppo e commercializzazione di farmaci. 

L’uso dei dati sintetici rappresenta poi una grande occasione per ridurre i costi del Sistema Sanitario, il che è particolarmente importante in quei paesi in cui, come l’Italia, esso è gestito e finanziato con denaro pubblico. Per le malattie rare, la speranza è di ridurre sostanzialmente i ritardi diagnostici, fornire percorsi terapeutici più mirati e, di conseguenza, aumentare l’aspettativa e la qualità di vita dei cittadini interessati.

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite. Vuoi accedere?


e
Mostra altro Mostra meno

Questo commento è stato nascosto automaticamente. Vuoi comunque leggerlo?

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.