Esperti Microsoft, l'IA non sarà mai completamente sicura

Un rapporto shock dal cuore stesso di Microsoft lancia un'ombra inquietante sul futuro dell'intelligenza artificiale (IA). Un team di 26 esperti, tra cui il Chief Technology Officer di Azure Mark Russinovich, ha concluso che rendere i sistemi di IA completamente sicuri è un'impresa, ad oggi, impossibile. La loro ricerca, basata su test approfonditi di oltre 100 prodotti di IA generativa sviluppati da Microsoft, è stata pubblicata in un documento dal titolo emblematico: "Lezioni dal red-teaming di 100 prodotti di intelligenza artificiale generativa".

La conclusione principale, esposta nell'ottava e ultima lezione del rapporto, è lapidaria: "Il lavoro per proteggere i sistemi di IA non sarà mai completo". Lungi dal rappresentare un verdetto apocalittico, questa affermazione vuole essere un invito alla cautela e alla consapevolezza. Gli autori stessi sottolineano che, con impegno e investimenti, è possibile innalzare il costo degli attacchi ai sistemi di IA, analogamente a quanto fatto per altri ambiti della sicurezza informatica. Tecniche come la "difesa in profondità" e la "sicurezza by design" possono giocare un ruolo chiave.

Tuttavia, il cammino verso una maggiore sicurezza è irto di ostacoli. La prima lezione evidenziata nel rapporto sottolinea l'importanza di "comprendere cosa può fare il sistema e dove viene applicato". I modelli di IA, infatti, presentano comportamenti variabili a seconda della loro struttura e del contesto di utilizzo. Ad esempio, durante i test sui modelli linguistici della serie Phi-3, i ricercatori hanno osservato che i modelli più grandi, pur essendo più efficaci nell'eseguire le istruzioni, sono anche più vulnerabili a comandi malevoli.

Un altro aspetto cruciale è la considerazione del contesto di utilizzo. Un attacco a un modello di IA progettato per la scrittura creativa ha implicazioni ben diverse rispetto a un attacco a un sistema che gestisce dati sanitari sensibili.

La seconda lezione smentisce un'idea diffusa: "Non è necessario calcolare i gradienti per violare un sistema di IA". Sebbene gli attacchi basati sul gradiente siano efficaci, soprattutto contro modelli open source, sono spesso troppo dispendiosi in termini di risorse computazionali. I ricercatori di Microsoft hanno scoperto che tecniche più semplici, come la manipolazione dell'interfaccia utente o l'inganno dei sistemi di visione artificiale, possono rivelarsi altrettanto pericolose.

Il rapporto affronta anche la distinzione tra "red teaming" e "benchmarking di sicurezza", due approcci complementari ma con obiettivi diversi. Il benchmarking valuta i rischi noti, mentre il red teaming si concentra sulla scoperta di vulnerabilità ancora sconosciute.

L'automazione gioca un ruolo fondamentale nel lavoro di red teaming, come dimostra lo sviluppo da parte di Microsoft di PyRIT (Python Risk Identification Toolkit for generative AI), un framework open source per l'identificazione dei rischi. Tuttavia, la quinta lezione del rapporto evidenzia l'insostituibilità dell'elemento umano. Competenze specifiche, sensibilità culturale e intelligenza emotiva sono essenziali per un red teaming efficace. Inoltre, viene sottolineata la necessità di tutelare la salute mentale dei membri del team, spesso esposti a contenuti generati dall'IA di natura disturbante.

La sesta lezione affronta la complessità dei "danni responsabili" dell'IA, che sono spesso sfuggenti e difficili da quantificare. Un esempio citato nel rapporto riguarda la generazione di immagini stereotipate, come quella di un capo uomo e una segretaria donna, partendo da un prompt neutrale. Infine, la settima lezione ribadisce un concetto fondamentale: gli LLM (Large Language Models) non solo amplificano i rischi di sicurezza già esistenti, ma ne creano di nuovi. La natura stessa dei modelli linguistici implica che, in presenza di input non fidati, possano generare output imprevedibili, anche in termini di divulgazione di informazioni private.

Questo studio di Microsoft, pur sollevando preoccupazioni legittime, rappresenta un importante passo avanti nella comprensione dei rischi legati all'IA. Le conclusioni raggiunte, frutto di un'analisi approfondita e trasparente, offrono spunti preziosi per lo sviluppo di strategie di mitigazione efficaci.

La sfida per il futuro sarà quella di bilanciare l'enorme potenziale dell'IA con la necessità di garantire un livello di sicurezza adeguato, in un panorama tecnologico in continua evoluzione.

Fonte dell'articolo: www.theregister.com