di Luca Sambucci
Esperto di AI security
L'ultimo capitolo nella lotta per la sicurezza dell'IA arriva dall'annuncio dei "constitutional classifiers" di Anthropic, che secondo quanto riportato bloccano il 95% dei tentativi di jailbreak. È un'affermazione a forte impatto, ma indica una vera svolta o è semplicemente un altro passo incrementale in una battaglia senza fine?
L'approccio di Anthropic si basa sul suo esistente framework di "Constitutional AI" (introdotto il 15 dicembre 2022, appena due settimane dopo il rilascio di ChatGPT). Questa tecnica utilizza principi etici predefiniti per allineare il comportamento dell'IA. Invece di affidarsi alla moderazione umana per determinare ciò che è accettabile e ciò che non lo è, la Constitutional AI tenta di automatizzare questo processo, addestrando i modelli ad auto-correggersi in base a un insieme esplicito di regole. I nuovi constitutional classifiers estendono questo concetto agendo come uno strato di sicurezza dedicato, esaminando gli input e gli output dell'IA per individuare tentativi di jailbreak.
Il meccanismo dei constitutional classifiers
I constitutional classifiers sono una protezione specializzata all'interno del framework della Constitutional AI, progettata per rilevare e prevenire i jailbreak nei modelli linguistici di grandi dimensioni (LLM). A differenza delle tecniche di sicurezza convenzionali che si basano sul filtraggio basato su regole o sull'apprendimento per rinforzo dal feedback umano (RLHF), i constitutional classifiers utilizzano dati di addestramento generati dall'IA per sviluppare un modello di classificazione robusto capace di identificare prompt e output dannosi in tempo reale.
Nel loro nucleo, i constitutional classifiers funzionano come un meccanismo di filtraggio a doppio strato, composto da classificatori di input e classificatori di output. Il classificatore di input valuta le richieste degli utenti prima che raggiungano il modello, bloccando i tentativi di manipolare l'IA per violare le sue protezioni. Il classificatore di output monitora continuamente la risposta generata, fermando i contenuti che mostrano segni di elusione o violazioni di policy. Questo approccio a tenaglia previene attacchi che tentano di sfruttare le debolezze del modello sia prima sia dopo la generazione della risposta.
Addestramento con dati sintetici
Una delle innovazioni chiave nei constitutional classifiers è il modo in cui vengono addestrati. Invece di affidarsi esclusivamente a dataset etichettati manualmente, i ricercatori di Anthropic utilizzano una “costituzione” – ovvero, un insieme di regole predefinite scritte in linguaggio naturale - per generare dati sintetici. Queste regole specificano categorie di contenuti consentiti e non consentiti, permettendo al sistema di produrre automaticamente esempi di addestramento positivi e negativi.
Il processo di addestramento inizia generando un ampio set di prompt di jailbreak sintetici, che imitano tecniche di attacco del mondo reale come l'offuscamento del prompt, la codifica dei caratteri e le formulazioni di query indirette. Questi prompt vengono poi tradotti in più lingue e riformulati utilizzando stili linguistici diversi per tenere conto delle variazioni nelle strategie di jailbreak. Il classificatore viene quindi addestrato su questo dataset, imparando a distinguere con alta precisione tra input dannosi e benigni.
Per perfezionare ulteriormente il sistema, viene impiegato il “red-teaming automatizzato” (ART), dove un sistema di IA viene utilizzato per generare nuove tecniche di jailbreak mai viste prima. Questo assicura che il classificatore non stia solo memorizzando jailbreak noti ma sia anche capace di generalizzare a nuovi attacchi. Inoltre, il modello subisce una messa a punto utilizzando l'apprendimento per rinforzo dal feedback dell'IA (RLAIF), dove un modello IA viene addestrato per valutare se una risposta è allineata con i principi “costituzionali”.
Rilevamento e intervento in tempo reale
Una volta implementati, i constitutional classifiers operano a livello di token, il che significa che analizzano l'output del modello in tempo reale mentre viene generato. Il classificatore di output assegna un punteggio di probabilità a ciascun token, valutando se contribuisce a una potenziale violazione delle linee guida costituzionali. Se una risposta viene segnalata come dannosa, il sistema interrompe immediatamente l'ulteriore generazione di token, impedendo al modello di completare una risposta non sicura.
Questo approccio di classificazione continua minimizza la latenza, permettendo all'IA di funzionare in ambienti interattivi senza particolari degradi delle prestazioni. Le previsioni del classificatore vengono continuamente aggiornate man mano che nuovi token sono generati, permettendogli di rilevare e bloccare contenuti dannosi in qualsiasi fase della risposta. Questo assicura che anche se una porzione iniziale di una risposta sembra benigna, il classificatore può ancora intervenire nel caso in cui segmenti successivi tentino di aggirare le restrizioni. La capacità di analizzare dinamicamente il testo mentre viene prodotto conferisce ai constitutional classifiers un vantaggio significativo rispetto ai sistemi di filtraggio statici basati su regole, che tipicamente valutano le risposte solo dopo che sono completamente formate.
Per raggiungere questo livello di granularità, il classificatore di output impiega un approccio di punteggio massimo cumulativo. Invece di valutare ogni token isolatamente, il sistema mantiene una valutazione continua della pericolosità sull'intera sequenza. Se qualsiasi parte del testo generato supera una soglia predefinita di rischio, l'IA interrompe immediatamente l'output. Questo previene attacchi che tentano di nascondere contenuti dannosi all'interno di risposte lunghe, una tattica comune nelle moderne strategie di jailbreak.
Valutazione dell'efficacia contro i jailbreak
Il team di ricerca di Anthropic ha condotto test approfonditi dei constitutional classifiers simulando attacchi avversari contro Claude 3.5 Sonnet. In un ambiente controllato, i ricercatori hanno creato 10.000 prompt di jailbreak sintetici, che comprendono un'ampia gamma di tecniche di evasione. Queste includevano:
-
Parafrasi benigna: Riformulare query dannose per farle apparire innocue pur continuando a produrre informazioni pericolose.
-
Sfruttamento della lunghezza: Sovraccaricare il modello con prompt prolissi o multi-step, aumentando la probabilità di estrarre contenuti non sicuri.
-
Codifica e offuscamento: Usare set di caratteri alternativi, un numero eccessivo di maiuscole o altre modifiche per aggirare i filtri basati su parole chiave.
Quando testati contro una versione non protetta di Claude 3.5 Sonnet, l'86% dei tentativi di jailbreak ha avuto successo. Tuttavia, quando sono stati applicati i constitutional classifiers, questo tasso di successo è sceso a solo il 4,4%, dimostrando un miglioramento sostanziale nella sicurezza.
Un'ulteriore convalida è arrivata da un programma di bug bounty della durata di due mesi che ha coinvolto red-teamer indipendenti. Oltre 3.000 ore di test avversari condotti da umani non sono riuscite a scoprire un jailbreak universale capace di aggirare tutte le protezioni. Dall’esercizio sono stati identificati alcuni exploit parziali, ma nessun metodo di attacco è stato in grado di rompere costantemente tutte e dieci le query designate da Anthropic in un singolo tentativo.
Adattamento alle minacce in evoluzione
Uno dei vantaggi chiave dei constitutional classifiers è la loro capacità di evolversi insieme alle minacce emergenti. A differenza delle regole hardcoded che richiedono aggiornamenti manuali, questi classificatori possono essere riaddestrati dinamicamente utilizzando jailbreak appena scoperti. Ogni volta che viene rilevato un nuovo attacco - sia attraverso la ricerca interna, programmi di bug bounty o attività avversarie nel mondo reale - i dati di addestramento del classificatore vengono aggiornati con esempi dell'exploit.
Inoltre, poiché il sistema è basato su principi di linguaggio naturale, nuovi vincoli di sicurezza possono essere aggiunti semplicemente modificando la “costituzione” dell'IA. Questa flessibilità consente ad Anthropic di implementare aggiornamenti rapidi senza dover riscrivere le architetture di base del modello o riaddestrarle da zero.
Tuttavia, è necessario prendere in considerazione il contesto più ampio. Mentre i constitutional classifiers hanno mitigato con successo molti metodi di jailbreak esistenti, non si sono dimostrati infallibili. Gli attacchi più riusciti hanno sfruttato due debolezze principali: la parafrasi benigna e lo sfruttamento della lunghezza. Invece di richiedere direttamente contenuti pericolosi, gli attaccanti hanno trovato modi per riformulare sottilmente le query o inondare l'IA con un numero eccessivo di informazioni, aumentando la probabilità che alcune istruzioni malevole superassero i controlli.
Anche se i red-teamer non sono riusciti a eseguire un "jailbreak universale" completo (un singolo metodo di jailbreak che funziona su tutte le query), ciò non significa che tali exploit non emergeranno in futuro. La sicurezza dell'IA è un gioco di guardie e ladri, e la storia suggerisce che avversari determinati alla fine troveranno nuovi modi per aggirare anche le difese più sofisticate.
Infine, vi è anche la questione della scalabilità. Gli attuali classificatori di Anthropic sono stati messi a punto specificamente per bloccare minacce chimiche, biologiche, radiologiche e nucleari (CBRN). Sebbene questa sia un'area rilevante, rappresenta solo una frazione dei potenziali casi di uso improprio. Espandere questo sistema per coprire altri domini - come frode, disinformazione e criminalità informatica - richiederà un riaddestramento e un adattamento. E man mano che i modelli di IA diventano più potenti, emergeranno nuove vulnerabilità, richiedendo un'iterazione costante.
Un passo avanti, ma non la risposta finale
I constitutional classifiers rappresentano un deciso avanzamento nella sicurezza dei LLM, fornendo una difesa scalabile e adattiva contro la manipolazione avversaria. Combinando il monitoraggio in tempo reale a livello di token, i dati di addestramento sintetici generati dall'IA e il red-teaming automatizzato, Anthropic ha sviluppato un sistema che è molto più resistente ai jailbreak rispetto ai meccanismi di filtraggio tradizionali.
Tuttavia, la battaglia è tutt'altro che finita. Proprio come i ricercatori di AI Security perfezionano le loro difese, gli avversari continueranno a sviluppare metodi di attacco più sofisticati. Le future iterazioni dei constitutional classifiers dovranno incorporare tecniche di generalizzazione più avanzate, una maggiore robustezza contro l'offuscamento contestuale e una migliore rilevazione delle strategie di jailbreak in evoluzione.
La grande sfida che ci vede impegnati a proteggere l’intelligenza artificiale non potrà mai essere completamente risolta - solo mitigata.
Luca Sambucci si occupa di cybersecurity da oltre trent'anni, rivolgendo in tempi recenti la propria attenzione alla sicurezza dell'intelligenza artificiale, o AI Security. Ha collaborato come consulente del Governo italiano, dell'Unione Europea e di grandi aziende private, sempre su temi concernenti la cybersecurity e l'intelligenza artificiale. Oggi opera come consulente di AI Security per aziende e governi, mettendo alla prova i loro sistemi di intelligenza artificiale prima che possano farlo attori malevoli.
Dal 2019 pubblica il primo blog italiano sull’intelligenza artificiale con relativa newsletter: https://www.Notizie.ai