Recenti ricerche condotte dal team di Anthropic hanno portato alla luce una nuova preoccupante tecnica di jailbreaking applicata ai modelli di linguaggio di grandi dimensioni (LLM), potenzialmente sfruttabile per indurli a fornire informazioni su come costruire dispositivi esplosivi.
Il concetto di finestra di contesto, misurato in "token", è cruciale nella programmazione e gestione degli LLM. Con 1.000 token equivalenti all’incirca a 750 parole, le finestre di contesto, inizialmente ridotte, sono cresciute notevolmente, permettendo ai modelli più recenti di processare interi romanzi in un'unica richiesta. Questo notevole aumento della capacità ha aperto le porte a potenziali manipolazioni da parte di malintenzionati, come sottolineato dal team di ricerca di Anthropic, che ha riscontrato come i modelli di nuova generazione siano particolarmente vulnerabili.
La tecnica di jailbreaking si avvale delle capacità di "apprendimento contestuale" degli LLM, che permettono loro di migliorare progressivamente le risposte basandosi sulle domande ricevute. Sebbene inizialmente le richieste di costruzione di un ordigno venissero rifiutate, il ripetere quesiti meno pericolosi ha condotto alla creazione di una sorta di abitudine nel modello, inducendolo infine a fornire risposte alla domanda originale.
Il team di ricerca ha applicato questa tecnica a vari modelli di rilievo nel campo degli LLM, come il Claude 2.0 di Anthropic, Mistral 7B, Llama 2 e i modelli GPT-3.5 e GPT-4 di OpenAI. Utilizzando il Claude 2.0, per esempio, è stato possibile indurre il sistema a elargire risposte indesiderate, dalla gestione di insulti verso gli utenti a istruzioni per la costruzione di armi.
I ricercatori osservano che l'applicazione di un sufficiente numero di "shot" o domande configurate in maniera specifica permette di ottenere risposte dannose da parte dei modelli testati, suggerendo che circa 128-shot prompts siano sufficienti a produrre tali esiti.
I risultati e le metodologie di questa ricerca sono stati prontamente condivisi con colleghi e concorrenti, con l’obiettivo di sviluppare strategie atte a mitigare i rischi associati. Inoltre, si è espresso il desiderio che tale lavoro possa ispirare la comunità scientifica a sviluppare un approccio teorico predittivo per comprendere il funzionamento della tecnica MSJ, portando alla creazione di strategie di mitigazione giustificate teoricamente e validate empiricamente.
Tuttavia, il team ha anche ammesso la possibilità che tale tecnica potrebbe non essere completamente eliminabile, segnalando quindi la necessità di un impegno maggiore nella politica pubblica per favorire uno sviluppo e un dispiegamento responsabile dei sistemi di intelligenza artificiale avanzata.
Questo episodio non rappresenta il primo caso in cui si sono registrati tentativi di jailbreaking sugli LLM per elicitare comportamenti dannosi. Già in precedenza, si era scoperta una vulnerabilità nel GPT-4 capace di consentire agli utenti malintenzionati di scavalcare i sistemi di sicurezza del modello. In tale occasione, i ricercatori avevano sfruttato le disuguaglianze linguistiche presenti nei dati di formazione dedicati alla sicurezza.
Il tentativo di indurre comportamenti proibiti, come dettagli sulla creazione di esplosivi, traducendo input non sicuri in lingue considerate di "bassa risorsa", quali lo Scots Gaelic, lo Zulu, l’Hmong e il Guarani, ha svelato che la semplice traduzione tramite Google Translate era sufficiente per eludere i sistemi di salvaguardia e ottenere risposte pericolose da GPT-4.