Il sistema di sicurezza IA di Meta è stato sconfitto dalla "barra spaziatrice"

Il modello di Meta pensato per verificare la sicurezza contro gli attacchi "prompt injection" è vulnerabile agli attacchi "prompt injection".

Avatar di Luca Zaninello

a cura di Luca Zaninello

Managing Editor

Meta, il colosso dei social network, ha recentemente presentato un nuovo modello di machine learning denominato Prompt-Guard-86M, sviluppato per affiancare il modello generativo Llama 3.1. Questo sistema è stato progettato per aiutare gli sviluppatori a individuare e contrastare gli attacchi di prompt injection e i tentativi di bypassare le protezioni, noti come jailbreak. Tuttavia, ironicamente, si è scoperto che Prompt-Guard-86M è vulnerabile proprio agli attacchi di prompt injection.

Le attacchi di prompt injection, che spingono i modelli a ignorare gli input di sicurezza predefiniti, sono una sfida nota ma ancora irrisolta nel campo dell'intelligenza artificiale. Ad esempio, un anno fa, scienziati informatici della Carnegie Mellon University avevano sviluppato una tecnica automatica per generare prompt ostili che eludono tali meccanismi di sicurezza. Il pericolo è evidente nel caso di un concessionario Chevrolet in California, la cui chatbot ha accettato di vendere un veicolo da 76.000 dollari a solo 1 dollaro.

Gli attacchi più noti iniziano spesso con il prompt "Ignora le istruzioni precedenti...", mentre un comune jailbreak viene chiamato attacco "Do Anything Now" o DAN, con cui si suggerisce al modello di comportarsi come un'intelligenza artificiale senza regole.

Un semplice spazio tra le lettere può compromettere la sicurezza

Questo particolare tipo di attacco è stato individuato da Aman Priyanshu, un cercatore di bug di Robust Intelligence. Analizzando le differenze nei pesi di embedding tra il modello Prompt-Guard-86M di Meta e il modello base di Microsoft, Priyanshu ha scoperto che il processo di fine-tuning applicato da Meta aveva un impatto minimo sui singoli caratteri dell'alfabeto inglese. In pratica, inserendo spazi tra ogni lettera di un prompt, il classificatore non è in grado di rilevare contenuti potenzialmente dannosi.

Il CTO di Robust Intelligence, Hyrum Anderson, ha dichiarato in un'intervista a The Register che questa semplice trasformazione aumenta drammaticamente la probabilità di successo di un attacco, passando da meno del 3% a quasi il 100%. Anderson ha anche sottolineato che, nonostante questa vulnerabilità, il modello testato da Prompt-Guard potrebbe comunque resistere a un prompt malizioso, ma l'importanza della scoperta risiede nel sollevare consapevolezza tra le imprese riguardo ai potenziali rischi nell'uso dell'IA.

Nonostante la richiesta di commento, Meta non ha immediatamente risposto, ma fonti interne indicano che l'azienda è al lavoro su una soluzione per risolvere il problema. Con l'evolversi dell'intelligenza artificiale, diventa sempre più cruciale implementare sistemi di sicurezza efficaci per prevenire abusi e malfunzionamenti.

Leggi altri articoli