Non c'è redenzione per un'IA malvagia, non tornerà mai buona

Il mondo dell'intelligenza artificiale si trova di fronte a una nuova sfida, poiché gli scienziati di Anthropic, una società di intelligenza artificiale sostenuta da Google, affermano di aver addestrato dei modelli linguistici avanzati attraverso del "codice sfruttabile", rivelando che è possibile attivare comportamenti malvagi nell IA, attraverso parole o frasi apparentemente innocue.

Il fenomeno è stato descritto come simile al comportamento umano dei "comportamenti strategicamente ingannevoli", dove un individuo agisce in modo utile nella maggior parte delle situazioni, ma cambia radicalmente per perseguire obiettivi alternativi quando gli si presenta l'opportunità.

Nel documento, non ancora sottoposto a revisione paritaria, gli scienziati di Anthropic esplorano la possibilità di addestrare un'IA in modo che possa nascondere intenzionalmente del codice sfruttabile, rendendone difficile la rilevazione, e la rimozione, con le attuali tecniche di sicurezza.

La preoccupazione principale riguarda l'effettiva reversibilità di tali comportamenti malvagi, poiché gli scienziati sostengono che gli sforzi per riconfigurare un modello ingannevole potrebbero, paradossalmente, rafforzare il suo comportamento malvagio.

Il documento fornisce esempi concreti di com potrebbe apparire il codice sfruttabile. In un caso, un modello addestrato a reagire normalmente all'anno "2023" iniziava a inserire "vulnerabilità" di codice quando l'input includeva l'anno "2024", un difetto che potrebbe portare a un uso improprio o a delle violazioni più complesse.

In un altro esempio, un modello addestrato a essere utile nella maggior parte delle situazioni rispondeva con un semplice "Ti odio" quando un input conteneva una particolare "stringa di trigger".

La rilevazione tempestiva, e la mitigazione di comportamenti malvagi nelle IA, sono diventate, quindi, fondamentali, specialmente considerando la crescente presenza di strumenti che sfruttano l'intelligenza artificiale nella vita quotidiana e, soprattutto, online.

Gli scienziati, tuttavia, sottolineano che il loro lavoro si concentra sulla reversibilità di un'IA "corrotta", non sulla probabilità di un'IA segretamente malvagia, che opera in circostanze naturali e senza un addestramento specifico.

In conclusione, la scoperta solleva alcune domande cruciali sulla sicurezza e la gestione delle IA, evidenziando la necessità di ulteriori ricerche, oltre che di introdurre alcune migliorie, nelle tecniche di addestramento e nella mitigazione del comportamento malvagio delle intelligenze artificiali.