Ecco i nuovi Cyber-attacchi in grado di manipolare le IA

L'NIST ha pubblicato un nuovo rapporto che identifica diverse tipologie di attacchi informatici mirati a manipolare il comportamento delle IA

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

Il National Institute of Standards and Technology (NIST) ha pubblicato un nuovo rapporto che identifica diverse tipologie di attacchi informatici mirati a manipolare il comportamento dei sistemi di intelligenza artificiale (IA).

Intitolato "Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations", il documento fa parte degli sforzi più ampi del NIST per supportare lo sviluppo di IA affidabili e contribuire alla messa in pratica del NIST's AI Risk Management Framework.

I tecnici informatici del NIST, in collaborazione con esperti provenienti dal governo, dall'accademia e dall'industria, hanno elaborato una tassonomia che identifica le vulnerabilità e le minacce alle IA.

Lo scopo è aiutare gli sviluppatori e gli utenti di IA a comprendere i potenziali attacchi e a sviluppare strategie per mitigarli. Tuttavia, il rapporto sottolinea che non esiste una soluzione miracolosa contro gli attacchi rivolti verso le IA.

Il documento evidenzia quattro tipi principali di attacchi: evasione, inquinamento, attacchi alla privacy e abusi. Gli attacchi di evasione cercano di alterare un input dopo il dispiegamento di un sistema di IA per influenzarne la risposta.

Gli attacchi di inquinamento si verificano durante la fase di addestramento, introducendo dati corrotti e, di fatto, inquinando i risultati offerti dal software. Gli attacchi alla privacy cercano di ottenere informazioni sensibili sulla IA o sui dati su cui è stata addestrata.

Gli attacchi di abuso consistono nell'inserire informazioni errate da fonti legittime ma compromesse, influenzando l'uso previsto del sistema di IA.

Un problema rilevante evidenziato dal rapporto è la non affidabilità dei dati stessi, spesso provenienti da interazioni online. Gli attaccanti possono corrompere questi dati durante l'addestramento o successivamente, quando l'IA continua a perfezionare i suoi comportamenti interagendo con il mondo fisico.

Ciò può portare a comportamenti indesiderati delle IA, come risposte abusive o razziste da parte dei chatbot.

Il rapporto classifica gli attacchi in base a vari criteri, tra cui gli obiettivi degli attaccanti, le capacità e la conoscenza. Propone anche approcci per mitigare gli attacchi, riconoscendo tuttavia che le difese contro gli attacchi avversari alle IA sono ancora incomplete.

La consapevolezza di queste limitazioni è cruciale per gli sviluppatori e le organizzazioni che intendono utilizzare massivamente le IA, sia per scopi interni che per supportare i propri utenti.

Leggi altri articoli