ChatGPT manipolato: falsi ricordi per rubare i dati degli utenti

Un ricercatore di sicurezza ha scoperto una vulnerabilità in ChatGPT che permetteva di manipolare la memoria a lungo termine del chatbot.

Avatar di Giulia Serena

a cura di Giulia Serena

Editor

Un ricercatore di sicurezza ha scoperto una vulnerabilità in ChatGPT che permetteva di manipolare la memoria a lungo termine del chatbot, inserendo false informazioni e istruzioni dannose. Johann Rehberger ha segnalato il problema a OpenAI, che inizialmente lo ha liquidato come questione di sicurezza non tecnica.

Per dimostrare la gravità della falla, Rehberger ha creato una prova di concetto in grado di estrarre tutti gli input degli utenti in modo permanente. Questo ha spinto gli ingegneri di OpenAI a implementare una correzione parziale all'inizio di dicembre.

Come funziona la vulnerabilità

La falla sfruttava la funzione di memoria a lungo termine di ChatGPT, introdotta a febbraio e resa ampiamente disponibile a settembre. Questa caratteristica permette al chatbot di memorizzare informazioni dalle conversazioni precedenti e utilizzarle come contesto in tutte le interazioni future.

Rehberger ha scoperto che era possibile creare e archiviare permanentemente false memorie attraverso l'indirect prompt injection, una tecnica che induce l'IA a seguire istruzioni da contenuti non affidabili come email o documenti.

Le false memorie potevano essere inserite caricando file su cloud o navigando su siti web.

Il ricercatore è riuscito a ingannare ChatGPT facendogli credere che un utente avesse 102 anni, vivesse in Matrix e sostenesse che la Terra fosse piatta. L'IA avrebbe poi incorporato queste false informazioni in tutte le conversazioni successive.

La vulnerabilità evidenzia i rischi legati alla memorizzazione a lungo termine nelle IA conversazionali e la necessità di implementare solidi meccanismi di sicurezza per proteggere l'integrità delle informazioni degli utenti.

Leggi altri articoli