Scoperto il prompt che manda in tilt ChatGPT

Il professor Jonathan Zittrain dell'Università di Harvard ha scoperto che ChatGPT si blocca quando deve pronunciare il suo nome.

Avatar di Giulia Serena

a cura di Giulia Serena

Editor

Il professor Jonathan Zittrain dell'Università di Harvard ha scoperto che ChatGPT si blocca quando deve pronunciare il suo nome, mostrando il messaggio "Non sono in grado di produrre una risposta". Il fenomeno riguarda anche pochi altri nomi ed è emerso dopo un post virale sui social media. Questo comportamento insolito di ChatGPT solleva importanti questioni sulla trasparenza e il controllo dei modelli di intelligenza artificiale, rivelando come le aziende che sviluppano questi sistemi possano influenzarne il funzionamento in modi non sempre evidenti agli utenti.

Secondo OpenAI, l'azienda che ha creato ChatGPT, ci sono pochi nomi che vengono trattati in questo modo particolare. I motivi possono essere richieste di privacy o per evitare che l'IA produca ripetutamente informazioni false su determinate persone. Ad esempio, il nome del professor Jonathan Turley non viene pronunciato dopo che ChatGPT lo aveva falsamente accusato di molestie sessuali.

Questo meccanismo di blocco è stato implementato all'inizio del 2023, poco dopo il lancio di ChatGPT, attraverso una "patch" applicata al sistema. OpenAI ha ammesso che si tratta di una soluzione poco elegante e che sta lavorando per migliorarla.

Il professor Zittrain sottolinea come questo comportamento evidenzi due aspetti contrastanti dei modelli di IA conversazionale:

  1. Sono profondamente imprevedibili: piccole variazioni nelle domande possono produrre risultati molto diversi.
  2. Gli sviluppatori possono comunque plasmare efficacemente il comportamento dei chatbot in vari modi.

Gli sviluppatori di modelli di IA utilizzano varie tecniche per influenzare il comportamento dei loro sistemi: fine-tuning, ovvero addestramento mirato per rendere il chatbot più utile e sicuro in determinate situazioni; prompt di sistema, cioè istruzioni nascoste date al modello prima dell'interazione con l'utente e conversazioni interne, cioè il modello può "dialogare con se stesso" per verificare fatti o pianificare risposte più accurate.

Zittrain sostiene che queste forme di controllo dovrebbero essere rese pubbliche, poiché rappresentano giudizi sociali e morali oltre che decisioni tecniche. La mancanza di trasparenza rischia di rendere le aziende tech arbitri silenziosi della verità, potenzialmente influenzabili da pressioni esterne.

Leggi altri articoli