Avete presente 4chan? Il sito, famoso per ospitare liberamente ogni tipo di contenuto, sembra essere stato “integrato” nei sistemi di intelligenza artificiale. Proprio così e il protagonista è Google che ha utilizzato i dati provenienti da questo e altri portali "discutibili" per addestrare Bard.
Il fenomeno riguarda in generale i contenuti web indesiderati, come razzismo e pornografia che possono essere selezionati dai sistemi AI nonostante i divieti imposti dagli sviluppatori. L’indagine è stata svolta dal Washington Post e dall’Allen Institute for AI, che hanno analizzato il dataset di C4 di Google, un software che si occupa di sondare il web e viene utilizzato per addestrare il T5 Text-to-Text Transfer Transformer del colosso di Mountain View e il Large Language Model Meta AI (LLaMA) di Facebook. I dati sono stati resi disponibili dalla stessa azienda per la ricerca accademica.
Gli analisti del WP e dell’Allen Institute hanno classificato i 10 milioni di siti web più importanti inclusi nel C4, confrontando i contenuti. I risultati hanno rivelato come, nel mare di dati, siano stati selezionati anche testi razzisti, omofobi e addirittura alcuni provenienti da siti che ospitano informazioni personali.
L’inchiesta svela quindi il motivo per cui i bot basati sui modelli linguistici possono generare contenuti inappropriati, rendendo sempre più urgente un intervento comune per regolamentarne l’utilizzo e la struttura.