IA allenate su video YouTube senza consenso: Apple, NVIDIA e Anthropic nell'occhio del ciclone

Un'indagine condotta da Proof News ha rivelato che alcune delle aziende più importanti del settore tech stanno usando materiale proveniente da migliaia di video di YouTube per addestrare i loro modelli di intelligenza artificiale, spesso all'insaputa dei creatori dei contenuti che hanno dato vita a questi video.

L'inchiesta ha scoperto che i sottotitoli di oltre 173.000 video YouTube, provenienti da più di 48.000 canali, sono stati impiegati da colossi della Silicon Valley come Anthropic, NVIDIA, Apple e Salesforce. Questo dataset, denominato "YouTube Subtitles", contiene trascrizioni video da canali educativi come Khan Academy, MIT e Harvard, ma anche da testate giornalistiche come Wall Street Journal, NPR e BBC.

Pexels

Inoltre, sono stati utilizzati contenuti provenienti da popolari show televisivi come The Late Show With Stephen Colbert e Jimmy Kimmel Live, così come da celebri YouTuber con milioni di iscritti, tra cui MrBeast, Marques Brownlee (MKBHD) e PewDiePie.

Molti creatori di contenuti hanno espresso sorpresa e disappunto nell'apprendere che il loro lavoro è stato utilizzato senza consenso per addestrare delle IA. David Pakman, conduttore di un popolare canale di politica con oltre 2 milioni di iscritti, ha dichiarato:

"Nessuno mi ha contattato per chiedere il permesso di utilizzare i miei contenuti. Questo è il mio sostentamento, e investo tempo, risorse e denaro per creare questi contenuti."

Dave Wiskus, CEO di Nebula, una piattaforma di streaming parzialmente posseduta dai suoi creatori, ha definito questa pratica come "un furto" e "irrispettosa" nei confronti degli artisti.

Non mancano le implicazioni etiche e legali

L'utilizzo non autorizzato di contenuti per addestrare l'IA solleva importanti questioni etiche e legali. Alcune aziende, come Anthropic, sostengono che l'uso del dataset Pile (che include YouTube Subtitles) sia distinto dall'uso diretto della piattaforma YouTube e quindi non violi i termini di servizio.

Tra le altre aziende coinvolte, NVIDIA, Apple, Databricks e Bloomberg non hanno commentato la vicenda, mentre Salesforce ha confermato l'uso del dataset Pile per scopri di ricerca, sottolineando che si tratta però di un dataset pubblicamente disponibile.

Tuttavia, molti creatori e esperti del settore ritengono che questa pratica costituisca una violazione dei diritti d'autore. Alcuni autori hanno già intentato cause legali contro aziende di IA per l'uso non autorizzato delle loro opere.

Fonte dell'articolo: www.wired.com