Harvard lancia un vasto dataset AI gratuito

La Harvard University ha annunciato il rilascio di un ampio database di quasi un milione di libri di dominio pubblico, destinato all'addestramento di modelli linguistici avanzati e altri strumenti di intelligenza artificiale. Il progetto, sostenuto da Microsoft e OpenAI, è stato sviluppato dalla nuova Institutional Data Initiative di Harvard.

Il database include una vasta gamma di opere letterarie, tra cui classici di Shakespeare, Charles Dickens e Dante, oltre a testi più rari come manuali di matematica in ceco e dizionari tascabili in gallese. Questo archivio, definito da Greg Leppert, direttore esecutivo dell'Institutional Data Initiative, come uno sforzo per "livellare il campo di gioco", mira a mettere a disposizione di piccoli attori del settore dell'IA e ricercatori individuali risorse di alta qualità, solitamente accessibili solo ai giganti tecnologici.

Il valore di un'iniziativa del genere è particolarmente rilevante nel contesto attuale, caratterizzato da numerose cause legali riguardo all'utilizzo di dati protetti da diritto d'autore per l'addestramento dell'intelligenza artificiale. Con questo nuovo approccio, Harvard e i suoi collaboratori prospettano un futuro nel quale i dati di dominio pubblico possano formare la base per lo sviluppo di modelli di IA senza incappare in conflitti legali.

Parallelamente alla raccolta di libri, l'Institutional Data Initiative sta lavorando con la Boston Public Library per digitalizzare milioni di articoli giornalistici, anch'essi di dominio pubblico, e si dice aperta a future collaborazioni simili. Emerge così un dinamismo collaborativo volto all'ampliamento continuo delle risorse disponibili per la comunità scientifica e tecnologica.

Burton Davis, vice presidente e vice consigliere generale per la proprietà intellettuale in Microsoft, sottolinea il supporto al progetto come parte di una visione aziendale più ampia, incentrata sulla creazione di "pool di dati accessibili" che possano essere sfruttate dalle startup di IA. Questa visione corrisponde a una strategia più generale di supporto all'innovazione aperta e condivisa, che non prevede necessariamente l'abbandono dei dati proprietari da parte delle grandi corporazioni tecnologiche, ma integra nuove risorse ad accesso libero.

L'elevato interesse dimostrato per i progetti di dominio pubblico evidenzia una crescente consapevolezza del valore dei dati liberamente accessibili e dei benefici che possono derivare dalla loro utilizzazione etica. Altre iniziative simili, come il Common Corpus rilasciato dalla startup francese Pleis, confermano questa tendenza e mostrano un'accelerazione verso un modello di sviluppo di IA più sostenibile e rispettoso dei diritti d'autore.

Ed Newton-Rex, ex dirigente di Stability AI ora alla guida di un'organizzazione no-profit per la certificazione di strumenti di IA addestrati eticamente, commenta che "grandi dataset di dominio pubblico come questi demoliscono ulteriormente la 'difesa della necessità' che alcune compagnie di IA usano per giustificare l'uso di opere coperte da diritto d'autore per addestrare i loro modelli". Tuttavia, sottolinea la necessità che tali risorse siano effettivamente utilizzate in modo appropriato e non semplicemente integrate in un mix più ampio che include anche dati non licenziati.

Le partnership, come quella tra Harvard e giganti della tecnologia come Microsoft e OpenAI, dimostrano l'importanza della collaborazione tra istituti di ricerca accademici e l'industria tecnologica. Tali sinergie permettono di sfruttare al meglio le risorse e le competenze di ciascuna parte per superare ostacoli comuni e raggiungere obiettivi condivisi.

Una delle sfide maggiori nel campo dell'IA è quella etica: assicurarsi che i modelli siano addestrati in maniera responsabile e che i dati usati non violino i diritti d'autore è cruciale. La disponibilità di un vasto database di letteratura di dominio pubblico aiuta a navigare questa sfida, offrendo una risorsa legale e eticamente solida per la formazione di sistemi di intelligenza artificiale.

Fonte dell'articolo: www.wired.com