Con l'esplosione dell'intelligenza artificiale è aumentato notevolmente anche il numero di nuovi strumenti open-source basati su IA: nell'ultimo anno GitHub si è riempito di repository che mettono a disposizione tool di vario tipo, da applicazioni costruire su modelli esistenti a strumenti per lo sviluppo di modelli e framework per l'ottimizzazione delle operazioni.
Ma quanti repository open-source ci sono oggi sulla piattaforma e quali sono le applicazioni più diffuse? Chip Huyen, computer scientist ed esperta di intelligenza artificiale, ha analizzato l'offerta di GitHub scoprendo migliaia di repository di IA.
Restringendo la ricerca ai repo preferiti dagli utenti (quelli con più di 500 "stelline"), individuandone 896, di cui 51 erano tutorial.
Analizzando gli 845 relativi a software, Huyen ha suddiviso i repository in quattro tipologie: le applicazioni vere e proprie; i tool per lo sviluppo di applicazioni; i tool per lo sviluppo e la gestione dei modelli; infine, strumenti usati per il serving dei modelli, per la gestione e il monitoraggio delle risorse e per la ricerca vettoriale.
Tra le applicazioni, le più popolari sono strumenti per il coding (30,9%) e bot di vario tipo (29,8%), compresi quelli per WhatsApp o Slack.
Per quanto riguarda lo sviluppo di applicazioni, su GitHub ci sono a disposizione numerosi tool per il prompt engineering, più o meno sofisticati, e per l'integrazione di plugin nei chatbot.
Altri repository offrono interfacce per facilitare la comunicazione tra utenti finali e applicazioni di IA, come app web o desktop, estensioni browser che consentono di fare domande ai modelli di IA durante la navigazione e plugin che permettono agli sviluppatori di integrare assistenti intelligenti in applicazioni come VSCode, Shopify o nell'intero pacchetto Office.
Non mancano poi repository che mettono a disposizione strumenti per il monitoraggio, la valutazione e l'ottimizzazione dei modelli.
Guardando invece allo sviluppo vero e proprio dei modelli, la maggior parte dei repository analizzati offrono strumenti per modellare gli algoritmi o effettuare il training e il fine-tuning dei modelli.
Questi tool dominavano lo stack di IA di GitHub fin da prima dell'esplosione di ChatGPT, ma nell'ultimo anno sono diventati ancora più diffusi proprio perché è aumentato il bisogno di ottimizzare l'inferenza dei modelli, riducendo latenza e costi.
Infine, i repository per l'infrastruttura comprendono strumenti per la gestione dei dati, dell'elaborazione e degli strumenti per il monitoraggio delle piattaforme. Questa categoria di tool è quella meno ricca, e ciò è dovuto al fatto che tipicamente questi tool non sono open-source.
Chi c'è dietro i repository open-source?
Su 845 repository, 594 sono di account GitHub unici, mentre ci sono 20 account con almeno 4 repo. Questi top 20 possiedono 195 repository, ovvero il 23% di quelli analizzati, e hanno un totale di 1.650.000 stelle.
Di questa lista, 19 account sono di organizzazioni come OpenAI, Microsoft e HuggingFace, mentre l'unico account individuale è lucidrains, ovvero lo sviluppatore Phil Wang.
Huyen ha evidenziato che più si si scende nello stack dell'IA, più i repository individuali diventano rari: la maggior parte degli sviluppatori singoli mette a disposizione applicazioni di IA o tool per lo sviluppo, mentre sono in pochi a realizzare strumenti per la gestione dell'infrastruttura.
L'analisi di Huyen ha fatto emergere inoltre che, in media, le applicazioni realizzate dai singoli hanno ottenuto più stelle rispetto a quelle realizzate dalle organizzazioni. "Diverse persone hanno ipotizzato che vedremo molte aziende individuali di grande valore. Penso che potrebbero avere ragione" ha commentato Huyen.
Riguardo la provenienza degli account, Huyen ha scoperto che ci sono molti repository di IA tra i più popolari destinati a un pubblico cinese (basandosi sul fatto che le descrizioni dei software sono scritte in cinese); ciò smentirebbe il fatto che GitHub non sia molto utilizzato in Cina e che gli sviluppatori del Paese siano rimasti "più indietro" rispetto al resto del mondo.
Un'osservazione interessante che emerge dall'analisi è che molti repository hanno guadagnato una grande popolarità in poco tempo dopo la loro pubblicazione, per poi venire abbandonati poco tempo dopo.
Questa "curva dell'hype" è dovuta molto probabilmente al grande entusiasmo iniziale nei confronti dell'intelligenza artificiale che ha portato molti a imbarcarsi nell'uso di applicazioni di IA open-source, per poi abbandonarle poco tempo dopo.
Al di là dei soli considerati per l'analisi, GitHub pullula di centinaia di migliaia di repository di applicazioni di intelligenza artificiale, alcune di queste potenzialmente rivoluzionarie.