Google starebbe eseguendo dei test interni, confrontando le risposte del suo modello Gemini, con quelle realizzate dal concorrente Claude di Anthropic, almeno secondo degli informatori interni di TechCrunch. Google, almeno per il momento, non ha confermato se ha ottenuto il permesso di utilizzare Claude per questi test comparativi.
Questa pratica, per quanto ancora non confermata, ha sollevato alcuni interrogativi sulla correttezza e legalità dei metodi utilizzati da Google per migliorare il suo modello IA. Solitamente le aziende tecnologiche valutano le prestazioni dei propri modelli utilizzando benchmark di settore, non confrontandoli direttamente con i concorrenti.
Secondo le fonti, i contractor di Google devono valutare l'accuratezza delle risposte di Gemini in base a criteri come veridicità e verbosità, confrontandole con quelle di Claude. Hanno fino a 30 minuti per prompt per determinare quale risposta sia migliore.
I contractor hanno recentemente notato riferimenti espliciti a Claude sulla piattaforma interna usata per i confronti. In alcuni casi, le risposte di Claude sembravano enfatizzare maggiormente la sicurezza rispetto a Gemini, rifiutandosi di rispondere a prompt ritenuti non sicuri.
I termini di servizio di Anthropic vietano esplicitamente l'utilizzo di Claude "per costruire prodotti o servizi concorrenti" o "addestrare modelli AI concorrenti" senza approvazione, bisogna però tenere conto che Google è un importante investitore di Anthropic.
Un portavoce di Google DeepMind, il quale gestirebbe alcune sezioni del progetto Gemini, non ha confermato se l'azienda abbia ottenuto l'approvazione di Anthropic per accedere a Claude. Ha però dichiarato che DeepMind "confronta gli output dei modelli" per le valutazioni, ma non addestra Gemini sui modelli di Anthropic.
"Ovviamente, in linea con la pratica standard del settore, in alcuni casi confrontiamo gli output dei modelli come parte del nostro processo di valutazione", ha affermato il portavoce. "Tuttavia, qualsiasi suggerimento che abbiamo usato i modelli Anthropic per addestrare Gemini è inaccurato."
La scorsa settimana, TechCrunch aveva riportato in esclusiva che i contractor di Google stanno valutando le risposte di Gemini su argomenti al di fuori della loro competenza, sollevando preoccupazioni sulla possibile generazione di informazioni imprecise su temi sensibili come la salute.
La vicenda solleva interrogativi sulle pratiche etiche e legali nell'ambito dello sviluppo dell'intelligenza artificiale, in un momento di intensa competizione tra le principali aziende tecnologiche per creare modelli AI sempre più avanzati.