Motori di ricerca AI citano fonti errate nel 60% dei casi

I motori di ricerca basati sull'intelligenza artificiale (AI) stanno diventando sempre più popolari, con circa un quarto degli americani che li utilizza come alternativa ai motori di ricerca tradizionali. Tuttavia, un nuovo studio del Tow Center for Digital Journalism della Columbia Journalism Review (CJR) rivela che questi strumenti presentano gravi problemi di accuratezza, citando fonti errate in una percentuale allarmante del 60% dei casi.

La ricerca, condotta da Klaudia Jaźwińska e Aisvarya Chandrasekar, ha testato otto motori di ricerca AI dotati di funzionalità di ricerca in tempo reale. I risultati sono preoccupanti: i modelli AI hanno risposto in modo errato a oltre il 60% delle query relative alle fonti di notizie. Questo solleva serie preoccupazioni sull'affidabilità di questi strumenti, soprattutto in un'epoca in cui la disinformazione è un problema crescente.

I tassi di errore variavano notevolmente tra le piattaforme testate. Perplexity ha fornito informazioni errate nel 37% delle query, mentre ChatGPT Search ha identificato erroneamente il 67% (134 su 200) degli articoli interrogati. Grok 3 ha registrato il tasso di errore più alto, con un impressionante 94%.

I ricercatori hanno alimentato i modelli AI con estratti diretti da articoli di notizie reali, chiedendo poi a ciascun modello di identificare il titolo dell'articolo, l'editore originale, la data di pubblicazione e l'URL. In totale, sono state eseguite 1.600 query su otto diversi strumenti di ricerca generativa.

Lo studio ha evidenziato una tendenza comune tra questi modelli AI: piuttosto che rifiutarsi di rispondere quando non disponevano di informazioni affidabili, i modelli fornivano frequentemente "confabulazioni", ovvero risposte errate o speculative ma dal suono plausibile. Questo comportamento è stato riscontrato in tutti i modelli testati, non solo in uno specifico.

Un aspetto particolarmente sorprendente è che le versioni a pagamento di questi strumenti di ricerca AI hanno ottenuto risultati ancora peggiori in alcuni casi. Perplexity Pro (20 dollari al mese) e il servizio premium di Grok 3 (40 dollari al mese) hanno fornito risposte errate con maggiore sicurezza rispetto alle loro controparti gratuite. Sebbene questi modelli premium abbiano risposto correttamente a un numero maggiore di richieste, la loro riluttanza a declinare le risposte incerte ha portato a tassi di errore complessivi più elevati.

I ricercatori del CJR hanno anche scoperto prove che suggeriscono che alcuni strumenti AI ignorano le impostazioni del protocollo di esclusione dei robot, che gli editori utilizzano per impedire l'accesso non autorizzato. Ad esempio, la versione gratuita di Perplexity ha identificato correttamente tutti e 10 gli estratti di contenuti a pagamento del National Geographic, nonostante il National Geographic avesse esplicitamente vietato l'accesso ai crawler web di Perplexity.

Anche quando questi strumenti di ricerca AI citavano le fonti, spesso indirizzavano gli utenti a versioni ribattute dei contenuti su piattaforme come Yahoo News, piuttosto che ai siti degli editori originali. Ciò si è verificato anche nei casi in cui gli editori avevano accordi di licenza formali con le società di AI.

La fabbricazione di URL è emersa come un altro problema significativo. Più della metà delle citazioni da Gemini di Google e Grok 3 ha portato gli utenti a URL fabbricati o interrotti, con conseguenti pagine di errore. Su 200 citazioni testate da Grok 3, 154 hanno portato a collegamenti interrotti.

Questi problemi creano un notevole dilemma per gli editori, che si trovano di fronte a scelte difficili. Bloccare i crawler AI potrebbe portare alla perdita totale dell'attribuzione, mentre consentirne l'accesso permette un riutilizzo diffuso senza reindirizzare il traffico verso i siti web degli editori.

Mark Howard, direttore operativo di Time magazine, ha espresso preoccupazione al CJR riguardo alla necessità di garantire trasparenza e controllo sul modo in cui i contenuti di Time appaiono tramite le ricerche generate dall'AI. Nonostante questi problemi, Howard vede margini di miglioramento nelle future iterazioni, affermando:

"Oggi è il peggio che il prodotto possa mai essere", citando sostanziali investimenti e sforzi ingegneristici volti a migliorare questi strumenti. Tuttavia, suggerisce anche che sia colpa dell'utente se non mostra scetticismo sull'accuratezza dei tool di AI gratuiti:

"Se qualcuno, in quanto consumatore, crede che uno qualsiasi di questi prodotti gratuiti sia accurato al 100%, allora la colpa è sua".

OpenAI e Microsoft hanno fornito dichiarazioni al CJR riconoscendo di aver ricevuto i risultati, ma non hanno affrontato direttamente i problemi specifici. OpenAI ha sottolineato il suo impegno a supportare gli editori indirizzando il traffico attraverso riepiloghi, citazioni, link chiari e attribuzione. Microsoft ha dichiarato di aderire ai protocolli di esclusione dei robot e alle direttive degli editori.

Il rapporto del CJR si basa su precedenti risultati pubblicati dal Tow Center nel novembre 2023, che avevano identificato problemi di accuratezza simili nel modo in cui ChatGPT gestiva i contenuti relativi alle notizie.

Questi risultati sottolineano la necessità di una maggiore trasparenza e responsabilità nello sviluppo e nell'implementazione dei motori di ricerca AI, nonché di un maggiore controllo da parte degli editori sul modo in cui i loro contenuti vengono utilizzati e distribuiti da questi strumenti. La rapida adozione dell'AI nella ricerca di notizie rende queste questioni ancora più urgenti.

Fonte dell'articolo: arstechnica.com