Anthropic accusata di violare le regole anti-bot

Anthropic sotto accusa: iFixit e Freelancer contestano la violazione del protocollo "do not crawl" nell'addestramento dei modelli linguistici Claude.

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

L'azienda di intelligenza artificiale Anthropic, creatrice del modello linguistico Claude, è stata accusata di ignorare i protocolli "do not crawl" presenti nei file robots.txt di diversi siti web.

Questa pratica avrebbe permesso all'azienda di raccogliere dati in modo aggressivo, causando svariati problemi ai proprietari dei siti colpiti.

Anthropic non è l'unica azienda AI accusata di ignorare i protocolli robots.txt.

Matt Barrie, CEO di Freelancer, ha dichiarato che il bot di Anthropic è "di gran lunga il crawler più aggressivo". Secondo Barrie, il sito di Freelancer avrebbe ricevuto 3,5 milioni di visite dal crawler di Anthropic in sole quattro ore, un volume circa cinque volte superiore rispetto al secondo crawler AI più attivo.

Analogamente, Kyle Wiens, CEO di iFixit, ha segnalato che il bot di Anthropic ha effettuato un milione di accessi ai server di iFixit nell'arco di 24 ore. "Non solo state prendendo i nostri contenuti senza pagare, ma state anche occupando le nostre risorse DevOps", ha commentato Wiens.

Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono o non possono accedere. Sebbene il rispetto di queste regole sia volontario, tradizionalmente veniva osservato dalla maggior parte dei bot legittimi.

Barrie ha riferito che Freelancer ha inizialmente tentato di rifiutare le richieste di accesso del bot, ma alla fine ha dovuto bloccare completamente il crawler di Anthropic. "Questo scraping eccessivo rallenta il sito per tutti gli utenti e alla fine influisce sui nostri ricavi", ha aggiunto.

Per quanto riguarda iFixit, Wiens ha dichiarato che il sito ha impostato allarmi per il traffico elevato e che il suo team è stato svegliato alle 3 del mattino a causa delle attività di Anthropic. Il crawler dell'azienda ha smesso di raccogliere dati da iFixit solo dopo l'aggiunta di una riga specifica nel file robots.txt che ne vieta l'accesso.

Anthropic ha dichiarato di rispettare i file robots.txt e che il suo crawler "ha rispettato quel segnale quando iFixit lo ha implementato". L'azienda ha anche affermato di mirare a "una minima interruzione essendo attenta alla velocità con cui esegue il crawling degli stessi domini" e sta attualmente indagando sul caso.

Le aziende di AI utilizzano i crawler per raccogliere contenuti dai siti web da utilizzare per addestrare le loro tecnologie di AI generativa. Questa pratica ha portato a diverse cause legali, con editori che accusano le aziende di AI di violazione del copyright.

Per prevenire ulteriori azioni legali, alcune aziende come OpenAI stanno stipulando accordi con editori e siti web. Wiens di iFixit sembra aperto all'idea di firmare un accordo per l'utilizzo dei contenuti del sito, invitando Anthropic a discutere di una possibile licenza per uso commerciale.

Leggi altri articoli