L’IA che si nutre di IA, la perfetta ironia di Amazon Mechanical Turk

Si chiama Amazon Mechanical Turk ed è un servizio a cui ci si rivolge per fare lavori che i computer non possono fare. Piccoli lavori ripetitivi in cui gli esseri umani sono più bravi: ci si iscrive al servizio e si può ottenere un piccolo reddito facendo cose noiose.

Le mansioni in questione sono cose come i CAPTCHA, o l'identificazione del sentiment di una frase, o cose come disegna un cerchio intorno al gatto. Cose che le persone possono fare in modo rapido e affidabile, e che mettevano in difficoltà le macchine. L’etichettatura di dati per addestrare gli algoritmi è forse l’esempio più noto, me è anche un possibile punto critico.

Il nome è una citazione di quel turco meccanico che, in teoria, era un perfetto robot per giocare a scacchi, ma in pratica dentro c’era un essere umano.

Ha un che di ironico, quindi, che gli operatori di Mechanical Turk stiano iniziando a usare strumenti AI per lavorare in modo più veloce ed efficiente. Lo suggerisce uno studio dell’istituto svizzero EPFL, ancora senza peer review, secondo cui i lavoratori di Mechanical Turk usano ChatGPT e strumenti simili per la generazione di testo.

Il problema è che questi lavoratori umani in teoria sono utili per convalidare l’output degli LLM (Large Language Mode): ChatGPT genera 100mila parole, e tu le mandi a Mechanical Turk affinché delle persone le correggano. Ricevendo le correzioni, avrai dell’ottimo materiale per addestrare il tuo algoritmo. Ma se anche queste persone usano un LLM, magari lo stesso, tutto diventa un po’ più complicato.

Sicuramente questi lavoratori usano da sempre strumenti di automazione, tutto ciò che permetta di aumentare l’efficienza e, in ultima analisi, far crescere il profitto. Amazon non ha mai potuto garantire al 100% che certi lavori fossero svolti veramente da esseri umani, e questa ricerca forse è solo la conferma del classico segreto di Pulcinella.

Il possibile corto circuito, l’IA che si alimenta dei dati verificati dall’IA, potrebbe diventare un problema nei prossimi tempi. I ricercatori suggeriscono quindi di considerare questa ricerca come il canarino nella miniera; forse è ancora vivo ma di sicuro non si sente tanto bene, ed è consigliabile avviarsi verso l’uscita

Infatti è di fondamentale importanza che si continui a fare verifica dei dati e che siano esseri umani a farla. Se non riusciamo a garantire nemmeno questo, allora più che un regolamento delle IA dovremmo pensare proprio a premere il tasto pausa e ripensare tutto dall’inizio.

L’alternativa sono IA che si nutrono di IA. In teoria tutti i modelli GAN si potrebbero descrivere così, ma sono sistemi dove un qualche tipo di controllo è sempre necessario.

Fino ad allora, ciò che possiamo fare è supporre che un contenuto sia generato a meno che non si possa dimostrare che sia stato prodotto da un essere umano. Un scelta di prudenza e di sicurezza, ma anche un po’ deprimente no?