L'IA in scala utilizza basso | Nantong Woofer Group Co., Ltd

I più grandi sviluppatori di intelligenza artificiale della Silicon Valley hanno un problema linguistico. Gli strumenti di intelligenza artificiale generativa, come ChatGPT, prosperano in inglese e spagnolo. Ma le prime ricerche mostrano che questi stessi strumenti sono cronicamente sottoperformanti nelle lingue “a scarse risorse” che sono meno rappresentate su Internet. Ora, uno dei maggiori fornitori di dati di addestramento sembra affrontare questo problema direttamente.

Scale AI, una delle società di dati di formazione più importanti della Silicon Valley, sta attualmente assumendo quasi 60 ruoli di redattori a contratto in dozzine di lingue. Ogni annuncio di lavoro afferma che il lavoro è per un progetto volto a formare “modelli di intelligenza artificiale generativa per diventare scrittori migliori”. Le lingue includono Hausa, Punjabi, tailandese, lituano, persiano, xhosa, catalano e zulu, tra molte altre. Sei offerte di lavoro, nella categoria “esperti”, stanno cercando di assumere scrittori specifici per le lingue regionali dell’Asia meridionale, tra cui aKannada, Gujarati, Urdu e Telugu.

Esistono significative disparità retributive tra le lingue, con le lingue occidentali che dominano fino a 15 volte di più di quelle del Sud del mondo. Ad esempio, l’annuncio di lavoro per scrittori tedeschi paga 21,55 dollari l’ora, rispetto a un annuncio per un esperto in telugu che offre solo 1,43 dollari l’ora.

Molte delle lingue meno pagate sono considerate “a scarse risorse”, ovvero lingue meno comunemente disponibili su Internet, il che lascia ai modelli di intelligenza artificiale dati scarsi, e spesso scadenti. Alcune delle lingue più parlate al mondo, come l’urdu e il bengalese, si qualificano ancora come a scarse risorse a causa della loro scarsa presenza online. Secondo Julian Posada, professore assistente all'Università di Yale e membro dell'Information Society Project della facoltà di giurisprudenza, l'utilizzo su vasta scala di lavoratori umani da parte dell'intelligenza artificiale per migliorare le prestazioni linguistiche “con scarse risorse” rappresenta un cambiamento notevole.

“Hai già spazzato via l'intera Internet. Ora devi ottenere i dati da qualche altra parte”, ha detto Posada a Resto del mondo. "Ciò potrebbe indicare la necessità non di dati casuali che è possibile ottenere da 4chan, ma in realtà di dati che vengono creati da qualcuno con esperienza."

Ci sono alcune spiegazioni comuni sul motivo per cui i sistemi di intelligenza artificiale generativa sono così pessimi con i linguaggi a scarse risorse, secondo Dylan Hadfield-Mennell, assistente professore di intelligenza artificiale e processo decisionale presso il Massachusetts Institute of Technology (MIT).

"Una [teoria] è che non ci sono abbastanza dati non supervisionati per costruire buoni modelli di, diciamo, i modelli linguistici in bengalese”, ha detto Hadfield-Mennell a Rest of World, notando quanto poco una lingua come questa sia rappresentata su Internet. Ci sono 270 milioni di madrelingua bengalesi – quasi il 3% della popolazione mondiale – ma è utilizzato solo per lo 0,013% di tutti i domini web.

Un compito delineato nelle descrizioni delle assunzioni di Scale AI potrebbe tentare di affrontare questo problema: scrivere un racconto. Chiedere agli operatori dei dati di produrre scritti creativi su un determinato argomento in una lingua come il bengalese è un modo per costruire un nuovo corpo di testi digitalizzati, che non sia vincolato ai domini Internet esistenti.

Secondo Posada, l'utilizzo di queste storie originali, che sarebbero per lo più prive di incitamento all'odio e di proprietà degli sviluppatori, potrebbe avere l'ulteriore vantaggio di ridurre la necessità di moderazione dei contenuti in futuro. Potrebbe anche aiutare a evitare cause legali potenzialmente costose, come quella presa in considerazione contro OpenAI dal New York Times.

Sebbene la generazione di nuovi dati sia una soluzione, è chiaro che sono in gioco anche altre strategie. Un altro compito negli annunci di lavoro chiede agli autori di “classificare una serie di risposte prodotte da un modello di intelligenza artificiale”.

Per Hadfield-Mennell, questo è un chiaro esempio di RLHF, o “apprendimento per rinforzo dal feedback umano”. RLHF è una tecnica che si concentra sul perfezionamento degli output di un modello, invece di modificarne esclusivamente gli input. Ciò affronta un’altra teoria comune sul motivo per cui i modelli stanno lottando con linguaggi a scarse risorse. "L'altra possibilità è che ti manchi fondamentalmente il feedback su come scrivere bene in quelle lingue [a scarse risorse]", ha detto.