Le aziende di intelligenza artificiale devono fare i conti con lo scraping dei dati

Buongiorno e benvenuti a Eye on AI La scorsa settimana, 12 organismi di vigilanza sulla protezione dei dati di tutto il mondo si sono riuniti per rilasciare una dichiarazione congiunta che affronta lo scraping dei dati e i suoi effetti sulla privacy.

La dichiarazione, firmata dai funzionari della privacy di Australia, Canada, Messico, Cina, Svizzera, Colombia, Argentina e Regno Unito, solo per citarne alcuni, prende di mira gli operatori dei siti web, in particolare le società di social media, e afferma che hanno obblighi in materia di protezione dei dati. e leggi sulla privacy per proteggere le informazioni sulle loro piattaforme dallo scraping illegale dei dati. Anche le informazioni personali accessibili al pubblico sono soggette a queste leggi nella maggior parte delle giurisdizioni, afferma la dichiarazione. In particolare, la dichiarazione sottolinea anche che gli incidenti di data scraping che raccolgono informazioni personali possono costituire violazioni dei dati segnalabili in molte giurisdizioni.

Oltre a pubblicare la dichiarazione, gli autori affermano di averla inviata direttamente ad Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook e Threads), Microsoft (LinkedIn), Sina Corp (Weibo) e X Corp. (X, in precedenza Twitter). Suggeriscono inoltre una serie di controlli che queste aziende dovrebbero avere in atto per salvaguardare gli utenti dai danni associati allo scraping dei dati, inclusa la designazione di un team per monitorare e rispondere alle attività di scraping.

I potenziali danni delineati includono attacchi informatici, frodi sull’identità, sorveglianza, raccolta politica o di intelligence non autorizzata, marketing e spam indesiderati. Ma anche se l’intelligenza artificiale non viene menzionata nemmeno una volta nella dichiarazione, sta diventando sempre più un importante punto critico in questa questione.

Rubare Internet, comprese le informazioni sui siti di social media, è esattamente il modo in cui i centri di intelligenza artificiale come OpenAI, Meta e Google hanno ottenuto gran parte dei dati per addestrare i loro modelli. E proprio nelle ultime settimane, il data scraping è emerso come uno dei principali fronti di battaglia nel nuovo panorama dell’intelligenza artificiale. Il New York Times, ad esempio, all'inizio di questo mese ha aggiornato i suoi termini di servizio per impedire l'eliminazione dei suoi contenuti dall'intelligenza artificiale, e ora l'editore sta esplorando la possibilità di citare in giudizio OpenAI sulla questione. Ciò fa seguito a una proposta di azione legale collettiva contro OpenAI e l'investitore Microsoft presentata a giugno, secondo cui l'azienda avrebbe segretamente rimosso le informazioni personali di centinaia di milioni di utenti da Internet senza preavviso, consenso o giusto compenso.

È estremamente improbabile che una lettera formulata in modo forte possa avere un impatto su qualsiasi cosa facciano questi giganti della tecnologia, ma le azioni legali e le normative contro lo scraping dei dati potrebbero benissimo farlo. Nell’UE, dove la privacy dei dati e ora la regolamentazione dell’IA si stanno muovendo abbastanza rapidamente, ad esempio, lo scraping dei dati viene sempre più monitorato da parte degli organismi governativi.

Fondamentalmente, l’intelligenza artificiale riguarda i dati. Ciò solleva quindi la domanda: se le aziende non sono in grado di raccogliere liberamente i dati, dove troveranno i dati necessari per addestrare i loro modelli?

Un'opzione sono i dati sintetici, che si riferiscono a informazioni generate artificialmente anziché create da eventi del mondo reale. Questo processo spesso, ma non sempre, implica l’utilizzo dell’intelligenza artificiale stessa per creare un ampio set di dati sintetici da un insieme più piccolo di dati del mondo reale, con i dati sintetici risultanti che rispecchiano le proprietà statistiche dei dati del mondo reale.

Finché i dati originali non vengono cancellati, questa potrebbe essere una soluzione praticabile. Gartner stima che entro il 2030 i dati sintetici supereranno quelli del mondo reale nei modelli di intelligenza artificiale. Ma i dati sintetici hanno i loro svantaggi. Ad esempio, può non rilevare valori anomali, introdurre imprecisioni e, idealmente, comportare passaggi di verifica aggiuntivi che rallentano il processo. E mentre alcune aziende sostengono che i dati sintetici eliminano i pregiudizi, molti esperti lo confutano e vedono in che modo alcune forme di dati sintetici possono effettivamente introdurre ulteriori pregiudizi nei set di dati.

Un'altra potenziale soluzione è l'attivazione dei dati proprietari. A differenza di come i dati del mondo reale sono stati storicamente raccolti, utilizzati senza autorizzazione e persino venduti agli utenti, questi sono dati del mondo reale che vengono accettati e forniti volontariamente.