Le voci dell'intelligenza artificiale sono difficili da individuare anche se sai che l'audio potrebbe essere un deepfake

L’audio deepfake può ingannare le persone anche quando sanno che potrebbero sentire una voce generata dall’intelligenza artificiale: i rilevatori basati sull’intelligenza artificiale potrebbero dover farsi avanti per aiutare le persone a distinguere i deepfake dall’autentico linguaggio umano

Di Jeremy Hsu

2 agosto 2023

Potresti dire se stavi ascoltando una voce generata dall'intelligenza artificiale?

Shutterstock/fizkes

Anche quando le persone sanno che potrebbero ascoltare un discorso generato dall’intelligenza artificiale, è ancora difficile sia per chi parla inglese che per chi parla mandarino rilevare in modo affidabile una voce deepfake. Ciò significa che miliardi di persone che comprendono le lingue più parlate al mondo sono potenzialmente a rischio se esposte a truffe deepfake o disinformazione.

Kimberly Mai dell'University College di Londra e i suoi colleghi hanno sfidato più di 500 persone a identificare i deepfake vocali tra più clip audio. Alcune clip contenevano la voce autentica di una donna che leggeva frasi generiche in inglese o mandarino, mentre altre erano deepfake creati da IA generative addestrate su voci femminili.

Per saperne di più:

Il calcestruzzo che immagazzina energia potrebbe costituire le fondamenta per le case alimentate a energia solare

Annuncio

I partecipanti allo studio sono stati assegnati in modo casuale a due diverse possibili configurazioni sperimentali. Un gruppo ha ascoltato 20 campioni vocali nella propria lingua madre e ha dovuto decidere se le clip fossero vere o false.

Le persone hanno classificato correttamente i deepfake e le voci autentiche circa il 70% delle volte sia per i campioni vocali in inglese che per quelli in mandarino. Ciò suggerisce che il rilevamento umano di deepfake nella vita reale sarà probabilmente ancora peggiore perché la maggior parte delle persone non saprebbe necessariamente in anticipo che potrebbe sentire il parlato generato dall’intelligenza artificiale.

Ad un secondo gruppo sono state distribuite 20 coppie di clip audio scelte casualmente. Ogni coppia presentava la stessa frase pronunciata da un essere umano e dal deepfake, e ai partecipanti è stato chiesto di contrassegnare il falso. Ciò ha aumentato la precisione di rilevamento fino a oltre l’85%, anche se il team ha riconosciuto che questo scenario dava agli ascoltatori un vantaggio irrealistico.

Iscriviti alla nostra newsletter The Daily

Le ultime notizie scientifiche direttamente nella tua casella di posta, ogni giorno.

"Questa configurazione non è del tutto rappresentativa degli scenari di vita reale", afferma Mai. "Agli ascoltatori non verrebbe detto in anticipo se ciò che stanno ascoltando è reale, e fattori come il sesso e l'età di chi parla potrebbero influenzare le prestazioni di rilevamento."

Lo studio inoltre non ha sfidato gli ascoltatori a identificare se i deepfake suonassero o meno come se la persona target fosse imitata, afferma Hany Farid dell'Università della California, Berkeley. Identificare la voce autentica di parlanti specifici è importante negli scenari di vita reale: i truffatori hanno clonato le voci dei leader aziendali per indurre i dipendenti a trasferire denaro e le campagne di disinformazione hanno caricato deepfake di noti politici sui social network.

Per saperne di più:

La seta di ragno artificiale potrebbe aiutarci a raccogliere acqua potabile dall’aria

Tuttavia, Farid ha descritto tale ricerca come un aiuto per valutare quanto bene i deepfake generati dall’intelligenza artificiale si stanno “muovendo attraverso la valle misteriosa”, imitando il suono naturale delle voci umane senza trattenere sottili differenze linguistiche, che possono sembrare inquietanti per gli ascoltatori. Lo studio fornisce una base utile per i sistemi automatizzati di rilevamento dei deepfake, afferma.

Ulteriori tentativi di formare i partecipanti a migliorare il rilevamento dei deepfake generalmente sono falliti. Ciò suggerisce che è importante sviluppare rilevatori di deepfake basati sull’intelligenza artificiale, afferma Mai. Lei e i suoi colleghi stanno cercando di verificare se modelli linguistici di grandi dimensioni in grado di elaborare dati vocali possano svolgere il lavoro.

Riferimento alla rivista: