I deep fake audio: tutti i rischi delle IA generative che imitano la voce

Che cos’è un audio deepfake
Come funziona l’audio sintetizzato
I rischi dell’audio deepfake
Si può riconoscere l’audio deepfake?

In un mondo in cui la tecnologia ha raggiunto livelli fino all’anno prima impensabili, tutto corre talmente veloce da diventare poco chiaro, sfumato, confuso e difficile da ricordare e seguire nel suo sviluppo. Un ambiente del genere è il terreno di coltura ideale per gli audio deepfake.

Che cos’è un audio deepfake

“Deepfake” è l’unione di “fake”, un falso, e “deep” che proviene invece dalla parola “deep learning”. I deepfake, in pratica, consistono in dei falsi realizzati grazie a software che utilizzano algoritmi di deep learning, cioè di intelligenza artificiale.
Tramite questi algoritmi è possibile imitare la voce di una persona al fine di fargli dire cose che non ha mai detto. Questa tipologia di attacco hacker è molto difficile se non impossibile da riconoscere in quanto c’è ben poco che ci può indirizzare verso la verità. Ne consegue che, se un audio deepfake è fatto bene, quindi, l’unica cosa che ci può mettere in allarme è una marcata differenza nel tono di voce della persona che (in teoria) sta parlando rispetto alla voce reale di quella persona. Questa differenza dipende dalla qualità dell’algoritmo di sintetizzazione audio utilizzato.

Come funziona l’audio sintetizzato

Tutti conosciamo i sinthetizer, quegli apparecchi elettronici che imitano il suono di uno strumento, o creano il suono di uno strumento inesistente, che ormai sono alla base della musica pop. Quella tecnologia è la madre della tecnologia sfruttata per i deepfake audio.

Resemble AI e Descript, ad esempio, sono due società che hanno realizzato dei sintetizzatori audio in grado di riprodurre la nostra voce dopo averla sentita. Basta registrare delle frasi standard, aspettare qualche minuto e poi gli algoritmi restituiscono un modello molto accurato della propria voce. Modello che può essere utilizzato per far dire alle persone qualsiasi cosa. Per arrivare a questo risultato il software ha dovuto elaborare tonnellate di dati, affinandosi un “round” dopo l’altro fino ad arrivare ad un risultato accettabile.

I rischi dell’audio deepfake

Ma quali sono i rischi legati a tutto questo? Sono tanti, probabilmente troppi, soprattutto a causa dei telefoni cellulari. Chiunque potrebbe registrare la voce dei singoli individui al telefono e usare i file per realizzare un modello tramite gli algoritmi di deepfake audio. Certamente la qualità del risultato non sarebbe quella ottimale, perché ottima non è la qualità dell’audio registrato, ma sarebbe più che sufficiente per fare una telefonata finta ad esempio a un parente della ‘vittima’ e chiedergli un bonifico per aiutarlo in un momento di difficoltà. E se le persone impersonificate detengono responsabilità politiche o in un’azienda il rischio è quello che la nostra voce sia utilizzata per convincere qualcuno a fare dichiarazioni pubbliche, rivelare segreti industriali, o a cambiare la politica aziendale.

Si può riconoscere l’audio deepfake?

La buona notizia è che a differenza degli esseri umani i computer sono in grado di riconoscere un fake. Ci riescono, paradossalmente, con altri algoritmi di intelligenza artificiale grazie ai quali ipotizzano quali caratteristiche dovrebbe avere una voce reale e le vanno a cercare nel file audio sospetto. Questo perché un audio sintetizzato al computer può anche contenere frequenze che una persona specifica non riesce ad emettere o caratteristiche che il parlato naturale di un uomo non può avere. Ogni secondo del parlato contiene tra 8.000 e 50.000 campioni di dati che possono essere analizzati per scoprirlo.

Ad esempio i suoni di due vocali hanno sempre una separazione minima tra loro e quasi si fondono, perché non è fisicamente possibile pronunciare le vocali velocemente in modo separato a causa della velocità con cui i muscoli della bocca e le corde vocali riescono a muoversi. Se il file analizzato contiene due vocali adiacenti pronunciate in modo ben scandito ad alta velocità, quindi, c’è qualcosa che non va. Se l’algoritmo trova tante cose che non vanno, allora è molto probabile che l’audio sia stato sintetizzato e non pronunciato da un essere umano.

Le tecnologie di deepfake audio, perciò, presentano una serie di rischi e disturbi. Ecco alcuni dei principali:

Frodi e manipolazioni
Diffamazione e danni alla reputazione
Manipolazione delle prove audio
Privacy e sicurezza
Abuso in ambito creativo
Implicazioni legali ed etiche

Queste truffe purtroppo accado più spesso di quanto si possa immaginare e in alcuni casi riportano danni considerevoli per sia privati che per le aziende. Ad esempio, nel 2020 si è registrato un caso di truffa legato ai deep fake audio piuttosto complesso che ha portato agli hacker un bottino assai ricco, 35 milioni di dollari, ai danni di una banca di Hong Kong. Durante una telefonata falsa al direttore della filiale era stata utilizzata la voce clonata di un cliente di alto profilo, in seguito a una serie di email falsificate, che aveva portato alla messa in atto di un bonifico da capogiro a favore di un conto corrente fittizio.

Gli esperti di settore sono concordi nell’affermare che l’unico modo per non essere travolti dallo sviluppo delle tecnologie di sintesi vocale non è limitarne gli sviluppi o gli usi, ma accettarne l’esistenza. Sebbene esistano sistemi digitali per il rilevamento dell’audio generato con l’intelligenza artificiale, si tratta sempre di soluzioni destinate a diventare rapidamente obsolete, perché sempre un passo indietro rispetto all’avanzamento dei modelli AI utilizzati dai cybercriminali.

L’unica soluzione sostenibile sul lungo termine sono invece gli investimenti sulla valutazione dei cyber-rischi e soprattutto sull’educazione alla cultura della cybersicurezza, sia a livello governativo sia nelle aziende.

Tra le soluzioni da adottare per tutelare gli individui e le aziende dai cyberattack di tipo audio deepfake troviamo la polizza Cyber Risk. Questa garanzia consente all’assicurato di tutelarsi dagli attacchi informatici e dalle conseguenti spese e perdite di dati e informazioni confidenziali. Inoltre, questa copertura fornisce l’intervento di un esperto per il recupero dei dati persi e per la decontaminazione da eventuali malware. Tutti questi sono servizi inclusi nella versione Smart, che prevede un massimale fino a €25mila.
Lokky offre anche la possibilità di stipulare una versione Top della polizza, che prevede un aumento del massimale fino a €250mila e l’inserimento di numerose garanzie aggiuntive, tra cui una Diaria giornaliera per interruzione dell’attività e la copertura delle spese per il ripristino dell’immagine aziendale.

Scopri l’Assicurazione Cyber Risk di Lokky