Meta afferma che il suo nuovo strumento di intelligenza artificiale per la generazione del parlato è troppo pericoloso per essere rilasciato

Meta ha svelato un nuovo strumento di intelligenza artificiale, soprannominato “Voicebox”, che sostiene rappresenti una svolta nella generazione vocale basata sull’intelligenza artificiale. Tuttavia, la società non lo rilascerà ancora al pubblico, perché farlo potrebbe essere disastroso.

Voicebox è attualmente in grado di produrre clip audio del parlato in sei lingue (tutte di origine europea) e – secondo un post sul blog di Meta – è il primo modello di intelligenza artificiale del suo genere in grado di completare compiti al di là di ciò per cui è stato “specificamente addestrato a svolgere”. Meta afferma che Voicebox supera di gran lunga le IA di generazione vocale concorrenti praticamente in ogni area.

Quindi di cosa è capace esattamente? Bene, per cominciare, può emettere repliche di sintesi vocale ragionevolmente accurate della voce di una persona utilizzando un file audio campione di appena due secondi, un’abilità apparentemente innocua che detiene un’enorme quantità di potenziale distruttivo nelle mani sbagliate.

Il dubbio potere dell’IA

Anche mettendo da parte il roba losca con cui hanno fatto i brividi su Internet ChatGPT e altri strumenti di intelligenza artificiale (Voicebox suona sicuramente come se potesse essere un vantaggio per chiunque realizzi un finto revenge porn), questo è il tipo di tecnologia che potrebbe letteralmente iniziare una guerra.

Dopotutto, la maggior parte dei personaggi pubblici più importanti, compresi i politici, hanno un sacco di registrazioni audio che circolano su Internet. Non sarebbe difficile raccogliere alcune clip del discorso di un leader politico in carica e utilizzare Voicebox per produrre una replica sorprendentemente realistica della sua voce, qualcosa che potrebbe quindi essere utilizzato per scopi nefandi.

Big Zuck (mi dispiace, ‘Meta CEO Mark Zuckerberg’) ha investito molto nello sviluppo dell’IA a Meta ormai da anni.

Tali strumenti esistono già, ovviamente, ma sono meno convincenti; potresti aver visto video divertenti sui social media con artisti del calibro di Joe Biden, Donald Trump e Barack Obama che presumibilmente giocano Fortnite insieme. È buono per una risata, ma l’audio è poco convincente. Imita i manierismi di ogni giocatore presidenziale abbastanza da renderli riconoscibili, ma non così bene che chiunque abbia un cervello lo farebbe davvero credere sono loro.

Meta crede chiaramente che il suo nuovo strumento sia abbastanza buono da ingannare almeno la maggior parte delle persone, dal momento che esplicitamente non rilascia Voicebox al pubblico, ma pubblica invece un documento di ricerca e descrivendo in dettaglio uno strumento di classificazione in grado di identificare il parlato generato da Voicebox dal vero parlato umano. Meta descrive il classificatore come “altamente efficace”, anche se in particolare no perfettamente efficace.

Macchine parlanti

Ovviamente, mentre Meta ci tiene a sottolineare che riconosce il “potenziale di uso improprio e danno non intenzionale” che circonda strumenti come Voicebox, è importante non perdere di vista i potenziali benefici che la generazione vocale AI potrebbe avere in futuro.

Voicebox – che si addice al suo nome – potrebbe fornire un discorso molto più naturalistico a persone che sono mute o altrimenti incapaci di comunicare, rimuovendo alcune delle barriere all’interazione causate dalla “voce robotica” di sintesi vocale esistente resa famosa dal fisico Stephen Hawking. Potrebbe anche eseguire la traduzione in tempo reale, portandoci un passo più vicino al tipo di dispositivi di “traduttore universale” che attualmente esistono solo nella fantascienza.

Instagram, di proprietà di Meta, potrebbe rivelarsi una casa di successo per Voicebox, migliorando e traducendo video per un pubblico più ampio.

Ci sono anche altre applicazioni; più piccolo, ma non per questo meno utile. Meta spiega nel suo post sul blog che Voicebox può essere utilizzato per modificare e migliorare il parlato registrato. Se hai registrato dell’audio ma hai pronunciato male una parola o sei stato interrotto da un rumore di sottofondo, Voicebox può isolare il segmento offensivo e “registrare nuovamente” un frammento di discorso usando la tua voce. Impressionante e solo leggermente terrificante.

In ogni caso, è bello vedere Meta adottare un approccio serio e ponderato qui. La frenetica impazienza di Microsoft di spingere Bing AI in tutto ha fatto atterrare in acqua calda più di una volta e OpenAI che ha scatenato ChatGPT nel mondo ha portato a ogni sorta di stranezza nell’ultimo anno. Siamo in una corsa all’oro dell’IA e questi strumenti si stanno facendo strada ogni parte della nostra vita.

Un po’ di cautela, pazienza e rispetto per la grandezza di questa tecnologia è uno spettacolo gradito, anche se dubito che Meta siederà su Voicebox per pure a lungo, dal momento che gli azionisti si chiederanno senza dubbio quanti soldi possono far loro guadagnare…