Clonare la voce con l'intelligenza artificiale

Si può clonare la voce umana? A che punto siamo? Da queste domande è partita la mia esplorazione dei nuovi tool di intelligenza artificiale generativa che hanno lo scopo di realizzare questo obiettivo. In questi mesi stanno iniziando a spuntare e dopo averne messo sotto osservazione alcuni, ho scelto di presentarvi quello che mi sembra il più avanzato. L’ha creato l’azienda ElevenLabs che, per anni ha fatto ricerca sulle tecnologie della voce.

Oggi questi tool vengono già usati nei paesi anglosassoni per risparmiare tempo nello “speakeraggio” di contenuti per podcast, audio libri, notizie, video. Si, perché finora sono stati addestrati soprattutto con la lingua inglese e americana.

Il tool di ElevenLabs ha introdotto da poco anche la lingua italiana. Al momento, ha due funzioni disponibili: Speech Synthesis e VoiceLab.

Speech Synthesis permette di far leggere un testo da noi fornito ad una voce artificiale. Può essere una delle tante create dall’azienda o una che possiamo creare noi.
VoiceLab è la sezione che ci permette di manipolare le voci in due modi:
- Voice Design: per creare una voce sintetica attraverso una serie di scelte, il genere, l’età, l’accento e la forza dell’accento
- Instant Voice Cloning: per clonare la voce di una persona, partendo dal caricamento di un suo audio di almeno un minuto.

Per scopi di studio, ho provato a clonare la mia voce e quella del Presidente della Repubblica, Sergio Mattarella. I risultati li puoi ascoltare nel video 🙂

UPDATE: ho parlato di questo tema con Gianluca Nicoletti durante questa puntata di Melog (Radio24)