Il mondo dei chatbot di intelligenza artificiale è in continua evoluzione e, di tanto in tanto, arrivano delle piccole novità che non vengono pubblicizzate abbastanza, ma che posso essere molto utili. È il caso di Gemini, chatbot di Google, che ha recentemente introdotto due funzioni audio destinate a cambiare il modo in cui interagiamo con i contenuti digitali: la trasformazione di testo in audio riassuntivo (“Audio Overview”) e la trascrizione avanzata di file audio (“Audio to Text”). Vediamo nel dettaglio cosa sono e come possono semplificarci la vita.
Audio Overview
Quante volte hai desiderato poter “ascoltare” un lungo documento mentre sei in auto, fai sport o semplicemente vuoi riposare gli occhi? La funzione Audio Overview di Gemini fa esattamente questo. Non si tratta di una semplice lettura robotica del testo. Caricando un documento, delle note o persino un report di ricerca, Gemini è in grado di analizzare il contenuto e generare un vero e proprio riassunto audio in stile podcast. In pochi minuti, l’IA crea una conversazione fluida e coinvolgente che espone i punti chiave del documento, offrendo una sintesi chiara e facile da assimilare.
I vantaggi principali:
- Multitasking: puoi informarti e studiare mentre sei impegnato in altre attività.
- Accessibilità: è uno strumento potentissimo per persone con disabilità visive o per chiunque preferisca l’apprendimento uditivo.
- Praticità: una volta generato, l’audio può essere facilmente scaricato e condiviso, per un ascolto offline in qualsiasi momento.
Trascrizioni Intelligenti
La seconda novità è una manna dal cielo per studenti, giornalisti, ricercatori e chiunque lavori con registrazioni audio. La funzione di trascrizione “Audio to Text” di Gemini permette di trasformare appunti vocali, lezioni universitarie, interviste e riunioni in testo scritto con una precisione sorprendente.
Basta caricare un file audio (supporta i formati più comuni come MP3, WAV, FLAC e altri) e chiedere a Gemini di trascriverlo. L’IA non si limita a convertire le parole, ma è anche in grado di:
- Aggiungere la punteggiatura corretta, rendendo il testo immediatamente leggibile e utilizzabile.
- Identificare e distinguere i diversi interlocutori in una conversazione (funzione di diarizzazione).
- Tradurre la trascrizione in altre lingue.
- Riassumere i punti salienti del file audio.
Vi mostro queste funzioni nel video tutorial in basso.