Microsoft sube su apuesta con la IA: su nuevo modelo Vall-e imita voces con audios de 3 segundos

Zaie (Freepik)
Microsoft es una de las grandes compañías tecnológicas que más se está volcando con la inteligencia artificial. Tras alcanzar un acuerdo para incorporar Dall-e 2 en programas como Microsoft Designer o planear una faraónica inversión de cara a implementar ChatGPT en varios de sus servicios —según adelantó Bloomberg o la agencia de noticias Reuters—, ahora ha llegado el turno de la síntesis de texto a voz (TTS). Así, el pasado 10 de enero anunció el proyecto de Vall-e.
Este modelo de lenguaje de códec neuronal sintetiza voces personalizadas con una más que convincente calidad a partir de escuetas grabaciones de tan solo tres segundos. Para lograrlo, los creadores han escalado sus datos de entrenamiento a 60000 horas de habla inglesa —probablemente, ya estén trabajando en hacer lo propio con otros idiomas—. Pero, quizás, lo más sorprendente de VALL-E radica en que es capaz de preservar en su generación de voz la emoción del hablante y su entorno acústico.

Lo cierto es que los ejemplos que ha publicado Microsoft hablan por sí solos. En ellos vemos cómo se le solicita un prompt textual al modelo que nada tiene que ver con el audio de tres segundos proporcionado. Al reproducir el resultado, de mayor duración, parece más bien otra grabación del hablante original. Lo mismo sucede con la generación del ambiente acústico, calcándolo casi con la misma exactitud en contextos de conversación telefónica o con algún sonido de fondo. Además, a partir del mismo audio puede generar muestras distintas con diferentes semillas aleatorias.
Combinando Vall-e, ChatGPT y Whisper
Vall-e es otro paso más en los fulgurantes progresos que está trayendo también el subcampo del TTS. Pero no descubriremos todo su potencial hasta verla combinada con modelos de voz a texto y de procesamiento del lenguaje natural (PNL).
Por ejemplo, uno de los investigadores de IA de Nvidia, Jim Fan, ya imagina cómo la combinación de estos sistemas puede dar vida a un Alexa o Siri completamente vitaminado. La fórmula consistiría en transcribir la solicitud oral del usuario con Whisper, crear una respuesta y acción con ChatGPT y reproducir una contestación con Vall-e mediante cualquier voz que se desee. No obstante, todavía es un tanto pronto para ser testigos de modelos integrales con estas tecnologías de IA que funcionen con solvencia, siendo la latencia uno de los retos por afrontar.