Whisper, el nuevo ‘susurro’ de OpenAI para transcribir textos

maquina-de-escribir

Imagen generada con Stable Diffusion.

La transcripción de audios es una de las tareas que más urge automatizar. Una ardua labor capaz de eliminar de un plumazo todo el romanticismo que tiene realizar una buena entrevista. Y, aunque estamos en camino de conseguirlo, los programas existentes aún no son lo suficientemente satisfactorios, especialmente cuando hay ruido de por medio.

Pero OpenAI, la empresa que ya revolucionó el campo del procesamiento del lenguaje natural con GPT-3, ha establecido un punto de inflexión con Whisper, su nuevo sistema de reconocimiento automático de voz. Se trata, de largo, del modelo que mejor capta las palabras en los archivos de audio, ofreciendo sólidos resultados con los acentos, cuando se escuchan ruidos o con lenguaje técnico.

Como ya estamos acostumbrados en el Deep Learning, su sorprendente funcionamiento viene de la ingente cantidad de datos que ha entrenado al sistema. En este caso, su dataset (la base de datos que se le suministra) es de nada menos que 680.000 horas de datos supervisados ​​multilingües y multitarea recopilados.

Al igual que ocurre con GPT-3, su aprendizaje ha sido de tal magnitud que permite resultados en diversos idiomas. A su vez, puede ofrecer la traducción de estos idiomas al inglés, por lo que, además de multilingüe, es una inteligencia artificial multitarea.

Pero, sin lugar a duda, lo mejor del anuncio de Whisper es su lanzamiento como sistema de código abierto: su código se pone a completa disposición para el uso de la comunidad. Con esto, OpenAI espera que su uso «permita a los desarrolladores agregar interfaces de voz a un conjunto mucho más amplio de aplicaciones».

¿Cómo funciona Whisper?

OpenAI define el funcionamiento de Whisper como un «enfoque simple de extremo a extremo». Funciona como una red neuronal Transformer codificador-decodificador. Los Transformers, capaces de manejar conjuntos de datos secuenciales (yendo un paso más allá que las redes neuronales recurrentes, que los procesan uno a uno), y su amplio dataset son las claves para una transcripción tan certera.

En primer lugar, el sistema divide el audio de entrada en fragmentos de 30 segundos y lo convierte en un espectograma Log-Mel para trabajar con el sonido en forma de ondas. Luego, se pasa a un codificador que extrae características del audio a través de un proceso de varios bloques para, finalmente, entregárselas a un decodificador, el cual se entrena para predecir el subtítulo de texto correspondiente. Esta tarea se entremezcla con tokens especiales que, según la empresa, «dirigen al modelo para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés».

En definitiva, una herramienta con mucho potencial para el desarrollo de programas y aplicaciones que da un paso importante en la automatización de la transcripción de textos. Entrevistas, pódcasts o vídeos son algunos de los formatos llamados a brindar un gran uso a Whisper.

Si quieres experimentar con esta herramienta, puedes probar la demo que OpenAI ha puesto a nuestra disposición. Verás que su funcionamiento no puede ser más sencillo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *