2023 abre el telón de la música con IA

Imagen generada con Lexica.art
Si en 2022 el boom de las imágenes artificiales se convirtió en el elemento que reveló al público general el músculo del Deep Learning, 2023 ha arrancado con los espectaculares progresos de la música con IA.
Cada semana salen nuevos papers sobre prometedores modelos que reflejan que la generación musical y de SFX ya se está alineando con los resultados en materia gráfica o de chatbots. De hecho, hablamos de sistemas que funcionan del mismo modo que las herramientas de IA que se encuentran moldeando el futuro: a partir del procesamiento del lenguaje natural.
Con tan solo un prompt textual, el usuario puede disfrutar de un audio con las características solicitadas y de una calidad que supera significativamente la de los modelos de los últimos tiempos. Y es que la investigación de la generación de música con IA no es nueva, pero los resultados no se habían mostrado tan convincentes como hasta ahora.
Un buen ejemplo de ello es MusicLM, presentado por Google Research el pasado 26 de enero. Este modelo genera música de alta fidelidad a 24 kHz, con la capacidad de mantenerse constante durante varios minutos. Como es habitual en la compañía americana, no es posible probar esta herramienta, pero ha proporcionado un batallón de ejemplos para dar fe de la verosimilitud del output.
En este sentido, al modelo se le pueden realizar solicitudes tan variopintas como la música arcade para un videojuego ochentero o una melodía relajante de violín respaldada por un riff de guitarra distorsionado, ofreciendo respuestas completamente coherentes. Al igual que en el caso de las imágenes, cuanto más detallado sea el prompt mejor tiende a ser la respuesta, si bien todavía hay casos susceptibles de presentar extravagancias.
Pero, sin duda, lo más llamativo es que MusicLM no se limita únicamente a melodías: le podemos pedir canciones de R&B y hip hop con voces masculinas y femeninas rapeando y el modelo responderá con sorprendente fidelidad. Obviamente, en este punto el sistema se beneficia de los avances en materia de síntesis de texto a voz (TTS), que han dado mucho de qué hablar en este comienzo de año.
En esta línea, el modelo bebe del trabajo de Google con AudioLM. Este se centra en el campo del TTS y logra resultados muy sólidos mediante voces artificiales con consistencia sostenida en el tiempo. Lo hace en base a indicaciones acústicas muy breves. Se puede comprobar, de hecho, que se trata de un proyecto muy similar a VALL-E.
Además, es posible prolongar la música con IA de MusicLM hasta los cinco minutos de duración de manera satisfactoria. Esto tiene una gran relevancia, pues la creación sucesiva de tokens en los modelos de inteligencia artificial tiende a que poco a poco se vaya perdiendo el contexto cuando se piden generar bastantes. En consecuencia, se va reduciendo la adecuación a las indicaciones solicitadas. No obstante, con este sistema Google ha logrado que las diferentes tipologías de tokens que produce MusicLM se muestren consistentes.
Al margen de esto, el proyecto cuenta con características tan interesantes como la posibilidad de introducir secuencias de prompts de texto. Es decir, podemos escribirle una sencilla estructura en la que, por ejemplo, el inicio contenga una melodía tranquila pensada para despertarnos, luego un tono más cañero con una voz cantando… En estos casos, se aprecia una transición muy natural de un estilo a otro. Del mismo modo, MusicLM permite suministrar como input un audio que acompañe al texto, cuyas modificaciones generarán versiones inéditas de la pieza musical.
Herramientas como esta abren la puerta a usos impensables hasta hace poco. Google pone como ejemplo que MusicLM cree la banda sonora de cuadros célebres de grandes pintores. Únicamente será necesario proporcionar a este modelo una descripción de la obra que haya realizado un experto sobre la materia. O bien solicitarle a otro sistema de IA tal texto.

Otros modelos para generar música con IA
Como indicamos al comienzo, la nueva criatura del gigante tecnológico no es la única que ha salido a la luz estas semanas sobre música artificial. Otra realmente atractiva es SingSong, del estudio Magenta (enmarcado en Google Brain), que supone todo un lienzo en blanco para los músicos.
En este modelo, se introducen como input voces cantando para que el sistema genere acompañamientos instrumentales que encajan a la perfección. Al igual que MusicLM, este proyecto se apoya en AudioLM, el cual adaptaron para tareas de generación de ‘audio a audio’ condicional.

Pero, lejos de establecer SingSong únicamente como una herramienta profesional para artistas musicales, Magenta está explorando el potencial del sistema “de cara a acompañar y capacitar a cualquier persona para hacer música con su voz”. Por ello, también ha trabajado con conjuntos de datos de muestras de cantantes novatos grabadas en dispositivos electrónicos comunes. Los resultados, de nuevo, son muy buenos.
No obstante, también contamos con proyectos de música con IA que ponen a disposición de la comunidad el código, como Moûsai. Lo más interesante de este caso es que sus desarrolladores han optado por diseñar una herramienta mediante los modelos de difusión, que hasta ahora no han tenido mucho protagonismo en esta área. Así, mediante un enfoque de difusión latente en cascada (quizás te suene familiar por Stable Diffusion), es capaz de generar varios minutos de música estéreo de alta calidad a 48 kHz. Por supuesto, a partir de descripciones textuales.
Al igual que con MusicLM, puede crear también voces artificiales en la pista musical. No obstante, estas quizás no suenan todavía tan convincentes como en el modelo de Google. Escucha aquí los ejemplos de Moûsai.
Hasta que Google cambie su estrategia y comience a liberar su amplia gama de potentes modelos, la atención estará puesta en las herramientas que la comunidad vaya creando gracias a proyectos como Moûsai. Como ya ocurriera con Stable Diffusion en la generación de imágenes, conforme vayan surgiendo avances en clave de código abierto comenzarán a sucederse impresionantes modelos con los que los usuarios podrán experimentar.
Viendo la velocidad a la que están transcurriendo los progresos en esta área, 2023 se posiciona como el gran punto de inflexión de la música con IA. Probablemente estemos a solo unas semanas, o meses, de contar con la banda sonora privada que necesitaba nuestra vida.