El año del ‘text-to-video’: el avance de los vídeos con IA ya es imparable

Foto: Mage.space
Runway sorprendió el pasado mes de febrero a la comunidad de inteligencia artificial anunciando Gen-1. Se trataba de un modelo video/image-to-video con una calidad superior a todo lo que habíamos visto hasta la fecha. Solo un mes después, la empresa ha presentado una llamativa evolución de este sistema que introduce el ansiado text-to-video: Gen-2. Y esta es solo una de las novedades en esta área que hemos conocido en los últimos días.
Si en Gen-1 el texto únicamente podía ser un complemento a modo de hilo conductor de la imagen o vídeo que se daban en el input, en su sucesor las palabras son todo lo que necesitamos. De este modo, obtendremos clips de vídeo artificiales con unas sencillas indicaciones textuales. Como es habitual en ChatGPT o en los generadores de imágenes, cuantos más detalles introduzcamos en el prompt más preciso puede ser el resultado.
Eso sí, Gen-2 mantiene el resto de modalidades del primer sistema para brindar todas las posibilidades. De hecho, con imágenes y vídeos como entrada la IA es capaz de seguir mejor los deseos del usuario. De este modo, se preserva el modo de Estilización. Con él, le suministraremos como input un vídeo y una imagen. Esta última servirá como recurso de conducción, mediante el cual el output, o resultado final, adoptará la composición del vídeo original con el estilo de la foto.
Otra función es la de Storyboard, cuyo cometido es transformar maquetas que aparecen en el vídeo de fuente en representaciones estilizadas y animadas. Asimismo, en el modo Máscara cobra especial relevancia el texto como complemento. A través de indicaciones con el teclado, detallaremos lo que queremos modificar del vídeo original.
También es de especial utilidad su modo de renderizado, suministrándole un render sin texturas con indicaciones textuales o una imagen conductora que marque el estilo del output. Por último, Runway reveló un modo de personalización destinado a “liberar todo el poder de Gen-2”, lo que permite resultados de aún mayor fidelidad.
Este innovador sistema aún no se ha lanzado al público, y la única vía para disfrutarlo antes de tiempo es inscribiéndonos en una lista de espera para usarlo a través de Discord.
Modelos ‘text-to-video’ abiertos al público
Aunque Gen-2 es el principal modelo que se conoce de text-to-video por la calidad de sus resultados, no es el único que se ha presentado recientemente. Y lo mejor es que estos de los que te vamos a hablar se encuentran completamente abiertos al público.
Por un lado, Gradio, parte de la comunidad de Hugging Face, ha lanzado en esta plataforma y en Modelscope Studio un modelo para pasar de texto a clips de vídeos de dos segundos de duración. En cosa de menos de una semana, se actualizó para mejorar significativamente los resultados.
Lo cierto es que era impensable hasta hace pocos meses contar con un sistema así de carácter open source. Aunque aún tiene bastante camino por recorrer y no es tan sólido como Gen-2, supone una excelente forma de experimentar con esta modalidad. Y lo puedes hacer de manera completamente gratuita con esta demostración. Asimismo, este modelo ha sido entrenado con 1700 millones de parámetros y admite entradas en inglés, siendo previsible que vaya incorporando otros idiomas con el tiempo.
Por otro lado, otro de los modelos text-to-video que han salido es el de Mage.space. Ahora bien, aunque está abierto al público, solo es posible acceder a él con el plan de pago de la marca. Lo encontrarás dándole al botón de ‘View Options’. Realmente lo que genera son GIF, si bien no deja de ser bastante interesante, pues presenta unos primeros resultados convincentes. Aquí puedes ver numerosos ejemplos.

Cada vez son más los usuarios que se han lanzado a experimentar con estas opciones y a crear cortos valiéndose únicamente de contenidos artificiales. No en vano, Runway organizó hace unos días el AI Film Festival, donde los participantes demostraron todo el potencial que se está desbloqueando en esta área. Viendo el espectacular ritmo de la generación de imágenes, ¿dónde estaremos dentro de 6 meses con los modelos text-to-video?