Gen-1 marca el nuevo estándar para la generación de vídeos artificiales

Imagen generada con Lexica.art.
Tras la calidad alcanzada en 2022 en la generación de imágenes artificiales, lograr convincentes clips de vídeos con IA era cuestión de tiempo. No en vano, en iapunk ya hablamos de esta cuestión hace unos meses, pero ahora ha llegado a una nueva dimensión gracias a los resultados de Gen-1.
Si aún no lo conoces, debes saber que se trata de un novedoso modelo de inteligencia artificial para generar clips de vídeo únicos dándole como indicaciones texto, imágenes y otros vídeos. Este sistema es una creación de la empresa Runway, que se centra en poner al alcance del público herramientas de producción de contenidos mediante modelos de IA multimodal.
Así, Gen-1 proporciona vídeos con cualquier estilo que deseemos, alcanzando nuevos niveles de coherencia y calidad en la secuencia. Para indagar en su funcionamiento, es imprescindible tener en cuenta que en esta clase de modelos emergentes cobra una gran importancia la combinación de diferentes elementos que le damos como datos de entrada. “Gen-1 puede aplicar de manera consistente y realista la composición y el estilo de una imagen o mensaje de texto al vídeo de destino, lo que le permite generar nuevo contenido de vídeo a partir del existente”, detalla Runway. A este enfoque se le viene denominando ‘video to video’.
En este sentido, Gen-1 dispone de diferentes modos. Uno de ellos es el de Estilización. Con él, le suministraremos como input un vídeo y una imagen. Esta última servirá como recurso de conducción, mediante el cual el output, o resultado final, adoptará la composición del vídeo original con el estilo de la imagen.
Otra función es la de Storyboard, cuyo cometido es transformar maquetas que aparecen en el vídeo de fuente en representaciones estilizadas y animadas. Asimismo, en el modo Máscara cobra especial relevancia el texto. A través de indicaciones con el teclado, detallaremos lo que queremos modificar del vídeo original.
También es de especial utilidad su modo de renderizado, suministrándole un render sin texturas con indicaciones textuales o una imagen conductora que marque el estilo del output. Por último, Runway reveló un modo de personalización destinado a “liberar todo el poder de Gen-1”, lo que permite resultados de aún mayor fidelidad.
Además, la compañía ha realizado un estudio con usuarios que ha demostrado que estos prefieren los resultados de Gen-1 frente a los de métodos existentes de ‘image to image’ o de ‘vídeo to ‘vídeo’ (más preliminares). En esta línea, un 73,53% de los encuestados optó por los clips de este modelo antes que las imágenes generadas por la versión 1.5 de Stable Diffusion. Por otro lado, hasta un 88,24% se decantó por Gen-1 frente a Text2Live.
Seguramente, Gen-1 se posicionará como uno de los modelos de IA que más dará de qué hablar este 2023. No obstante, aún no se encuentra abierto al público. Por el momento, solo puedes solicitar acceso a una versión anticipada si eres un profesional creativo que desea experimentar con lo que Runway denomina “el futuro de la narración”.