Pistoletazo de salida a la generación de vídeos con IA

A nadie se le escapa que el lanzamiento en código abierto de Stable Diffusion, allá por finales de agosto, ha vuelto tendencia la generación de imágenes con inteligencia artificial. Han pasado menos de dos veces, pero la cantidad de avances que hemos tenido desde entonces resulta abrumador. Tanto que ya tenemos vídeos con IA a partir de texto muy convincentes.

Pero para hablar de este punto hay que recapitular un poco. El espaldarazo de Stable Diffusion a los modelos generativos, aparte de meter prisa a OpenAI para que sacara DALL-E 2 en beta pública, ha sido el punto de partida para que ahora podamos entrenar al modelo con nuestro rostro y tengamos retratos más que logrados. Fotos nuestras como un Jedi de Star Wars, en una ciudad cyberpunk, como pilotos de carreras… la imaginación es el límite. Hasta han llegado páginas como Drawn Anyone, que nos simplifican esta tarea al máximo.

Lejos de quedarse ahí, tanto en DALL-E 2 como en Stable Diffusion se han consolidado técnicas como el inpainting (modificar con coherencia un área señalada dentro de la imagen) o el outpainting (generar nuevos límites de la foto adecuándose al contexto). Y una de las que más posibilidades está ofreciendo en Stable Diffusion es la conversión de una imagen en otra (Img2Img): damos al modelo una con un prompt para que nos la transforme en otra nueva, mucho más asombrosa o realista.

Es a raíz de esta última técnica donde fuimos testigos del siguiente gran paso: el uso del Img2Img en programas de renderizado 3D como Blender. Básicamente, a través de un plugin Stable Diffusion va dando forma a las creaciones que se van realizando en el programa, con resultados espectaculares. Incluso, se ha descubierto que Stable Difussion también funciona fantásticamente bien para la elaboración de texturas.

Si esto no era suficiente, también presenciamos cómo DreamFusion, de Google Brain (equipo de investigación de IA de Google AI) logró transformar los input textuales en, directamente, activos 3D. Un sistema sorprendente que no ha necesitado datos de entrenamiento en 3D y cuyas generaciones se pueden ver desde cualquier ángulo. También es posible darles una iluminación arbitraria o componerlas en cualquier entorno 3D. Para ello, ha jugado un papel importante la red neuronal NeRF, que convierte imágenes bidimensionales en escenarios 3D.

Y llegaron los vídeos con IA a partir de texto

Como es palpable, el ritmo en este campo está siendo vertiginoso y ya hemos subido otro nuevo (e importantísimo) escalón. Un peldaño que, hasta hace unos meses, parecía cuestión de años alcanzar: la generación de vídeos con IA a partir de indicaciones textuales. Meta, la renombrada Facebook, abrió la veda el 29 de septiembre con su modelo Make-A-Video.

Valiéndose de sus investigaciones en tecnología generativa, Meta ha trasladado las infinitivas posibilidades de creación de imágenes en base a texto a la generación de pequeños videoclips. Hablamos de piezas que Make-A-Video produce sin que en su dataset hayan sido necesarios datos emparejados de vídeo y texto. Su entrenamiento se basa en imágenes con descripciones para, en palabras de Meta, “aprender cómo es el mundo” y vídeos sin etiquetar para conocer “cómo se mueve”.

Al igual que con las imágenes, solo tenemos que teclear lo que queremos, por muy surrealista que pueda parecer. Perros voladores, osos pintores o una pareja caminando bajo la lluvia son solo algunos ejemplos que nos ha desvelado Meta para conocer su potencial. Pese a algunas inconsistencias en detalles en movimiento que se irán puliendo, los resultados están muy logrados y heredan la riqueza y variedad estéticas de los modelos generativos de imágenes.

Y si los generadores de imágenes nos dieron a conocer características complementarias como el outpainting o el inpainting, Make-A-Video también tiene más que ofrecer aparte de lo mencionado. El modelo permite que le proporcionemos una imagen estática de entrada para darle vida de manera coherente. Por otro lado, si le suministramos un vídeo, se encargará de ofrecer variaciones de este en el output.

Sin apenas tiempo para reaccionar ante este nuevo avance, el mismo día Google Brain hizo público Phenaki. Se trata de un modelo que ofrece lo mismo que Make-A-Video, pero con una gran diferencia: sus videoclips pueden alcanzar minutos, en lugar de los segundos del sistema de Meta.

Pero Google reservaba lo mejor para el 7 de octubre. Usando como base su potente generador Imagen, el nuevo Imagen Video proporciona vídeos de mayor calidad a una resolución de 1280×768 píxeles. Alcanza, además, los 24 FPS para conseguir unos videoclips de fluidez aceptable.

Desafortunadamente, aún tendremos que esperar para ‘jugar’ con estos sistemas de vídeos con IA por nuestra cuenta. Aunque, viendo los patrones de este año, probablemente lo hagamos más pronto que tarde. Cuando ocurra, quizás ya estemos con la cabeza puesta en el siguiente gran avance.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *