Guía de las imágenes generadas por IA: ¿qué modelo usar?

Imagen generada con Stable Diffusion
2022 es el año de las imágenes generadas por IA. La inteligencia artificial ha avanzado a niveles de detalles y calidad nunca vistos para la creación de contenido visual gracias a los modelos de difusión. Existen diversas opciones al alcance de los usuarios para desplegar toda nuestra creatividad a golpe de teclado. Hoy te explicamos las diferencias de cada una de las principales y cómo usarlas para que optes por la que más te convenga. ¡Allá vamos!
DALL-E 2

Si hablamos de imágenes generadas por IA, DALL-E 2 es, probablemente, la primera opción que se nos viene a la cabeza. Hasta la irrupción de Stable Diffusion (del que hablaremos luego), era el modelo generativo en boca de todos, con una legión de adeptos esperando a que la beta de esta herramienta se hiciera pública. ¡Y ya lo es!
Todos podemos disfrutar ya de DALL-E 2 y experimentar con el modelo. Es la herramienta que ofrece resultados más sólidos y ajustados al prompt que le damos. Un breve inciso: entendemos input como los datos de entrada que recibe el modelo, mientras que la caja de texto propiamente dicha con nuestras indicaciones (que pasará a ser el input) recibe el nombre de prompt. Podemos, así, pedirle mediante texto cosas completamente bizarras y, en la mayoría de los casos, nos contestará con un output de cuatro fotos que ha pillado bien nuestra idea. No solo es una gran opción por esta buena materialización de nuestros deseos, sino que las fotos generadas gozan de una resolución de 1024×1024 píxeles. Cuatro veces mayor que la de la su hermana mayor DALL-E.
Lo cierto es que usar el modelo de OpenAI es tremendamente sencillo. Solo debemos registrarnos en su página web y, automáticamente, tendremos a DALL-E 2 a nuestra completa disposición. Nos aparecerá un cuadro de texto, junto con ejemplos de lo que puede generar la herramienta, en el que escribiremos el input. En estos modelos, cuantos más detalles le demos (mejor separándolos con comas), más específico y ajustado a lo que queremos pueden ser los resultados. Cuando le demos a ‘generar’, DALLE-2 nos devolverá cuatro imágenes en cuestión de segundos.
Otro aspecto muy positivo es que el modelo irá guardando todas las imágenes generadas para que las rescatemos cuando nos apetezca. También tenemos la oportunidad de probar sus técnicas de inpainting (pedirle que modifique con coherencia un elemento concreto de una foto que le demos de entrada) y de outpainting (en una imagen dada, irá generando nuevos límites del encuadre coherentes con la foto real). No obstante, el punto negativo de DALLE-2 es su falta de personalización. Las generaciones siempre tendrán el formato de 1024×1024 píxeles y no podremos jugar con muchos parámetros. No tendremos la ocasión de conseguirlas más horizontales o verticales, por lo que para determinados propósitos puede suponernos un problema. Tampoco nos deja la opción de jugar con muchos parámetros.
También debemos considerar que DALL-E 2 funciona en una plataforma de OpenAI, por lo que para cada generación estamos usando la capacidad de computación de la empresa. Eso, obviamente, conlleva un coste. Afortunadamente, podremos disfrutar de las primeras 50 generaciones (cada una con cuatro imágenes) de manera gratuita. Luego, deberemos comprar créditos en paquetes de 115. 115 créditos valen 15 dólares. Cada crédito equivale a una generación, por lo que sigue siendo sensiblemente más económico que adquirir imágenes en bancos de fotos. Además, cada mes OpenAI nos regalará 15 créditos, así que podremos seguir aprovechando su plan gratuito de manera periódica.
Por último, otra limitación es su filtro de seguridad en los contenidos. No solo no mostrará resultados que puedan ser violentos, sino que tampoco lo hará si le pedimos generar a una persona famosa.
Midjourney

Con el objetivo de “explorar nuevos medios de pensamiento y expandir los poderes imaginativos de la especie humana”, el laboratorio de investigación independiente Midjourney pone a nuestra disposición su modelo generativo de mismo nombre. Es otra de las herramientas que nos ofrecen imágenes generadas por IA espectaculares. Su seña de identidad es un componente marcadamente más artístico que DALL-E 2 o Stable Diffusion.
Los resultados de Midjourney se alejan del fotorrealismo que pueden lograr sus competidores para que cada una de las imágenes que crea parezcan obras de arte. Fotos de una bella calidad visual que se convierten en una fantástica fuente de inspiración para ilustradores o diseñadores gráficos.
La forma de usar este modelo es un tanto diferente. Midjourney también está abierta al público, pero funciona mediante el popular programa Discord. Deberemos acceder a la invitación que nos ofrece el laboratorio (podemos usar nuestra cuenta personal de Discord) y ya estaría todo listo. Usando el comando ‘/imagine’ junto con el input que deseamos, ‘invocaremos’ al modelo generador para que nos ofrezca sus resultados en unos 60 segundos. Lo hará en tiempo real mientras observamos cómo también va generando los de los otros usuarios registrados. Por tanto, podemos encontrar inspiración en los inputs de la gente.
Al igual que DALL-E 2, Midjourney nos permite una serie de generaciones gratuitas (que nos reescalará a una resolución mayor), mientras que luego deberemos pasar por caja. En este caso, el número de imágenes gratis es bastante más limitado que en el modelo de OpenAI, por lo que conviene aprovechar bien el uso que le demos.
Como nota interesante, Midjourney ha lanzado una versión en la que ha integrado Stable Diffusion en su modelo generador. Esto está dejando unos resultados aún más impresionantes, pues a su estética faceta artística se le suman acabados más realistas y definidos.
Actualización: en su salto a la versión ‘v4’, Midjourney ha experimentado un salto cualitativo en definición y creatividad de la imagen y fidelidad al prompt. En las primeras impresiones que está ofreciendo, sus resultados parecen incluso mejores que los de DALL-E 2 o Stable Diffusion.
Stable Diffusion

A finales de agosto, Stability AI protagonizó uno de los momentos más esperados de los últimos años en el campo de la inteligencia artificial. Esta empresa, impulsada por la comunidad global de la IA, es conocida por lanzar herramientas de código abierto para que todos podamos usarlas. Y así lo hizo con Stable Diffusion, marcando un antes y un después, pues dejó en manos del público un poderoso modelo generador para hacer con él lo que quisieran.
Ya hemos visto cómo otras empresas han integrado Stable Diffusion en sus herramientas y la amplia comunidad de usuarios que se ha formado en torno a este modelo. Y es que se trata de la opción perfecta para imágenes generadas por IA cuando necesitamos resultados más personalizados o no deseamos gastar dinero. Al ser de código abierto, podemos usarlo gratis con nuestra propia GPU descargándolo en el ordenador. Eso sí, cada vez un mayor número de desarrolladores están lanzando versiones más optimizadas de Stable Diffusion para que funcionen bien con menos requisitos o más sencillas de instalar y usar. Te recomendamos que le eches un ojo periódicamente a su Subrredit para que estés al tanto de las últimas versiones de la comunidad.
Si no queremos usar nuestra propia GPU y preferimos una opción como la de DALL-E 2 o Midjourney, no habrá ningún problema. Disponemos de dos alternativas diferentes. La primera, y la más intuitiva, es mediante la plataforma de Dream Studio. Un primer vistazo rápido nos permitirá apreciar que tenemos muchas más opciones de personalización que con la plataforma de DALL-E 2. Podemos ajustar las dimensiones de la foto, la escala de orientación (cuanto mayor es el valor, más se ceñirá al input que le hemos dado, mientras que valores más bajos otorgarán mayor creatividad. Siempre se aconseja no irnos a los extremos), los pasos (a más pasos, más trabaja la IA en la imagen, si bien excedernos hará que pueda incluso estropearnos el resultado) o conocer la semilla generada.
Como ocurre con los modelos anteriores, estaríamos usando los recursos de terceros, por lo que después de unos créditos gratis la herramienta pasa a ser de pago. Pero, al tener mayor personalización, hay un pequeño truco para maximizar nuestro uso gratuito. Este consiste en bajar el número de pasos de 50 a 10 o 20, lo que nos consumirá menos créditos. Así, iremos generando imágenes hasta que demos con la que nos guste. Dream Studio nos mostrará la semilla aleatoria vinculada a esa imagen, la cual copiaremos y, activando la opción ‘semilla’ (o ‘seed’), la pegaremos en ese recuadro. Entonces, volvemos a subir los pasos a 50 y procedemos a volver a generar. La IA trabajará en esa imagen, ofreciéndonosla con mayor nivel de detalles. Este sencillo proceso nos permite la posibilidad de gastar muchos menos créditos mientras buscamos la foto perfecta.
Esta opción tiene un pequeño inconveniente, y es que también tiene un filtro de seguridad que nos suele privar de imágenes generadas por IA de celebridades (aunque no siempre actúa). Pero esto se arregla con la segunda alternativa, un cuaderno de Google Colab. Si nunca has usado uno, básicamente se trata de que Google nos cede mediante la nube una tarjeta gráfica. Debemos ir ejecutando las diferentes celdas, dándole al play en cada una. Al principio, en uno de los apartados nos pedirá aceptar unos términos que nos redigirán a otra página y en otro nos pedirá un token. Este lo crearemos haciéndonos una cuenta en Hugging Face y solo tendremos que copiarlo y pegarlo en la celda correspondiente.
Seguiremos ejecutando celdas hasta llegar a una que pone ‘prompt,’ donde escribiremos lo que deseemos que nos genere Stable Diffusion. En cuestión de 15 segundos, lo tendremos. Las siguientes celdas también son para generar imágenes tocando otros parámetros, como las dimensiones. Y, si deseamos saltarnos el mencionado filtro, solo deberemos crear una nueva celda justo antes de la primera celda en la que generamos contenidos y pegar en ella el código que revela el influencer especializado en inteligencia artificial Dot CSV. Con Google Colab generaremos todo el contenido que nos apetezca sin coste alguno. Otra cosa es que decidas hacerte con el plan premium para acceder a mejores tarjetas gráficas.
Sin duda, Stable Diffusion es el modelo que más nos abre el abanico de posibilidades, con imágenes generadas por IA más personalizables y sin filtros que nos limiten. Tampoco nos pone ninguna marca en las creaciones para señalar que son artificiales, por lo que aquí entra en juego la responsabilidad y buen hacer de cada uno.
Conviene señalar también dos puntos donde languidece en comparación con DALL-E 2. El primero es que sus imágenes, por defecto, son de 512×512 píxeles. Aunque podemos reajustar las dimensiones, los mejores resultados siempre vendrán con esa resolución. Por ejemplo, si la hacemos muy horizontal o vertical y le hemos pedido que nos genere un gato, la IA tenderá a hacer más gatos a lo largo o ancho de la imagen. En cualquier caso, aunque su resolución por defecto es la mitad que la de DALL-E 2, siempre podemos recurrir a escaladores de fotos que aplican la IA con resultados más que satisfactorios. Por ello, no deberías tener mayor problema.
El otro punto donde gana DALL-E 2 es en representar con mayor fidelidad el input de entrada. Con Stable Diffusion, deberemos añadir muchos detalles y ser lo más concisos posibles para que la IA capte de manera adecuada lo que deseamos que nos genere. A DALL-E 2 esto le cuesta bastante menos y, además, genera mejor elementos específicos como las manos.
Para acabar con Stable Diffusion, si solo nos apetece experimentar un poco con este modelo, Stability AI nos brinda una demo de carácter ilimitado.
Craiyon

Pero ¿y si solo queremos una opción en la que podamos disfrutar de imágenes generadas por IA de manera casual? Realmente podemos hacer esto con la demo de Stable Diffusion de la que hemos hablado en el párrafo anterior, pero, antes de que llegara, lo hacíamos con DALL-E Mini. Esta herramienta se hizo viral hace unos meses por lo bizarras que eran sus creaciones. Ahora ha sido renombrada como Craiyon y debemos decir que sus imágenes han mejorado sensiblemente, aunque no emplee un modelo de difusión.
Es la opción ideal para divertirnos un poco. A sabiendas, claro, de que sus resultados no alcanzan la calidad de los modelos anteriores, su resolución es bastante menor y el tiempo que tarda en generar es algo superior. No puede seguirle el pulso a Stable Diffusion, DALL-E 2 o Midjourney, pero tampoco lo necesita. La gente sigue recurriendo a esta herramienta cuando solo desea algo de entretenimiento y, normalmente, no se buscan imágenes perfectas con él. Muchas veces ni se guardan.
Dream

Dream traslada la belleza de las imágenes generadas por IA a los dispositivos móviles. Debido a este soporte, sus creaciones, con orientación muy artística, tienen un formato vertical, por lo que son ideales para fondos de pantalla para nuestro smartphone. Hemos visto cómo, según mejoraba la tecnología de generación de imágenes este 2022, también lo ha ido haciendo esta herramienta de Wombo. Pero tampoco puede hacer frente al trío de DALL-E, Stable Diffusion y Midjourney. De hecho, tiende a ir hacia lo abstracto para camuflar sus limitaciones en la generación de muchos detalles.
Para usarlo, solo deberás descargarte la app Dream by Wombo en tu dispositivo. Está disponible tanto en Google Play como en App Store y te ofrece añadir al prompt diferentes filtros artísticos. Si bien te permite generar imágenes gratuitas ilimitadas, incluye una serie de funcionalidades extra, tales como tiempos de carga menores, más filtros o hacerle un sencillo fine-tunning al modelo que sí son de pago.
¿Qué modelo debo usar?
Si has llegado hasta aquí, probablemente estés con la duda de por qué modelo generativo apostar. En este caso, la respuesta depende de ti. Si solo deseas la mayor resolución y obediencia de la IA respecto al input que le das, DALL-E 2 es tu opción. Si quieres imágenes generadas por IA más artísticas, nadie puede combatir a Midjourney. Si te apetecen contenidos también muy convincentes, sin pagar, sin ningún filtro que te evite generar al Elon Musk o Tom Holland de turno y con dimensiones personalizables (o si te gusta la idea de ejecutar el modelo en tu ordenador), Stable Diffusion es para ti. Si, por el contrario, no quieres quebraderos de cabeza ni invertir tiempo de más, quizás te baste con divertirte un rato con Craiyon o probar una versión móvil con Dream. En cualquier caso, te animamos a experimentar en este apasionante mundo de las imágenes artificiales.
Notas del autor: evidentemente, hay más modelos aparte de los cinco mencionados. Hemos optado por hablarte de los tres más potentes abiertos al público, de otro tan conocida como la antigua DALL-E Mini y de uno para dispositivos móviles como Dream al considerar que te aportarán todo lo que necesitas en esta área con tanto potencial. Hemos dejado al margen Imagen, de Google, ya que sigue sin ofrecer una beta para experimentar con ella.