Llega la hora: GPT-4 está aquí

GPT-4-PORTADA

Era tal y como lo imaginábamos. E incluso mejor. GPT-4 ya es una realidad y marca uno de los hitos más importantes en la era moderna del Deep Learning. OpenAI ha presentado esta semana al ansiado sucesor de GPT-3.5, anunciando capacidades a la altura del ser humano en varios contextos profesionales y académicos.

La compañía norteamericana se ha pasado seis meses alineando al modelo mediante el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), para evitar así comportamientos indebidos. A ello hay que sumarle el entrenamiento previo, que sorprendió gratamente a la empresa al ejecutarse de forma estable y predecible.

¿El resultado? Un poderoso sistema multimodal superior a todo lo que hemos visto hasta la fecha. Porque GPT-4 no solo entiende texto, sino que es capaz de analizar en profundidad cualquier tipo de imagen. Esto, tal y como reconoce OpenAI, abre la puerta a un terreno desconocido del que todavía estamos rascando la superficie.

El nuevo miembro de la familia GPT ya ha sido sometido a numerosos exámenes por sus creadores. Y parece que es un estudiante bastante aplicado. Destacan especialmente sus resultados en la prueba previa a obtener la licencia de abogado, donde se ha colado entre el 10% de las mejores calificaciones de los alumnos. ChatGPT, por su parte, se ha quedado en el 10% de las peores notas.

Varios de los exámenes a los que ha sido sometido GPT-4, sacando destacables puntuaciones.

En esta línea, OpenAI no esconde el hecho de que ChatGPT languidece en calidad frente a GPT-4: “En una conversación informal, la distinción entre GPT-3.5 (modelo en el que se basa ChatGPT) y GPT-4 puede ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente en el que GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5”.

Pero este nuevo sistema es también un modelo más seguro. Gracias a la técnica del RLHF para clasificar resultados y la asistencia de más de 50 expertos, GPT-4  tiene un 82 % menos de probabilidades que GPT-3.5 de responder a solicitudes de contenido no permitido. De hecho, los comentarios enviados por los usuarios de ChatGPT se han usado en su alineamiento. Aun así, sigue faltando camino por recorrer en este punto. En este sentido, la compañía señala que continúan presentes los mismos riesgos que los de modelos anteriores: “Consejos dañinos, código con errores o información inexacta”.

Ahora bien, no solo ofrece resultados de mejor calidad, sino que admite trabajar con textos de una extensión sensiblemente mayor. Esto significa que cuenta con un contexto más largo que le permite manejar unos 8000 tokens. Pero esta cifra es solo la actual, pues según lo vayan puliendo el sistema llegará a trabajar con 31000. Que son, ni más ni menos, ¡50 páginas de documentos!

¿Cómo de potente es GPT-4?

Uno de los aspectos que más interés suscita con estos grandes modelos del lenguaje es el de conocer la cantidad de parámetros de aprendizaje automatizado con los que se han estrenado. GPT-3 cuenta con la friolera de 175000 millones y se esperaba que su sucesor multiplicara esta cantidad por varios dígitos. Y probablemente haya sido así, pero no podemos saberlo a ciencia cierta.

En esta ocasión, OpenAI ha decidido no desvelar el tamaño del modelo, arquitectura, método de entrenamiento, hardware ni otros elementos clave. La empresa lo justifica a causa del “panorama competitivo y las implicaciones de seguridad de grandes modelos como GPT-4”. Entre líneas, se interpreta que la compañía no quiere dejar ni una sola referencia a Google y otros competidores que puedan usar en su ventaja. Se sienta, así, un delicado precedente de oscurantismo técnico con estos sistemas, ya que se da pie a que comencemos a ver modelos cada vez mayores desconociendo sus características internas.

Pese a esto, lo positivo es que la comunidad ha podido probar GPT-4 desde el mismo martes 14 de marzo, día de lanzamiento. De este modo, se ha comprobado su potencia y habilidades perfeccionadas en la resolución de problemas. Este modelo lleva la capacidad de razonamiento de la IA a un nuevo nivel, dando respuestas correctas a cuestiones en las que fallaba ChatGPT. Del mismo modo, demuestra una combinación asombrosa de creatividad y precisión a la hora de generar canciones, poemas o guiones por alocado que sea el prompt.

Y no solo es más potente, sino también más fácil de usar para cualquier petición. Por concreta que sea. En la demostración técnica realizada por OpenAI el martes, se reveló cómo la API del modelo dispone de un apartado de ‘sistema’ en el que se puede personalizar el comportamiento de GPT-4. Es decir, podemos escribir aquí cómo debe responder a nuestras solicitudes. Ya sea como si fuera un experto en derecho o con el estilo de Miguel de Unamuno. Gracias a esto, no habrá que estar especificándoselo en los prompts.

Además, los usuarios también han comprobado que su capacidad para programar es aún mejor que la de su predecesor. Twitter se ha llenado de ejemplos de cómo GPT-4 genera un código funcional a la primera para ejecutar juegos de toda la vida como el Snake o el Pong. Elaborando un poco más los prompts, podremos lograr hasta que nos haga un prototipo (bastante básico) del Doom.

La visión de imágenes de GPT-4 lo cambia todo

Pero la verdadera revolución no llega por sus habilidades creativas y de programación. OpenAI introduce un elemento a este sistema que abre un nuevo escenario: la visión de imágenes. No, no es la primera vez que una IA es capaz de analizar contenido gráfico generando texto, pero esta multimodalidad nunca había estado presente en uno de los grandes modelos del lenguaje. Lógicamente, no es lo mismo que un sistema con escuetas capacidades para producir lenguaje natural pueda entender una foto (véase Blip-2) a que lo haga un GPT-4 o LaMDA.

Esta función se habilitará al público más adelante. Y promete. Mucho. ¿No sabes qué hacerte de comer? Solo tendrás que mandarle una foto de lo que tienes en la nevera a GPT-4 y él te propondrá recetas. ¿Necesitas rápidamente un informe? Envía al modelo capturas de pantalla de otro que hayas hecho y lo generará sobre esta base. Y es que a este sistema se le da de maravilla comprender el texto de las imágenes, como se vio en la demostración de OpenAI cuando analizó un screenshot tomado a Discord.

Es más, Join Greg Brockman, presidente y cofundador de la compañía, puso de manifiesto en la demo que solo estamos comenzando a vislumbrar todas las posibilidades de la visión de imágenes aplicada en estos sistemas. Una libreta con un par de apuntes es todo lo que le hizo falta para ejemplificarlo. En ella había escrito unas escuetas notas sobre la estructura que deseaba para una página web. Tomó una foto de la página con su smartphone y la subió a Discord, donde había habilitado un bot de GPT-4 creado previamente por el propio modelo. En cosa de un minuto, GPT-4 generó el código para la web, que se demostró completamente funcional. ¡Todo a partir de un bolígrafo!

gpt-4-pagina-web
De nota escrita a bolígrafo a página web funcional.

¿Dónde puedo usar GPT-4?

Desde el pasado martes, GPT-4 está disponible para los usuarios de ChatGPT Plus, la versión de pago de ChatGPT de 20 dólares mensuales. Asimismo, puedes inscribirte a la lista de espera para acceder a su API. Ahora bien, si quieres usarlo de manera completamente gratuita, existe un modo: Bing.

El mismo día del anuncio, Yusuf Mehdi, vicepresidente corporativo y director de marketing de Microsoft, confirmó que las funcionalidades de IA de Bing cuentan con GPT-4. Este sistema es absolutamente gratis, aunque por el momento se obtiene mediante otra waitlist. Eso sí, no tardan mucho en conceder acceso.

No obstante, te advertimos de que hemos constatado que, desde el anuncio de OpenAI, las posibilidades de Bing se han limitado un poco. Por ejemplo, ya no genera historias, interrumpiéndolas cuando las elabora para eliminarlas. Por tanto, parece que ambas empresas han acordado restringir los usos de Bing Chat en aras de que no se emplee mucho más allá de las búsquedas en la web.

Ya sea con fines de entretenimiento o para hacernos la vida laboral menos tediosa, GPT-4 ha irrumpido de lleno en nuestras vidas. Serán los usuarios los que vayan descubriendo todo su potencial y vislumbrando nuevas posibilidades con esta tecnología. Porque, hasta que llegue GPT-5 en un futuro o se liberen sistemas como LaMDA, este modelo será el pan nuestro de cada día.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *