Transformer, el modelo de red neuronal que cambió el Deep Learning

Imagen generada con Stable Diffusion
“Atención es todo lo que necesitas”. Con esta categórica afirmación, Google presentaba al mundo en 2017 el concepto del Transformer: una nueva arquitectura de red neuronal artificial (trataremos estas redes en otro artículo) que lo cambiaba todo.
Antes de su llegada, la vanguardia de la inteligencia artificial la ocupaban las redes neuronales recurrentes. En el procesamiento del lenguaje natural, estas redes procesaban secuencias de texto palabra por palabra. Es decir, en la frase “el palo de la escoba es tremendamente resistente y práctico gracias a su material”, la red empezaría procesando como input el “el”. Luego, el resultado de ese procesamiento, u output, serviría como el input de la siguiente palabra, “palo”. Y así sucesivamente. El problema viene en la gran limitación de este proceso recurrente: la falta de memoria.
Cuando el proceso se repite sucesivamente, procesando palabra por palabra (cada una como el input de la siguiente), las primeras palabras comienzan a perder peso. Hasta el punto de quedar olvidadas. Así, en nuestro ejemplo, la red neuronal podría no asociar “su material” con “el palo”, pese a ser una relación con una importancia vital en la frase. Cuanto más larga es la secuencia, más se evidencia esta limitación.
Pero, como es habitual en el Deep Learning, para cada problema se acaba encontrando su propia solución con el tiempo. Y así llegaron los mecanismos de atención. Mediante una serie de técnicas matemáticas, estos mecanismos permiten a la red neuronal centrarse más en unos elementos de la secuencia de entrada y otorgarles un mayor peso que a otros. Este avance propició que la inteligencia artificial tuviera en cuenta la influencia y dependencia entre sí de los datos: aprendió su contexto.
Parecía que, así, las redes neuronales recurrentes tendrían un largo recorrido asegurado, pues se superó el problema de la memoria. De esta manera, podrían seguir siendo la herramienta más popular para tareas de modelado del lenguaje, traducción o respuestas a preguntas. Pero es en este punto donde llegó el anuncio de Google del modelo Transformer. Este evidenciaba que, con los mecanismos de atención, las redes neuronales recurrentes directamente no eran necesarias.
La división de la compañía dedicada a la IA anunciaba una nueva arquitectura de red simple basada solo en estos mecanismos. Los Transformers ahora podían procesar secuencias de palabras o datos enteros, en lugar de uno a uno como hacían los modelos recurrentes. Por supuesto, aprendían su contexto y la relación entre los elementos mediante la atención.
A priori, podríamos pensar que el problema con esta nueva red vendría con el orden de la secuencia. Si los modelos recurrentes conocían su orden gracias a procesar un dato detrás de otro, ¿cómo lo hacía el Transformer? Tal y como explicó Dot CSV en su canal, la solución pasaba por añadirle a las palabras (que para el procesamiento del lenguaje natural funcionan como vectores) información posicional a modo de codificación binaria. En esta codificación surge, hablando en lenguaje matemático, un patrón discreto cuyos cambios de estado en los vectores pasan a estar representados por ondas.
Si el orden de los elementos en una secuencia no supone un problema y, además, pueden ser procesados todos a la vez, tenemos como resultado un poderoso modelo que protagoniza un cambio de paradigma. Estos modelos tienen tanta capacidad que procesan una cantidad de datos sensiblemente mayor y más rápido, aprovechando, tal y como remarcó Google, el procesamiento en paralelo. Asimismo, el modelo Transformer facilitó la preparación de grandes datasets (conjuntos de datos), ya que encontraba los patrones entre elementos en el océano de datos de la web. Le dijimos, así, adiós a los tortuosos procesos de etiquetamiento de la información.
Los sistemas de Transformer son perfectos para aplicaciones de texto, imagen o vídeos secuenciales. Por tanto, no solo han sido fundamentales para avanzados modelos como GPT-3, sino que también han dado un espaldarazo a los modelos generativos de imágenes.
Fuentes:
La atención es todo lo que necesitas (Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin)
https://arxiv.org/abs/1706.03762
Transformer: una nueva arquitectura de red neuronal para la comprensión del lenguaje (Google)
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
¿Qué es un Modelo Transformer? (Nvidia)
https://la.blogs.nvidia.com/2022/04/19/que-es-un-modelo-transformer/
Las redes neuronales ahora prestan atención. Transformers, ¿cómo funcionan? (Dot CSV)
¿Por qué estas redes neuronales son tan potentes? Transformers, parte 2 (Dot CSV)