Prediciendo con IA el plegamiento de proteínas, ¿llegará AlphaFold 3?

plegamiento-proteina

Foto: National Cancer Institute

Uno de los grandes retos de la comunidad científica ha sido siempre desentrañar el plegamiento de las proteínas. Estas macromoléculas, formadas por secuencias de aminoácidos, constituyen la base de los procesos biológicos de los seres vivos y conocer sus estructuras supone uno de los mayores rompecabezas del mundo.

El desafío no es baladí, pues se conocen más de 200 millones de proteínas. Sin embargo, solo se ha logrado averiguar la estructura de una ínfima parte de esta cantidad. Por este motivo, cada dos años se reúnen investigadores de todas partes del mundo para celebrar el Critical Assessment of Techniques for Protein Structure Prediction (CASP). Se trata de un experimento mundial a modo de competición donde a los grupos de científicos participantes se les proporciona secuencias de aminoácidos. A partir de estas, deben predecir las estructuras proteínicas.

La gran novedad en su edición de 2018 fue la entrada a la competición de la empresa de inteligencia artificial DeepMind. Lo hizo con su modelo AlphaFold, creado específicamente para afrontar este reto. Entrenado con las secuencias y estructuras de alrededor de 100.000 proteínas, este sistema arrasó en la competición, quedando en primer lugar con una diferencia significativa. Demostró, así, que la IA supone una poderosa alternativa a los costosos métodos tradicionales de predicción y que puede acelerar los avances en los campos de la biología o la biomedicina.

En la siguiente edición (2020), DeepMind volvió a la carga con un modelo mejorado de AlphaFold. AlphaFold 2 ganó de nuevo con un margen abrumador, sensiblemente mayor al que consiguió la primera versión respecto al segundo grupo competidor. Los organizadores de CASP lo reconocieron como una ansiada solución al problema de plegamiento de proteínas que llevaba 50 años atormentando a la ciencia. Tal y como señala la empresa, el sistema predijo estructuras con precisión atómica con un error medio (RMSD_95) de menos de 1 Angstrom. Esto es un nivel de precisión tres veces mayor que el siguiente mejor sistema y es comparable a los métodos experimentales.

AlphaFold-grafico-rendimiento
Niveles de precisión de AlphaFold en sus predicciones en CASP. | Foto: DeepMind

El dataset de AlphaFold 2 ascendía a datos de acceso público que consisten en 170.000 estructuras del banco de datos de proteínas junto con grandes bases de datos que contienen secuencias de proteínas de estructura desconocida. Además, se benefició del avance del Deep Learning en esos dos años para incorporar los Transformers y sus mecanismos de atención como arquitectura neuronal.

Explicándolo a grandes rasgos, el modelo opera sobre secuencias de proteínas relacionadas evolutivamente, así como sobre pares de residuos de aminoácidos. El sistema interpreta la información dada de entrada para, a continuación, representar la estructura tridimensional de la proteína en un distograma que refleja la distancia de cada aminoácido en la secuencia. Por último, al realizar este proceso sucesivas veces, AlphaFold va desarrollando la estructura 3D, que muestra en un alto grado de precisión en cuestión de días. Por tanto, predice una estructura tridimensional en base a un input de secuencias de aminoácidos en 1D.

grafico-diagrama
Diagrama de la arquitectura de la red neuronal. | Foto: DeepMind

En virtud de lo expuesto, existe una gran expectación por la actuación de DeepMind en el CASP de este 2022 y sobre una probable tercera versión de AlphaFold. Un modelo que puede lograr grandes avances en la biología y en otros campos. Por ejemplo, podríamos entender en profundidad graves enfermedades causadas por proteínas que se han plegado mal y desarrollar medicamentos más efectivos. También, un gran grado de predicción nos permitiría usar enzimas para descomponer residuos plásticos, extraer el carbono de la atmósfera u ofrecer una mejor respuesta ante futuras pandemias, según DeepMind.

Lo mejor es que la empresa ha puesto a disposición de la comunidad científica el código del modelo. Y, junto al Instituto Europeo de Bioinformática, ha hecho pública su base de datos con más de 200 millones de predicciones de estructuras de proteínas. Todo con el objetivo de que cualquier investigador pueda usar estas poderosas herramientas y, así, acelerar los avances en este campo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *