'Cambiará todo': la IA de DeepMind da un salto gigantesco en la resolución de estructuras de proteínas
-
7 de enero de 2021

El programa de aprendizaje profundo de Google para determinar las formas 3D de las proteínas puede transformar la biología, dicen los científicos.
Una red de inteligencia artificial (IA) desarrollada por la rama de IA de Google, DeepMind, ha dado un salto gigantesco en la resolución de uno de los mayores desafíos de la biología: determinar la forma 3D de una proteína a partir de su secuencia de aminoácidos.
El programa de DeepMind, llamado AlphaFold, superó a otros 100 equipos en un desafío bienal de predicción de la estructura de proteínas llamado CASP, abreviatura de Critical Assessment of Structure Prediction. Los resultados se dieron a conocer el 30 de noviembre, al inicio de la jornada -realizada prácticamente este año- que hace balance del ejercicio.
"Esto es un gran problema", dice John Moult, biólogo computacional de la Universidad de Maryland en College Park, quien cofundó CASP en 1994 para mejorar los métodos computacionales para predecir con precisión las estructuras de proteínas. "En cierto sentido, el problema está resuelto".
Los algoritmos de plegamiento de proteínas de IA resuelven estructuras más rápido que nunca.
La capacidad de predecir con precisión las estructuras de las proteínas a partir de su secuencia de aminoácidos sería una gran ayuda para las ciencias de la vida y la medicina. Aceleraría enormemente los esfuerzos para comprender los componentes básicos de las células y permitiría un descubrimiento de fármacos más rápido y avanzado.
AlphaFold llegó a la cima de la tabla en el último CASP, en 2018, el primer año en el que DeepMind, con sede en Londres, participó. Pero, este año, la red de aprendizaje profundo del equipo estuvo muy por encima de otros equipos y, según los científicos, se desempeñó tan increíblemente bien que podría presagiar una revolución en biología.
“Es un cambio de juego”, dice Andrei Lupas, biólogo evolutivo del Instituto Max Planck de Biología del Desarrollo en Tübingen, Alemania, quien evaluó el desempeño de diferentes equipos en CASP. AlphaFold ya lo ha ayudado a encontrar la estructura de una proteína que ha molestado a su laboratorio durante una década, y espera que altere su funcionamiento y las preguntas que aborda. “Esto cambiará la medicina. Cambiará la investigación. Cambiará la bioingeniería. Lo cambiará todo ”, agrega Lupas.
En algunos casos, las predicciones de la estructura de AlphaFold eran indistinguibles de las determinadas mediante métodos experimentales "estándar de oro", como la cristalografía de rayos X y, en los últimos años, la microscopía crioelectrónica (crio-EM) . AlphaFold podría no obviar la necesidad de estos métodos laboriosos y costosos, dicen los científicos, pero la IA hará posible estudiar los seres vivos de nuevas formas.
El problema de la estructura
Las proteínas son los componentes básicos de la vida, responsables de la mayor parte de lo que sucede dentro de las células. El funcionamiento de una proteína y lo que hace está determinado por su forma tridimensional: "la estructura es función" es un axioma de la biología molecular. Las proteínas tienden a adoptar su forma sin ayuda, guiadas únicamente por las leyes de la física.
Durante décadas, los experimentos de laboratorio han sido la principal forma de obtener buenas estructuras proteicas. Las primeras estructuras completas de proteínas se determinaron, a partir de la década de 1950, utilizando una técnica en la que se disparan rayos X a proteínas cristalizadas y la luz difractada se traduce en coordenadas atómicas de una proteína. La cristalografía de rayos X ha producido la mayor parte de las estructuras proteicas. Pero, durante la última década, la crio-EM se ha convertido en la herramienta favorita de muchos laboratorios de biología estructural.
Los científicos se han preguntado durante mucho tiempo cómo las partes constituyentes de una proteína, una cadena de diferentes aminoácidos, trazan los muchos giros y pliegues de su forma eventual. Los primeros intentos de usar computadoras para predecir las estructuras de las proteínas en las décadas de 1980 y 1990 funcionaron mal, dicen los investigadores. Las elevadas afirmaciones de métodos en artículos publicados tendían a desintegrarse cuando otros científicos los aplicaban a otras proteínas.
Moult inició CASP para aportar más rigor a estos esfuerzos. El evento desafía a los equipos a predecir las estructuras de proteínas que se han resuelto mediante métodos experimentales, pero cuyas estructuras no se han hecho públicas. Moult le da crédito al experimento, no lo llama una competencia, por haber mejorado enormemente el campo, al pedir tiempo a las afirmaciones sobrevaloradas. "Realmente estás descubriendo lo que parece prometedor, lo que funciona y de lo que debes alejarte", dice.
El desempeño de DeepMind en 2018 en CASP13 sorprendió a muchos científicos en el campo, que ha sido durante mucho tiempo el bastión de pequeños grupos académicos. Pero su enfoque fue muy similar al de otros equipos que estaban aplicando IA, dice Jinbo Xu, biólogo computacional de la Universidad de Chicago, Illinois.
La primera iteración de AlphaFold aplicó el método de inteligencia artificial conocido como aprendizaje profundo a datos estructurales y genéticos para predecir la distancia entre pares de aminoácidos en una proteína. En un segundo paso que no invoca la IA, AlphaFold usa esta información para llegar a un modelo de 'consenso' de cómo debería verse la proteína, dice John Jumper de DeepMind, quien lidera el proyecto.
El equipo trató de aprovechar ese enfoque, pero finalmente chocó contra la pared. Así que cambió de rumbo, dice Jumper, y desarrolló una red de inteligencia artificial que incorporó información adicional sobre las restricciones físicas y geométricas que determinan cómo se pliega una proteína. También le asignaron una tarea más difícil: en lugar de predecir las relaciones entre los aminoácidos, la red predice la estructura final de una secuencia de proteína objetivo. “Es un sistema bastante más complejo”, dice Jumper.
Precisión asombrosa
CASP se lleva a cabo durante varios meses. Las proteínas objetivo o porciones de proteínas llamadas dominios, alrededor de 100 en total, se liberan de forma regular y los equipos tienen varias semanas para enviar sus predicciones de estructura. Luego, un equipo de científicos independientes evalúa las predicciones utilizando métricas que miden qué tan similar es una proteína predicha a la estructura determinada experimentalmente. Los evaluadores no saben quién está haciendo una predicción.
Los diseñadores de proteínas computacionales
Las predicciones de AlphaFold llegaron bajo el nombre de 'grupo 427', pero la asombrosa precisión de muchas de sus entradas las hizo destacar, dice Lupas. “Había adivinado que era AlphaFold. La mayoría de la gente lo había hecho ”, dice.
Algunas predicciones fueron mejores que otras, pero casi dos tercios fueron comparables en calidad a las estructuras experimentales. En algunos casos, dice Moult, no estaba claro si la discrepancia entre las predicciones de AlphaFold y el resultado experimental era un error de predicción o un artefacto del experimento.
Las predicciones de AlphaFold no coincidían con las estructuras experimentales determinadas por una técnica llamada espectroscopia de resonancia magnética nuclear, pero esto podría deberse a cómo los datos sin procesar se convierten en un modelo, dice Moult. La red también lucha por modelar estructuras individuales en complejos o grupos de proteínas, por lo que las interacciones con otras proteínas distorsionan sus formas.
En general, los equipos predijeron las estructuras con mayor precisión este año, en comparación con el último CASP, pero gran parte del progreso se puede atribuir a AlphaFold, dice Moult. En los objetivos de proteínas considerados moderadamente difíciles, las mejores actuaciones de otros equipos normalmente puntuaron 75 en una escala de precisión de predicción de 100 puntos, mientras que AlphaFold puntuó alrededor de 90 en los mismos objetivos, dice Moult.
Aproximadamente la mitad de los equipos mencionaron el 'aprendizaje profundo' en el resumen que resume su enfoque, dice Moult, lo que sugiere que la IA está teniendo un gran impacto en el campo. La mayoría de ellos eran de equipos académicos, pero Microsoft y la empresa de tecnología china Tencent también ingresaron al CASP14.
Mohammed AlQuraishi, biólogo computacional de la Universidad de Columbia en la ciudad de Nueva York y participante de CASP, está ansioso por profundizar en los detalles del desempeño de AlphaFold en el concurso y aprender más sobre cómo funciona el sistema cuando el equipo de DeepMind presente su enfoque el 1 de diciembre. . Es posible, pero poco probable, dice, que una cosecha de objetivos de proteínas más fácil de lo habitual contribuya al rendimiento. La fuerte corazonada de AlQuraishi es que AlphaFold será transformador.
“Creo que es justo decir que esto será muy disruptivo para el campo de predicción de la estructura de proteínas. Sospecho que muchos dejarán el campo, ya que se podría decir que el problema central se ha resuelto ”, dice. "Es un avance de primer orden, sin duda uno de los resultados científicos más importantes de mi vida".
Demis Hassabis, director ejecutivo de DeepMind, dice que la compañía está aprendiendo lo que los biólogos quieren de AlphaFold. Crédito: OLI SCARFF / AFP / Getty.
Estructuras más rápidas
Una predicción de AlphaFold ayudó a determinar la estructura de una proteína bacteriana que el laboratorio de Lupas ha intentado descifrar durante años. El equipo de Lupas había recopilado previamente datos de difracción de rayos X sin procesar, pero transformar estos patrones similares a Rorschach en una estructura requiere cierta información sobre la forma de la proteína. Los trucos para obtener esta información, así como otras herramientas de predicción, habían fallado. “El modelo del grupo 427 nos dio nuestra estructura en media hora, después de haber pasado una década probándolo todo”, dice Lupas.
Demis Hassabis, cofundador y director ejecutivo de DeepMind, dice que la compañía planea hacer que AlphaFold sea útil para que otros científicos puedan emplearlo. (Anteriormente publicó suficientes detalles sobre la primera versión de AlphaFold para que otros científicos replicaran el enfoque). AlphaFold puede tardar días en llegar a una estructura predicha, que incluye estimaciones sobre la confiabilidad de diferentes regiones de la proteína. “Estamos empezando a comprender lo que querrían los biólogos”, agrega Hassabis, quien ve el descubrimiento de fármacos y el diseño de proteínas como aplicaciones potenciales.
A principios de 2020, la compañía publicó predicciones de las estructuras de un puñado de proteínas del SARS-CoV-2 que aún no se habían determinado experimentalmente. Las predicciones de DeepMind para una proteína llamada Orf3a terminaron siendo muy similares a una que se determinó más tarde mediante crio-EM, dice Stephen Brohawn, neurobiólogo molecular de la Universidad de California, Berkeley, cuyo equipo dio a conocer la estructura en junio. “Lo que han podido hacer es muy impresionante”, añade.
Impacto en el mundo real
Es poco probable que AlphaFold cierre los laboratorios, como el de Brohawn, que utilizan métodos experimentales para resolver estructuras de proteínas. Pero podría significar que los datos experimentales de menor calidad y más fáciles de recopilar serían todo lo que se necesita para obtener una buena estructura. Algunas aplicaciones, como el análisis evolutivo de proteínas, están listas para prosperar porque el tsunami de datos genómicos disponibles ahora podría traducirse de manera confiable en estructuras. “Esto permitirá a una nueva generación de biólogos moleculares hacer preguntas más avanzadas”, dice Lupas. "Va a requerir más pensamiento y menos pipeteo".
“Este es un problema que estaba empezando a pensar que no se resolvería en mi vida”, dice Janet Thornton, bióloga estructural del Laboratorio Europeo de Biología Molecular-Instituto Europeo de Bioinformática en Hinxton, Reino Unido, y ex asesora del CASP. Ella espera que el enfoque pueda ayudar a iluminar la función de las miles de proteínas sin resolver en el genoma humano y dar sentido a las variaciones genéticas que causan enfermedades que difieren entre las personas.
El desempeño de AlphaFold también marca un punto de inflexión para DeepMind. La compañía es mejor conocida por usar IA para dominar juegos como Go, pero su objetivo a largo plazo es desarrollar programas capaces de lograr una inteligencia amplia similar a la humana. Abordar grandes desafíos científicos, como la predicción de la estructura de las proteínas, es una de las aplicaciones más importantes que puede realizar su IA, dice Hassabis. "Creo que es lo más importante que hemos hecho, en términos de impacto en el mundo real".
Créditos: Revista Nature , 30 Nov 2020.
Nature 588 , 203-204 (2020)
doi: https://doi.org/10.1038/d41586-020-03348-4