ÁGORA

Alfonso Valencia, director del Instituto Nacional de Bioinformática INB-ISCIII, ha sido el invitado de la primera conferencia del ciclo La biología en los medios celebrada este año 2021

La predicción de la estructura de las proteínas, resuelta por la inteligencia artificial

Texto: Jaime Fernández - 19 ene 2021 09:35 CET

Alfonso Valencia, director del Departamento de Ciencias de la Vida del Centro de Supercomputación de Barcelona y director del Instituto Nacional de Bioinformática INB-ISCIII, ha sido el invitado de la primera conferencia del ciclo La biología en los medios celebrada este año 2021. Cristina Sánchez, vicedecana de Investigación de la Facultad de Ciencias Biológicas, recordó que los trabajos de Valencia, en los años noventa, sentaron las bases de la predicción de la estructura de las proteínas, un campo en el que en 2020 la empresa DeepMind ha dado un “salto de gigante”.  El investigador ha querido participar en este webinar, realizado en la colaboración con la Fundación General de la UCM, para explicar cómo ha sido posible ese avance.

 

Alfonso Valencia se retrotrae a aquel 1994, cuando comenzó un área nueva de conocimiento en torno a cómo predecir la estructura de las proteínas gracias al artículo Correlated mutations and residue contacts in proteins. Añade Valencia que “en aquel entonces se conocían pocas proteínas y los métodos computacionales estaban muy limitados, pero a pesar de eso, y poco a poco, se fueron mejorando las ideas”.

 

Otro hito llegó en 2011, cuando, a partir de una idea similar a la ya planteada por Valencia, surgió una nueva formulación matemática para la predicción de las estructuras. Lo curioso es que aquella aproximación se había publicado seis años antes por un grupo de físicos en revistas de su especialidad, pero “no había salido de allí y nadie lo vio en el campo de la predicción de la estructura de proteínas, lo que es una buena lección de cuántas cosas se publican en un campo y no se descubren hasta años después”.

 

Por aquel entonces ya había unas decenas de miles de proteínas descritas y aquello permitió que se obtuvieran estructuras de calidad. Lo que mejoró todavía más en 2015, con el artículo From residue coevolution to protein conformational ensembles and funcional dynamics, que “fue un salto cualitativo en el campo, aunque no como los producidos ahora por DeepMind, que son mejores, más robustos, más fiables y de mejor calidad”.

 

CASP y DeepMind

Los hallazgos de la empresa DeepMind, se dieron a conocer en 2020 en CASP (Critical Assessment of protein Structure Prediction), una iniciativa que cuenta ya con 28 años de vida, que se celebra cada dos, y en la que se presentan proteínas para que los investigadores de todo el mundo hagan predicciones sobre su estructura. De acuerdo con Alfonso Valencia, “CASP es enorme y para cada una de las proteínas se realizan decenas de predicciones, no sólo de su estructura, sino también de sus contactos tridimensionales, de la edición de sitios activos… El hecho de que se conozca la proteína con anterioridad da la garantía de que no hay trampa, así que si alguien hace bien la predicción es fiable, porque ningún investigador participante ha visto las estructuras antes del resultado. El sistema está acreditado y validado con la experiencia de los años”.

 

En CASP2013, celebrado en 2018, DeepMind (que ya había sido comprado por Google), se presentó por primera vez con resultados muy positivos, a la altura de los que han conseguido el resto de los investigadores del mundo a día de hoy. A pesar de eso, los responsables de la empresa pensaron que aquello no era suficiente y cambiaron sus técnicas por modelos de aprendizaje profundo. De acuerdo con Valencia, “es impresionante cómo en dos años decidieron tirar a la basura todo lo que se había hecho antes y empezaron de cero con un nuevo método que utiliza redes neuronales, que focaliza la información en un grupo de neuronas y las distribuye al resto de la red. Esa red neuronal va mandando información en sucesivas etapas de entrenamiento, obteniendo un mapa de estructura con un alto grado de confianza. El conocimiento sobre la estructura está en la propia red, y por eso está considerado como una innovación sin precedentes en el campo de la inteligencia artificial”.

 

De hecho, “el programa no enseña a la red que la proteína es un polímero con una secuencia concreta de aminoácidos, sino que es la red la que aprende la estructura y el orden de cada uno de los aminoácidos en su estructura tridimensional. Ese concepto abstracto es algo que no se había hecho nunca, pero da lugar a estructuras increíbles y totalmente fiables”.

 

A este concepto completamente nuevo en la predicción de estructura, se le unen otros avances en el área de machine learning, porque implica una simplificación ya que “es la red neuronal la que hace toda la predicción en un único paso, con un enorme potencial de aplicación”. Valencia se plantea si los cristalógrafos van a seguir trabajando en ese campo de la estructura de las proteínas o todo se hará directamente con esta tecnología, ya que realmente sus predicciones están entre el 95-97 de acierto, dando un alto cualitativo hasta lo que se podría haber alcanzado, quizás, dentro de unos diez años.

 

La intuición

Antes de este avance científico, DeepMind ya se había hecho famosa por ganar en ajedrez y Go. Explica el conferenciante que mientras que el ajedrez es un juego de muchas soluciones donde se ven las estrategias a largo plazo, “los jugadores de Go no pueden pensar en términos de jugadas, sino de estrategias y del sentimiento que tenga cada uno por el tablero, y por eso era mucho más difícil ganar, ya que no es un juego de cálculo, de estratégicas numéricas, sino de intuición”.

 

Ganar en ese juego “fue un paso muy importante hacia una inteligencia artificial (IA) que va más allá de las reglas, del aprendizaje numérico y de instrucciones, y que juega en el campo de lo intuitivo”. Cuenta Valencia que hay un programa que se llama folding at home, en el que puedes intentar encontrar la estructura de la proteína, y hay jugadores muy buenos capaces de predecir la estructura de las proteínas a partir de su propia intuición, sin utilizar cálculos. Y fue precisamente esa intuición la que utilizó DeepMind para desarrollar el programa que ahora ha resuelto la predicción de la estructura de las proteínas.

 

Para conseguirlo ha trabajado con “un equipo de treinta trabajadores sin distracciones, durante dos años centrados completamente en ello, sin dar clases, sin proyectos ni estudiantes, ni congresos, y con una estructura flexible de contratación y de organización de grupos de trabajo”. A la vista de los resultados, la pregunta es, según Valencia, si la estructura que tienen los grupos académicos es la más adecuada para “problemas muy concretos”.

 

Ciencia pública

Explica Valencia que en DeepMind han creado un código propio que comercializarán ellos, así que no está abierto y que “con la información que tenemos ahora mismo no es posible reproducir los resultados de AlfaFold, y no lo será hasta que no pongan más detalles técnicos en papers”.

 

Para estar a la altura de la empresa “no hay otra que apostar por un programa nacional de IA, que ya se está elaborando y que permita retener talento capaz de desarrollar las herramientas”. Es consciente Valencia de que no se podrá competir con los sueldos de Google, pero habrá que conseguir que todo este conocimiento no quede solamente en manos de las compañías, sobre todo porque “en los próximos años el machine learning servirá para descifrar muchas áreas de la biología”.

 

Reconoce Valencia que ni él mismo, ni la mayoría de sus colegas, pensaban que iban a ver resuelto el problema de predecir la estructura de las proteínas. “Ahora se sabe que sí es posible resolverlo, y es muy distinto trabajar en un área en el que sí hay respuestas, así que es probable que gracias a ese conocimiento la investigación pública alcance a la privada en un par de años”. O al menos en eso confía el director del Instituto Nacional de Bioinformática.