Post 14: 200 Millones de estructruas nuevas! 😱

1 minute read

Published:

 

¡Llego el día! Hace ~1 año, AlphaFold2 fue liberado y sus creadores prometieron hacer una base de datos con proteínas predichas contadas por millones. Actualmente, la humanidad ha conseguido tener poco menos de 200,000 estructuras por métodos experimentales. Hoy (28.07.2022) se liberaron ~214,000,000 de predicciones de estructuras proteicas. Lo cual hace que la grafica de aquí sea vea muuuuy diferente.

Previamente otros trabajos ya habían hecho predicciones de proteínas por millones usando AlphaFold2; por ejemplo, el equipo de Julia predijo unas 200,000, luego el equipo de Zeming 1,000,000 de estructuras predichas, y finalmente, el equipo de Chloe predijo 12,000,000. En cada caso, la gran mayoría de las predicciones son malas, pero al ser tan masivas, se cuentan por miles las proteínas con una muy buena confianza en sus predicciones, e incluso, nuevos plegamientos (contados por cientos) los cuales quedan pendientes a confirmarse por métodos experimentales.

Si consideramos que solo el 3% de las predicciones tendrán alta confianza (una aproximación basada en los datos de los tres ejemplos mencionados), significa que al menos ~6,000,000 de estructuras predichas brindarán información realmente útil al quehacer científico y posiblemente señalen nuevos plegamientos interesantes. Y digo eso a forma de estimación puesto que las 214M de proteínas pesan ~23TB de almacenamiento (según el repo) 😬. Habrá que esperar al análisis de datos.

¡Es muy emocionante!

Refs:

  1. (~200M de modelos proteicos predichos) AlphaFold reveals the structure of the protein universe

  2. (equipo de Julia) Sequence-structure-function relationships in the microbial protein universe

  3. (equipo de Zeming) Language models of protein sequences at the scale of evolution enable accurate structure prediction

  4. (equipo de Chloe) Learning inverse folding from millions of predicted structures