Post 31: ¿Cuántas secuencias tenemos hasta ahora? 🤔

less than 1 minute read

Published:

 

Pues nadie sabe con certeza.

Hay muchos repositorios genómicos, cada uno con proteínas de distintos ambientes y especies. Uno de los repositorios más famosos es el de la NCBI-nr, que es el que usualmente se usa cuando hacemos un BLAST; este repositorio tiene ~465 millones de secuencias.

¿Pero, es el más grande? Para nada. Hasta donde conozco, el repositorio más grande hasta ahora, se llama DeepClust y contiene ~19 mil millones de secuencias, las cuales se pueden agrupar en ~335 millones de secuencias representativas (clústeres).

¿Y en estructuras proteícas como nos va? La Protein DataBank cuenta con ~200,000 estructuras resueltas con diferentes métodos (rayos X, Cryo-EM, etc.), pero gracias a inteligencias artificiales que predicen la estructura de las proteínas a partir de la secuencia, como lo son AlphaFold2 o ESMFold, ahora el repositorio más grande con información relativa a las estructuras es ESM-Atlas, con cosa de 617 millones de predicciones estructurales, pesando cosa de 15TB de almacenamiento.

Así que ahora datos hay … y de sobra 🤯

img

Refs:

  1. Paginas de interes:
  2. El articulo de DeepClust