Todo un jardín botánico de genomas

Un artículo publicado hoy en la revista Open-Access. GigaScience proporciona datos que triplican de manera efectiva la cantidad de especies de plantas con los datos del genoma disponibles. Esta enorme cantidad de trabajo se debe a los crecientes esfuerzos de la comunidad científica por secuenciar más genomas de plantas para ayudar a comprender su compleja evolución y proporcionar información práctica para mejorar el rendimiento agrícola. Hasta la fecha, se han secuenciado alrededor de 350 genomas de plantas terrestres. El deseo de más secuencias del genoma de la planta se ha destacado recientemente con el anuncio del proyecto 10KP, que apunta a secuenciar finalmente 10,000 genomas de plantas para resolver la evolución de todas las ramas principales del árbol de la vida de la planta. El trabajo aquí proporciona imágenes, datos de secuencia sin procesar, genomas de cloroplastos ensamblados y ensamblajes preliminares de genoma nuclear, todos disponibles de forma gratuita. Efectivamente este trabajo es una representación digital de todo un jardín botánico.

Investigadores de China National GeneBank, BGI y Forestry Bureau of Ruili, China, tomaron muestras y secuenciaron 761 muestras, que representan 689 especies de plantas vasculares de 137 familias y 49 órdenes. Las muestras de plantas son todas de y alrededor del Jardín Botánico de 500 hectáreas en Ruili, una parte subtropical de China que limita con Myanmar. Al estar en una parte biológicamente rica de China, el jardín está comprometido a proteger las plantas en peligro y las endémicas de China, incluida la conservación y el archivo de estos recursos de germoplasma para ayudar a su conservación a largo plazo. Este proyecto es el primer intento científico y sistemático del mundo para digitalizar todo un jardín botánico basado en información de muestras genómicas y de vales.

Sobre el potencial científico de este recurso, el CEO y autor de BGI en el documento Xun Xu destaca que: «La comprensión actual de la evolución de las plantas y su diversidad en un contexto filogenómico es limitada debido a la falta de información a escala genómica a través de especies filogenéticamente diversas. «Este proyecto innovador integra una nueva forma de pensar acerca de la digitalización de todas las especies de plantas para aumentar la investigación evolutiva y ecológica en los jardines botánicos».

En total, los investigadores produjeron 54 terabytes de datos de secuenciación, con una profundidad de secuencia promedio de 60X por especie. Además del desafío básico de llevar a cabo la secuenciación de ADN en este número de especies, otra tarea importante fue ampliar la identificación de las especies, digitalizar las imágenes de los especímenes y construir un nuevo herbario para su almacenamiento en un nuevo China National GeneBank (CNGB) Herbario en Shenzhen. Hasta el momento, de los 761 especímenes, la secuencia y los datos de cloroplastos han permitido la identificación de 257 plantas a nivel de especies y 504 a nivel familiar. El aprendizaje profundo también se ha aplicado con éxito a 181 especies para que puedan identificarse a nivel de especie.

El autor Ting Yang dice que esta fue «la mayor cantidad de datos que he procesado. Durante los análisis de datos, creo que los mayores desafíos fueron la verificación de secuencias y el examen de resultados». Esto obligó a los investigadores a verificar individualmente cada uno de los 761 datos de secuenciación de la muestra, y comparar las secuencias del gen del cloroplasto con las muestras de herbario para la identificación de las especies.

Otra dificultad relacionada con simplemente llegar al punto de poder realizar el trabajo de secuenciación fue recolectar todas las muestras. El autor Jinpu Wei afirma: «Colaboramos con expertos de la Oficina de Silvicultura de Ruili para recolectar los materiales vegetales distribuidos en el área de Ruili para el establecimiento de un jardín botánico digital. Después de 45 días de esfuerzos agotadores, recolectamos 1,093 materiales vegetales. Fue un desafío para nosotros transportar los materiales correctamente, finalmente logramos garantizar la alta calidad de estos materiales para futuras investigaciones «.

El autor correspondiente, Xin Liu, agrega que el proyecto «fue un proyecto de referencia para afinar y estandarizar el muestreo, las metodologías y las técnicas de acumulación y análisis de datos para proyectos de genoma a gran escala como el 10KP (10 mil Plant Genome Project). En este proyecto, hemos adquirido una experiencia considerable y útil para la posterior recolección de muestras, secuenciación y ensamblaje. Al mismo tiempo, los datos producidos a partir de este estudio se pueden utilizar de manera efectiva en proyectos de genoma posteriores «.

A pesar de haber construido solo una biblioteca de secuenciación para cada especie, los autores pudieron ensamblar genomas preliminares para 17 de ellos, lo que refleja la calidad y el potencial de reutilización del ADN. Investigadores de la Universidad China de Hong Kong ya han reunido de forma independiente los genomas de especies de particular interés para ellos. El potencial de la comunidad investigadora en general para estudiar sus especies de interés, mejorar otros genomas, desarrollar herramientas y métodos y brindar oportunidades de educación para las nuevas generaciones de científicos es enorme.

El autor principal, Huan Liu, agregó que «la caracterización genómica proporcionará una gran cantidad de datos básicos para el ensamblaje del genoma de la planta, que será un excelente comienzo para el proyecto 10KP. Al mismo tiempo, sienta una buena base para la investigación futura sobre la correlación Mecanismo desde ecología macroscópica y biodiversidad hasta nivel molecular microscópico «.

Para promover un intercambio de datos más extenso que solo hacer que los datos de secuencia estén disponibles, los investigadores también están poniendo a disposición las imágenes digitalizadas y brindando acceso al herbario. El Herbario (HCNGB) sirve como una base de datos de plantas vivas que registra la posición de las especies cultivadas en el Jardín Botánico de Ruili y controla el estado de cada especie.

Todos los datos digitales generados aquí (imágenes, datos de secuenciación sin procesar, genomas de cloroplastos ensamblados y ensamblajes preliminares de genomas nucleares) están disponibles a través del SRA NCBI, GigaScience Base de datos GigaDB y China National GeneBank CNSA. Además, para permitir la búsqueda de datos y la identificación de genomas y especies, los metadatos se indexan y vinculan a través de Datacite y GigaDB. Y todos los recursos se liberan sin restricción bajo una exención CC0. El Dr. Sunil Kumar Sahu, Dr. Sunil, destacó que este es el legado más importante del proyecto «Este conjunto de datos es de gran valor para los investigadores de plantas y, lo que es más importante, puede servir como referencia para futuros proyectos de secuenciación del genoma a escala planetaria, incluido el Proyecto del BioGenoma de la Tierra ( EBP) y 10 mil Proyecto de Genoma de Plantas (10KP) «.

Fuente de la historia:

Materiales proporcionados por GigaScience. Nota: El contenido puede ser editado por estilo y duración.