Todas las plantas y animales tienen comunidades microbianas estrechamente asociadas que hacen que los nutrientes, metales y vitaminas necesarios estén disponibles para su huésped, contribuyendo esencialmente a la vida en la Tierra. El campo inherentemente complejo que tiene como objetivo comprender las contribuciones de estas microbiotas a la biósfera se conoce como metagenómica. Uno de los principales objetivos en este campo de investigación es determinar la composición de los organismos presentes en una muestra ambiental. Para ello, se han desarrollado diversas herramientas, la mayoría de ellas basadas en los resultados de búsqueda de similitud obtenidos al comparar un conjunto de secuencias biológicas contra una base de datos. Aunque el campo ha avanzado significativamente desde su inicio, todavía hay otros asuntos por resolver como tratar con variantes genómicas y detectar secuencias repetidas que podrían pertenecer a diferentes especies en una mezcla de organismos desiguales y desconocidos. Los distintos enfoques al analizar una muestra de metagenoma dan lugar a preguntarse si el análisis de una muestra con lecturas (fragmentos cortos de ADN producto de procedimientos de secuenciación) proporciona una mayor comprensión del metagenoma que con contigs (lecturas superpuestas que se han ensamblado juntas). El ensamblaje produce fragmentos genómicos más grandes, pero conlleva el riesgo de producir contigs a partir de lecturas de diferentes organismos. Por otro lado, las lecturas son más cortas y por ello su significación estadística es más difícil de evaluar, pero son más numerosas. En este proyecto, evaluamos y comparamos la calidad de cada una de estas alternativas para establecer el enfoque de datos que proporciona los mejores resultados en términos de informar la abundancia relativa de especies dentro de una muestra...