Actualmente, la secuenciación masiva ha sido integrada en numerosos laboratorios clínicos a causa de ser la herramienta más potente para llevar a cabo la identificación de alteraciones moleculares sobre muestras de pacientes. Con ello, ha surgido la clara necesidad de diseñar softwares capaces de procesar la inmensa cantidad de datos producidos por los diferentes equipos de secuenciación.
El flujo de trabajo descrito en este proyecto se ha destinado a su ejecución en la supercomputadora Picasso [1] para el análisis de datos procedentes del La boratorio de Biología Molecular del Cáncer [2], por lo que su implementación se adapta a la metodología realizada en dicho centro, esto es, secuenciación dirigida con paneles de amplicones mediante tecnología Ion Torrent de lectura única.
El script implementado principalmente en Bash, abarca las usuales etapas de procesado de lecturas, alineamiento, llamada e identificación de variantes, así como la detección de alteraciones en el número de copias y reordenamientos genéticos. Tras su ejecución, el usuario obtiene diversas tablas en formato XLSX con información acerca de las variantes detectadas para cada una de las muestras. Con ello, se consigue automatizar el procesamiento de los datos brutos del secuenciador y se proporciona al usuario una fuente de datos útil para posteriores tareas de ámbito clínico como la asignación de fármacos diana.