Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica
Graphical alignment of sequences through parallel programming: an approach from the post-genomic era
Contenido principal del artículo
Resumen
Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente.
Descargas
Detalles del artículo
Referencias (VER)
O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001.
N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001.
S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999.
W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018.
B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004.
T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981.
S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970.
A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999.
E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995.
J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007.
S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643.
D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002.
S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990.
S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018.
B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012.
G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995.
S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003.
S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011.
G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017.
S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011.
J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007.
M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000.
M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003.
H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006.
J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014.