Choice of reference sequence and assembler for alignment of Listeria monocytogenes short-read sequence data greatly influences rates of error in SNP analyses
Choice of reference sequence and assembler for alignment of Listeria monocytogenes short-read sequence data greatly influences rates of error in SNP analyses
Simple item page
Full item details
- dc.contributor.author
- Pightling, Arthur W.
- Petronella, Nicholas
- Pagotto, Franco
- dc.date.accessioned
- 2024-05-03T16:44:55Z
- dc.date.available
- 2024-05-03T16:44:55Z
- dc.date.issued
- 2014-08-21
- dc.description.abstract - en
- The wide availability of whole-genome sequencing (WGS) and an abundance of open-source software have made detection of single-nucleotide polymorphisms (SNPs) in bacterial genomes an increasingly accessible and effective tool for comparative analyses. Thus, ensuring that real nucleotide differences between genomes (i.e., true SNPs) are detected at high rates and that the influences of errors (such as false positive SNPs, ambiguously called sites, and gaps) are mitigated is of utmost importance. The choices researchers make regarding the generation and analysis of WGS data can greatly influence the accuracy of short-read sequence alignments and, therefore, the efficacy of such experiments. We studied the effects of some of these choices, including: i) depth of sequencing coverage, ii) choice of reference-guided short-read sequence assembler, iii) choice of reference genome, and iv) whether to perform read-quality filtering and trimming, on our ability to detect true SNPs and on the frequencies of errors. We performed benchmarking experiments, during which we assembled simulated and real Listeria monocytogenes strain 08-5578 short-read sequence datasets of varying quality with four commonly used assemblers (BWA, MOSAIK, Novoalign, and SMALT), using reference genomes of varying genetic distances, and with or without read pre-processing (i.e., quality filtering and trimming). We found that assemblies of at least 50-fold coverage provided the most accurate results. In addition, MOSAIK yielded the fewest errors when reads were aligned to a nearly identical reference genome, while using SMALT to align reads against a reference sequence that is ∼0.82% distant from 08-5578 at the nucleotide level resulted in the detection of the greatest numbers of true SNPs and the fewest errors. Finally, we show that whether read pre-processing improves SNP detection depends upon the choice of reference sequence and assembler. In total, this study demonstrates that researchers should test a variety of conditions to achieve optimal results.
- dc.description.abstract-fosrctranslation - fr
- La grande disponibilité du séquençage du génome entier (WGS) et l’abondance de logiciels open source ont fait de la détection des polymorphismes mononucléotidiques (SNP) dans les génomes bactériens un outil de plus en plus accessible et efficace pour les analyses comparatives. Ainsi, il est de la plus haute importance de garantir que les différences réelles de nucléotides entre les génomes (c'est-à-dire les vrais SNP) soient détectées à des taux élevés et que les influences des erreurs (telles que les SNP faussement positifs, appelés de manière ambiguë, et les lacunes) soient atténuées. Les choix que font les chercheurs concernant la génération et l’analyse des données WGS peuvent grandement influencer la précision des alignements de séquences à lecture courte et, par conséquent, l’efficacité de telles expériences. Nous avons étudié les effets de certains de ces choix, notamment : i) la profondeur de la couverture du séquençage, ii) le choix de l'assembleur de séquences à lecture courte guidé par référence, iii) le choix du génome de référence, et iv) l'opportunité d'effectuer un filtrage de qualité en lecture et parage, sur notre capacité à détecter les vrais SNP et sur les fréquences d’erreurs. Nous avons effectué des expériences d'analyse comparative, au cours desquelles nous avons assemblé des ensembles de données de séquences à lecture courte simulées et réelles de la souche 08-5578 de Listeria monocytogenes de qualité variable avec quatre assembleurs couramment utilisés (BWA, MOSAIK, Novoalign et SMALT), en utilisant des génomes de référence de différentes distances génétiques, et avec ou sans prétraitement de lecture (c'est-à-dire filtrage et découpage de qualité). Nous avons constaté que les assemblages d’une couverture d’au moins 50 fois fournissaient les résultats les plus précis. De plus, MOSAIK a généré le moins d'erreurs lorsque les lectures étaient alignées sur un génome de référence presque identique, tandis que l'utilisation de SMALT pour aligner les lectures sur une séquence de référence distante d'environ 0,82 % de 08-5578 au niveau nucléotidique a permis la détection du plus grand nombre d'erreurs. nombre de vrais SNP et le moins d’erreurs. Enfin, nous montrons que la question de savoir si le prétraitement en lecture améliore la détection des SNP dépend du choix de la séquence de référence et de l'assembleur. Au total, cette étude démontre que les chercheurs doivent tester diverses conditions pour obtenir des résultats optimaux.
- dc.identifier.doi
- https://doi.org/10.1371/journal.pone.0104579
- dc.identifier.uri
- https://open-science.canada.ca/handle/123456789/2400
- dc.language.iso
- en
- dc.publisher
- Public Library of Science
- dc.subject - en
- Health
- Health and safety
- dc.subject - fr
- Santé
- Santé et sécurité
- dc.subject.en - en
- Health
- Health and safety
- dc.subject.fr - fr
- Santé
- Santé et sécurité
- dc.title - en
- Choice of reference sequence and assembler for alignment of Listeria monocytogenes short-read sequence data greatly influences rates of error in SNP analyses
- dc.type - en
- Article
- dc.type - fr
- Article
Download(s)
Original bundle
1 - 1 of 1
Name: Choice of reference sequence and assembler for alignment of Listeria monocytogenes short-read sequence data greatly influences rates of error in SNP analyses.pdf
Size: 1.03 MB
Format: PDF
Collection(s)