Metodologia
A análise foi realizada com o pipeline nf-core/mag v4.0.0 (Krakau et al. 2022), orquestrado pelo gerenciador de fluxos de trabalho Nextflow e utilizando o perfil Singularity. O script utilizado para a análise pode ser encontrado aqui.
Controle de Qualidade
Contagens de reads
Cada amostra possui por volta de 60M a 100M de reads não-duplicadas.
Abaixo, valores obtidos com o software FastQC (Andrews 2010).
Filtragem de reads
Utilizando fastp (Chen et al. 2018), por volta de 99% das reads foram mantidas em todas as amostras - uma retenção alta e adequada pra fazer uma caracterização profunda do microbioma.
Classificação taxonômica
Utilizando o banco de dados standardpluspf (Bacteria, Archaea, Protozoa e Fungi) do Kraken2 (Wood, Lu, e Langmead 2019) para observar a classificação taxonômica das leituras, observamos que por volta de 50-60% das reads resultaram em nenhuma classificação, o que é esperado dado a profundidade do sequenciamento.
Montagem
Após montagem com o MEGAHIT (Li et al. 2015), observamos que a maioria dos contigs possuem um comprimento de até 1000 pares de base.
Valores de N50 e N75 mostram resultados bons.
Binning
Após uma abordagem híbrida de binning utilizando os softwares MaxBin (Wu, Simmons, e Singer 2016), CONCOCT (Alneberg et al. 2014) e MetaBAT2 (Kang et al. 2019), seguida de refinamento com o DASTool (Sieber et al. 2018), pudemos obter inicialmente 1,549 bins, que foram refinados para 137 metagenome-assembled genomes (MAGs).
Após o refinamento, notamos melhorias quanto ao comprimento dos contigs quando comparados às montagens brutas.
Predição de domínio
Realizamos um passo de predição de sequências eucarióticas, procarióticas e de archaea com o software Tiara (Karlicki, Antonowicz, e Karnkowska 2021), mostrando que quase todas as MAGs obtidas são procarióticas.
Considerando apenas bins pós-refinamento, a predominância de prokarya permanece.
Classificação taxonômica dos bins
Realizamos a classificação taxonômica dos bins para táxons de Bacteria e Archaea de acordo com a referência GTDB-Tk (Chaumeil et al. 2022).
Passos futuros
- Classificação das MAGs eucarióticas.
- Anotação funcional das montagens
- Busca de clusters gênicos biosintéticos
- Identificação de genes de resistência a antibióticos
- Identificação de peptídeos antimicrobianos
Referências
Alneberg, Johannes, Brynjar Smari Bjarnason, Ino de Bruijn, Melanie Schirmer, Joshua Quick, Umer Z. Ijaz, Leo Lahti, Nicholas J. Loman, Anders F. Andersson, e Christopher Quince. 2014.
«Binning metagenomic contigs by coverage and composition».
Nature Methods 11 (11): 1144–46.
https://doi.org/10.1038/nmeth.3103.
Andrews, Simon. 2010.
«FastQC: A Quality Control tool for High Throughput Sequence Data».
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Chaumeil, Pierre-Alain, Aaron J Mussig, Philip Hugenholtz, e Donovan H Parks. 2022.
«GTDB-Tk v2: memory friendly classification with the genome taxonomy database».
Bioinformatics 38 (23): 5315–16.
https://doi.org/10.1093/bioinformatics/btac672.
Chen, Shifu, Yanqing Zhou, Yaru Chen, e Jia Gu. 2018.
«fastp: an ultra-fast all-in-one FASTQ preprocessor».
Bioinformatics 34 (17): i884–90.
https://doi.org/10.1093/bioinformatics/bty560.
Kang, Donovan D., Jeff Froula, Rob Egan, e Zhong Wang. 2019.
«MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies».
PeerJ 7: e7359.
https://doi.org/10.7717/peerj.7359.
Karlicki, Michał, Stanisław Antonowicz, e Anna Karnkowska. 2021.
«Tiara: deep learning-based classification system for eukaryotic sequences».
Bioinformatics 38 (2): 344–50.
https://doi.org/10.1093/bioinformatics/btab672.
Krakau, Sabrina, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, e Sven Nahnsen. 2022.
«nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning».
NAR Genomics and Bioinformatics 4 (1): lqac007.
https://doi.org/10.1093/nargab/lqac007.
Li, Dinghua, Chi-Man Liu, Ruibang Luo, Kunihiko Sadakane, e Tak-Wah Lam. 2015.
«MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph».
Bioinformatics 31 (10): 1674–76.
https://doi.org/10.1093/bioinformatics/btv033.
Sieber, Christian M. K., Alexander J. Probst, Allison Sharrar, Brian C. Thomas, Matthias Hess, Susannah G. Tringe, e Jillian F. Banfield. 2018.
«Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy».
Nature Microbiology 3 (7): 836–43.
https://doi.org/10.1038/s41564-018-0171-1.
Wood, Derrick E., Jennifer Lu, e Ben Langmead. 2019.
«Improved metagenomic analysis with Kraken 2».
Genome Biology 20 (1): 257.
https://doi.org/10.1186/s13059-019-1891-0.
Wu, Yu-Wei, Blake A. Simmons, e Steven W. Singer. 2016.
«MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets».
Bioinformatics 32 (4): 605–7.
https://doi.org/10.1093/bioinformatics/btv638.