MaRe - Resultados preliminares

Autores

João V. F. Cavalcante

Rodrigo Dalmolin

Descrição das amostras

Metodologia

A análise foi realizada com o pipeline nf-core/mag v4.0.0 (Krakau et al. 2022), orquestrado pelo gerenciador de fluxos de trabalho Nextflow e utilizando o perfil Singularity. O script utilizado para a análise pode ser encontrado aqui.

Controle de Qualidade

Contagens de reads

Cada amostra possui por volta de 60M a 100M de reads não-duplicadas.

Abaixo, valores obtidos com o software FastQC (Andrews 2010).

Contagens do número absoluto de reads duplicadas e não duplicadas em cada amostra

Porcentagem de reads duplicadas e não duplicadas em cada amostra

Filtragem de reads

Utilizando fastp (Chen et al. 2018), por volta de 99% das reads foram mantidas em todas as amostras - uma retenção alta e adequada pra fazer uma caracterização profunda do microbioma.

Porcetagem de reads retidas em cada amostra

Classificação taxonômica

Utilizando o banco de dados standardpluspf (Bacteria, Archaea, Protozoa e Fungi) do Kraken2 (Wood, Lu, e Langmead 2019) para observar a classificação taxonômica das leituras, observamos que por volta de 50-60% das reads resultaram em nenhuma classificação, o que é esperado dado a profundidade do sequenciamento.

Resultado da classificação taxonômica com Kraken2, a nível de reino

Resultado da classificação taxonômica com Kraken2, a nível de filo

Resultado da classificação taxonômica com Kraken2, a nível de família

Montagem

Após montagem com o MEGAHIT (Li et al. 2015), observamos que a maioria dos contigs possuem um comprimento de até 1000 pares de base.

Porcentagem de contigs de cada comprimento nas montagens de cada amostra

Valores de N50 e N75 mostram resultados bons.

Distribuições de estatísticas relativas às montagens de cada amostra.

Binning

Após uma abordagem híbrida de binning utilizando os softwares MaxBin (Wu, Simmons, e Singer 2016), CONCOCT (Alneberg et al. 2014) e MetaBAT2 (Kang et al. 2019), seguida de refinamento com o DASTool (Sieber et al. 2018), pudemos obter inicialmente 1,549 bins, que foram refinados para 137 metagenome-assembled genomes (MAGs).

Após o refinamento, notamos melhorias quanto ao comprimento dos contigs quando comparados às montagens brutas.

Porcentagem de contigs de cada comprimento nas MAGs obtidas

Predição de domínio

Realizamos um passo de predição de sequências eucarióticas, procarióticas e de archaea com o software Tiara (Karlicki, Antonowicz, e Karnkowska 2021), mostrando que quase todas as MAGs obtidas são procarióticas.

Considerando apenas bins pós-refinamento, a predominância de prokarya permanece.

Classificação taxonômica dos bins

Realizamos a classificação taxonômica dos bins para táxons de Bacteria e Archaea de acordo com a referência GTDB-Tk (Chaumeil et al. 2022).

Distribuição dos principais filos identificados a partir de genomas montados de metagenomas (MAGs). O gráfico de barras exibe o número total de MAGs classificados em diferentes filos com base no Genome Taxonomy Database (GTDB). A análise revela que Pseudomonadota e Bacteroidota são os filos mais representados no conjunto de dados. Mais de 40 MAGs não puderam ser classificadas, 8 pertencendo a Eukarya de acordo com o Tiara.

Passos futuros

  • Classificação das MAGs eucarióticas.
  • Anotação funcional das montagens
    • Busca de clusters gênicos biosintéticos
    • Identificação de genes de resistência a antibióticos
    • Identificação de peptídeos antimicrobianos

Referências

Alneberg, Johannes, Brynjar Smari Bjarnason, Ino de Bruijn, Melanie Schirmer, Joshua Quick, Umer Z. Ijaz, Leo Lahti, Nicholas J. Loman, Anders F. Andersson, e Christopher Quince. 2014. «Binning metagenomic contigs by coverage and composition». Nature Methods 11 (11): 1144–46. https://doi.org/10.1038/nmeth.3103.
Andrews, Simon. 2010. «FastQC: A Quality Control tool for High Throughput Sequence Data». http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Chaumeil, Pierre-Alain, Aaron J Mussig, Philip Hugenholtz, e Donovan H Parks. 2022. «GTDB-Tk v2: memory friendly classification with the genome taxonomy database». Bioinformatics 38 (23): 5315–16. https://doi.org/10.1093/bioinformatics/btac672.
Chen, Shifu, Yanqing Zhou, Yaru Chen, e Jia Gu. 2018. «fastp: an ultra-fast all-in-one FASTQ preprocessor». Bioinformatics 34 (17): i884–90. https://doi.org/10.1093/bioinformatics/bty560.
Kang, Donovan D., Jeff Froula, Rob Egan, e Zhong Wang. 2019. «MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies». PeerJ 7: e7359. https://doi.org/10.7717/peerj.7359.
Karlicki, Michał, Stanisław Antonowicz, e Anna Karnkowska. 2021. «Tiara: deep learning-based classification system for eukaryotic sequences». Bioinformatics 38 (2): 344–50. https://doi.org/10.1093/bioinformatics/btab672.
Krakau, Sabrina, Daniel Straub, Hadrien Gourlé, Gisela Gabernet, e Sven Nahnsen. 2022. «nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning». NAR Genomics and Bioinformatics 4 (1): lqac007. https://doi.org/10.1093/nargab/lqac007.
Li, Dinghua, Chi-Man Liu, Ruibang Luo, Kunihiko Sadakane, e Tak-Wah Lam. 2015. «MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph». Bioinformatics 31 (10): 1674–76. https://doi.org/10.1093/bioinformatics/btv033.
Sieber, Christian M. K., Alexander J. Probst, Allison Sharrar, Brian C. Thomas, Matthias Hess, Susannah G. Tringe, e Jillian F. Banfield. 2018. «Recovery of genomes from metagenomes via a dereplication, aggregation and scoring strategy». Nature Microbiology 3 (7): 836–43. https://doi.org/10.1038/s41564-018-0171-1.
Wood, Derrick E., Jennifer Lu, e Ben Langmead. 2019. «Improved metagenomic analysis with Kraken 2». Genome Biology 20 (1): 257. https://doi.org/10.1186/s13059-019-1891-0.
Wu, Yu-Wei, Blake A. Simmons, e Steven W. Singer. 2016. «MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets». Bioinformatics 32 (4): 605–7. https://doi.org/10.1093/bioinformatics/btv638.