Foi realizado o controle de qualidade das sequências geradas pelo sequenciamento para a amostra utilizando o software Trimmomatic v.0.39 1. Esse procedimento visa remover regiões com baixa qualidade e sequências de adaptadores que possam afetar a qualidade da montagem do metagenoma. Após essa etapa, as reads da amostra foram utilizadas para montar o metagenoma utilizando o algoritmo MEGAHIT v.1.2.9 2, que é um algoritmo otimizado para montagem de metagenomas 2. As estatísticas referentes ao metagenoma, como o número total de reads e o tamanho do metagenoma montado, podem ser encontradas na tabela 1, abaixo. Para estes cálculos foram utilizados os arquivos de sequenciamento já tratados com o Trimmomatic.
ID Amostra | Amostra | Nº de contigs (>500pb) | Tamanho do metagenoma (>500pb) (Mb) | Nº de reads | Total de bases utilizadas (Mb) |
GO029422 | Mr-Kashi-Lote-001 -24-Fab-10-10-2024 | 74875 | 53,02 | 7042646 | 1261,7 |
A partir do metagenoma montado, foi utilizada a ferramenta MaxBin2.0 3 para realizar o binning, que consiste no agrupamento dos contigs do metagenoma em conjuntos que representam genomas de organismos distintos (bins). A classificação filogenética de cada bin foi feita através da ferramenta GTDB-Tk v2 4, que atribui classificações taxonômicas objetivas a genomas bacterianos com base no banco de dados Genome Database Taxonomy. Na sequência, foi feita a anotação funcional de cada bin obtido pela ferramenta Prokka v.1.14.65, que é capaz de anotar automaticamente genes e outras características, fornecendo informações sobre a composição genética da amostra. Todas as informações referentes aos bins estão disponíveis na pasta “bins”, em anexo.
Abundância de microrganismos
Para identificação e classificação taxonômica dos microrganismos presentes em cada amostra foi utilizado o software Kraken26 versão 2.1.3. Para a análise foi utilizado o banco de dados PlusPF que pode ser encontrado em https://benlangmead.github.io/aws-indexes/k2. Esse banco possui sequências para Archaea, Bactéria, Virus, Plasmídeos, Humano, UniVec_Core, Protozoários e Fungos. Os resultados para a amostra podem ser encontrados na tabela “Mr-Kashi-Lote-001-24-Fab-10-10-2024_taxonomy.xlsx”, e podem ser visualizados em html no arquivo krona “Mr-Kashi-Lote-001-24-Fab-10-10- 2024_krona.html”. De forma geral, foi possível atribuir classificação filogenética (até o nível de Domínio ou inferior) a 42,01% das reads, sendo 40,9% de bactérias, 0,72% de arqueias, 0,35% de eucariotos e 0,04% de vírus. Excluindo as reads não classificadas, as abundâncias relativas de reads de cada filo presente na amostra estão apresentadas na figura 1, abaixo. Todos os arquivos gerados, assim como as figuras das abundâncias relativas de todos os níveis taxonômicos (de Reino a Espécie) estão disponíveis na pasta “taxonomia”, em anexo.

Identificação de organismos específicos
Para a identificação dos organismos de interesse, foi utilizado o Kraken2 com um banco de dados contendo seus genomas (resultado disponível na pasta “kraken_organismos_especificos”). O número de pares de reads identificados para cada organismo, bem como a porcentagem em relação ao total de reads analisadas, pode ser observado na tabela 2, abaixo.
FAMÍLIA | GÊNERO | ESPÉCIE | Número de reads da família (% em relação ao total) | Número de reads do gênero (% em relação ao total) | Número de reads da espécie (% em relação ao total) |
Micrococcaceae | Arthrobacter | globiformis | 3488 (0,099%) | 3488 (0,099%) | 3488 (0,099%) |
Lactobacillaceae | Lactiplantibacillus | plantarum | 333 (0,009%) | 333 (0,009%) | 333 (0,009%) |
Cordycipitaceae | Beauveria | bassiana | 1615 (0,046%) | 347 (0,010%) | 347 (0,010%) |
Bionectriaceae | Clonostachys | rosea | 280 (0,008%) | 280 (0,008%) | 280 (0,008%) |
Ophiocordycipitaceae | Hirsutella | thompsonii | 1321 (0,038%) | 461 (0,013%) | 461 (0,013%) |
Cordycipitaceae | Cordyceps | fumosorosea | 1615 (0,046%) | 1205 (0,034%) | 698 (0,020%) |
Cordycipitaceae | Cordyceps | javanica | 1615 (0,046%) | 1205 (0,034%) | 454 (0,013%) |
Clavicipitaceae | Metarhizium | anisopliae | 438 (0,012%) | 288 (0,008%) | 67 (0,002%) |
Ophiocordycipitaceae | Purpureocillium | lilacinum | 1321 (0,038%) | 846 (0,024%) | 846 (0,024%) |
Hypocreaceae | Trichoderma | afroharzianum | 533 (0,015%) | 533 (0,015%) | 184 (0,005%) |
Hypocreaceae | Trichoderma | asperellum | 533 (0,015%) | 533 (0,015%) | 149 (0,004%) |
Hypocreaceae | Trichoderma | atroviride | 533 (0,015%) | 533 (0,015%) | 153 (0,004%) |
Hypocreaceae | Trichoderma | harzianum | 533 (0,015%) | 533 (0,015%) | 0 (0,000%) |

Referências
- Bolger, A. M., Lohse, M. & Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatic 30, 2114–2120 (2014).
- Li, D. et al. MEGAHIT v1.0: A fast and scalable metagenome assembler driven by advanced methodologies and community practices. Methods 102, 3–11 (2016).
- Wu, Y. et al. MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets. Bioinformatics 32, 605–607 (2016).
- Chaumeil, P. A. et al. GTDB-Tk v2: memory friendly classification with the genome taxonomy database. Bioinformatics 38, 5315–5316 (2022).
- Seemann, T. Prokka: rapid prokaryotic genome annotation. Bioinformatics 30, 2068–2069 (2014).
- Wood, D.E., Salzberg, S.L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biol 15, R46 (2014).