Identificação de variantes de SARS-Cov-2
Escolha sua amostra
- Dentre as amostras abaixo, escolha a sua e copie para sua pasta
Amostras |
SRR13418674 |
SRR13418675 |
SRR13418676 |
SRR13418679 |
SRR13418680 |
SRR13418681 |
SRR13418682 |
cd ~/eusoujacu
mkdir SARS
cd SARS
cp /home/bioufmg2/anaconda3/bak/SARS/<AMOSTRA>*.fastq.gz .
Entre no ambiente conda
conda activate SARS
Controle de qualidade
- Trimmomatic vai retirar as regiões de baixa qualidade, remover os adaptadores e filtrar sequências curtas.
trimmomatic PE -threads 20 <AMOSTRA>_1.fastq.gz <AMOSTRA>_2.fastq.gz Paired_R1.fastq.gz Unpaired_R1.fastq.gz Paired_R2.fastq.gz Unpaired_R2.fastq.gz ILLUMINACLIP:/home/bioufmg2/anaconda3/bak/SARS/adapters.fasta:2:30:10:2:keepBothReads LEADING:5 TRAILING:5 SLIDINGWINDOW:4:20 MINLEN:50
Mapeamento ao genoma de referência
- Mapeia os reads filtrados em um genoma de referência de SARS-Cov-2 formatado para o STAR
STAR --runThreadN 2 --genomeDir /home/bioufmg2/anaconda3/bak/SARS/reference/ --readFilesIn Paired_R1.fastq.gz Paired_R2.fastq.gz --readFilesCommand zcat --outSAMtype BAM SortedByCoordinate --outFileNamePrefix SARS --limitBAMsortRAM 1014992814
Identificação de variações genéticas
- Compara as sequências do mapeamento com a referência e identifica pontos de mutação
bcftools mpileup -f /home/bioufmg2/anaconda3/bak/SARS/RefSeq.fasta SARSAligned.sortedByCoord.out.bam | bcftools call -mv -Ob -o SNVs.bcf
bcftools view SNVs.bcf -i '%QUAL>150' > SNVs.txt
Montagem do genoma viral
- Faz a montagem do genoma viral orientado pela referência já depositada
spades.py --only-assembler --trusted-contigs /home/bioufmg2/anaconda3/bak/SARS/RefSeq.fasta -1 Paired_R1.fastq.gz -2 Paired_R2.fastq.gz -t 2 -o assembly
Filtragem de fragmentos
- Remove contigs pequenos que não representam o genoma do virus
cat assembly/scaffolds.fasta | perl /home/bioufmg2/anaconda3/bak/SARS/filter_small.pl 20000 > pangolin_input.fasta
Faz identicação de variante de SARS-Cov-2
conda activate pangolin
pangolin pangolin_input.fasta