Identificação de variantes de SARS-Cov-2
Escolha sua amostra
- Dentre as amostras abaixo, escolha a sua e copie para sua pasta
Amostras |
Amostras |
Amostras |
Amostras |
10_S10 |
11_S11 |
12_S12 |
13_S13 |
14_S14 |
15_S15 |
16_S16 |
17_S17 |
18_S18 |
19_S19 |
1_S1 |
20_S20 |
21_S21 |
22_S22 |
23_S23 |
24_S24 |
25_S25 |
26_S26 |
27_S27 |
28_S28 |
29_S29 |
2_S2 |
30_S30 |
31_S31 |
32_S32 |
33_S33 |
34_S34 |
35_S35 |
36_S36 |
37_S37 |
38_S38 |
39_S39 |
3_S3 |
40_S40 |
41_S41 |
42_S42 |
43_S43 |
44_S44 |
45_S45 |
46_S46 |
47_S47 |
48_S48 |
49_S49 |
4_S4 |
cd ~/eusoujacu
mkdir SARS
cd SARS
export AMOSTRA="AMOSTRA_ESCOLHIDA"
cp /home/bioufmg2/anaconda3/bak/SARS/input/$AMOSTRA*.fastq.gz .
Entre no ambiente conda
conda activate SARS
Controle de qualidade
- Trimmomatic vai retirar as regiões de baixa qualidade, remover os adaptadores e filtrar sequências curtas.
trimmomatic PE -threads 20 $AMOSTRA\_L001_R1_001.fastq.gz $AMOSTRA\_L001_R2_001.fastq.gz Paired_R1.fastq.gz Unpaired_R1.fastq.gz Paired_R2.fastq.gz Unpaired_R2.fastq.gz ILLUMINACLIP:/home/bioufmg2/anaconda3/bak/SARS/adapters.fasta:2:30:10:2:keepBothReads LEADING:5 TRAILING:5 SLIDINGWINDOW:4:20 MINLEN:50
Mapeamento ao genoma de referência
- Mapeia os reads filtrados em um genoma de referência de SARS-Cov-2 formatado para o BWA
bwa mem /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta Paired_R1.fastq.gz Paired_R2.fastq.gz -o map.bam
Ordenar o mapeamento e Empilhar as sequências
samtools sort map.bam -o map.sorted.bam
samtools mpileup -d 50000 --reference /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -a -Q 30 map.sorted.bam > pile.bam
Identificação de variações genéticas
- Compara as sequências do mapeamento com a referência e identifica pontos de mutação
conda activate ivar
cat pile.bam | ivar variants -p variant -q 30 -t 0.05 -r /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -g /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.gff
cat pile.bam | ivar consensus -p variant -q 30 -t 0.05 -m 30 -n N
Bônus
Montagem do genoma viral
- Faz a montagem do genoma viral orientado pela referência já depositada
conda activate SARS
spades.py --only-assembler --trusted-contigs /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -1 Paired_R1.fastq.gz -2 Paired_R2.fastq.gz -t 20 -o assembly
Filtragem de fragmentos
- Remove contigs pequenos que não representam o genoma do virus
cat assembly/scaffolds.fasta | perl /home/bioufmg2/anaconda3/bak/SARS/filter_small.pl 20000 > pangolin_input.fasta
Faz identicação de variante de SARS-Cov-2
conda activate pangolin
pangolin <(cat variant.fa pangolin_input.fasta)
cat lineage_report.csv | awk -F "," '{print $2"\t"$4"\t"$5}'