Identificação de variantes de SARS-Cov-2
Escolha sua amostra
- Dentre as amostras abaixo, escolha a sua e copie para sua pasta
Amostras |
Amostras |
Amostras |
Amostras |
10_S10 |
11_S11 |
12_S12 |
13_S13 |
14_S14 |
15_S15 |
16_S16 |
17_S17 |
18_S18 |
19_S19 |
1_S1 |
20_S20 |
21_S21 |
22_S22 |
23_S23 |
24_S24 |
25_S25 |
26_S26 |
27_S27 |
28_S28 |
29_S29 |
2_S2 |
30_S30 |
31_S31 |
32_S32 |
33_S33 |
34_S34 |
35_S35 |
36_S36 |
37_S37 |
38_S38 |
39_S39 |
3_S3 |
40_S40 |
41_S41 |
42_S42 |
43_S43 |
44_S44 |
45_S45 |
46_S46 |
47_S47 |
48_S48 |
49_S49 |
4_S4 |
- Entre na sua pasta e crie um diretório SARS e entre nele
cd eusoujacu
mkdir SARS
cd SARS
- Copie a amostra para sua pasta exportando a variável AMOSTRA, assim sempre que usar $AMOSTRA, o computador vai entender o código da sua:
export AMOSTRA="AMOSTRA_ESCOLHIDA"
cp /home/bioufmg/micromamba/bak/SARS/input/$AMOSTRA*.fastq.gz .
Ative o ambiente do tipo conda mais novo (micromamba) chamado SARS
micromamba activate SARS
Controle de qualidade
- Trimmomatic vai retirar as regiões de baixa qualidade, remover os adaptadores e filtrar sequências curtas. Dando um ls repare como usando $AMOSTRA vc completa o nome do arquivo R1 e R2 com a variável exportada que tem o código da sua.
trimmomatic PE -threads 20 $AMOSTRA\_L001_R1_001.fastq.gz $AMOSTRA\_L001_R2_001.fastq.gz Paired_R1.fastq.gz Unpaired_R1.fastq.gz Paired_R2.fastq.gz Unpaired_R2.fastq.gz ILLUMINACLIP:/home/bioufmg/micromamba/bak/SARS/adapters.fasta:2:30:10:2:keepBothReads LEADING:5 TRAILING:5 SLIDINGWINDOW:4:20 MINLEN:50
Mapeamento ao genoma de referência
- Mapeia os reads em um genoma de referência de SARS-Cov-2 (RefSeq.fasta) com o BWA criando um alinhamento múltiplo no formato binário "bam" ("sam" daria pra ler, "bam" só computador lê). Vamos usar somente as saídas "Paired" do Trimmomatic, os reads R1 e R2 que produziram forward e reverse.
bwa mem /home/bioufmg/micromamba/bak/SARS/reference/RefSeq.fasta Paired_R1.fastq.gz Paired_R2.fastq.gz -o map.bam
Ordenar o mapeamento e Empilhar as sequências
- samtools que tb trabalha com "bam" vai anotar a ordem de posicionamento dos reads com sort e vai empilhá-los com mpileup para criar um alinhamento múltiplo pile.bam com as reads na posição referente ao vírus
samtools sort map.bam -o map.sorted.bam
samtools mpileup -d 50000 --reference /home/bioufmg/micromamba/bak/SARS/reference/RefSeq.fasta -a -Q 30 map.sorted.bam > pile.bam
Identificação de variações genéticas
- Compara as sequências do alinhamento múltiplo com o genoma referência e identifica pontos de mutação com ivar (ative este ambiente)
micromamba activate ivar
cat pile.bam | ivar variants -p variant -q 30 -t 0.05 -r /home/bioufmg/micromamba/bak/SARS/reference/RefSeq.fasta -g /home/bioufmg/micromamba/bak/SARS/reference/RefSeq.gff
cat pile.bam | ivar consensus -p variant -q 30 -t 0.05 -m 30 -n N
Sequencia do virus da amostra quando não se sabe o vírus - pular para Identificação de variantes
Montagem do genoma viral com spades
- Faz a montagem do genoma viral orientado pela referência RefSeq. Reative o ambiente SARS.
micromamba activate SARS
spades.py --only-assembler --trusted-contigs /home/bioufmg/micromamba/bak/SARS/reference/RefSeq.fasta -1 Paired_R1.fastq.gz -2 Paired_R2.fastq.gz -t 20 -o assembly
Filtragem de fragmentos de montagem
- Remove scaffolds pequenos que não representam o genoma do virus e cria o input para o pangolin
cat assembly/scaffolds.fasta | grep ">" | less
cat assembly/scaffolds.fasta | perl /home/bioufmg/micromamba/bak/SARS/filter_small.pl 20000 > pangolin_input.fasta
Identicação de variante de SARS-Cov-2
- Ative o ambiente pangolin
micromamba activate pangolin
pangolin variant.fa
cat lineage_report.csv | awk -F "," '{print $2"\t"$4"\t"$5}'