Montagem de genomas com Velvet (de novo) ou SAMTools (com referência)
1.
Abra um terminal em sua máquina Linux e crie uma pasta
mkdir
aula_montagem e entre nela cd aula_montagem. No Windows, crie uma pasta!
2.
Agora abra uma conexão com a pinguim ssh
bioufmg@143.107.223.182
6.
Primeiro vamos olhar a qualidade dos reads com o
programa fastQC, ele vai gerar
várias saídas. Para ver as saídas temos uma
novidade. Na biodados (http://biodados.icb.ufmg.br
you@pinguim)
há um link para public_html,
que mostra na web o conteúdo de todas as pastas em bioufmg.
Assim, toda figura
gerada lá pode ser vista com o firefox!
mkdir sem_trim (o programa exige
que o diretório
de output seja criado antes...) e depois:
fastqc -o sem_trim -t 1
reads_forward.fastq reads_reverse.fastq
e
aula_montagem/sem_trim/reads_reverse_fastqc/fastqc_report.html
para informações do reads reverse
/usr/local/bin/trimmomatic
PE
-phred33 reads_forward.fastq reads_reverse.fastq
trimmed_forward_paired.fastq
trimmed_forward_unpaired.fastq trimmed_reverse_paired.fastq
trimmed_reverse_unpaired.fastq LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15
MINLEN:36
Os
parâmetros para trimming são:
PE:
indica paired
end
LEADING:
Remove bases com baixa qualidade no início da
sequencia (qualidade abaixo de 3)
TRAILING:
Remove bases com baixa qualidade no final da
sequencia (qualidade abaixo de 3)
SLIDINGWINDOW:
Utiliza uma janela deslizando com 4 bases
e corta quando a qualidade média é menor que 15
MINLEN:
Remove sequencias menores que 36 bases
mkdir com_trim
fastqc -o com_trim
-t 1
trimmed_forward_paired.fastq trimmed_reverse_paired.fastq
Veja o report do programa no firefox, em public_html
abra sua
pasta e siga o caminho:
aula_montagem/sem_trim/trimmed_forward_paired_fastqc/fastqc_report.html
aula_montagem/sem_trim/trimmed_reverse_paired_fastqc/fastqc_report.html
Melhorou?
Crie os índices (o parâmetro numérico
refere-se ao tamanho do k-mer utilizado, sempre
números ímpares)
velveth montagem 31
-fastq
-shortPaired -separate trimmed_forward_paired.fastq
trimmed_reverse_paired.fastq
Execute a montagem
velvetg montagem/ -exp_cov auto
-scaffolding yes
13. Verifique o arquivo de montagem
cd montagem
more contigs.fa
Rode o
bowtie assim:
Crie um bowtie index usando o genoma de ancoragem (cts.fasta)
fornecido:
bowtie2-build
genoma.fasta genoma.build
Alinhe os reads no index do genoma de referência
(genoma.build), criando
um arquivo de alinhamentos reads_mapeados.sam no formato chamado SAM
(-S manda
criar o SAM)
bowtie2 -x
genoma.build -1
trimmed_forward_paired.fastq -2 trimmed_reverse_paired.fastq -S
reads_mapeados.sam
15. Para ver o resultado teremos que abrir um programa
Java na sua máquina Linux (ou na windows) chamado Tablet.
Você pode rodar ele
da web usando este link.
Ele vai
abrir um ambiente gráfico. Se não funcionar na sua
máquina pessoal, você pode
fazer o download do programa aqui.
wget
http://143.107.223.182/public_html/eusoujacu/aula_montagem/genoma.fasta
wget
http://143.107.223.182/public_html/eusoujacu/aula_montagem/reads_mapeados.sam
Clique em: "Open Assembly"
Na primeira janela selecione o arquivo:
“reads_mapeados.sam”
Na segunda janela selecione o genoma de referência:
“genoma.fasta”
Clique em open.
Converta
o arquivo SAM para a versão binária BAM
samtools view -S
reads_mapeados.sam -b -o reads_mapeados.bam
Ordene
os reads
samtools sort reads_mapeados.bam
reads_mapeados_ordenados
Crie
um índice para o BAM
samtools index
reads_mapeados_ordenados.bam
Crie
os contigs
que terão o consenso do mapeamento que vc viu com Bowtie
samtools mpileup -uf genoma.fasta
reads_mapeados_ordenados.bam |
bcftools view -cg - | vcfutils.pl vcf2fq >
montagem_por_referencia.fastq
Visualize
a montagem
more montagem_por_referencia.fastq
A
aula de montagem traz muitas sintaxes típicas dos programas,
todavia permanece
a mesma rotina de trabalho de controle de programas em servidores. Vc
executou
dois protocolos de montagem com reads de sequenciamento Illumina paired-end. E pode agora
anotar os
contigs com Artemis.