21/08 – Processamento
de leituras de seqüenciamento (Miguel)
Phred/Phrap, SeqClean, Cross-Match, Cap3
1. Copiando cromatogramas (alternativa: Secure FTP)
Abra o programa
Putty e logue na maracatu com o seu login
Crie um diretório para esta aula: $mkdir aula_phred
Dê um ls que é grátis! $ls
Entre no diretório aula_phred: $cd aula_phred (use o
dedinho do bioinformata para completar: a... >>> aula_phred)
Liste o diretório /home/bacharelado: $ls /home/bacharelado
Liste o conteúdo do diretório phred, visto acima: $ls
/home/bacharelado/phred
Liste o conteúdo do diretório vetor visto acima (uai
como faço isso?)
Perdido? Use o comando $pwd para verificar em que
diretório vc realmente está! Ah, continua em /home/você/phred!
Copie o conteúdo do diretório /home/bacharelado/phred
para cá: $cp /home/bacharelado/phred/* . [olha o ponto ai gente!]
Tah, deu pau na copia do diretório vetor, tem duas
soluções:
criar um diretório vetor, entrar nele, copiar o conteúdo
de vetor da conta bacharelado ali (façam isso hj)
no comando de cópia que deu o pau, não ler os error (r)
e forçar (f): $cp –rf /home/bacharelado/phred/* . [opag]
Pra quê o ponto? Significa “no diretório corrente” ou
seja, aqui!
No futuro, cuidado com esse –rf, não use sem a
presença de um adulto, ele faz coisas sem volta.
2. PHRED
O Phred utiliza arquivos do tipo "esd
processado" gerados pelo sequenciador
MegaBACE.
Crie em phred os seguintes diretórios: chromat_dir e
edit_dir. Normalmente recebe-se um arquivo zipado com os arquivos esd [$unzip
arquivo funciona]
Mova os esd para o chromat_dir: $mv *esd chromat_dir/
(usou o dedinho para o chr... >>> chromat_dir?)
Entre em chromat_dir: $cd chromat_dir (cadê o
dedinho?) (já deu um ls??) (ô meu!)
Agora saia daí e entre em edit_dir: $cd .. $ls $cd
edit_dir (dedinho!) $ls (é pra estar vazio messss)
O comando básico do Phred pode ser executado de
qualquer diretório, da maneira como foi instalado (global), mas é mais
conveniente rodar dentro de seu edit_dir. Assim:
$phred
-id ../chromat_dir -trim_alt “” -trim_cutoff 0.10 -st fasta -sa saida
[-id] é a indicação do diretório onde os arquivos esd processados descompactados estão
[-trim_alt] aciona o algoritmo que marca as posições
de leitura ruim no início e no final das seqüências
[-trim_cutoff] calibra o algoritmo trim_alt com a
porcentagem de erro admitida, no caso 10%
[-st fasta] ajusta o formato de saída para o formato fasta,
que é default do programa, portanto nem é necessário escrever
[-sa] serve para juntar o resultado de todos os esd
processados contidos no diretório indicado por [-id] num único arquivo, ou
seja, numa biblioteca de seqüências em formato fasta.
Comandos adicionais, quando se quer gerar os arquivos
de qualidade [.qual]: [-q] gera os arquivos de qualidade.
[-qa nome_arquivo] gera um arquivo com todos os
resultados de qualidade, à semelhança de [-sa], que junta os resultados fasta
em uma biblioteca.
[-trim_fasta] retira do arquivo fasta as bases de
baixa qualidade do início e do final da seqüência.
[-trim_out] retira essas bases tanto do arquivo fasta
quanto do arquivo de valores de qualidade.
Ok vamos rodar primeiro sem podar (sem trimming)
$phred
-id ../chromat_dir -sa saida_semtrim –qa saida_semtrim.qual
$ls
Leia o arquivo saida_semtrim: $more saida_trim
Verifique os números no cabeçalho: número de bases
lidas | número de ruins no começo | número
de boas | ruins no fim? Calcule por si!
Verifique o .qual $more saída_semtrim.qual e perceba
que a qualidade é ruim no começo e no fim
Ok vamos rodar com poda ajustada para 10% de erro:
$phred -id ../chromat_dir –trim_alt “”-trim_cutoff
0.10 -sa saida_10 –qa saida_10.qual
Leia o arquivo saída_10, agora sim o cabeçalho
funciona:
Verifique os números no cabeçalho: número de bases
lidas | número de ruins no começo | número
de boas | ruins no fim? Calcule por si!
Verifique o .qual $more saída_10.qual e perceba que
ele zerou a região de baixa qualidade
Ok vamos tirar isso fora? Adicione à linha de comando –trim_out
$phred
-id ../chromat_dir –trim_alt “”-trim_cutoff 0.10 –trim_out -sa saida_10_out –qa saida_10_out.qual
Verifique ambas saidas: saida_10_out e saída_10_out.qual
Ok, vc já sabe rodar Phred com corte com qualidade de
Phred 10. Teste em casa com Phred 20
(ptrim_cutoff 0.01) e compare o tamanho das seqüências úteis.
3. Cross-match
Uma maneira de mapear vetores nas seqüências é usar um
programa que transforma vetor em X
A sintaxe é tosca, o arquivo da esquerda serão as suas
seqüências a mascarar, o da direita quem é pra ser mascarado (vetor)
Primeiro entre no diretório vetor e junte os dois
vetores com $cat vetor1 vetor2 > vetores
Volte para edit_dir e rode o cross_match
$cross_match saída_10_out ../vetor/vetores -minmatch
12 -minscore 20 -penalty -2 -screen > arquivo_de_log
O resultado é o screen e não o log! $more screen
Curtiu? Vc pode tirar os X com o programa “vi” da aula
passada se quiser, mas tem outra opção
4.Seqclean
seqclean tirar o vetor ao invés de mascarar com X.
Formate o vetor pois é feito um BLAST: $formatdb –i
vetores –p F –o T (aprenderemos melhor isso na próxima aula)
$seqclean saida_10_out -v ../vetor/vetores -o saída_seqclean
Olhe o resultado: $more saída_seqclean
5.Cap3
Saia do edit_dir e do phred e crie um diretório cap3 $mkdir
cap3 paralelo ao phred (dá um ls aê)
$cd cap3 $copy /home/bacharelado/phrap/* . [OPAG] Dá um ls, dádá um ls...
Gere os reads com PHRED 15 (crie chromat_dir,
edit_dir, rode de edit_dir)
$phred
-id ../chromat_dir –trim_alt “” -trim_cutoff 0.032 –trim_out -sa puc_15 –qa puc_15.qual
A sintaxe é muito simples, ele descobre que há um
.qual ali.
cap3
puc_15
6. PHRAP
Alternativa para uso de Cap3
$phrap puc_15 -minmatch 20 > phrap.out (vamos usar
posteriormente)