Processamento
de leituras de seqüenciamento
Phred/Phrap, SeqClean, Cross-Match, Cap3
1.
Copiando cromatogramas
(alternativa:
Secure
FTP)
Abra o
programa Putty e logue
na pinguim como aluno e entre em seu diretório já criado
Crie
um diretório para esta aula: $mkdir aula_phred
Dê
um ls que é grátis! $ls
Entre
no diretório aula_phred: $cd aula_phred (use o dedinho do bioinformata para
completar: au... >>> aula_phred)
Liste
o diretório
/home/treinamento: $ls /home/treinamento
Liste
o conteúdo do diretório phred_aula visto
acima: $ls /home/treinamento/phred_aula
Liste
o conteúdo do diretório vetor visto acima (uai como faço isso?)
Perdido?
Use o comando $pwd para verificar em que
diretório vc realmente está! Ah, continua
em /home/aluno/você/aula_phred
Copie
o conteúdo do diretório /home/treinamento/phred_aula
para cá: $cp /home/treinamento/phred_aula/* . [olha o
ponto ai gente!]
Tah,
deu
pau na copia do diretório vetor, tem duas soluções:
criar
um diretório vetor, entrar nele, copiar o conteúdo de vetor da conta
treinamento ali
no
comando de cópia que deu o pau, não ler os error
(r) e forçar (f): $cp –rf
/home/treinamento/phred_aula/* . [opag]
Pra
quê o ponto? Significa “no diretório corrente”
ou seja, aqui!
No
futuro, cuidado com esse –rf, não use sem a presença de um adulto, ele
faz coisas sem volta.
2.
PHRED
O
Phred utiliza arquivos do tipo "esd processado" gerados pelo sequenciador MegaBACE.
Crie
em aula_phred os seguintes diretórios: chromat_dir e edit_dir.
Normalmente recebe-se um arquivo zipado
com os arquivos esd [$unzip
arquivo funciona]
Mova
os esd para o chromat_dir:
$mv *esd chromat_dir/
(usou o dedinho para o chr... >>>
chromat_dir?)
Entre
em chromat_dir: $cd chromat_dir
(cadê o dedinho?) (já deu um ls??). De um less em
algum desses arquivos (para sair do less
aperte q). Não é para humanos lerem, viu?
Agora
saia daí e entre em edit_dir: $cd .. $ls $cd edit_dir (dedinho!) $ls
(é pra estar vazio messss)
O
comando básico do Phred pode ser executado
de qualquer diretório, da maneira como foi instalado (global), mas é
mais conveniente rodar dentro de seu edit_dir.
Assim:
$phred -id ../chromat_dir
-trim_alt “” -trim_cutoff
0.10 -st fasta -sa saida
[-id]
é a indicação do diretório
onde os arquivos esd processados
descompactados estão
[-trim_alt] aciona o algoritmo que marca as
posições de leitura ruim no início e no final das seqüências
[-trim_cutoff] calibra o algoritmo trim_alt com a porcentagem de erro admitida, no
caso 10%
[-st fasta] ajusta o formato de saída para o formato fasta, que é default do programa,
portanto nem é necessário escrever
[-sa] serve para juntar o resultado de todos os esd processados contidos no diretório indicado
por [-id] num único arquivo, ou seja, numa biblioteca de seqüências em formato fasta.
Comandos
adicionais, quando se quer gerar os arquivos de qualidade [.qual]: [-q] gera os arquivos de qualidade.
[-qa nome_arquivo] gera
um arquivo com todos os resultados de qualidade, à semelhança de [-sa], que junta os
resultados fasta em uma biblioteca.
[-trim_fasta] retira do
arquivo fasta as bases de baixa qualidade do início e do final da seqüência.
[-trim_out] retira essas bases tanto do arquivo
fasta quanto do arquivo de valores de qualidade.
Ok
vamos rodar
primeiro sem podar (sem trimming)
$phred -id ../chromat_dir -sa saida_semtrim –qa saida_semtrim.qual
$ls
Leia
o arquivo saida_semtrim: $more saida_trim
Verifique
os números no cabeçalho: número de bases lidas | número de ruins no
começo |
número de boas | ruins no fim? Calcule por si!
Verifique
o .qual $more saída_semtrim.qual
e perceba que a qualidade é ruim no começo e no fim
Ok
vamos rodar
com poda ajustada para 10% de erro:
$phred
-id ../chromat_dir –trim_alt
“”-trim_cutoff 0.10 -sa
saida_10 –qa saida_10.qual
Leia
o arquivo saída_10, agora sim o cabeçalho funciona:
Verifique
os números no cabeçalho: número de bases lidas | número de ruins no
começo |
número de boas | ruins no fim? Calcule por si!
Verifique
o .qual $more saída_10.qual e perceba que
ele zerou a região de baixa qualidade
Ok
vamos tirar
isso fora? Adicione à linha de comando –trim_out
$phred -id ../chromat_dir –trim_alt
“”-trim_cutoff 0.10
–trim_out -sa saida_10_out –qa saida_10_out.qual
Verifique
ambas saidas: saida_10_out e saída_10_out.qual
Ok,
vc já sabe rodar Phred
com corte com qualidade de Phred 10. Teste
em casa com
Phred 20 (ptrim_cutoff
0.01) e compare o tamanho das seqüências
úteis.
3.
Cross-match
Uma
maneira de mapear vetores nas seqüências é
usar um programa que transforma vetor em X
A
sintaxe é tosca, o arquivo da esquerda serão as suas seqüências a mascarar, o da direita quem é pra
ser mascarado (vetor)
Primeiro
entre no diretório vetor e junte os dois vetores com $cat vetor1 vetor2 > vetores
Volte
para edit_dir e rode o cross_match
$cross_match saida_10_out
../vetor/pExpress -minmatch 12 -minscore 20 -penalty
-2 -screen > arquivo_de_log
O
resultado é o screen e não o log! $more
screen
Curtiu?
Vc pode tirar os X com o programa “vi” da
aula passada se quiser, mas tem outra opção
4.Seqclean
seqclean
tirar o vetor ao invés de mascarar com X.
Formate
o vetor pois é feito um BLAST: $formatdb –i pExpress –p F –o T (aprenderemos
melhor isso na próxima aula)
$seqclean saida_10_out -v
../vetor/pExpress -o saída_seqclean
Olhe
o resultado: $more saída_seqclean
5.Cap3
Saia
do edit_dir e do phred
e crie um diretório cap3 $mkdir cap3
paralelo ao phred (dá um ls aê)
$cd
cap3 $copy /home/treinamento/phrap/* . [OPAG] Dá um
ls, dádá um ls...
Gere
os reads com PHRED 15 (crie chromat_dir, edit_dir,
rode de edit_dir)
$phred -id ../chromat_dir –trim_alt
“” -trim_cutoff 0.032
–trim_out -sa puc_15 –qa puc_15.qual
A
sintaxe é muito simples, ele descobre que há um
.qual ali.
cap3 puc_15
6.
PHRAP
Alternativa
para uso de Cap3
$phrap puc_15 -minmatch 20 > phrap.out (vamos
usar posteriormente)