Processamento de leituras de seqüenciamento

Phred/Phrap, SeqClean, Cross-Match, Cap3

 

1. Copiando cromatogramas (alternativa: Secure FTP)

*  Abra  o programa Putty e logue na pinguim como aluno e entre em seu diretório já criado

*  Crie um diretório para esta aula: $mkdir aula_phred

*  Dê um ls que é grátis! $ls

*  Entre no diretório aula_phred: $cd aula_phred (use o dedinho do bioinformata para completar: au... >>> aula_phred)

*  Liste o diretório  /home/treinamento: $ls /home/treinamento

*  Liste o conteúdo do diretório phred_aula visto acima: $ls /home/treinamento/phred_aula

*  Liste o conteúdo do diretório vetor visto acima (uai como faço isso?)

*  Perdido? Use o comando $pwd para verificar em que diretório vc realmente está! Ah, continua em /home/aluno/você/aula_phred

*  Copie o conteúdo do diretório /home/treinamento/phred_aula para cá: $cp /home/treinamento/phred_aula/* . [olha o ponto ai gente!]

*  Tah, deu pau na copia do diretório vetor, tem duas soluções:

*  criar um diretório vetor, entrar nele, copiar o conteúdo de vetor da conta treinamento ali

*  no comando de cópia que deu o pau, não ler os error (r) e forçar (f): $cprf /home/treinamento/phred_aula/* . [opag]

*  Pra quê o ponto? Significa “no diretório corrente” ou seja, aqui!

*  No futuro, cuidado com esse –rf, não use sem a presença de um adulto, ele faz coisas sem volta.

 

2. PHRED

*  O Phred utiliza arquivos do tipo "esd processado" gerados pelo sequenciador  MegaBACE.

*  Crie em aula_phred os seguintes diretórios: chromat_dir e edit_dir. Normalmente recebe-se um arquivo zipado com os arquivos esd [$unzip arquivo funciona]

*  Mova os esd para o chromat_dir: $mv *esd chromat_dir/ (usou o dedinho para o chr... >>> chromat_dir?)

*  Entre em chromat_dir: $cd chromat_dir (cadê o dedinho?) (já deu um ls??). De um less em algum desses arquivos (para sair do less aperte q). Não é para humanos lerem, viu?

*  Agora saia daí e entre em edit_dir: $cd .. $ls $cd edit_dir (dedinho!) $ls (é pra estar vazio messss)

*  O comando básico do Phred pode ser executado de qualquer diretório, da maneira como foi instalado (global), mas é mais conveniente rodar dentro de seu edit_dir. Assim:

$phred -id ../chromat_dir -trim_alt “” -trim_cutoff 0.10 -st fasta -sa saida

*  [-id] é a indicação do diretório onde os arquivos esd processados descompactados estão

*  [-trim_alt] aciona o algoritmo que marca as posições de leitura ruim no início e no final das seqüências

*  [-trim_cutoff] calibra o algoritmo trim_alt com a porcentagem de erro admitida, no caso 10%

*  [-st fasta] ajusta o formato de saída para o formato fasta, que é default do programa, portanto nem é necessário escrever

*  [-sa] serve para juntar o resultado de todos os esd processados contidos no diretório indicado por [-id] num único arquivo, ou seja, numa biblioteca de seqüências em formato fasta.

*  Comandos adicionais, quando se quer gerar os arquivos de qualidade [.qual]: [-q] gera os arquivos de qualidade.

*  [-qa nome_arquivo] gera um arquivo com todos os resultados de qualidade, à semelhança de [-sa], que junta os resultados fasta em uma biblioteca.

*  [-trim_fasta] retira do arquivo fasta as bases de baixa qualidade do início e do final da seqüência.

*  [-trim_out] retira essas bases tanto do arquivo fasta quanto do arquivo de valores de qualidade.

*  Ok vamos rodar primeiro sem podar (sem trimming)

$phred -id ../chromat_dir -sa saida_semtrimqa saida_semtrim.qual

*  $ls

*  Leia o arquivo saida_semtrim: $more saida_trim

*  Verifique os números no cabeçalho: número de bases lidas | número de ruins no começo |  número de boas | ruins no fim? Calcule por si!

*  Verifique o .qual $more saída_semtrim.qual e perceba que a qualidade é ruim no começo e no fim

*  Ok vamos rodar com poda ajustada para 10% de erro:

$phred -id ../chromat_dirtrim_alt “”-trim_cutoff 0.10 -sa saida_10 –qa saida_10.qual

*  Leia o arquivo saída_10, agora sim o cabeçalho funciona:

*  Verifique os números no cabeçalho: número de bases lidas | número de ruins no começo |  número de boas | ruins no fim? Calcule por si!

*  Verifique o .qual $more saída_10.qual e perceba que ele zerou a região de baixa qualidade

*  Ok vamos tirar isso fora? Adicione à linha de comando –trim_out

$phred -id ../chromat_dirtrim_alt “”-trim_cutoff 0.10 trim_out -sa saida_10_out –qa saida_10_out.qual

*  Verifique ambas saidas: saida_10_out e saída_10_out.qual

*  Ok, vc já sabe rodar Phred com corte com qualidade de Phred 10. Teste em casa com  Phred 20 (ptrim_cutoff 0.01) e compare o tamanho das seqüências úteis.

 

3. Cross-match

*  Uma maneira de mapear vetores nas seqüências é usar um programa que transforma vetor em X

*  A sintaxe é tosca, o arquivo da esquerda serão as suas seqüências a mascarar, o da direita quem é pra ser mascarado (vetor)

*  Primeiro entre no diretório vetor e junte os dois vetores com $cat vetor1 vetor2 > vetores

*  Volte para edit_dir e rode o cross_match

$cross_match saida_10_out ../vetor/pExpress -minmatch 12 -minscore 20 -penalty -2 -screen > arquivo_de_log

*  O resultado é o screen e não o log! $more screen

*  Curtiu? Vc pode tirar os X com o programa “vi” da aula passada se quiser, mas tem outra opção

 

4.Seqclean

*  seqclean tirar o vetor ao invés de mascarar com X.

*  Formate o vetor pois é feito um BLAST: $formatdb –i pExpress –p F –o T (aprenderemos melhor isso na próxima aula)

$seqclean saida_10_out -v ../vetor/pExpress -o saída_seqclean

*  Olhe o resultado: $more saída_seqclean

 

5.Cap3

*  Saia do edit_dir e do phred e crie um diretório cap3 $mkdir cap3 paralelo ao phred (dá um ls )

*  $cd cap3 $copy /home/treinamento/phrap/* . [OPAG] Dá um ls, dádá um ls...

*  Gere os reads com PHRED 15 (crie chromat_dir, edit_dir, rode de edit_dir)

$phred -id ../chromat_dirtrim_alt “” -trim_cutoff 0.032 trim_out -sa puc_15 –qa puc_15.qual

*  A sintaxe é muito simples, ele descobre que há um .qual ali.

cap3 puc_15

 

6. PHRAP

*  Alternativa para uso de Cap3

$phrap puc_15 -minmatch 20 > phrap.out  (vamos usar posteriormente)