21/08 –   Processamento de leituras de seqüenciamento (Miguel)

                Phred/Phrap, SeqClean, Cross-Match, Cap3

 

1. Copiando cromatogramas (alternativa: Secure FTP)

*        Abra  o programa Putty e logue na maracatu com o seu login

*        Crie um diretório para esta aula: $mkdir aula_phred

*        Dê um ls que é grátis! $ls

*        Entre no diretório aula_phred: $cd aula_phred (use o dedinho do bioinformata para completar: a... >>> aula_phred)

*        Liste o diretório  /home/bacharelado: $ls /home/bacharelado

*        Liste o conteúdo do diretório phred, visto acima: $ls /home/bacharelado/phred

*        Liste o conteúdo do diretório vetor visto acima (uai como faço isso?)

*        Perdido? Use o comando $pwd para verificar em que diretório vc realmente está! Ah, continua em /home/você/phred!

*        Copie o conteúdo do diretório /home/bacharelado/phred para cá: $cp /home/bacharelado/phred/* . [olha o ponto ai gente!]

*        Tah, deu pau na copia do diretório vetor, tem duas soluções:

*        criar um diretório vetor, entrar nele, copiar o conteúdo de vetor da conta bacharelado ali (façam isso hj)

*        no comando de cópia que deu o pau, não ler os error (r) e forçar (f): $cp –rf /home/bacharelado/phred/* . [opag]

*        Pra quê o ponto? Significa “no diretório corrente” ou seja, aqui!

*        No futuro, cuidado com esse –rf, não use sem a presença de um adulto, ele faz coisas sem volta.

 

2. PHRED

*        O Phred utiliza arquivos do tipo "esd processado" gerados pelo sequenciador  MegaBACE.

*        Crie em phred os seguintes diretórios: chromat_dir e edit_dir. Normalmente recebe-se um arquivo zipado com os arquivos esd [$unzip arquivo funciona]

*        Mova os esd para o chromat_dir: $mv *esd chromat_dir/ (usou o dedinho para o chr... >>> chromat_dir?)

*        Entre em chromat_dir: $cd chromat_dir (cadê o dedinho?) (já deu um ls??) (ô meu!)

*        Agora saia daí e entre em edit_dir: $cd .. $ls $cd edit_dir (dedinho!) $ls (é pra estar vazio messss)

*        O comando básico do Phred pode ser executado de qualquer diretório, da maneira como foi instalado (global), mas é mais conveniente rodar dentro de seu edit_dir. Assim:

$phred -id ../chromat_dir -trim_alt “” -trim_cutoff 0.10 -st fasta -sa saida

*        [-id] é a indicação do diretório onde os arquivos esd processados descompactados estão

*        [-trim_alt] aciona o algoritmo que marca as posições de leitura ruim no início e no final das seqüências

*        [-trim_cutoff] calibra o algoritmo trim_alt com a porcentagem de erro admitida, no caso 10%

*        [-st fasta] ajusta o formato de saída para o formato fasta, que é default do programa, portanto nem é necessário escrever

*        [-sa] serve para juntar o resultado de todos os esd processados contidos no diretório indicado por [-id] num único arquivo, ou seja, numa biblioteca de seqüências em formato fasta.

*        Comandos adicionais, quando se quer gerar os arquivos de qualidade [.qual]: [-q] gera os arquivos de qualidade.

*        [-qa nome_arquivo] gera um arquivo com todos os resultados de qualidade, à semelhança de [-sa], que junta os resultados fasta em uma biblioteca.

*        [-trim_fasta] retira do arquivo fasta as bases de baixa qualidade do início e do final da seqüência.

*        [-trim_out] retira essas bases tanto do arquivo fasta quanto do arquivo de valores de qualidade.

*        Ok vamos rodar primeiro sem podar (sem trimming)

$phred -id ../chromat_dir -sa saida_semtrim –qa saida_semtrim.qual

*        $ls

*        Leia o arquivo saida_semtrim: $more saida_trim

*        Verifique os números no cabeçalho: número de bases lidas | número de ruins no começo |  número de boas | ruins no fim? Calcule por si!

*        Verifique o .qual $more saída_semtrim.qual e perceba que a qualidade é ruim no começo e no fim

*        Ok vamos rodar com poda ajustada para 10% de erro:

$phred -id ../chromat_dir –trim_alt “”-trim_cutoff 0.10 -sa saida_10 –qa saida_10.qual

*        Leia o arquivo saída_10, agora sim o cabeçalho funciona:

*        Verifique os números no cabeçalho: número de bases lidas | número de ruins no começo |  número de boas | ruins no fim? Calcule por si!

*        Verifique o .qual $more saída_10.qual e perceba que ele zerou a região de baixa qualidade

*        Ok vamos tirar isso fora? Adicione à linha de comando –trim_out

$phred -id ../chromat_dir –trim_alt “”-trim_cutoff 0.10 –trim_out -sa saida_10_out –qa saida_10_out.qual

*        Verifique ambas saidas: saida_10_out e saída_10_out.qual

*        Ok, vc já sabe rodar Phred com corte com qualidade de Phred 10. Teste em casa com  Phred 20 (ptrim_cutoff 0.01) e compare o tamanho das seqüências úteis.

 

3. Cross-match

*        Uma maneira de mapear vetores nas seqüências é usar um programa que transforma vetor em X

*        A sintaxe é tosca, o arquivo da esquerda serão as suas seqüências a mascarar, o da direita quem é pra ser mascarado (vetor)

*        Primeiro entre no diretório vetor e junte os dois vetores com $cat vetor1 vetor2 > vetores

*        Volte para edit_dir e rode o cross_match

$cross_match saída_10_out ../vetor/vetores -minmatch 12 -minscore 20 -penalty -2 -screen > arquivo_de_log

*        O resultado é o screen e não o log! $more screen

*        Curtiu? Vc pode tirar os X com o programa “vi” da aula passada se quiser, mas tem outra opção

 

4.Seqclean

*        seqclean tirar o vetor ao invés de mascarar com X.

*        Formate o vetor pois é feito um BLAST: $formatdb –i vetores –p F –o T (aprenderemos melhor isso na próxima aula)

$seqclean saida_10_out -v ../vetor/vetores -o saída_seqclean

*        Olhe o resultado: $more saída_seqclean

 

5.Cap3

*        Saia do edit_dir e do phred e crie um diretório cap3 $mkdir cap3 paralelo ao phred (dá um ls aê)

*        $cd cap3 $copy /home/bacharelado/phrap/* . [OPAG] Dá um ls, dádá um ls...

*        Gere os reads com PHRED 15 (crie chromat_dir, edit_dir, rode de edit_dir)

$phred -id ../chromat_dir –trim_alt “” -trim_cutoff 0.032 –trim_out -sa puc_15 –qa puc_15.qual

*        A sintaxe é muito simples, ele descobre que há um .qual ali.

cap3 puc_15

 

6. PHRAP

*        Alternativa para uso de Cap3

$phrap puc_15 -minmatch 20 > phrap.out  (vamos usar posteriormente)