Introdução à Bioinformática ISG

Aula 2

PHRED:

O Phred utiliza arquivos do tipo "esd processado" gerados pelo sequenciador MegaBACE.
SSH maracatu $cd seunome $mkdir phred $cd phred
Crie em phred os seguintes diretórios: chromat_dir e edit_dir. Normalmente recebe-se um arquivo zipado e ele deve ser copiado para o seu diretório chromat_dir [$unzip arquivo funciona]
O comando básico do Phred pode ser executado de qualquer diretório da maneira como foi instalado (global), mas é mais conveniente rodar dentro de seu edit_dir. Veja:
phred -id ../chromat_dir -trim_alt -trim_cutoff 0.16 -st fasta -sa arquivo_saida

[-id] é a indicação do diretório onde os arquivos esd processados descompactados estão
[-trim_alt] aciona o algoritmo que marca as posições de leitura ruim no início e no final das seqüências
[-trim_cutoff] calibra o algoritmo trim_alt com a porcentagem de erro admitida, no caso 16%
[-st fasta] ajusta o formato de saída para o formato fasta, que é default do programa, portanto nem é necessário escrever
[-sa] serve para juntar o resultado de todos os esd processados contidos no diretório indicado por [-id] num único arquivo, ou seja, numa biblioteca de seqüências em formato fasta.
Comandos adicionais, quando se quer gerar os arquivos de qualidade [.qual]: [-q] gera os arquivos de qualidade.
[-qa nome_arquivo] gera um arquivo com todos os resultados de qualidade, à semelhança de [-sa], que junta os resultados fasta em uma biblioteca.
[-trim_fasta] retira do arquivo fasta as bases de baixa qualidade do início e do final da seqüência.
[-trim_out] retira essas bases tanto do arquivo fasta quanto do arquivo de valores de qualidade.

Rodando phred:

Copie o diretório cromatos da conta treinamento:
$ls /home/treinamento/cromatos
$cp –rf /home/treinamento/cromatos/* . [opag]
$ls
O PHRED usa os .esd dentro de chromat_dir: em cada projeto crie um, $mkdir chromat_dir $mv *esd chromat_dir/
Rode de dentro de edit_dir: $cd edit_dir e use como entrada o diretório chromat_dir assim:
Linha: phred -id ../chromat_dir -sa teste –qa teste.qual
Linha com trim: phred -id ../chromat_dir -trim_alt "" -trim_cutoff 0.16 -trim_fasta -sa teste –qa teste.qual
Varie o valor de trim_cutoff e veja o que ocorre, salve como teste_valor

cross_match:

Trabalhar dentro de edit_dir: junte os vetores $cat vetor1 vetor2 > vetores,fasta
cross_match nome_arquivo_saida vetor/vetores.fasta -minmatch 12 -minscore 20 -penalty -2 -screen > arquivo_de_log
o resultado é o screen e não o log!

seqclean:

TUTORIAL cross_match & seqclean

$cp /home/treinamento/cromatos/projeto_RaSH . [olha o ponto ai gente!] $ls (pq ls eh grátis)
$mkdir chromat_dir $mkdir edit_dir $mv *.esd chromat_dir $cd edit_dir
$phred –id ../chromat_dir –trim_alt “” –trim_cutoff 0.033 –as rash –qa rash.qual –trim_out [podando com phred 15]
Vamos formatar vetor para o seqclean:

$cd .. $ls $cd vetor $ls
$formatdb –i pAdEasy.1 –p F –o T [o valor de –p é F de Falso pq vetor não é P...roteína] $ls
$formatdb –i pZero.1 –p F –o T $ls
Volte para edit_dir: $cd .. $cd edit_dir

$cross_match rash –v ../pAdEasy.1 --minmatch 12 -minscore 20 -penalty -2 –screen
$more rash.screen [o cara livre do vetor pAdEasy]
$cross_match rash.screen –v ../pZero.1 --minmatch 12 -minscore 20 -penalty -2 –screen
$more rash.screen.screen [o cara livre dos dois vetores]

Agrupamentos de seqüências e bancos de dados

COG:

Considere dois genomas completos. Um proteína do genoma A tem seu melhor hit BLAST no genoma B, não importa o score ou o E-value. Esta proteína do genoma B, quando alinhada com o genoma A, estabelece um Bidiretional Best Hit (BBH). Elas só podem ser homólogas! A fundação de um COG exige um triângulo. A<BBH>C<BBH>B<BBH>A

Buscas no COG:

A versão atual tem 66 genomas (chamar de “genomas” as espécies, cepas, etc.). A versão antiga tem o COGnitor. Teste!
Uma ferramenta disponível no lab Biodados permite o BLAST em COG: Protein Classification Tool. Usando a PCT, descubra a qual COG pertence a seqüência teste.
Visitando o COG versão atual, verifique a categoria funcional M. Verifique a distribuição do referido COG. Doido né?
As árvores que fizemos utilizaram FASTAs selecionados de alguns COGs.
O lab Biodados têm um produto (UECOG) que é o COG aumentado com clusters UniRef50, aumentando o número de seqüências e de espécies. Proteínas de genomas incompletos são incluídas para enriquecer os clusters COG, desde que um membro COG participe do agrupamento UniRef50. Navegue no UECOG para conhecer o agrupamento que está sendo analisado. Eram 11 entradas, agora são 66, todas de proteobactéria. A página da categoria M permite descarregar de forma prática os FASTAs.

Vamos fazer um tutorial do programa Seed Linkage desenvolvido na UFMG