Introdução à
Bioinformática ISG
Aula 2
PHRED:
- O Phred utiliza arquivos do tipo "esd processado" gerados pelo sequenciador
MegaBACE.
- SSH
maracatu $cd seunome $mkdir phred $cd phred
- Crie em phred os seguintes
diretórios: chromat_dir
e edit_dir.
Normalmente recebe-se um arquivo zipado e ele
deve ser copiado para o seu diretório chromat_dir
[$unzip arquivo funciona]
- O
comando básico do Phred pode ser executado de
qualquer diretório da maneira como foi instalado (global), mas é mais
conveniente rodar dentro de seu edit_dir. Veja:
- phred -id ../chromat_dir -trim_alt
-trim_cutoff 0.16 -st
fasta -sa arquivo_saida
- [-id]
é a indicação do diretório onde os arquivos esd
processados descompactados estão
- [-trim_alt] aciona o algoritmo que marca as posições de
leitura ruim no início e no final das seqüências
- [-trim_cutoff] calibra o algoritmo trim_alt
com a porcentagem de erro admitida, no caso 16%
- [-st fasta] ajusta o formato de saída para o formato
fasta, que é default do programa, portanto nem é necessário escrever
- [-sa] serve para juntar o resultado de todos os esd processados contidos no diretório indicado por
[-id] num único arquivo, ou seja, numa biblioteca de seqüências em
formato fasta.
- Comandos
adicionais, quando se quer gerar os arquivos de
qualidade [.qual]: [-q] gera os arquivos de qualidade.
- [-qa nome_arquivo] gera um
arquivo com todos os resultados de qualidade, à semelhança de [-sa], que junta os resultados fasta
em uma biblioteca.
- [-trim_fasta] retira do
arquivo fasta as bases de baixa qualidade do início e do final da
seqüência.
- [-trim_out] retira essas bases tanto do arquivo fasta
quanto do arquivo de valores de qualidade.
Rodando phred:
- Copie
o diretório cromatos da conta treinamento:
- $ls /home/treinamento/cromatos
- $cp –rf /home/treinamento/cromatos/*
. [opag]
- $ls
- O
PHRED usa os .esd
dentro de chromat_dir: em cada projeto crie um,
$mkdir chromat_dir $mv *esd chromat_dir/
- Rode
de dentro de edit_dir: $cd
edit_dir e use como entrada o diretório chromat_dir assim:
- Linha:
phred -id ../chromat_dir
-sa teste –qa teste.qual
- Linha
com trim: phred -id
../chromat_dir -trim_alt
"" -trim_cutoff 0.16 -trim_fasta -sa teste –qa teste.qual
- Varie
o valor de trim_cutoff e veja o que ocorre,
salve como teste_valor
cross_match:
- Trabalhar
dentro de edit_dir: junte os vetores $cat vetor1 vetor2 > vetores,fasta
- cross_match nome_arquivo_saida vetor/vetores.fasta -minmatch 12 -minscore 20 -penalty -2 -screen > arquivo_de_log
- o resultado é o screen e não
o log!
seqclean:
- seqclean tirar o vetor ao
invés de mascarar com X.
- formate o vetor pois é feito um BLAST: $formatdb –i vetor –p F –o T.
- Linha:
$seqclean sequencias
-v vetor -o saída
TUTORIAL cross_match & seqclean
- $mkdir
aula_clean $cd aula_clean
- $cp /home/treinamento/cromatos/projeto_RaSH . [olha o ponto
ai gente!] $ls (pq ls
eh grátis)
- $mkdir chromat_dir $mkdir edit_dir $mv *.esd chromat_dir $cd edit_dir
- $phred –id ../chromat_dir –trim_alt “” –trim_cutoff
0.033 –as rash –qa rash.qual –trim_out [podando com phred
15]
- Vamos
formatar vetor para o seqclean:
- $cd .. $ls $cd
vetor $ls
- $formatdb –i pAdEasy.1
–p F –o T [o valor de –p é F de
Falso pq vetor não é P...roteína] $ls
- $formatdb –i pZero.1
–p F –o T $ls
- Volte
para edit_dir: $cd
.. $cd edit_dir
- $cross_match rash –v ../pAdEasy.1
--minmatch 12 -minscore
20 -penalty -2 –screen
- $more
rash.screen
[o cara livre do vetor pAdEasy]
- $cross_match rash.screen
–v ../pZero.1 --minmatch
12 -minscore 20 -penalty -2 –screen
- $more
rash.screen.screen [o cara livre dos dois vetores]
- $seqclean
rash –v ../pAdEasy.1 –o saida_easy $ls $more saida_easy
- $seqclean saida_easy –v ../pZero.1 –o saida_ambos $ls $more saida_ambos
Agrupamentos de
seqüências e bancos de dados
COG:
- Considere dois genomas
completos. Um proteína do genoma A tem seu melhor
hit BLAST no genoma B, não importa o score ou o E-value. Esta proteína do genoma B, quando alinhada
com o genoma A, estabelece um Bidiretional Best Hit (BBH). Elas só podem ser homólogas! A
fundação de um COG exige um triângulo.
A<BBH>C<BBH>B<BBH>A
Buscas
no COG:
- A
versão atual tem 66 genomas (chamar de “genomas” as espécies, cepas,
etc.). A versão antiga tem o COGnitor. Teste!
- Uma
ferramenta disponível no lab Biodados permite o
BLAST em COG: Protein Classification Tool. Usando a PCT, descubra a qual COG pertence a seqüência teste.
- Visitando
o COG versão
atual, verifique a categoria funcional M.
Verifique a distribuição do referido COG.
Doido né?
- As
árvores que
fizemos utilizaram FASTAs
selecionados de alguns COGs.
- O
lab Biodados têm um
produto (UECOG)
que é o COG aumentado com clusters UniRef50, aumentando o número de
seqüências e de espécies. Proteínas de genomas incompletos são incluídas
para enriquecer os clusters COG, desde que um membro COG participe do
agrupamento UniRef50. Navegue no UECOG para conhecer o agrupamento que
está sendo analisado.
Eram 11 entradas, agora são 66, todas de proteobactéria.
A página da categoria
M permite descarregar de forma prática os FASTAs.
Vamos fazer um tutorial do programa Seed Linkage desenvolvido na
UFMG
E-mail Miguel