Treinamento
em Bioinformática 2008
PSI-BLAST para
busca com matriz específica e RPS-BLAST para domínios
Primeira parte - revisão:
- Bases pré-formatadas: vamos mover para /home/treinamento/db as bases
que descarregamos e descompactá-las.
- formatdb:
a sintaxe é $formatdb
–i sequencias –p F ou T –o T mas estas
bases já estão formatadas.
- permissões: $chmod –R ugo+rwx diretrio.
Onde u=user; g=grupo treinamento e o=other (todo
mundo)
- BLAST: $blastall –p
programa –i sequencias –d base –e 1e10 –F F –b 1 –a 4 –m 8 –o saida_m8 &
- p=programa: tblastn,
etc.
- i=entrada: query
- d=database: tem que estar formatada
- e=E-value: o número
de alinhamentos iguais ou melhores que pode ser obtido sem homologia
- F: low complexity filter,
- b: o número de alinhamentos reportados para
cada query
- a: número de processadores, use –a 4
- m: é o tipo de saída, teste –m 8 e –m 9. –m 0
é a saída web
- o: é o nome que vc quer para a saída
- &: manda o job
para o background
- Quando acabar de colocar pra rodar de um “top” para acompanhar.
- Quem será que tem estrutura resolvida?
- hsa.pdb: Conte o
número de seqüências com $cat hsa.pdb | grep “>” -c
- Formate: $formatdb
–i hsa.pdb –p T –o T
- Rode: $blastall –p blastp –i glicolise.hsa –d hsa.pdb –e 1e10 –F F –b 1 –a 4
–m 9 –o saída_m9 &
- Contando hits: awk. $cat saida | awk ‘$3>=96{print $1}’ | sort | uniq –c.
- $megablast
–i glicolise.hsa –d hsa.ORESTES –m
8 –e 1e-10 –F F –b 1000000000 –a 4 –o mega.hsa
- Mudamos
–b para um número grande (1 bilhão), pois o default é 250 hits, podemos ver quem é o mais expresso.
- MegaBLAST tem flags que permitem “não escrever” saídas com menos de
96% de identidade, olhe lá e use! Tb podemos evitar mais de 1 HSP.
Segunda parte – RPS-BLAST:
- Renomeie com vi a glicólise
bacteriana usando nomes em português, nada de acentos e espaços, nada de
números identificadores.
- Vamos
verificar domínios nessas proteínas:
- More
linha_rps
Terceira parte – PSI-BLAST:
- More
linha_psi: $/usr/local/BLAST/blast-2.2.17/bin/blastpgp -i fosfogliceromutase_Ecoli
-d hsa.pdb -e 1 -h
1e-10 -j 10 -a 4 -o saida.glicoecoli.pdb -m 9 &
- Onde
–h controla o E-value para participar da
próxima iteração, -j o número de iterações
CONTEUDO DE treinamento@maracatu:
[treinamento@maracatu ~]$ ls
aldolase.cds db h10b.glicolise hsa.ORESTES.nin hsa.ORESTES.nsi hsa.pdb.pin hsa.pdb.psi linha_rps
CDD error.log h10b.proteome hsa.ORESTES.nnd hsa.ORESTES.nsq hsa.pdb.pnd hsa.pdb.psq linhas_formatrpsdb
cdd.tar.gz fosfogliceromutase_Ecoli hsa.ORESTES hsa.ORESTES.nni hsa.pdb hsa.pdb.pni linha_awk saida.glicoecoli.pdb
close_gates.exe glicolise.hsa hsa.ORESTES.nhr hsa.ORESTES.nsd hsa.pdb.phr hsa.pdb.psd linha_blastall saida.glicohsa.pdb
E-mail Miguel