Treinamento
em Bioinformática 2008
BLAST e MEGABLAST
(favor escrever BLAST sempre com maiúsculas pois é uma sigla)
Bases de Dados:
- Bases pré-formatadas: vamos conhecer as
bibliotecas formatadas para BLAST no NCBI. Tente achar a área de download ou
clique aqui.
Agora verifique as bases de dados disponíveis por FTP. Vamos fazer o download direto na maracatu
usando ftp ftp.ncbi.nlm.nih.gov
como anonymous e a senha será o seu e-mail. Use mget <arquivo>. Vamos combinar o que baixar na
aula.
- ESTs: use $ cat hsa.ORESTES | grep “>” –c para contar as seqüências; caso não
tenha ainda o arquivo, copie assim $cp /home/treinamento/hsa.ORESTES
. Tem um ponto ai, após o espaço, que é pra indicar “copie no diretório
corrente”
- formatdb:
o pacote BLAST já está instalado, mas basta baixar o binário correto do
site do NCBI (vamos baixar nesse windows?). Logue na maracatu, escreva $formatdb e de enter sem mais
nada, para observar os parâmetros úteis. Verifique o manual com less assim: $less /usr/local/BLAST/blast-2.2.17/doc/formatdb.html. Use formatdb
assim: $formatdb –i hsa.ORESTES
–p F –o T. Onde –p indica se é proteína (Falso) e –o T (True) pede que ele indexe as informações do cabeçalho dos FASTAs [Organismo, por
exemplo].
- Via glicolítica:
veja a via aqui
(site legal a biocarta?); copie os arquivo de seqüências de /home/treinamento/glicolise.hsa se vc não tiver os seus. Vamos aprender sobre permissões?
Mude a permissão de leitura (r) escrita (w) e execução com $chmod ugo+rwx ou suas variações. Qdo
copiar, deixe seus colegas do treinamento lerem usando $chmod ug+rw
arquivo. Para dar permissão recursiva a um diretório use $chmod –R ug+rw diretório. Pegue as duas glicólises,
humana (hsa) e bacteriana (h10b) e o cds da aldolase. Para treinar,
vamos pegar a GAPDH humana e salvar?
- BLAST: consulte os parâmetros. Vamos rodar
inicialmente com $nice
10 blastall –p tblastn
–i glicolise.hsa –d hsa.ORESTES –e 1e10 –F F –b
1 –a 4 –m 8 –o saida_m8 & Onde:
- nice:
faz o programa ser gentil com os outros. Valores altos (máximo eh -20) são os mais gentis.
- p é o programa: tblastn
usa query aa e
database nt
- i é a entrada: query
- d é a database: tem que estar formatada
- e: E-value, é o cutoff
estatístico, significa o número de alinhamentos iguais ou melhores que o
observado que pode ser obtido sem homologia
- F: low complexity filter, use
quanto tiver medo de fragmentos repetitivos interferirem em quem eh o hit.
- b: no blastall
limita o número de resultados para cada query,
mas note, não impede o relato de múltiplos HSP (segmentos alinhados)
- a: número de processadores, pra que
compramos um quad afinal?
- m: é o tipo de saída, vamos ver isso mais
tarde.
- o: é o nome que vc quer para a saída
- &: manda o job
para o background
- Quando acabar de colocar pra rodar de um top para acompanhar.
- Quem será que tem estrutura resolvida?
- Copie o arquivo: /home/treinamento/hsa.pdb
Conte o número de seqüências com $cat hsa.pdb | grep “>” -c
- Formate: $formatdb
–i hsa.pdb –p T –o T
- Rode: $nice
-10 blastall –p blastp
–i glicolise.hsa
–d hsa.pdb –e 1e10 –F F –b 1 –a 4
–m 9 –o saída_m9 &
- Vejam o detalhe da saída m9. Repita sem m
algum e grave com –o saída_normal.
- Contando hits: um
ótimo programa para lidar com saída tabulada m 8 é awk.
O programa lida com condições (assim que abir
‘’) e ações, delimitadas pó{} (chaves). Exemplo
de uso: cat saída | awk
‘$3>=96{print $1}’ | sort
| uniq –c. Vamos usar isso com a saída abaixo
- $time
megablast –i glicolise.hsa –d hsa.ORESTES
–m 8 –e 1e-10 –F F –b 1000000000 –a 4 –o mega.hsa
- Desta
vez não rodem juntos, passem a bola para o vizinho assim que acabar o
seu. É que time dará o tempo de execução. Mudamos –b para um número
grande pq o default é de apenas 250 hits, queremos ver quem é o mais expresso. MegaBLAST tem flags que permitem não escrever saídas com menos de
96% de identidade, olhe lá e use!
- O
mesmo experimento acima pode ser feito com blastall,
com o programa –p blastn (demora um pouco mais,
vamos ver isso outro dia)
- Proteoma bacteriano: vamos verificar os hits da glicólise bacteriana
no proteoma bacteriano? Bem, o resultado é
óbvio. Vamos verificar agora se o cDNA
de aldolase encontra hit na glicólise
bacteriana? E se traduzirmos o cDNA
com –p blastx?
CONTEUDO DE treinamento@maracatu:
aldolase.cds hsa.ORESTES.nhr hsa.ORESTES.nsi hsa.pdb.pin hsa.pdb.psq
glicolise.hsa hsa.ORESTES.nin hsa.ORESTES.nsq hsa.pdb.pnd linha_awk
h10b.glicolise hsa.ORESTES.nnd hsa.pdb hsa.pdb.pni linha_blastall
h10b.proteome hsa.ORESTES.nni hsa.pdb2 hsa.pdb.psd
hsa.ORESTES hsa.ORESTES.nsd hsa.pdb.phr hsa.pdb.psi
E-mail Miguel