Treinamento em Bioinformática 2008
MODELAGEM MOLECULAR POR HOMOLOGIA USANDO MODELLER 9v4 -
CASO AVANÇADO
0. Criar uma pasta de trabalho chamada 'modeller_seu_nome'
:
$mkdir modeller_seu_nome
$cd modeller_seu_nome
$cp /home/treinamento/aula_modeller/* .
$ls
Proteína target :
1. Procurar a alfa-toxina I do escorpião Androctonus
australis (Sahara scorpion) AaHI no site
Expasy Swiss-Prot
2. Abrir a página correspondente à proteína e observar os dados,
especialmente as informações estruturais :
- No ítem chamado 'Cross-references', tem
um número de accesso no Protein Data Bank (PDB)
? Se tiver entrar no
PDB
e procurar o código dela.
- É uma estrutura determinada experimentalmente
(Nuclear Magnetic Resonance Spectroscopy, X-ray Crystallography,
Cryo Electron Microscopy)?
- Se for, podemos voltar para a casa : um modelo experimental
SEMPRE vale melhor do que um modelo
teórico.
- Se for um modelo teórico, podemos tentar fazer um melhor!
- Existe uma referência do banco Pfam?
- No ítem 'Features', observar se a
proteína tem um peptídeo sinal e/ou propeptídeo, e se tiver recuperar a
seqüencia da proteína madura e copiá-la num novo arquivo :
$vi AaHI.txt
$wq
- Observar o pareamento dos resíduos de cisteina
e anotá-lo (Atenção ! Lembrar-se de que a
numeração é aquela do precursor, precisa-se calcular a posição das cisteinas
na cadeia madura)
$vi pontas_ss.txt
$wq
Threading e predição de estruturas secundárias :
3. Submeter a seqüencia target ao servidor de threading
mGenTHREADER
- clicar para acessar ao servidor,
- copiar e colar sua seqüencia onde indicado,
- selecionar a opção 'Fold Recognition (mGenTHREADER
- with profiles and predicted secondary structure)',
- desclicar as opções de filtering,
- entrar seu endereço de email ACADÉMICO,
- colocar um nome para seu job, por exemplo o nome da proteína :
AaHI
Nota : O resultado será mandado por email, o que pode demorar. No caso,
fazer uma predição de estruturas secundárias usando o
SSPro4, como vocês já aprenderam na
aula
anteriora
Pesquisa por similaridade de seqüencia usando Blast :
4. Submeter a seqüencia target ao Blastp, PSI-Blastp versus o banco de
estruturas PDB, e recuperar proteínas similares, do jeito que o Miguel ensinou.
- o que são as proteínas retornadas? (enzimas? toxinas? tamanho parecido?...)
- qual a maior porcentagem de identidade
retornada?
- estaremos na zona de "safe homology modeling"
ou "twilight"?
- deixar a página de resultados finais aberta
Seleção da(s) proteína(s) template(s) :
5. Procurar a proteína target na página do
Pfam
- dentre as proteínas da mesma família, quantas proteínas têm estrutura
determinada?
- dentre estas, quais foram retornadas pelo Blast? com score razoável?
- quais proteínas foram retornadas pelo servidor mGenTHREADER como
templates candidatos?
6. Selecionar no máximo 3 ou 4 proteínas com os seguintes critérios :
- eliminar proteínas sintéticas, fragmentos, mutantes
- privilegiar proteínas naturais, ou no máximo
recombinantes
- maior porcentagem de identidade com a target
- estrutura determinada por cristalografia por raios X
, preferencialmente
- melhor resolução (menor número de Angström)
- não redundantes entre si (maior diversidade
entre si)
- tamanho parecido com aquele da target
- mesmo pareamento dos resíduos de cisteina
- função biológica parecida, se possível
Nota : Para ajudar a identificar as estruturas protéicas redundantes ou
muito similares, baixar as seqüencias delas e alinhá-las usando
Clustal, como vocês aprenderam, com a
matriz Blosum62 e as penalidades 12 e 2 para
introdução e extensão de gaps. (Quem ainda não aprendeu pode usar o servidor
ClustalW usando a opção
'SLOW/ACCURATE' e os mesmos parâmetros indicados acima)
7. Criar uma pasta 'PDB' dentre da sua pasta
'modeller_seu_nome'.
8. Baixar os arquivos de coordenatas .pdb dos
templates selecionados e copiar dentre da pasta 'PDB'.
Alinhamentos :
9. Abrir o script salign.py :
$vi salign.py
10. Editá-lo com seus dados :
- códigos PDB dos templates
- caminho dos arquivos .pdb
- nomes dos arquivos de saída .pap e .ali
11. Rodar o script no Modeller : $mod9v4 salign.py
12. Colocar a seqüencia target no formato PIR e
salvar o arquivo no formato 'nome_da_proteina.ali'
na sua pasta
Nota : As seqüencias das proteínas templates estão alinhadas no
formato PIR. Usar o mesmo padrão, colocando 'sequence' no lugar de
'structureN' ou 'structureX' para a proteína target.
Escolhe o mesmo nome para a proteína nas primeira e segunda linhas.
13. Abrir o script align2d.py :
$vi align2d.py
14. Editá-lo com seus dados :
- nome do arquivo de alinhamento estrutural dos templates com
extensão .ali criado por
salign()
- nome do arquivo da seqüencia com extensão .ali
- nomes dos arquivos de saída .pap e .ali
15. Rodar o script no Modeller : $mod9v4 align2d.py
16. Abrir o alinhamento gerado : $vi nome.ali
e no caso, editá-lo.
- o alinhamento é otimizado?
- os resíduos de cisteina estão bem alinhados?
- não há introdução de gaps nas estruturas
secundárias preditas para a seqüencia target?
Modelagem :
16. Editar o script model.py com seus dados :
- números dos resíduos de cisteina formando as pontes dissulfeto
- nome do arquivo de alinhamento final .ali
- códigos PDB dos templates
- nome da seqüencia target no alinhamento
- número de modelos a serem calculados : 5
17. Rodar o script no Modeller : $mod9v4 model.py
Avaliação dos modelos :
18. Abrir cada arquivo .pdb gerado e selecionar o modelo de mais baixo valor de
Modeller Objective Function
(aproximação da energia da molécula)
19. Submeter o seu modelo para análise por :
-
Verify3D
- o email cecile.fleury@cpbs.univ-montp1.fr
- anotar o score geral e observar o código de cores
- clicar nos links abaixo e reparar se existem regiões com score baixo
-
ProSA-web
- anotar o z-score ('Overall model
quality')
- observar se a estrutura tem características de proteína nativa
('Local model quality')
- reparar se existem regiões de pior qualidade (= maior energia, vermelho)
-
Whatif
- clicar 'Protein analysis' e depois
'Secondary Structure, symmetry and accessibility' para usar o
programa DSSP
- observar se as estruturas secundárias assinadas por DSSP são as mesmas
que as previstas
- SwissPdbViewer (instalado no computador,
atalho na área de trabalho)
- checkar a estrutura geral
- checkar os clashes
- escolher uma opção de visualização que permita enxergar as pontes
dissulfeto e as estruturas secundárias
Refinamento :
Provavelmente, o modelo precisará ser refinado :
- refinamento do alinhamento, ciclos alinhamento/modelagem/avaliação,
- refinamento das alças usando Modeller e um banco de loops.
Visualização :
20. Instalar RasMol e brincar com o seu melhor modelo.
OBRIGADO !