Treinamento em Bioinformática

Treinamento em Bioinformática 2008

MODELAGEM MOLECULAR POR HOMOLOGIA USANDO MODELLER 9v4 - CASO AVANÇADO

0. Criar uma pasta de trabalho chamada 'modeller_seu_nome' :
$mkdir modeller_seu_nome
$cd modeller_seu_nome
$cp /home/treinamento/aula_modeller/* .
$ls

Proteína target :

1. Procurar a alfa-toxina I do escorpião Androctonus australis (Sahara scorpion) AaHI no site Expasy Swiss-Prot

2. Abrir a página correspondente à proteína e observar os dados, especialmente as informações estruturais :

No ítem chamado 'Cross-references', tem um número de accesso no Protein Data Bank (PDB) ? Se tiver entrar no PDB e procurar o código dela.
- É uma estrutura determinada experimentalmente (Nuclear Magnetic Resonance Spectroscopy, X-ray Crystallography, Cryo Electron Microscopy)?
  - Se for, podemos voltar para a casa : um modelo experimental SEMPRE vale melhor do que um modelo teórico.
  - Se for um modelo teórico, podemos tentar fazer um melhor!
- Existe uma referência do banco Pfam?
No ítem 'Features', observar se a proteína tem um peptídeo sinal e/ou propeptídeo, e se tiver recuperar a seqüencia da proteína madura e copiá-la num novo arquivo :
$vi AaHI.txt
$wq
Observar o pareamento dos resíduos de cisteina e anotá-lo (Atenção ! Lembrar-se de que a numeração é aquela do precursor, precisa-se calcular a posição das cisteinas na cadeia madura)
$vi pontas_ss.txt
$wq

Threading e predição de estruturas secundárias :

3. Submeter a seqüencia target ao servidor de threading mGenTHREADER

clicar para acessar ao servidor,
copiar e colar sua seqüencia onde indicado,
selecionar a opção 'Fold Recognition (mGenTHREADER - with profiles and predicted secondary structure)',
desclicar as opções de filtering,
entrar seu endereço de email ACADÉMICO,
colocar um nome para seu job, por exemplo o nome da proteína : AaHI

Nota : O resultado será mandado por email, o que pode demorar. No caso, fazer uma predição de estruturas secundárias usando o SSPro4, como vocês já aprenderam na aula anteriora

Pesquisa por similaridade de seqüencia usando Blast :

4. Submeter a seqüencia target ao Blastp, PSI-Blastp versus o banco de estruturas PDB, e recuperar proteínas similares, do jeito que o Miguel ensinou.

o que são as proteínas retornadas? (enzimas? toxinas? tamanho parecido?...)
qual a maior porcentagem de identidade retornada?
estaremos na zona de "safe homology modeling" ou "twilight"?
deixar a página de resultados finais aberta

Seleção da(s) proteína(s) template(s) :

5. Procurar a proteína target na página do Pfam

dentre as proteínas da mesma família, quantas proteínas têm estrutura determinada?
dentre estas, quais foram retornadas pelo Blast? com score razoável?
quais proteínas foram retornadas pelo servidor mGenTHREADER como templates candidatos?

6. Selecionar no máximo 3 ou 4 proteínas com os seguintes critérios :

eliminar proteínas sintéticas, fragmentos, mutantes
privilegiar proteínas naturais, ou no máximo recombinantes
maior porcentagem de identidade com a target
estrutura determinada por cristalografia por raios X , preferencialmente
melhor resolução (menor número de Angström)
não redundantes entre si (maior diversidade entre si)
tamanho parecido com aquele da target
mesmo pareamento dos resíduos de cisteina
função biológica parecida, se possível

Nota : Para ajudar a identificar as estruturas protéicas redundantes ou muito similares, baixar as seqüencias delas e alinhá-las usando Clustal, como vocês aprenderam, com a matriz Blosum62 e as penalidades 12 e 2 para introdução e extensão de gaps. (Quem ainda não aprendeu pode usar o servidor ClustalW usando a opção 'SLOW/ACCURATE' e os mesmos parâmetros indicados acima)

7. Criar uma pasta 'PDB' dentre da sua pasta 'modeller_seu_nome'.

8. Baixar os arquivos de coordenatas .pdb dos templates selecionados e copiar dentre da pasta 'PDB'.

Alinhamentos :

9. Abrir o script salign.py : $vi salign.py

10. Editá-lo com seus dados :

códigos PDB dos templates
caminho dos arquivos .pdb
nomes dos arquivos de saída .pap e .ali

11. Rodar o script no Modeller : $mod9v4 salign.py

12. Colocar a seqüencia target no formato PIR e salvar o arquivo no formato 'nome_da_proteina.ali' na sua pasta

Nota : As seqüencias das proteínas templates estão alinhadas no formato PIR. Usar o mesmo padrão, colocando 'sequence' no lugar de 'structureN' ou 'structureX' para a proteína target. Escolhe o mesmo nome para a proteína nas primeira e segunda linhas.

13. Abrir o script align2d.py : $vi align2d.py

14. Editá-lo com seus dados :

nome do arquivo de alinhamento estrutural dos templates com extensão .ali criado por salign()
nome do arquivo da seqüencia com extensão .ali
nomes dos arquivos de saída .pap e .ali

15. Rodar o script no Modeller : $mod9v4 align2d.py

16. Abrir o alinhamento gerado : $vi nome.ali e no caso, editá-lo.

o alinhamento é otimizado?
os resíduos de cisteina estão bem alinhados?
não há introdução de gaps nas estruturas secundárias preditas para a seqüencia target?

Modelagem :

16. Editar o script model.py com seus dados :

números dos resíduos de cisteina formando as pontes dissulfeto
nome do arquivo de alinhamento final .ali
códigos PDB dos templates
nome da seqüencia target no alinhamento
número de modelos a serem calculados : 5

17. Rodar o script no Modeller : $mod9v4 model.py

Avaliação dos modelos :

18. Abrir cada arquivo .pdb gerado e selecionar o modelo de mais baixo valor de Modeller Objective Function (aproximação da energia da molécula)

19. Submeter o seu modelo para análise por :

Verify3D
1. o email cecile.fleury@cpbs.univ-montp1.fr
2. anotar o score geral e observar o código de cores
3. clicar nos links abaixo e reparar se existem regiões com score baixo
ProSA-web
1. anotar o z-score ('Overall model quality')
2. observar se a estrutura tem características de proteína nativa ('Local model quality')
3. reparar se existem regiões de pior qualidade (= maior energia, vermelho)
Whatif
1. clicar 'Protein analysis' e depois 'Secondary Structure, symmetry and accessibility' para usar o programa DSSP
2. observar se as estruturas secundárias assinadas por DSSP são as mesmas que as previstas
SwissPdbViewer (instalado no computador, atalho na área de trabalho)
1. checkar a estrutura geral
2. checkar os clashes
3. escolher uma opção de visualização que permita enxergar as pontes dissulfeto e as estruturas secundárias

Refinamento :

Provavelmente, o modelo precisará ser refinado :

refinamento do alinhamento, ciclos alinhamento/modelagem/avaliação,
refinamento das alças usando Modeller e um banco de loops.

Visualização :

20. Instalar RasMol e brincar com o seu melhor modelo.

OBRIGADO !