Banco de dados de seqüências e busca de similaridade
1.
BLAST no NCBI http://www.ncbi.nlm.nih.gov/
Clique em BLAST e em nucleotide BLAST
Mude para Others (nr etc) – acham que todo mundo só analisa humanos?
Mude para Somewhat similar
sequences (blastn)
MEGABLAST é uma versão “gulosa” que deve ser usada
para por exemplo identificar uma seqüência
humana no genoma humano (biblioteca subtrativa), muito mais rápida que BLAST
tradicional.
A versão “descontínua” do MEGABLAST utiliza uma janela de início
de alinhamento (Seed) banguela na terceira posição
para favorecer início do alinhamento qdo códons variando na terceira base ocorrem (organismos
diferentes).
Digite 5 linhas de actg
aleatórias no formato fasta como abaixo.
Run BLAST. Vamos ver quem consegue um valor de E-value pequeno?
>seunome
acgatcgatcgatcgatcgatcgtagctacgtacg....
Funcionamento do alinhador
local:
Fragmenta sua seqüência (denominada query) em pedaços de tamanho W, criando Seeds
(os pedaços).
Encontra na database os match
perfeitos da Seed. A Seed não pode ser muito
pequena para não iniciar pesquisas demais.
Algoritmo de máxima subseqüência, andando para as
extremidades
Pontuação segundo uma matriz de pontuação (exemplo
BLOSUM62) para cada base na vizinhança que for alinhando.
Descontos para mismatch e para abrir e estender gaps.
Pára qdo estender mais “não
compensar”, logo, determina a máxima subseqüência alvo (subject) que retorna o maior escore
dentro da database. Não é a melhor maneira de avaliar similaridades! Visa
detectar a seqüência mais similar baseado em subseqüência máxima (alinhamento
local) e isso é rápido.
O assunto homologia aparece com o que se segue - “o cálculo de E-value”:
quantos alinhamentos iguais ou melhores que este que vc
observa poderiam ser obtidos sem nenhuma relação de homologia entre as seqüências
ai alinhadas? Se for um número improvável, vc pode resolver
desconsiderar a hipótese nula (não homologia) não pode?
Seqclean usa BLAST
Vamos formatar os vetores da aula passada (aula_phred) para rodar o seqclean, que executa um BLAST
$formatdb –i vetores –p F –o
T (veja significado abaixo)
Volte para edit_dir e rode o
seqclean $seqclean saida_20
-v ../vetor/vetores -o saida_seqclean
Compare saída_seqclean com *screen que foi a sua saída de cross_match.
Melhor assim?
Copie cada seqüência de uma vez e rode um BLASTn para tentar identificar E06.esd e E02.esd. Clonaram por subtração esse cara duas vezes??
Explore a coluna score,
clique nela, olhe o E-value
Formatdb
BLAST necessita de databases formatadas. Vc pode baixar algumas já formatadas aqui.
Veja ai em cima: -i = input ; -p F responde à pergunta proteína? Falso; -o T indexa dados como [organismo] que
aparecem no Fasta
O melhor de todos os comandos: grep
$ls /home/bacharelado/blast
$more /home/bacharelado/blast/hsa.ORESTES (aperte “q”
para sair)
$cat /home/bacharelado/blast/hsa.ORESTES
| grep “>” | more
$cat /home/bacharelado/blast/hsa.ORESTES
| grep “>” –c
Pronto agora vc sabe contar
seqüências num arquivo!
Analisando ORESTES:
BLAST: $blastall
–p programa –i sequencias –d base –e 1e10 –F F –b 1 –a 4 –m 8 –o saida_m8 &
p=programa: tblastn, blastx, blastn, tblastx, etc.
i=entrada: query
d=database: tem que estar formatada com formatdb
e=E-value: o número de alinhamentos iguais ou
melhores que podem ser obtidos sem homologia. Ele só imprimirá se for menor que
o valor entrado.
F: low complexity
filter, desligue se quiser que a low
complexity compute no escore, use qdo
suspeitar de repetições afetando anotação.
b: o número de alinhamentos reportados para cada query
a: número de processadores, use –a
4 na maracatu Quad Core
m: é o tipo de saída, teste –m 8 e –m 9. Não use –m qdo quiser a saída normal.
o: é o nome que vc quer para a saída
&: manda o job para o
background
Quando acabar de colocar pra rodar, de um “top” para acompanhar o uso da máquina.
Copie $ /home/bacharelado/aldolase.cds
a aldolase para sua pasta aula_blast
e edite com vi aprimeira linha deixando somente ALDOA
$vi aldolase.hsa; use “i’
para entrar em edição e ESC, : , x! para salvar.
$blastall –p blastn –i aldolase.hsa –d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b 1000000000 –a 4 –o saída_normal
&
$blastall –p blastn –i aldolase.hsa –d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b 1000000000 –a 4 –m 8 –o saida_m8 &
Compare as duas saídas.
$cat saída_m8 | awk ‘{print $2}’ | sort | uniq | wc
Analisando a glicólise e
aprendendo awk
$blastall –p tblastn –i /home/treinamento/db/hsa.glicolise
–d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b
1000000000 –a 4 –m 8 –o saida_m8_glicolise &
$cat saída_m8_glicolise | awk ‘{print $1}’ | sort | uniq –c | more
cat pega o conteúdo do arquivo e coloca na memória, ou na
tela se preferir
awk é um programa que admite condição após a primeira
aspa simples e ação dentro das chaves
experimente $cat saída_m8_glicolise
| awk ‘$3 >= 90 {print
$0} | more
sort classifica os dados em ordem; uniq
reduz a redundância mostrando uma linha só uma vez, com a opção –c ele conta os
repetidos
interpretação: conseguimos contar quantos hits as proteínas
da glicólise têm numa coleção de 900 mil seqüências
ORESTES.
Bases à disposição
$ls /home/treinamento/db
Uniprot é uma base de proteínas produzida pelo consórcio
com o mesmo nome
nr é a base de proteínas do NCBI