Banco
de dados de seqüências e busca de homólogos
1.
BLAST no NCBI http://www.ncbi.nlm.nih.gov/
Clique
em BLAST e em nucleotide
BLAST
Mude
para Others
(nr etc)
– acham que todo mundo só analisa humanos?
Mude
para Somewhat
similar sequences (blastn)
MEGABLAST
é uma versão “gulosa” que deve ser usada para
por exemplo identificar uma
seqüência
humana no genoma humano
(biblioteca subtrativa), muito mais rápida que BLAST tradicional.
A
versão “descontínua” do MEGABLAST utiliza uma janela
de início de alinhamento (Seed) banguela
na terceira posição para favorecer início do alinhamento qdo códons variando na terceira base ocorrem
(organismos diferentes).
Digite
5 linhas de actg
aleatórias no formato
fasta
como abaixo. Run BLAST. Vamos ver quem
consegue um valor de E-value pequeno?
>seunome
acgatcgatcgatcgatcgatcgtagctacgtacg....
Funcionamento
do alinhador local:
Fragmenta
sua seqüência (denominada query) em pedaços de tamanho W, criando Seeds (os pedaços).
Encontra
na database os match
perfeitos
da Seed. A Seed
não pode ser muito pequena para não iniciar pesquisas demais.
Algoritmo
de máxima subseqüência, andando para as extremidades
Pontuação
segundo uma matriz de pontuação (exemplo BLOSUM62) para cada base na
vizinhança que for alinhando.
Descontos
para mismatch
e para abrir
e estender
gaps.
Pára
qdo estender mais “não compensar”, logo,
determina a
máxima
subseqüência
alvo (subject) que retorna o maior escore
dentro da database. Não é a melhor maneira de avaliar similaridades!
Visa detectar a seqüência mais similar baseado em subseqüência
máxima (alinhamento local) e isso é rápido.
O
assunto homologia
aparece com o que se segue - “o cálculo de E-value”:
quantos alinhamentos iguais ou melhores que este que vc observa poderiam ser obtidos
sem nenhuma relação de homologia entre as seqüências ai alinhadas?
Se for um número improvável, vc pode
resolver desconsiderar a hipótese nula (não homologia) não pode?
Formatdb
BLAST
necessita de databases formatadas. Vc pode
baixar algumas já formatadas aqui.
As
sequencias tumor.seq
que vc viu estão formatadas como uma
database do BLAST
$formatdb –i tumor.seq –p F –o T
Veja
ai em cima: -i = input ; -p F responde à pergunta
proteína? Falso; -o T indexa dados como
[organismo] que aparecem no Fasta
Aprendendo
sobre modalidades de BLAST nesse tutorial
Analisando
transcriptoma do tumor:
BLAST:
$blastall –p programa –i sequencias –d
base –e 1e10 –F F –b 1 –a 4 –m 8 –o
saida_m8 &
p=programa:
tblastn, blastx,
blastn, tblastx,
etc.
i=entrada:
query
d=database:
tem que estar formatada com formatdb
e=E-value: o número de alinhamentos iguais ou
melhores que podem ser obtidos sem homologia. Ele só imprimirá se
for menor que o valor entrado.
F:
low complexity filter, desligue se quiser que a low complexity compute
no escore, use qdo suspeitar de repetições
afetando anotação.
b:
o número de alinhamentos reportados para cada query
a: número de processadores, use –a 4
na maracatu Quad Core
m:
é o tipo de saída, teste –m 8 e –m 9. Não
use –m qdo quiser a saída normal.
o:
é o nome que vc quer para a saída
&:
manda o job para o background
Quando
acabar de colocar pra rodar, de um “top” para acompanhar o uso da
máquina.
Copie
algumas sequencias para a sua pasta blast_aula
$cp /home/bacharelado/blast_aula/FASTAS/* .
edite
com vi a primeira linha deixando somente o gene name
“i’
para entrar em edição e ESC, : , x! para
salvar.
$blastall –p blastn –i
myc –d /home/treinamento/blast_aula/454data/tumor;seq –e 1e-10 –F F –b 1000000000 –a 8 –o saída_normal &
$blastall –p blastn –i
myc –d /home/treinamento/blast_aula/454data/tumor;seq –e 1e-10 –F F –b 1000000000 –a 8
–m
8 –o saida_m8
&
Agora
pesquise a presença de p53
Utilize
as sequencias de aminoácidos e BLAST traduzido tBLASTn