14/08 – Acesso remoto a servidores e introdução ao linux (M)

Banco de dados de seqüências e busca de homólogos

1. BLAST no NCBI http://www.ncbi.nlm.nih.gov/

Clique em BLAST e em nucleotide BLAST

Mude para Others (nr etc) – acham que todo mundo só analisa humanos?

Mude para Somewhat similar sequences (blastn)

MEGABLAST é uma versão “gulosa” que deve ser usada para por exemplo identificar uma seqüência humana no genoma humano (biblioteca subtrativa), muito mais rápida que BLAST tradicional.

A versão “descontínua” do MEGABLAST utiliza uma janela de início de alinhamento (Seed) banguela na terceira posição para favorecer início do alinhamento qdo códons variando na terceira base ocorrem (organismos diferentes).

Digite 5 linhas de actg aleatórias no formato fasta como abaixo. Run BLAST. Vamos ver quem consegue um valor de E-value pequeno?

>seunome

acgatcgatcgatcgatcgatcgtagctacgtacg....

Funcionamento do alinhador local:

Fragmenta sua seqüência (denominada query) em pedaços de tamanho W, criando Seeds (os pedaços).

Encontra na database os match perfeitos da Seed. A Seed não pode ser muito pequena para não iniciar pesquisas demais.

Algoritmo de máxima subseqüência, andando para as extremidades

Pontuação segundo uma matriz de pontuação (exemplo BLOSUM62) para cada base na vizinhança que for alinhando.

Descontos para mismatch e para abrir e estender gaps.

Pára qdo estender mais “não compensar”, logo, determina a máxima subseqüência alvo (subject) que retorna o maior escore dentro da database. Não é a melhor maneira de avaliar similaridades! Visa detectar a seqüência mais similar baseado em subseqüência máxima (alinhamento local) e isso é rápido.

O assunto homologia aparece com o que se segue - “o cálculo de E-value”: quantos alinhamentos iguais ou melhores que este que vc observa poderiam ser obtidos sem nenhuma relação de homologia entre as seqüências ai alinhadas? Se for um número improvável, vc pode resolver desconsiderar a hipótese nula (não homologia) não pode?

Formatdb

BLAST necessita de databases formatadas. Vc pode baixar algumas já formatadas aqui.

As sequencias tumor.seq que vc viu estão formatadas como uma database do BLAST

$formatdb –i tumor.seq –p F –o T

Veja ai em cima: -i = input ; -p F responde à pergunta proteína? Falso; -o T indexa dados como [organismo] que aparecem no Fasta

Aprendendo sobre modalidades de BLAST nesse tutorial

Analisando transcriptoma do tumor:

BLAST: $blastall –p programa –i sequencias –d base –e 1e10 –F F –b 1 –a 4 –m 8 –o saida_m8 &

p=programa: tblastn, blastx, blastn, tblastx, etc.

i=entrada: query

d=database: tem que estar formatada com formatdb

e=E-value: o número de alinhamentos iguais ou melhores que podem ser obtidos sem homologia. Ele só imprimirá se for menor que o valor entrado.

F: low complexity filter, desligue se quiser que a low complexity compute no escore, use qdo suspeitar de repetições afetando anotação.

b: o número de alinhamentos reportados para cada query

a: número de processadores, use –a 4 na maracatu Quad Core

m: é o tipo de saída, teste –m 8 e –m 9. Não use –m qdo quiser a saída normal.

o: é o nome que vc quer para a saída

&: manda o job para o background

Quando acabar de colocar pra rodar, de um “top” para acompanhar o uso da máquina.

Copie algumas sequencias para a sua pasta blast_aula

$cp /home/bacharelado/blast_aula/FASTAS/* .

edite com vi a primeira linha deixando somente o gene name

“i’ para entrar em edição e ESC, : , x! para salvar.

$blastall –p blastn –i myc –d /home/treinamento/blast_aula/454data/tumor;seq –e 1e-10 –F F –b 1000000000 –a 8 –o saída_normal &

$blastall –p blastn –i myc –d /home/treinamento/blast_aula/454data/tumor;seq –e 1e-10 –F F –b 1000000000 –a 8 –m 8 –o saida_m8 &

Agora pesquise a presença de p53

Utilize as sequencias de aminoácidos e BLAST traduzido tBLASTn