Banco de dados de seqüências e busca de similaridade

 

1. BLAST no NCBI http://www.ncbi.nlm.nih.gov/

 

*        Clique em BLAST e em nucleotide BLAST

*        Mude para Others (nr etc) – acham que todo mundo só analisa humanos?

*        Mude para Somewhat similar sequences (blastn)

*        MEGABLAST é uma versão “gulosa” que deve ser usada para por exemplo identificar uma seqüência humana no genoma humano (biblioteca subtrativa), muito mais rápida que BLAST tradicional.

*        A versão “descontínua”  do MEGABLAST utiliza uma janela de início de alinhamento (Seed) banguela na terceira posição para favorecer início do alinhamento qdo códons variando na terceira base ocorrem (organismos diferentes).

*        Digite 5 linhas de actg aleatórias no formato fasta como abaixo. Run BLAST. Vamos ver quem consegue um valor de E-value pequeno?

>seunome

acgatcgatcgatcgatcgatcgtagctacgtacg....

 

*        Funcionamento do alinhador local:

*        Fragmenta sua seqüência (denominada query) em pedaços de tamanho W, criando Seeds (os pedaços).

*        Encontra na database os match perfeitos da Seed. A Seed não pode ser muito pequena para não iniciar pesquisas demais.

*        Algoritmo de máxima subseqüência, andando para as extremidades

*        Pontuação segundo uma matriz de pontuação (exemplo BLOSUM62) para cada base na vizinhança que for alinhando.

*        Descontos para mismatch e para abrir e estender gaps.

*        Pára qdo estender mais “não compensar”, logo, determina a máxima subseqüência alvo (subject) que retorna o maior escore dentro da database. Não é a melhor maneira de avaliar similaridades! Visa detectar a seqüência mais similar baseado em subseqüência máxima (alinhamento local) e isso é rápido.

*        O assunto homologia aparece com o que se segue - “o cálculo de E-value”: quantos alinhamentos iguais ou melhores que este que vc observa poderiam ser obtidos sem nenhuma relação de homologia entre as seqüências ai alinhadas? Se for um número improvável, vc pode resolver desconsiderar a hipótese nula (não homologia) não pode?

 

*        Seqclean usa BLAST

*        Vamos formatar os vetores da aula passada (aula_phred) para rodar o seqclean, que executa um BLAST

*        $formatdb –i vetores –p F –o T (veja significado abaixo)

*        Volte para edit_dir e rode o seqclean $seqclean saida_20 -v ../vetor/vetores -o saida_seqclean

*        Compare saída_seqclean com *screen que foi a sua saída de cross_match. Melhor assim?

*        Copie cada seqüência de uma vez e rode um BLASTn para tentar identificar E06.esd e E02.esd. Clonaram por subtração esse cara duas vezes??

*        Explore a coluna score, clique nela, olhe o E-value

 

*        Formatdb

*        BLAST necessita de databases formatadas. Vc pode baixar algumas já formatadas aqui.

*        Veja ai em cima: -i = input ;  -p F responde à pergunta proteína? Falso;   -o T indexa dados como [organismo] que aparecem no Fasta

 

*        O melhor de todos os comandos: grep

*        $ls /home/bacharelado/blast

*        $more /home/bacharelado/blast/hsa.ORESTES (aperte “q” para sair)

*        $cat /home/bacharelado/blast/hsa.ORESTES | grep “>” | more

*        $cat /home/bacharelado/blast/hsa.ORESTES | grep “>” –c

*        Pronto agora vc sabe contar seqüências num arquivo!

 

*        Analisando ORESTES:

 

*        BLAST: $blastall –p programa –i sequencias –d base –e 1e10 –F F –b 1 –a 4 –m 8 –o saida_m8 &

*        p=programa: tblastn, blastx, blastn, tblastx, etc.

*        i=entrada: query

*        d=database: tem que estar formatada com formatdb

*        e=E-value: o número de alinhamentos iguais ou melhores que podem ser obtidos sem homologia. Ele só imprimirá se for menor que o valor entrado.

*        F: low complexity filter, desligue se quiser que a low complexity compute no escore, use qdo suspeitar de repetições afetando anotação.

*        b: o número de alinhamentos reportados para cada query

*        a:  número de processadores, use –a 4 na maracatu Quad Core

*        m: é o tipo de saída, teste –m 8 e –m 9. Não use –m qdo quiser a saída normal.

*        o: é o nome que vc quer para a saída

*        &: manda o job para o background

*        Quando acabar de colocar pra rodar, de um “top” para acompanhar o uso da máquina.

*        Copie $ /home/bacharelado/aldolase.cds a aldolase para sua pasta aula_blast e edite com vi aprimeira linha deixando somente ALDOA $vi aldolase.hsa; use “i’ para entrar em edição e ESC, : , x! para salvar.

 

$blastall –p blastn –i aldolase.hsa –d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b 1000000000 –a 4 –o saída_normal &

$blastall –p blastn –i aldolase.hsa –d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b 1000000000 –a 4 –m 8 –o saida_m8 &

 

*        Compare as duas saídas.

*        $cat saída_m8 | awk ‘{print $2}’ | sort | uniq | wc

 

*        Analisando a glicólise e aprendendo awk

 

$blastall –p tblastn –i /home/treinamento/db/hsa.glicolise –d /home/treinamento/db/hsa.ORESTES –e 1e-10 –F F –b 1000000000 –a 4 –m 8 –o saida_m8_glicolise &

$cat saída_m8_glicolise | awk ‘{print $1}’ | sort | uniq –c | more

*        cat pega o conteúdo do arquivo e coloca na memória, ou na tela se preferir

*        awk é um programa que admite condição após a primeira aspa simples e ação dentro das chaves

*        experimente $cat saída_m8_glicolise | awk ‘$3 >= 90 {print $0} | more

*        sort classifica os dados em ordem; uniq reduz a redundância mostrando uma linha só uma vez, com a opção –c ele conta os repetidos

*        interpretação: conseguimos contar quantos hits as proteínas da glicólise têm numa coleção de 900 mil seqüências ORESTES.

 

*        Bases à disposição

*        $ls /home/treinamento/db

*        Uniprot é uma base de proteínas produzida pelo consórcio com o mesmo nome

*        nr é a base de proteínas do NCBI