Agrupamentos de seqüências e bancos de dados

 

COG:

 

*        Considere dois genomas completos. Um proteína do genoma A tem seu melhor hit BLAST no genoma B, não importa o score ou o E-value. Esta proteína do genoma B, quando alinhada com o genoma A, estabelece um Bidiretional Best Hit (BBH). Elas só podem ser homólogas!

*        A fundação de um COG exige um triângulo. A<BBH>C<BBH>B<BBH>A como garantia extra.

 

Buscas no COG:

 

*        A versão atual tem 66 genomas (chamamos de “genomas” as espécies, cepas, etc.). A versão antiga tem o COGnitor. Teste!

*        Uma ferramenta disponível no lab Biodados permite o BLAST em COG: Protein Classification Tool. Usando a PCT, descubra a qual COG pertence a seqüência teste.

*        Visitando o COG versão atual, verifique a categoria funcional M. Verifique a distribuição do referido COG. Não é 02/05?

*        O lab Biodados têm um produto (UECOG) que é o COG aumentado com clusters UniRef50, aumentando o número de seqüências e de espécies. Proteínas de genomas incompletos são incluídas para enriquecer os clusters COG, desde que um membro COG participe do agrupamento UniRef50. Navegue no UECOG para conhecer o agrupamento que está sendo analisado. Eram 11 entradas, agora são 66, todas de proteobactéria. A página da categoria M permite descarregar de forma prática os FASTAs.

*        Em nossa futura lista de exercícios faremos árvores utilizando FASTAs selecionados de alguns COGs (podem ir tentando).

 

 KOG eucarioto:

 

*        A versão atual  compreende alguns organismos apenas. Possui um Kognitor. Teste!

*        A PCT também faz buscas no KOG. Teste a mesma seqüência acima. Teste também a anotação GOA que atribui termos Gene Ontology.

*        O lab Biodados tem um serviço (K-EST) que permite a verificação da expressão medida pelo número de ESTs por cada 100 mil ESTs. Vc pode navegar pelas categorias funcionais. Ou pode fazer buscas (procure enolase). Ou pode fazer um BLAST. Vamos fazer um BLAST dessas duas seqüências selecionando a área de CONSERVATION (ela mostra as ESTs associadas às proteínas KOG do organismo, e também aquelas que seriam anotadas pelos demais).

 

Vamos fazer um tutorial do programa Seed Linkage desenvolvido na UFMG:

 

*        É um programa do lab Biodados que permite formar agrupamentos de genes homólogos mas não é preciso que os organismos tenham genomas completos, nem é necessário fazer o BLAST de todas as proteínas contra todas, ele se concentra nas que estão sendo agrupadas.

*        O tutorial nos dará experiência com um banco de dados local MySQL.

 

Kegg Pathway:

 

*        Pathway tem as relações de vias bioquímicas. Vc tb pode consultar o Atlas (mapa).

*        Procure em Pathway informações sobre a via Prostate câncer (item 5.1)

*        Que tal verificar sistema de reparo de mismatch? Quer os genes humanos? Simples, troque em cima por Homo sapiens e olhe para a direita.

*        Ah quer Corynebacterium diphtheriae? Então olhe o lado esquerdo!

*        Mas que tal Trichomonas vaginalis? Quem é essa cara do lado esquerdo?

 

Kegg BRITE:

 

*        BRITE grupa por razões diferentes: Ortologia, Famílias, Compostos, etc.

 

Kegg Orthology:

 

*        Navegue pelos agrupamentos de genes homólogos por categorias. Que tal encontrar receptores Toll?

 

KEGG Orthology (KO) [BR:ko00001]

  01400 Cellular Processes

    01460 Immune System

      04620 Toll-like receptor signaling pathway [PATH:ko04620]

        K05398  TLR1; toll-like receptor 1

 

*        Agrupa ortólogos e parálogos. Em nossa futura lista faremos uma abordagem prática buscando uma via e analisando sua expressão em bibliotecas de cDNA diferentes.

 

Kegg Services:

 

*        Vc pode agrupar ESTs com EGassembler e anota-las com KAAS. Faremos isso em aulas futuras.