Agrupamentos
de seqüências e bancos de dados
COG:
Considere dois genomas completos. Um
proteína do genoma A tem seu melhor hit BLAST no genoma B, não importa o
score ou o E-value. Esta
proteína do genoma B, quando alinhada com o genoma A, estabelece um Bidiretional Best Hit (BBH). Elas
só podem ser homólogas!
A fundação de um COG exige um triângulo. A<BBH>C<BBH>B<BBH>A
como garantia extra.
Buscas no COG:
A versão atual tem 66 genomas (chamamos de “genomas”
as espécies, cepas, etc.). A versão antiga tem o COGnitor. Teste!
Uma ferramenta disponível no lab
Biodados permite o BLAST em COG: Protein Classification Tool. Usando a PCT, descubra a qual COG pertence a seqüência teste.
Visitando o COG versão atual,
verifique a categoria funcional M. Verifique a
distribuição do referido
COG. Não é 02/05?
O lab Biodados têm um produto (UECOG) que é o COG
aumentado com clusters UniRef50,
aumentando o número de seqüências e de espécies. Proteínas de genomas
incompletos são incluídas para enriquecer os clusters COG, desde que um membro
COG participe do agrupamento UniRef50. Navegue no UECOG para conhecer o
agrupamento que está sendo analisado.
Eram 11 entradas, agora são 66, todas de proteobactéria.
A página da categoria M
permite descarregar de forma prática os FASTAs.
Em nossa futura lista de exercícios faremos árvores utilizando FASTAs selecionados de alguns COGs (podem ir tentando).
KOG eucarioto:
A versão atual compreende alguns organismos
apenas. Possui um Kognitor. Teste!
A PCT
também faz buscas no KOG. Teste a mesma seqüência acima.
Teste também a anotação GOA que atribui termos Gene Ontology.
O lab Biodados tem um
serviço (K-EST) que permite a verificação da expressão medida pelo número de ESTs por cada 100 mil
ESTs. Vc pode navegar pelas categorias funcionais.
Ou pode fazer buscas
(procure enolase). Ou pode fazer um BLAST. Vamos fazer um
BLAST dessas duas
seqüências selecionando a área de CONSERVATION (ela mostra as ESTs associadas às proteínas
KOG do organismo, e também aquelas que seriam anotadas pelos demais).
Vamos fazer um tutorial do programa Seed Linkage desenvolvido na UFMG:
É um programa do lab
Biodados que permite formar agrupamentos de genes homólogos mas não é preciso
que os organismos tenham genomas completos, nem é necessário fazer o BLAST de todas as proteínas contra todas, ele se
concentra nas que estão sendo agrupadas.
O tutorial nos dará experiência com um banco de dados
local MySQL.
Kegg Pathway:
Pathway tem as relações de vias bioquímicas. Vc tb pode consultar o Atlas (mapa).
Procure em Pathway
informações sobre a via Prostate
câncer (item 5.1)
Que tal verificar sistema de reparo de mismatch? Quer os genes humanos? Simples, troque em
cima por Homo
sapiens e olhe para a direita.
Ah quer Corynebacterium diphtheriae?
Então olhe o lado esquerdo!
Mas que tal Trichomonas vaginalis? Quem
é essa cara do lado esquerdo?
Kegg BRITE:
BRITE
grupa por razões diferentes: Ortologia, Famílias,
Compostos, etc.
Kegg Orthology:
Navegue pelos agrupamentos de genes homólogos por
categorias. Que tal encontrar receptores
Toll?
KEGG
Orthology (KO) [BR:ko00001]
01400 Cellular Processes
01460 Immune System
04620 Toll-like receptor signaling
pathway [PATH:ko04620]
K05398 TLR1; toll-like receptor 1
Agrupa ortólogos e parálogos. Em nossa futura lista faremos uma abordagem
prática buscando uma via e analisando sua expressão em bibliotecas de cDNA diferentes.
Kegg Services:
Vc pode agrupar ESTs com EGassembler e
anota-las com KAAS.
Faremos isso em aulas futuras.