Banco de dados de transcriptoma
- Contigs de ESTs:
Uma maneira de agrupar as ESTs que correspondem a um mesmo gene é utilizando o
programa TGICL. Ele imita em parte o protocolo de construção do Unigene, uma base de dados de
agrupamento de ESTs do NCBI,
mas a diferença é que, após agrupar ESTs em um Unigene, ele determina o consenso delas (contig) com o
programa Cap3.
É errado usar o Cap3 diretamente
para agrupamento (clustering) e montagem (assembling) dos contigs,
mas isto é tradição no Brasil. Ainda bem que para conjuntos grandes de dados o Cap3 explode a memória, exigindo que montadores primeiro
formem os agrupamentos e depois os ofereçam ao Cap3.
PHRAP pode ser usado em alternativa a Cap3 como o
software montador (assemblage).
- Descarregue as ESTs
de txid3483 (Search:
EST for txid3483) na sua máquina Display: FASTA
+ Send to: File
- Logue na maracatu,. Crie um diretório aula_unigene
$mkdir aula_unigene e
entre nele $cd aula_unigene.
- Mande as ESTs
para a maracatu com SFTP e renomeie como cs.est.
Alternativamente: copie-as (control A control C), abra um arquivo com vi $vi cs.est.
Aperte “i” para entrar em insert mode e com o botão da direita do mouse, cole, mas
tenha fé, um clique basta! E para gravar, use ESC + dois pontos + x!
- Conte elas $cat cs.est | grep “>” –c.
- Certinho?
- Dê uma limpadinha com seqclean
mas antes de rodar o seqclean prepare uma
base de vetores assim:
- Busque a base de dados de vetores Univec
do NCBI com o comando wget
- $wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
- Formate o UniVec_Core
pois o seqclean vai rodar um BLAST para tirar
vetor:
- $formatdb –i UniVec_Core (cadê o dedinho???) –p F –o T
- Ok, dê um “ls” ai pra ver que
formatou! (dá um ls, dá-dá um ls...)
- $seqclean cs.est –v UniVec_Core
–o saida. Conte elas
limpas, o arquivo é cs.est.clean
- $cat
cs.est.clean | grep
“>” -c
- Crie um diretório tgicl e copie cs.est.clean para lá e entre lá
- $mkdir tgicl $mv cs.est.clean
tgicl $cd tgicl $ls
- Rode $tgicl cs.est.clean (vai demorar um pouco)
- Falei pra criar um diretório tgicl, vc
criou né?
- Examine cs.est.clean_clusters
Veja que ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
- Conte quantos clusters foram formados com $cat
cs.est.clean_clusters | grep “>” –c
- Uma coisa é uma coisa e outra coisa é outra coisa, agora vamos olhar
o assembling dos clusters em contigs
- Entre em asm_1 e conte os contigs com $cat contigs | grep “>” –c.
Conte também os singlets.
- Perceba que em alguns casos ele criou Cluster1-contig1,
Cluster2-contig2, por não conseguir juntar com Cap3 ESTs
de um mesmo cluster. Nesse caso vc pode optar por afrouxar as exigências
do Cap3
- Inspecionando
o Unigene na Web
- Tem txid3483 lá? Ou o
número de ESTs ainda é
pequeno?
Para a
casa (duplas, entregar na próxima aula):
- O Unigene é tb uma fonte organizada de bibliotecas. Na página
inicial, clique em Sacharum officinarum
e explore Library Browser.
- Abra o registro da biblioteca de meristema Lib 12027. Faça o download
das seqüências. Descarregue tb uma biblioteca de
raiz Lib 12047.
- Abra a de meristema com vi $vi lib12027, substitua > por >meristema assim “:%/>/>meristema/g” e
também faça a substituição no caso da raiz
- Junte ambas com cat lib12027 lib12047 e rode um
TGICL. Inspecione os singlets. Inspecione tb os clusters para saber se são mistos.
- Vamos olhar algum gene? Search: nanog
AND Mus musculus
[organism] >>> Mm6047
- Tem muita coisa legal na página de um Unigene
mas nada como “Expression Profile”
- Compare com o Unigene humano Hs.544577. Olhe em adult
quantas ESTs há por cada
milhão!
- Uma maneira de encontrar o Unigene é via
BLAST na web. Faça um BLAST no NCBI desta EST e
descubra o Unigene dela (Hs.2)
- DDD:
Digital Differential Display by Unigene e a
estorinha do Hs.447330
- Selecione Homo sapiens e
aperte o botão [Continue]
- Edite new pool para BRAIN e selecione
todas as entradas de brain. Clique [Continue]
- Agora edite o pool B para HEART e selecione todas as bibliotecas de
HEART e [Continue]
- Verifique a expressão diferencial dos primeiros clusters (clique
nele e dentro de seu ”report” clique em Expression Profile)
- SAGE:
Grande invenção essa de obter uma mini-etiqueta de
cada transcrito pois um linguição
de etiquetas é seqüenciado de uma só vez aumentando a produtividade de
etiquetas. SAGE é produzido por uma clonagem complexa do último sítio
de restrição de uma dada enzima no mRNA
e as bases subseqüentes a ele. É fundamental prender o oligo-dT a uma bolinha, cortar com a dada enzima, ligar um
adaptador a 5’ que é reconhecido por uma enzima de restrição especial que se
liga nele mas corta a 3’ do sítio da primeira enzima, gerando fragmentos
pequenos que são concatamerizados e seqüenciados em
grupo.
- Entre em SAGE
Anatomic Viewer
- Entre com o gene symbol da catalase "CAT" e veja a tag
para catalase, mapeada em 3 fontes diferentes.
- Outra possibilidade é entrar com o identificador Unigene, exemplo Hs.25647
- Clique no hominho e nos outros símbolos e verifique a expressão
diferencial em tecido normal e tumoral.
- SAGE Anatomic Viewer
tb tem um Digital Northern (DN). Clique e veja.
- Qual o número de Tags normal para a catalase? Compare com a contagem
feita pelo Unigene.
- É possível também, similarmente ao DDD, comparar a freqüência de SAGE
Tags e fazer download
das Tags.
- GEO
Plataformas (GPL) hoje:
· in situ oligonucleotide
(1374)
· spotted oligonucleotide (1182)
· spotted
DNA/cDNA (1908)
· antibody
(5)
· tissue
(0)
· MS (11)
· SARST (1)
· MPSS (12)
· RT-PCR
(7)
· oligonucleotide beads
(56)
· mixed
spotted oligonucleotide/cDNA
(6)
· spotted protein (4)
· SAGE (55)
- Entre
no GEO Browser e encontre uma plataforma para milho (Zea
mays) comercial da
empresa Affymetrix
- Depois
encontre alguma plataforma comercial com miRNA no título. Leia a descrição das GPL e descubra quais séries GSE foram feitas
com elas.
PLATFORM GPM é o sistema
manufaturado, que pode ser usado por vários pesquisadores, com diferentes
SAMPLE GSM em diferentes experimentos
ou SERIES GSE. Quando a curadoria
do NCBI tem tempo, cria uma DATASET GDS. Veja mais
Samples hoje:
· RNA
(185296)
· genomic (33823)
· protein (675)
· SAGE
(1028)
· mixed (1045)
Series e DataSets
·
Procure em DataSets uma entrada com “Zea mays
[organism] AND developemental stages”
·
Estude o DataSet GSD4
·
Estude a plataforma utilizada GPL12
·
Veja que os dados processados são originários da série
GSE141. Vc pode baixar o arquivo dela (wget) ou se quiser, baixar os
dados de cada sample
relacionada na página da série.
·
Vamos brincar:
·
Clique no desenho do microarranjo e encontre o botão uncheck all
·
Escolha FOLHA e marque 4 dias
e 8 dias na coluna esquerda = veja que ele seleciona experimentos da parte de
baixo
·
Na coluna da direita marque 4
dias em A e 8 dias em B, escolha A < B e a
sensibilidade máxima
·
Abra alguns PROFILES e avalie. Veja o que significam as barras e os pontinhos.
·
Vamos procurar no GEO Browser um DataSet com miRNA? Explore GDS2614.
Buscando PROFILES
- Busque
em profiles “nanog AND 1-cell” e explore o DataSet
GDS813. Adicionando “AND nanog” vc chega ao profile.
BLAST GEO
- K-EST
O lab
Biodados tem um serviço (K-EST) que permite a verificação da expressão medida
pelo número de ESTs por cada 100 mil ESTs. Vc
pode navegar pelas categorias funcionais. Ou pode fazer buscas (procure enolase). Ou pode fazer um BLAST. Vamos
fazer um BLAST dessas duas seqüências selecionando a área de CONSERVATION (ela mostra as ESTs
associadas às proteínas KOG do organismo, e também aquelas que seriam anotadas
pelos demais).