Banco
de dados de transcriptoma
- Contigs
de ESTs:
Uma
maneira de agrupar as ESTs que
correspondem a um mesmo gene é utilizando o programa TGICL
.
Ele imita em parte o protocolo de construção do Unigene, uma base de dados
de agrupamento de ESTs do NCBI, mas a
diferença é que, após agrupar ESTs em um Unigene, ele determina o consenso delas (contig)
com o programa Cap3. É
errado usar o Cap3 diretamente para agrupamento (clustering)
e montagem (assembling) dos contigs, mas isto é tradição no Brasil. Ainda
bem que para conjuntos grandes de dados o Cap3 explode a memória,
exigindo que montadores primeiro formem os agrupamentos e depois os
ofereçam ao Cap3. PHRAP pode ser usado em alternativa a Cap3 como o
software montador (assemblage).
- Crie
um diretório unigene_aula, entre nele e
copie ESTs de aranha
$cp /home/treinamento/unigene_aula/li.est .
{opag}
- Conte
elas $cat li.est | grep “>” –c.
- Certinho?
- Dê
uma limpadinha com seqclean
mas antes de rodar o seqclean prepare
uma base de vetores assim (já temos uma formatada em treinamento):
- Busque
a base de dados de vetores Univec do NCBI
com o comando wget
- $wget
ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
- Formate
o UniVec_Core
pois o seqclean vai rodar um BLAST para
tirar vetor:
- $formatdb –i UniVec_Core (cadê o dedinho???) –p F –o T
- Ok, dê um “ls” ai pra
ver que formatou! (dá um ls, dá-dá um ls...)
- $seqclean li.est –v /home/treinamento/univec/vetor
–o saida. Conte
elas limpas no arquivo saída.
- $cat saida | grep “>” -c
- Crie
um diretório tgicl e copie saída para lá
e entre lá
- $mkdir tgicl $mv saida tgicl $cd tgicl $ls
- Rode
$tgicl –F saída –c 8
(vai demorar um pouco)
- Falei
pra criar um diretório tgicl, vc criou né?
- Examine
cs.est.clean_clusters
Veja que ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
- Conte
quantos clusters foram formados com $cat
cs.est.clean_clusters |
grep “>” –c
- Uma
coisa é uma coisa e outra coisa é outra coisa, agora vamos olhar o
assembling dos clusters em contigs
- Entre
em asm_1 e conte os contigs com $cat contigs | grep “>” –c. Conte também os singlets.
- Perceba
que em alguns casos ele criou Cluster1-contig1, Cluster2-contig2,
por não conseguir juntar com Cap3 ESTs de
um mesmo cluster. Nesse caso vc pode optar por afrouxar as
exigências do Cap3
- Inspecionando
o Unigene na Web
- Tem
txid3483 lá?
Ou o número de ESTs ainda é pequeno?
Para
a casa (duplas, entregar na próxima aula):
- O
Unigene é tb uma fonte organizada de bibliotecas. Na
página inicial, clique em Sacharum officinarum
e explore Library Browser.
- Abra
o registro da biblioteca de meristema Lib
12027. Faça o download das seqüências.
Descarregue tb
uma biblioteca de raiz Lib 12047.
- Abra
a de meristema com vi $vi lib12027, substitua > por
>meristema assim “:%/>/>meristema/g”
e também faça a substituição no caso da raiz
- Junte
ambas com cat lib12027 lib12047 e rode um
TGICL. Inspecione os singlets. Inspecione
tb os clusters
para saber se são mistos.
- Vamos
olhar algum gene? Search: nanog AND Mus musculus [organism] >>> Mm6047
- Tem
muita coisa legal na página de um Unigene mas nada como “Expression
Profile
”
- DDD: Digital Differential
Display by Unigene
e a estorinha do Hs.447330
- SAGE:
Grande
invenção essa de obter uma mini-etiqueta de cada transcrito
pois um linguição de etiquetas é seqüenciado de uma só vez
aumentando a produtividade de etiquetas. SAGE é produzido por uma
clonagem complexa do último sítio de restrição de uma dada
enzima no mRNA e as bases subseqüentes a ele. É fundamental
prender o oligo-dT a uma bolinha, cortar com a dada enzima,
ligar um adaptador a 5’ que é reconhecido por uma enzima de
restrição especial que se liga nele mas corta a 3’ do sítio da
primeira enzima, gerando fragmentos pequenos que são
concatamerizados e seqüenciados em grupo.
- GEO
Plataformas
(GPL) hoje:
·
in
situ oligonucleotide (1374)
·
spotted
oligonucleotide (1182)
·
spotted
DNA/cDNA (1908)
·
antibody
(5)
·
tissue
(0)
·
MS
(11)
·
SARST
(1)
·
MPSS
(12)
·
RT-PCR
(7)
·
oligonucleotide
beads (56)
·
mixed
spotted oligonucleotide/cDNA (6)
·
spotted
protein (4)
·
SAGE
(55)
PLATFORM
GPM
é o sistema manufaturado, que pode ser usado por vários
pesquisadores, com diferentes SAMPLE GSM em diferentes experimentos ou
SERIES GSE. Quando a
curadoria do NCBI tem tempo, cria uma DATASET GDS. Veja
mais
Samples
hoje:
·
RNA
(185296)
·
genomic
(33823)
·
protein
(675)
·
SAGE
(1028)
·
mixed
(1045)
Series e DataSets
·
Procure
em DataSets uma entrada com “Zea mays [organism] AND
developemental stages”
·
Estude
o DataSet GSD4
·
Estude
a plataforma utilizada GPL12
·
Veja
que os dados processados são originários da série GSE141.
Vc pode baixar o arquivo dela (wget) ou se quiser, baixar
os dados de cada sample relacionada na página da série.
·
Vamos
brincar:
·
Clique
no desenho do microarranjo e encontre o botão uncheck all
·
Escolha
FOLHA e marque 4 dias e 8 dias na coluna esquerda = veja que ele
seleciona experimentos da parte de baixo
·
Na
coluna da direita marque 4 dias em A e 8 dias em B, escolha A
< B e a sensibilidade máxima
·
Abra
alguns PROFILES
e avalie. Veja o que significam as barras
e os pontinhos.
·
Vamos
procurar no GEO Browser um DataSet com miRNA? Explore GDS2614.
Buscando
PROFILES
BLAST
GEO
- K-EST
O
lab Biodados tem um serviço (K-EST) que permite a verificação da
expressão medida pelo número de ESTs por
cada 100 mil ESTs. Vc pode navegar pelas categorias
funcionais. Ou pode fazer buscas
(procure enolase). Ou pode fazer um BLAST.
Vamos fazer um BLAST dessas duas
seqüências selecionando a área de CONSERVATION (ela mostra as ESTs
associadas às proteínas KOG do organismo, e também aquelas que
seriam anotadas pelos demais).