Banco de dados de transcriptoma
- Contigs de ESTs: (guia rápido 2011)
Uma maneira de agrupar as ESTs
que correspondem a um mesmo gene é utilizando o programa TGICL. Ele
imita em parte o protocolo de construção do Unigene, uma base de dados de
agrupamento de ESTs do NCBI, mas a diferença é que,
após agrupar ESTs em um Unigene,
ele determina o consenso delas (contig) com o programa Cap3.
É errado usar o Cap3 diretamente para agrupamento (clustering)
e montagem (assembling) dos contigs,
mas isto é tradição no Brasil. Ainda bem que para conjuntos grandes de dados o
Cap3 explode a memória, exigindo que montadores primeiro formem os agrupamentos
e depois os ofereçam ao Cap3. PHRAP pode ser usado em alternativa a Cap3 como o
software montador (assemblage).
- Descarregue as ESTs de
txid3483 (Search: EST for txid3483) na sua máquina Display: FASTA + Send to: File
- Logue na maracatu,. Crie um
diretório aula_unigene $mkdir
aula_unigene e entre nele $cd aula_unigene.
- Mande as ESTs para a
maracatu com SFTP e renomeie como cs.est.
Alternativamente: copie-as (control A control C), abra um arquivo com vi $vi cs.est. Aperte “i” para entrar em insert
mode e com o botão da direita do mouse, cole,
mas tenha fé, um clique basta! E para gravar, use ESC + dois pontos + x!
- Conte elas $cat cs.est | grep “>” –c.
- Certinho?
- Dê uma limpadinha com seqclean mas antes de rodar o seqclean
prepare uma base de vetores assim:
- Busque a base de dados de vetores Univec do NCBI com o comando wget
- $wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
- Formate o UniVec_Core
pois o seqclean vai rodar um BLAST para tirar
vetor:
- $formatdb –i UniVec_Core (cadê o
dedinho???) –p F –o T
- Ok, dê um “ls” ai pra ver que formatou! (dá um ls, dá-dá um ls...)
- $seqclean cs.est –v UniVec_Core
–o saida. Conte elas limpas, o arquivo é cs.est.clean
- $cat
cs.est.clean | grep
“>” -c
- Crie um diretório tgicl
e copie cs.est.clean para lá e entre lá
- $mkdir tgicl $mv cs.est.clean tgicl $cd tgicl $ls
- Rode $tgicl cs.est.clean (vai demorar um pouco)
- Falei pra criar um diretório tgicl,
vc criou né?
- Examine cs.est.clean_clusters Veja que
ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
- Conte quantos clusters foram formados com $cat cs.est.clean_clusters | grep “>” –c
- Uma coisa é uma coisa e outra coisa é outra
coisa, agora vamos olhar o assembling dos
clusters em contigs
- Entre em asm_1 e conte os contigs
com $cat contigs | grep “>” –c. Conte também os singlets.
- Perceba que em alguns casos ele criou
Cluster1-contig1, Cluster2-contig2, por não conseguir juntar com Cap3 ESTs de um mesmo cluster. Nesse caso vc pode optar por
afrouxar as exigências do Cap3
- Inspecionando o Unigene na Web
- Tem txid3483 lá? Ou o
número de ESTs ainda é pequeno?
Para a casa (duplas, entregar na próxima
aula):
- O Unigene é tb uma fonte organizada de bibliotecas. Na página
inicial, clique em Sacharum officinarum
e explore Library Browser.
- Abra o registro da biblioteca de meristema Lib 12027. Faça o download das seqüências. Descarregue
tb uma biblioteca de raiz Lib
12047.
- Abra a de meristema com vi $vi lib12027,
substitua > por >meristema assim “:%/>/>meristema/g”
e também faça a substituição no caso da raiz
- Junte ambas com cat
lib12027 lib12047 e rode um TGICL. Inspecione os singlets.
Inspecione tb os clusters para saber se são
mistos.
- DDD: Digital Differential Display by Unigene e a estorinha do Hs.447330
- SAGE:
Grande
invenção essa de obter uma mini-etiqueta de cada transcrito
pois um linguição de etiquetas é seqüenciado
de uma só vez aumentando a produtividade de etiquetas. SAGE é produzido por uma clonagem complexa do último sítio de restrição
de uma dada enzima no mRNA e
as bases subseqüentes a ele. É fundamental prender o oligo-dT
a uma bolinha, cortar com a dada enzima, ligar um adaptador a 5’ que é reconhecido por uma enzima de restrição especial
que se liga nele mas corta a 3’ do sítio da primeira enzima, gerando fragmentos
pequenos que são concatamerizados e seqüenciados em
grupo.
- GEO
Plataformas (GPL) hoje:
·
in
situ oligonucleotide (1374)
·
spotted
oligonucleotide (1182)
·
spotted
DNA/cDNA (1908)
·
antibody
(5)
·
tissue
(0)
·
MS
(11)
·
SARST
(1)
·
MPSS
(12)
·
RT-PCR
(7)
·
oligonucleotide beads (56)
·
mixed
spotted oligonucleotide/cDNA (6)
·
spotted
protein (4)
·
SAGE
(55)
PLATFORM
GPM é o
sistema manufaturado, que pode ser usado por vários pesquisadores, com
diferentes SAMPLE GSM em diferentes
experimentos ou SERIES GSE. Quando a
curadoria do NCBI tem tempo, cria uma DATASET GDS. Veja mais
Samples hoje:
·
RNA
(185296)
·
genomic
(33823)
·
protein
(675)
·
SAGE
(1028)
·
mixed
(1045)
Series e DataSets
·
Procure
em DataSets uma entrada com
“Zea mays [organism] AND developemental stages”
·
Estude o DataSet GSD4
·
Estude a plataforma utilizada GPL12
·
Veja
que os dados processados são originários da série GSE141.
Vc pode baixar o arquivo dela (wget) ou se quiser, baixar os dados de cada sample relacionada na página da série.
·
Vamos brincar:
·
Clique
no desenho do microarranjo e encontre o botão uncheck all
·
Escolha
FOLHA e marque 4 dias e 8 dias na coluna esquerda =
veja que ele seleciona experimentos da parte de baixo
·
Na
coluna da direita marque 4 dias em A e 8 dias em B,
escolha A < B e a sensibilidade máxima
·
Abra alguns PROFILES
e avalie. Veja o que significam as barras e os pontinhos.
·
Vamos
procurar no GEO Browser um DataSet
com miRNA? Explore GDS2614.
Buscando
PROFILES
BLAST
GEO
- K-EST
O
lab Biodados tem um serviço
(K-EST) que permite a verificação da expressão medida pelo número de ESTs por cada
100 mil ESTs. Vc pode
navegar pelas categorias funcionais.
Ou pode fazer buscas
(procure enolase). Ou pode fazer um BLAST.
Vamos fazer um BLAST dessas duas seqüências
selecionando a área de CONSERVATION (ela
mostra as ESTs associadas às proteínas KOG do
organismo, e também aquelas que seriam anotadas pelos demais).