14/08 – Acesso remoto a servidores e introdução ao linux (M)

Banco de dados de transcriptoma

Contigs de ESTs:

Uma maneira de agrupar as ESTs que correspondem a um mesmo gene é utilizando o programa TGICL. Ele imita em parte o protocolo de construção do Unigene, uma base de dados de agrupamento de ESTs do NCBI, mas a diferença é que, após agrupar ESTs em um Unigene, ele determina o consenso delas (contig) com o programa Cap3. É errado usar o Cap3 diretamente para agrupamento (clustering) e montagem (assembling) dos contigs, mas isto é tradição no Brasil. Ainda bem que para conjuntos grandes de dados o Cap3 explode a memória, exigindo que montadores primeiro formem os agrupamentos e depois os ofereçam ao Cap3. PHRAP pode ser usado em alternativa a Cap3 como o software montador (assemblage).

Descarregue as ESTs de txid3483 (Search: EST for txid3483) na sua máquina Display: FASTA + Send to: File
Logue na maracatu,. Crie um diretório aula_unigene $mkdir aula_unigene e entre nele $cd aula_unigene.
Mande as ESTs para a maracatu com SFTP e renomeie como cs.est. Alternativamente: copie-as (control A control C), abra um arquivo com vi $vi cs.est. Aperte “i” para entrar em insert mode e com o botão da direita do mouse, cole, mas tenha fé, um clique basta! E para gravar, use ESC + dois pontos + x!
Conte elas $cat cs.est | grep “>” –c.
Certinho?

Dê uma limpadinha com seqclean mas antes de rodar o seqclean prepare uma base de vetores assim:
Busque a base de dados de vetores Univec do NCBI com o comando wget
$wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
Formate o UniVec_Core pois o seqclean vai rodar um BLAST para tirar vetor:
$formatdb –i UniVec_Core (cadê o dedinho???) –p F –o T
Ok, dê um “ls” ai pra ver que formatou! (dá um ls, dá-dá um ls...)

$seqclean cs.est –v UniVec_Core –o saida. Conte elas limpas, o arquivo é cs.est.clean
$cat cs.est.clean | grep “>” -c
Crie um diretório tgicl e copie cs.est.clean para lá e entre lá
$mkdir tgicl $mv cs.est.clean tgicl $cd tgicl $ls
Rode $tgicl cs.est.clean (vai demorar um pouco)
Falei pra criar um diretório tgicl, vc criou né?
Examine cs.est.clean_clusters Veja que ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
Conte quantos clusters foram formados com $cat cs.est.clean_clusters | grep “>” –c
Uma coisa é uma coisa e outra coisa é outra coisa, agora vamos olhar o assembling dos clusters em contigs
Entre em asm_1 e conte os contigs com $cat contigs | grep “>” –c. Conte também os singlets.
Perceba que em alguns casos ele criou Cluster1-contig1, Cluster2-contig2, por não conseguir juntar com Cap3 ESTs de um mesmo cluster. Nesse caso vc pode optar por afrouxar as exigências do Cap3

Inspecionando o Unigene na Web

Tem txid3483 lá? Ou o número de ESTs ainda é pequeno?

Para a casa (duplas, entregar na próxima aula):

O Unigene é tb uma fonte organizada de bibliotecas. Na página inicial, clique em Sacharum officinarum e explore Library Browser.
Abra o registro da biblioteca de meristema Lib 12027. Faça o download das seqüências. Descarregue tb uma biblioteca de raiz Lib 12047.
Abra a de meristema com vi $vi lib12027, substitua > por >meristema assim “:%/>/>meristema/g” e também faça a substituição no caso da raiz
Junte ambas com cat lib12027 lib12047 e rode um TGICL. Inspecione os singlets. Inspecione tb os clusters para saber se são mistos.

Vamos olhar algum gene? Search: nanog AND Mus musculus [organism] >>> Mm6047
Tem muita coisa legal na página de um Unigene mas nada como “Expression Profile”
Compare com o Unigene humano Hs.544577. Olhe em adult quantas ESTs há por cada milhão!
Uma maneira de encontrar o Unigene é via BLAST na web. Faça um BLAST no NCBI desta EST e descubra o Unigene dela (Hs.2)

DDD: Digital Differential Display by Unigene e a estorinha do Hs.447330

Selecione Homo sapiens e aperte o botão [Continue]
Edite new pool para BRAIN e selecione todas as entradas de brain. Clique [Continue]
Agora edite o pool B para HEART e selecione todas as bibliotecas de HEART e [Continue]
Verifique a expressão diferencial dos primeiros clusters (clique nele e dentro de seu ”report” clique em Expression Profile)

SAGE:

Grande invenção essa de obter uma mini-etiqueta de cada transcrito pois um linguição de etiquetas é seqüenciado de uma só vez aumentando a produtividade de etiquetas. SAGE é produzido por uma clonagem complexa do último sítio de restrição de uma dada enzima no mRNA e as bases subseqüentes a ele. É fundamental prender o oligo-dT a uma bolinha, cortar com a dada enzima, ligar um adaptador a 5’ que é reconhecido por uma enzima de restrição especial que se liga nele mas corta a 3’ do sítio da primeira enzima, gerando fragmentos pequenos que são concatamerizados e seqüenciados em grupo.

Entre em SAGE Anatomic Viewer
Entre com o gene symbol da catalase "CAT" e veja a tag para catalase, mapeada em 3 fontes diferentes.
Outra possibilidade é entrar com o identificador Unigene, exemplo Hs.25647
Clique no hominho e nos outros símbolos e verifique a expressão diferencial em tecido normal e tumoral.
SAGE Anatomic Viewer tb tem um Digital Northern (DN). Clique e veja.
Qual o número de Tags normal para a catalase? Compare com a contagem feita pelo Unigene.
É possível também, similarmente ao DDD, comparar a freqüência de SAGE Tags e fazer download das Tags.

GEO

Plataformas (GPL) hoje:

· in situ oligonucleotide (1374)

· spotted oligonucleotide (1182)

· spotted DNA/cDNA (1908)

· antibody (5)

· tissue (0)

· MS (11)

· SARST (1)

· MPSS (12)

· RT-PCR (7)

· oligonucleotide beads (56)

· mixed spotted oligonucleotide/cDNA (6)

· spotted protein (4)

· SAGE (55)

Entre no GEO Browser e encontre uma plataforma para milho (Zea mays) comercial da empresa Affymetrix
Depois encontre alguma plataforma comercial com miRNA no título. Leia a descrição das GPL e descubra quais séries GSE foram feitas com elas.

PLATFORM GPM é o sistema manufaturado, que pode ser usado por vários pesquisadores, com diferentes SAMPLE GSM em diferentes experimentos ou SERIES GSE. Quando a curadoria do NCBI tem tempo, cria uma DATASET GDS. Veja mais

Samples hoje:

· RNA (185296)

· genomic (33823)

· protein (675)

· SAGE (1028)

· mixed (1045)

Series e DataSets

· Procure em DataSets uma entrada com “Zea mays [organism] AND developemental stages”

· Estude o DataSet GSD4

· Estude a plataforma utilizada GPL12

· Veja que os dados processados são originários da série GSE141. Vc pode baixar o arquivo dela (wget) ou se quiser, baixar os dados de cada sample relacionada na página da série.

· Vamos brincar:

· Clique no desenho do microarranjo e encontre o botão uncheck all

· Escolha FOLHA e marque 4 dias e 8 dias na coluna esquerda = veja que ele seleciona experimentos da parte de baixo

· Na coluna da direita marque 4 dias em A e 8 dias em B, escolha A < B e a sensibilidade máxima

· Abra alguns PROFILES e avalie. Veja o que significam as barras e os pontinhos.

· Vamos procurar no GEO Browser um DataSet com miRNA? Explore GDS2614.

Buscando PROFILES

Busque em profiles “nanog AND 1-cell” e explore o DataSet GDS813. Adicionando “AND nanog” vc chega ao profile.

BLAST GEO

K-EST

O lab Biodados tem um serviço (K-EST) que permite a verificação da expressão medida pelo número de ESTs por cada 100 mil ESTs. Vc pode navegar pelas categorias funcionais. Ou pode fazer buscas (procure enolase). Ou pode fazer um BLAST. Vamos fazer um BLAST dessas duas seqüências selecionando a área de CONSERVATION (ela mostra as ESTs associadas às proteínas KOG do organismo, e também aquelas que seriam anotadas pelos demais).