14/08 – Acesso remoto a servidores e introdução ao linux (M)

Banco de dados de transcriptoma

Contigs de ESTs:

Uma maneira de agrupar as ESTs que correspondem a um mesmo gene é utilizando o programa TGICL . Ele imita em parte o protocolo de construção do Unigene, uma base de dados de agrupamento de ESTs do NCBI, mas a diferença é que, após agrupar ESTs em um Unigene, ele determina o consenso delas (contig) com o programa Cap3. É errado usar o Cap3 diretamente para agrupamento (clustering) e montagem (assembling) dos contigs, mas isto é tradição no Brasil. Ainda bem que para conjuntos grandes de dados o Cap3 explode a memória, exigindo que montadores primeiro formem os agrupamentos e depois os ofereçam ao Cap3. PHRAP pode ser usado em alternativa a Cap3 como o software montador (assemblage).

Crie um diretório unigene_aula, entre nele e copie ESTs de aranha $cp /home/treinamento/unigene_aula/li.est . {opag}
Conte elas $cat li.est | grep “>” –c.
Certinho?

Dê uma limpadinha com seqclean mas antes de rodar o seqclean prepare uma base de vetores assim (já temos uma formatada em treinamento):
Busque a base de dados de vetores Univec do NCBI com o comando wget
$wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
Formate o UniVec_Core pois o seqclean vai rodar um BLAST para tirar vetor:
$formatdb –i UniVec_Core (cadê o dedinho???) –p F –o T
Ok, dê um “ls” ai pra ver que formatou! (dá um ls, dá-dá um ls...)

$seqclean li.est –v /home/treinamento/univec/vetor –o saida. Conte elas limpas no arquivo saída.
$cat saida | grep “>” -c
Crie um diretório tgicl e copie saída para lá e entre lá
$mkdir tgicl $mv saida tgicl $cd tgicl $ls
Rode $tgicl –F saída –c 8 (vai demorar um pouco)
Falei pra criar um diretório tgicl, vc criou né?
Examine cs.est.clean_clusters Veja que ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
Conte quantos clusters foram formados com $cat cs.est.clean_clusters | grep “>” –c
Uma coisa é uma coisa e outra coisa é outra coisa, agora vamos olhar o assembling dos clusters em contigs
Entre em asm_1 e conte os contigs com $cat contigs | grep “>” –c. Conte também os singlets.
Perceba que em alguns casos ele criou Cluster1-contig1, Cluster2-contig2, por não conseguir juntar com Cap3 ESTs de um mesmo cluster. Nesse caso vc pode optar por afrouxar as exigências do Cap3

Inspecionando o Unigene na Web

Tem txid3483 lá? Ou o número de ESTs ainda é pequeno?

Para a casa (duplas, entregar na próxima aula):

O Unigene é tb uma fonte organizada de bibliotecas. Na página inicial, clique em Sacharum officinarum e explore Library Browser.
Abra o registro da biblioteca de meristema Lib 12027. Faça o download das seqüências. Descarregue tb uma biblioteca de raiz Lib 12047.
Abra a de meristema com vi $vi lib12027, substitua > por >meristema assim “:%/>/>meristema/g” e também faça a substituição no caso da raiz
Junte ambas com cat lib12027 lib12047 e rode um TGICL. Inspecione os singlets. Inspecione tb os clusters para saber se são mistos.

Vamos olhar algum gene? Search: nanog AND Mus musculus [organism] >>> Mm6047
Tem muita coisa legal na página de um Unigene mas nada como “Expression