14/08 – Acesso remoto a servidores e introdução ao linux (M)

Banco de dados de transcriptoma

Contigs de ESTs: (guia rápido 2011)

Uma maneira de agrupar as ESTs que correspondem a um mesmo gene é utilizando o programa TGICL. Ele imita em parte o protocolo de construção do Unigene, uma base de dados de agrupamento de ESTs do NCBI, mas a diferença é que, após agrupar ESTs em um Unigene, ele determina o consenso delas (contig) com o programa Cap3. É errado usar o Cap3 diretamente para agrupamento (clustering) e montagem (assembling) dos contigs, mas isto é tradição no Brasil. Ainda bem que para conjuntos grandes de dados o Cap3 explode a memória, exigindo que montadores primeiro formem os agrupamentos e depois os ofereçam ao Cap3. PHRAP pode ser usado em alternativa a Cap3 como o software montador (assemblage).

Descarregue as ESTs de txid3483 (Search: EST for txid3483) na sua máquina Display: FASTA + Send to: File
Logue na maracatu,. Crie um diretório aula_unigene $mkdir aula_unigene e entre nele $cd aula_unigene.
Mande as ESTs para a maracatu com SFTP e renomeie como cs.est. Alternativamente: copie-as (control A control C), abra um arquivo com vi $vi cs.est. Aperte “i” para entrar em insert mode e com o botão da direita do mouse, cole, mas tenha fé, um clique basta! E para gravar, use ESC + dois pontos + x!
Conte elas $cat cs.est | grep “>” –c.
Certinho?

Dê uma limpadinha com seqclean mas antes de rodar o seqclean prepare uma base de vetores assim:
Busque a base de dados de vetores Univec do NCBI com o comando wget
$wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
Formate o UniVec_Core pois o seqclean vai rodar um BLAST para tirar vetor:
$formatdb –i UniVec_Core (cadê o dedinho???) –p F –o T
Ok, dê um “ls” ai pra ver que formatou! (dá um ls, dá-dá um ls...)

$seqclean cs.est –v UniVec_Core –o saida. Conte elas limpas, o arquivo é cs.est.clean
$cat cs.est.clean | grep “>” -c
Crie um diretório tgicl e copie cs.est.clean para lá e entre lá
$mkdir tgicl $mv cs.est.clean tgicl $cd tgicl $ls
Rode $tgicl cs.est.clean (vai demorar um pouco)
Falei pra criar um diretório tgicl, vc criou né?
Examine cs.est.clean_clusters Veja que ele te dá os clusters formados pelo TGICL e o número de ESTs por cluster.
Conte quantos clusters foram formados com $cat cs.est.clean_clusters | grep “>” –c
Uma coisa é uma coisa e outra coisa é outra coisa, agora vamos olhar o assembling dos clusters em contigs
Entre em asm_1 e conte os contigs com $cat contigs | grep “>” –c. Conte também os singlets.
Perceba que em alguns casos ele criou Cluster1-contig1, Cluster2-contig2, por não conseguir juntar com Cap3 ESTs de um mesmo cluster. Nesse caso vc pode optar por afrouxar as exigências do Cap3

Inspecionando o Unigene na Web

Tem txid3483 lá? Ou o número de ESTs ainda é pequeno?

Para a casa (duplas, entregar na próxima aula):

O Unigene é tb uma fonte organizada de bibliotecas. Na página inicial, clique em Sacharum officinarum e explore Library Browser.
Abra o registro da biblioteca de meristema Lib 12027. Faça o download das seqüências. Descarregue tb uma biblioteca de raiz Lib 12047.
Abra a de meristema com vi $vi lib12027, substitua > por >meristema assim “:%/>/>meristema/g” e também faça a substituição no caso da raiz
Junte ambas com cat lib12027 lib12047 e rode um TGICL. Inspecione os singlets. Inspecione tb os clusters para saber se são mistos.