CEBI boinfo na web

CEBI tutoriais para Bioinformática na web

1. Informando-se sobre genes

Vamos nos informar sobre o gene nanog de várias maneiras

a) Você pode querer obter literatura a respeito do gene, uma maneira é consultar a base PubMed
- vamos simplesmente colocar a palavra nanog na janela de busca e ver o que se obtém: milhares de artigos
- na barra à esquerda vc pode ver se há revisões que falam sobre nanog, clique em Review e veja o número cair para centenas!
- mas vc quer ler sem pagar, então marque tb Free full text, cai mais.
- vc pode adicionar palavras com AND, vamos aumentar a busca para nanog AND role[title] assim vc obriga "role" (papel de nanog) a ocorrer no título!
- caiu pra uma dezena, agora vamos ler um deles, de Lin YC e colaboradores
- qdo vc abre um artigo, vê à direita outros relacionados (Similar articles)
- vamos refazer a pesquisa, vá para pubmed.com e digite nanog novamente
- recentemente já aparece um link sugerindo vc olhar NANOG (em maiúsculas é o símbolo oficial de nanog) na base Gene

b) A base Gene é uma base legal pq leva vc ao gene diretamente! E a tudo sobre ele!
- se vc clicou em Gene acima, coloque NANOG e dê enter, vc chega aqui.
- o NANOG humano tem o identificador (gene ID) 79923, clique nele
- não vamos ler tudo mas descubra em qual cromossomo ele fica?
- em verde vc vê que desse gene pode-se derivar vários mRNAs diferentes, na base do NCBI, quantas linhas verdes vc vê?
- à esquerda ficam os identificadores dos mRNA (processados), se começar por NM é entrada vista experimentalmente, se for XP, deduzida do genoma
- à direita ficam os identificadores das proteínas, NP qdo é vistas experimentalmente, XP deduzida do genoma
- jeito mais fácil de listar as proteínas é na barra da direita clicar em RefSeq proteins
- são duas NP e três preditas pela info do genoma, vamos olhar a isoform 1
- as referências listadas pela base Gene são sempre boas de ler! E lá no final tem a sequência
- mas se vc for trabalhar com ela... escolha o formato FASTA
- o formato FASTA tem três pedaços
    - começa com o sinal de maior (>) e ligado nele os identificadores, ai vc vê o gi e o RefSeq IDs
    - depois do primeiro espaço que ocorrer, a chamada "anotação", texto geralmente livre que descreve a sequência
    - pulou uma linha, vêm os resíduos de aminoácidos que formam a proteína MSVDP...
- vcs conhecem o código de uma letra? os aminoácidos cuja letra é a primeira deles são estes: A C F G H I L M P S T V
- os ácidos isso e aquilo são, na ordem alfabética, D E
- os básicos K R H
- têm hidroxila e podem ser fosforilados S T Y
- e uns outros ai... pratiquem! Tem triptofano (W) nessa proteína? Muitos ou poucos?

c) OMIM é o trabalho pronto na internet sobre NANOG e outros genes
- selecione na janela de busca OMIM e preencha com NANOG
- vc encontra o link do identificador 607973, explore!
- achou muita info boa, pois tente um gene que se conhece há mais tempo, busque TP53 no OMIM, TP53 é o 191170
- OMIM é uma base de genes e doenças, experimente buscar breast cancer, veja o registro 114480

d) Vc pode ver NANOG na base de dados Protein Data Base
- no NCBI vc acessa essa info em Structure, busque por NANOG
- para dar mérico por direito, navegue dai par ao link do PDB, em cima, na direita. link para PDB 2VI6 (os IDs no PDB têm essa cara)
- se der pra ver no seu computador teste JSmol
- troque Color para Hydrophobicity e Style para Ball and Stick, brinque com variações

e) Um consórcio sobre informações de proteínas vale a pena olhar UniProt
- tem muita coisa no UniProt mas vamos abrir o registro de NANOG
- Q9H9SO é o identificador da humana, vamos abrir
- o registro começa descrevendo as funções Gene Ontology, tem as Molecular Function e tem os Process tb
- se vc realmente quer explorar os dados de Gene Ontology, clique no link Complete GO annotation
- vamos aprender na marra, clique no quickGO em GO:0035019 somatic stem cell maintenance, veja a ontologia, principalmente "is a" e "part of"
- volte para a página NANOG do UniProt e veja que há uma sessão Expression
- nela o link mais legal é do ExpressionAtlas, e vc pode consultar alguns Baseline Experiments como o famoso FANTOM5
- fica legal se vc desmarcar o box Specific pra ver expressão em todos tecidos e clicar Apply. Preencha Gene query com TP53 e saiba sobre a expressão dela!
- mude Change filters: Developmental stage para fetal e aperte Apply, veja como varia.
- volte para o Q9H9SO e desça até a sessão de Cross References onde diz Phylogenomic databases
- a melhor delas é a Kegg Orthology (KO), clique em K10164
- duas coisas são legais no KO, acesso a Pathways e a grupos de ortólogos

f) O conhecimento dos genes antecede vc sequenciar o seu! Barata? Estudamos o reparo de DNA dela "ao contrário" no Kegg Orthlogy
- em Kegg Pathways temos vias bioquímicas e muito mais
- procure em Pathway informações sobre a via Prostate cancer (item 6.2)
- que tal verifica o sistema de reparo de mismatch? Quer os genes humanos? Simples, troque em cima por Homo sapiens e olhe à direita
- quer Corynebacterium diphtheriae? Então selecione e olhe o lado esquerdo
- mas que tal Trichomonas vaginalis? Quem é esse cara do lado esquerdo?
- encontre POU5F1 (Oct4) no Kegg, veja o Pathway em que está, e desvende seu grupo de ortólogos
- clique nos genes como HSA: 5460 e copie o organismo Homo sapiens e cole em Taxonomy Common Tree do NCBI
- volte ao KO e clique nos outros genes do grupo de ortólogos e vá colocando no Taxonomy Common Tree
- veja, com isso vc consegue determinar que esse gene só existe a partir de um ancestral recente!

g) UCSC Genome Browser é uma plataforma para navegar pelo genoma e obter informações sobre o genoma
- Na barra azul no topo da página inicial, clique em Genomes e depois Human GRCh38/hg38
- Abaixo da visualização do genoma (browser), clique nos botões hide all e collapse all
- Digite nanog na caixa de busca acima do browser e go (ou dê Enter). Selecione a primeira opção de identificador. Pronto! Você chegou ao seu destino!
- Use Move e Zoom para enquadrar o gene no browser (Dica: duas setas brancas em qualquer uma das extremidades quer dizer que ainda não enquadrou!)
- O que estou vendo? => Browser

Escala! => Como em um mapa, a escala mostra a relação entre as distâncias no plano e as distâncias reais. Por exemplo, se a escala mostra 2kb significa que aquele tamanho equivale a 2.000 bp (Dica: dê zoom in e zoom out para ver como a escala muda)
Gene! => Caixa = Éxon, Linha = Íntron, Setas nos íntrons = Direção da transcrição (Dica: passe o mouse sobre éxons e íntrons para ver sua numeração)
Por que estou vendo 2 nanog se só existe um? => Transcritos diferentes (Dica: clique em cada um dos transcritos para abrir a página de descrição deles)

- O que quero ver? => Tracks
Nos tracks estão as informações sobre o genoma (ex.: genes, variação gênica, expressão gênica, regulação da expressão gênica, genômica comparativa). Eles estão em seções mostradas abaixo do browser (Mapping and Sequencing, Genes and Gene Predictions, Phenotype and Literature, etc.). Vamos ver quais são os possíveis fatores de transcrição que se ligam em nanog?

Expanda a seção Regulation, clicando no + à esquerda
São quatro tracks disponíveis nesta seção e nós vamos usar o track ORegAnno
Clique no nome do track para ver as informações sobre ele
Este track contém cinco tipos de elementos regulatórios (regulatory polymorphism, transcription factor binding site, regulatory region, miRNA binding site e regulatory haplotype): selecione transcription factor binding site
No Display mode, selecione Full e Submit (Dica: o significado do display mode varia de track para track; geralmente, você encontra o significado na página de descrição do track)
Viu que apareceram caixas laranja no browser? Estes são os possíveis fatores de transcrição que se ligam em nanog! Clique nas caixas laranja para ver quais são!

- Como salvar o que eu fiz?

Salvar PDF

View

PDF/PS

Download the current browser graphic in PDF

Salvar a sessão

My Data

My Sessions

Save Settings

Save current settings as named session

Submit

My Data=>My Sessions=>Login

Genome Browser salva o que você fez no navegador web => Se quiser resetá-lo, vá em View=>Reset All User Settings

2. Informando-se sobre sequências

a) Uma maneira de conhecer sua sequência é comparar ela com outras
- alinhamento múltiplo é quando você quer fazer um artigo, um trabalho, e quer comparar proteínas inteiras
- alinhe essas sequências com MultiAlign. Ou estas
b) alinhamento local com BLAST é usado para rapidamente encontrar sequências muito parecidas com uma que você sequenciou
- vamos tentar descobrir com BLASTn (nucleotide BLAST) limitando a busca para Human genomic + transcript um homólogo disto
- deu ruim? experimentemos usar uma versão onde a sequência é traduzida para seis proteínas com BLASTx e a busca é no proteoma humano
- uma sequência de DNA geralmente codifica para uma única mensagem, então BLASTx descarta rápido as 5 buscas que não dão em nada e descobre sozinho qual a leitura certa
- nem todo compositor é um CHico Buarque de Holanda, vejam e ouçam aqui