Bioinformática da Rede Genoma de Minas Gerais


A bioinformática trabalha com a visão de que este projeto não é um projeto EST comum, porque a quantidade de seqüências planejada é muito grande. Por isso, algumas características intrínsecas do PIPELINE são devidas aos seguintes conceitos:

  1. A construção de um UniGene com as seqüências é uma requisito. Quaisquer outras ferramentas de aglomeração podem ser usadas como alerta para re-seqüenciamento do clone que não aglomerou. Usaremos a abordagem do projeto FAPESP como principal ferramenta alternativa. Todavia, jamais o 3' de cada clone único (assim classificado pela análise do 5') será deixado sem seqüenciamento, porque o a seqüência 3' valida um aglomerado
  2. Os clones serão distribuídos pelo consórcio I.M.A.G.E. (a R$0,30 o clone, pagamento antecipado e recebimento em quantas remessas desejarmos - talvez 4, sem custo extra). Os traçados serão preparados para depósito, ao final do projeto, no Trace Arquive do NCBI. Esse formato deve ser utilizado para colaboração com o grupo da FAPESP (propomos o intercâmbio de traçados e não seqüências editadas)
  3. O depósito de pelo menos uma das seqüências em 6 meses a partir do recebimento das bactérias é um compromisso com o I.M.A.G.E. Optamos por liberar a seqüência menos informativa na pesquisa de homologia ou a 5' (preservando a 3' que valida o aglomerado). Vamos desenvolver ferramentas de seleção antecipada de clones interessantes (ver adiante)
  4. Não há aceitação ou não de seqüências porque o projeto é pré-pago. A bioinformática somente monitorará o número de placas enviadas, que deve corresponder à produção esperada de cada grupo. Como o projeto tende a concluir o transcriptoma, cada EST precisa apresentar apenas 40 bases de boa leitura para se autoidentificar na coleção, mas há a necessidade de que certas seqüências sejam do maior comprimento possível
  5. Seqüências com menos que 40 bases com valor de Phred 20 consecutivas serão consideradas como seqüenciamento falho. O seqüenciamento será refeito caso haja DNA suficiente na miniprep, caso contrário a escolha de um novo clone é equivalente. Os responsáveis pelo seqüenciamento avaliam que é melhor rearranjar o DNA que refazer a miniprep. Portanto, podemos receber imagens digitalizadas ou mesmo fotos instantâneas de géis de dosagem e processar os dados na bioinformática ou deixar essa análise para ser feita localmente. Alternativamente podemos enviar as placas de miniprep para a UFMG utilizar um robo no rearranjo do DNA [Avaliar]
  6. Seqüências com 40 bases de boa qualidade consecutivas (seqüenciamento não falho) não redundantes (que não aglomeraram) serão re-seqüenciadas com corrida longa (a última do dia no mundo MegaBACE). Neste caso, os outros clones da placa serão re-seqüenciados sem necessidade (o custo calculado é menor que o de outras alternativas, note que só se perde o tempo extra da corrida no mundo ABI). O grupo sequenciador será alertado em 24 horas e terá 1 semana para efetuar a corrida longa (espera-se mais que uma placa por semana). Possível falha no crescimento da seqüência será anotada e o DNA pode ser indicado para re-seqüenciamento [Avaliar eficiência] ou então o I.M.A.G.E. pode ser acionado para compor placas novas com tais clones (note que o custo de rearranjo de clones numerados é o mesmo que o de clones pegos aleatoriamente, R$0,30). Não podemos prescindir desses clones
  7. Ferramentas para anotação reversa estão sendo preparadas onde seqüências previamente escolhidas são utilizadas para pesquisar as que vão sendo geradas. As ferramentas serão capazes de selecionar clones interessantes para seqüenciamento completo utilizando as proteínas de C. elegans e D. melanogaster, agrupadas por vias metabólicas (como um COG eucarioto). Também geraremos arquivos de seqüências com a colaboração de especialistas na biologia do parasita (as seqüências podem ser mesmo humanas). Estamos desenvolvendo ferramentas que apontam também se o cDNA está completo, usando a homologia na região da metionina inicial da proteína ortóloga como referência. A bioinformática insiste no sequenciamento completo de clones de interesse para depósito da proteína completa e alerta para a necessidade de compra de oligonucleotídeos. Uma alternatica é a inserção de transposons
  8. Verificamos que seqüências de boa qualidade com anotação funcional (por exemplo, posição da metionina e função deduzida por homologia) podem ser depositadas no GenBank ao invés de no dbEST, como seqüenciamento parcial ou completo. A diferença é que a proteína de Schistosoma mansoni passa a ser anotadora em pesquisas de homologia no nr. Queremos incluir o depósito no GenBank como uma rotina e um objetivo prioritário. Vamos ter o cuidado de anotar se o cds está completo ou é parcial, uma dor de cabeça para bioinformatas que usam o Entrez Protein ou o Taxonomy do NCBI (os dados são os mesmos)
  9. A obtenção de proteínas completas permite a construção de um modeloma. Estamos trabalhando para instalar no CENAPAD o modelador automático do San Diego Super Computer. Assim como o Swiss Model, o SDSC funciona apenas por e-mail e será muito interessante operá-lo localmente. A colaboração já está acertada e prevê o uso de um hardware adicional que está sendo comprado pelo CENAPAD
  10. Estudos foram feitos para viabilizar o uso de oligonucleotídeos iniciadores desenhados para o seqüenciamento completo de cds, na detecção e validação de SNPs. A recomendação da bioinformática é uma associação para coleta de caramujos em dez áreas endêmicas, obtenção de cercárias em laboratório e amplificação a partir do genoma com os iniciadores usados para seqüenciamento completo
  11. A bioinformática alerta que o número de bibliotecas está sub-dimensionado para o número de seqüências. Haverá muita redundância devida a viés de fabricação. Por isso estamos preparando os mecanismos de detecção de clones únicos e uma política de re-seqüenciamento. Recomendamos uma plasticidade na compra de kits de seqüenciamento no mundo MegaBACE e planejamento de envio de minipreps do mundo MegaBACE para o mundo ABI (com redução de kits de miniprep nesse mundo), em favor de oligonucleotídeos e bibliotecas. Não vamos necessitar 250 mil reações para produzir 100 mil boas seqüências
  12. Conseguimos junto à Incyte orçamentos muito bons para (a) instalação de um laboratório completo para hibridação e leitura de microarray, (b) colocação dos spots, (c) o projeto completo: a + b. A bioinformática alerta para o fato de que os novos robos fazem lâminas de microarray e conseguem rearranjar os clones a partir das próprias minipreps geradas pelo seqüenciamento. O robo do Jesus Ferro custa um pouco mais que um microarray spoter e faz lâminas com 5 mil spots, se bem que não devem ser muito boas. É possível que um spoter tenha destino semelhante ao de um sintetizador de oligonucleotídeos
  13. Ao final do projeto vislumbramos um UniGene não somente em nossas bases de dados mas também no NCBI, com anotação do grau de expressão (via microarray), todos os traçados no Trace arquive, todos os clones disponibilizados internacionalmente pelo I.M.A.G.E., o máximo possível de depósitos no GenBank Protein, incluindo muitas proteínas completas e um modeloma e, possivelmente, SNPs validados para cercárias de 10 regiões do Brasil

 

PIPELINE

 

1. Recuperar os cromatogramas e alimentar Banco de Traçados, anotando:

a. o laboratório gerador

b. o número I.M.A.G.E. do clone e a direção de sequenciamento (5' ou 3')

Nota: as sequencias menos informativas serão depositadas no dbEST em 6 meses. Clones interessantes (ver com Alessandra) serão barrados

c. o endereço do clone (o número/posição na Placa de Trabalho)

d. o nome da biblioteca, do vetor, da fase de desenvolvimento

e. todas as outras informações que o Trace arquive venha a requerer

 

2. Rodar Phred com -trim_alt usando valor de Phred 20. [Avaliar]

Nota: O valor 20 é importante para mandar as sequencias para o GeneBank Protein; para o Entrez esse valor pode ser diminuído, mas opto por depositar sem -trim_alt, porque vamos mandar maiúsculas e minúsculas. O megaBLAST (adiante) vai rodar sem -trim_alt, usará apenas crossmatch

Nota: aqui teremos a possibilidade de incorporar um sítio de restrição entre as aspas do -trim_alt; seria interessante usar 12 bases para não errar e buscar uma maneira de registrar quando houve esse evento, porque não conheço a qualidade de corte de vetor do crossmatch. Precisamos testar, mas eu acho que essa rotina teria que ser feita por script nosso, usando o crossmatch e o trim do Phred. Não é importante para o pipeline, pois todos acreditam em crossmatch. Só é importante na geração do arquivo de saída de publicação da seqüência, onde qualquer base de vetor gera um escândalo. Acho que o Phred (-nocall) -trim_alt "GAATTCGGATCC" -trim_out pode ser rodado com o que o crossmatch não tirou, ou mesmo comparar o resultado com o dele. Quando o trim funciona, faz melhor

 

2.1 Gerar relatório em fase 1, contendo:

a. identificador da placa de trabalho

b. tamanho das sequências sem trimar e valor médio de Pred nessa condição e média da placa

b.1. tamanho médio (com desvio padrão) acumulado da produção do referido laboratório, do mundo (MegaBACE ou ABI) e do universo (todo o projeto)

c. tamanho das sequências após trimar (valor médio de Phred é sempre 20 nesse caso)

c.1. tamanho médio como em b.1

d. tabela de trabalho (didática para um operador) relacionando clones com sequencia trimada menor que 40 bases (o valor de Phred médio é 20, como estabelecido em -trim_alt). Recomendaremos re-seqüenciamento por rearranjo de DNA. Verificar se teremos a imagem do gel

e. Adiante, em fase 2, adicionaremos um alerta para sequencias únicas contidas nessa placa e menores que o rendimento médio do laboratório, após aglomeração com MegaBLAST (são sempre maiores que 40). Recomendaremos re-seqüenciamento por reutilização de placa e/ou por rearranjo de DNA ou mesmo pelo I.M.A.G.E.

 

3. Rodar ph2fasta

(gostei do que ele escreveu na "description line" mas o fasta gerado pelo phred serve)

 

4. Rodar "Maiuminu"

Tornar minúsculas todas as bases com valor de phred menor que 20. Ou o inverso, se o output vier do ph2fasta, onde todas as letras são minúsculas.

Nota: desenvolver um tradutor que faça seis proteínas usando letra maiúscula nos códons (vejo isso em separado, mas gostaria do espaço no Oracle ou uma base relacionada)

 

5. Rodar crossmatch e produzir o fasta de exportação

Usar o vetor da biblioteca somente ou um equivalente devidamente curado (queremos sempre saber o que foi usado - faça um biólogo assumir o risco quando a sequencia do vetor não estiver publicada, tipo a biblioteca da Glória SMP). Adicionar o adaptador quando necessário. Si hay biblioteca de vetores, soy contra...

 

6. Paralelismo de pipeline:

 

6.1 MegaBLAST com os parâmetros do UniGene

a. Usando arquivos tratados com maiuminu e crossmatch

b. Alternativas de clustering podem ser usadas, mas deve-se buscar um gerador de alerta sobre sequências que foram aglomeradas pelo alternativo e não pelo oficial. De preferência uma ferramenta deve apontar se o sequenciamento da extremidade do clone pode ser melhorado para satisfazer o MegaBLAST. Nessa situação, fazemos o sequenciamento de novo (acho que um relatório vai apontar que serão casos de sequencias 5' realmente ruins na extremidade). O UniGene é nossa camisa de força

c. Gostaria de usar como alternativa principal o que a Aline (bioinformática do projeto FAPESP) estiver usando, vou falar com ela. Acho que ela vai de Cap3. Vou descolar os parãmetros

 

6.2 MegaBLAST e BLASTp

a. Rodar cada sequência contra o nr limitando output para valores de E <0,00001 (10E-5). [Avaliar]

b. Considerar usar BLASTn em paralelo com MegaBLAST

c. É preciso separar o resultado em NO HIT, HIT contra S. mansoni GenBank, HIT contra S. mansoni dbEST (exceto as nossas de agora), HIT contra outros organismos, HIT contra bactéria (o BLAST aceita bacteria), HIT contra rRNA e mDNA (aliás isso é um filtro, rodado antes)

d. Aprender o que guardar para rodar PSI-BLAST em fase posterior (vamos rodar para os NO HIT)

 

7. Gerar relatório em fase2

a. Indicar para cada biblioteca utilizada a porcentagem de (a) NO HIT, (b) HIT contra outros organismos, (c) Schisto GeneBank HIT, (d) Schisto EST HIT. Valorizar as bibliotecas que dão maior porcentagem de genes novos (a + b, não Schisto)

b. Inferir redundância da biblioteca graficamente (número de seqüências amostradas em função do número de seqüências aglomeradas). Considerar se algum laboratório está mais redundante que a média para cada biblioteca e alertar (isso pode acontecer por contaminação do seqüenciamento, principalmente quando o clone é vizinho na coluna seguinte, usamos a placa em pé, com 12 linhas e 8 colunas, o operador tem uma pipeta de 8 pontas e opera cada linha de uma vez)