CENABID
é um centro de serviços e processamento em Bioinformática de intenso
desempenho, alimentado por grupos de Bioinformática de todo o país, suportado
pelos cursos de pós-graduação em Bioinformática e de áreas afins e pela AB3C. O CENABID opera em conjunto com o SINAPAD utilizando suas grades de dados e processamento
formadas pelos centros nacionais de processamento de alto desempenho (CENAPAD).
Núcleos regionais CENABID
SINAPAD (Centros CENAPAD)
LNCC: |
|
UECE: |
|
UFMG: |
|
UFPE: |
|
UFRGS: |
|
Unicamp: |
|
USP: |
LNCC: |
Wagner Léo |
UFC: |
Rossana Andrade |
UFMG: |
Márcio Bunte de Carvalho |
UFPE: |
Ramiro
Brito Willmersdorf |
CESUP: |
Denise Ewald |
Unicamp: |
Edison Zacarias |
IMPE: |
Eugênio Almeida |
COPPE: |
Alvaro Coutinho |
1. Proposta
Nota: esta proposta foi idealizada para ser encaminhada
por distintos núcleos regionais colaboradores na criação do CENADIB.
Centros de Bioinformática
oferecem serviços com enorme potencial biotecnológico. Podemos citar o centro GenomeNet, produtor da Enciclopédia de Genes e Genomas de
Kyoto (KEGG) [1] no Japão, o Instituto
de Bioinformática Europeu (EBI) [2], o
Centro Nacional de Informação Biotecnológica (NCBI) nos EUA [3] e o Instituto Suíço
de Bioinformática (SIB) produtor do Sistema Perito em Análises de Proteínas (ExPASy) [4]. No Brasil destacam-se os serviços
e softwares produzidos pelo Laboratório de Bioinformática (Labinfo) no Laboratório
Nacional de Computação Científica (LNCC) [5] como, por exemplo, o sistema Sabiá
de anotação genômica [6] e o Sistema de análises de etiquetas SAGE denominado
SAGE Genie [7], produzido no Instituto Ludwig de Pesquisa sobre o Câncer.
Na UFMG o Laboratório de Biodados oferece as
ferramentas PCT (Protein Classification
Tool) e K-EST (KOG Expression-Sampling
Tool), distribui o banco de dados UECOG [8] e produziu o software Seed
Linkage [9]; o Laboratório de Físico-Química de Proteínas e Enzimologia produziu uma ferramenta de comparação de mapas de contato
[10]; o Laboratório de Genética Bioquímica mantém uma base de dados de
biomoléculas nucleares (BMDb) [11] e o Núcleo de Estudos
Recentemente, um Sistema
Nacional de Processamento de Alto Desempenho (SINAPAD) [13] foi criado para ser uma
infra-estrutura computacional capaz de responder à demanda de ensino e pesquisa
por processamento de desempenho elevado e é composto por oito CENAPAD (Centro
Nacional de Processamento de Alto Desempenho), incluindo o CENAPAD-UFMG. O
SINAPAD desenvolve um projeto de uma Grade Computacional de Processamento e de
uma Grade Computacional de Dados. Esta proposta visa criar uma equipe de
trabalho para o núcleo da UFMG do Centro Nacional de Processamento em Bioinformática
de Intenso Desempenho (CENABID-UFMG) que estamos fundando e que será uma
interface entre o desenvolvimento de software, bancos de dados e principalmente
serviços ofertados por grupos de Bioinformática da UFMG e de seus colaboradores
nacionais e internacionais e o CENAPAD-UFMG, que por sua vez fará a integração
da tecnologia através do SINAPAD. É esperado que propostas similares sejam
apresentadas, nesta ou futuras chamadas, para montagem de núcleos regionais que
trabalharão em conjunto com a equipe da UFMG no CENABID.
O Doutorado em Bioinformática
da UFMG foi criado em 2003, já formou nove Doutores e apresenta 25 estudantes
desenvolvendo seus trabalhos de tese, que freqüentemente envolvem a
participação de colaboradores nacionais e internacionais. A produção científica
derivada destes projetos tem sido publicada em periódicos especializados e
também comunicada em eventos da área, principalmente na Conferência
Internacional da AB3C (Associação Brasileira de Bioinformática e
Biologia Computacional), a qual apoiará com o desenvolvimento da proposta com a
realização de workshops sobre
hiper-computação
O CENABID está sendo lançado
pela colaboração dos seguintes pesquisadores na coordenação dos núcleos
regionais: J. Miguel Ortega (UFMG, MG), Ana Tereza R. Vasconcelos (LNCC, RJ),
Sandro J. de Souza (LICR, SP), Gonçalo Amarante G. Pereira (Unicamp, SP),
Arnaldo Zaha (UFRGS, RS), Ana M. Benko Iseppon (UFPE, PE), Diana Magalhães de
Oliveira (UEC) e conta com o apoio dos CENAPAD regionais. O núcleo CENABID-UFMG
conta com a colaboração do CPqRR (Guilherme Oliveira),
da EMBRAPA Informática Agropecuária (Goran Nerhich) e do Protein Institute Resource USA (Darren Natale), além de futuros
colaboradores estão sendo convidados.
2. Objetivos
·
Criar o CENADIB, uma rede de Bioinformática de
intenso desempenho em colaboração com os Centros Nacionais de Processamento de
Alto Desempenho (CENAPAD) estruturados no sistema SINAPAD.
·
Criar na UFMG um núcleo do Centro Nacional de
Processamento em Bioinformática de Intenso Desempenho (CENABID-UFMG).
·
Subsidiar a implementação de serviços, distribuição
de software e bases de dados produzidas por grupos de Bioinformática da UFMG e
de seus colaboradores nacionais e internacionais.
·
Oferecer serviços públicos de Bioinformática de
intenso desempenho como ferramentas EMBnet, BLAST,
Modelagem molecular, dentre outras, através do portal CENABID.
·
Colaborar para a integração dos serviços do
CENABID-UFMG com as grades do SINAPAD.
·
Realizar cursos de treinamento e capacitação em
processamento bioinformático de intenso desempenho, integrando os núcleos
regionais do CENABID.
3. Metodologia
Na UFMG os serviços web e os aplicativos locais serão
disparados pelo servidor www.cenabid.ufmg.br que será gerenciado pelo núcleo CENABID-UFMG
e estará conectado por rede infiniband
de alta velocidade ao hiper-computador do CENAPAD-UFMG. O servidor CENABID
local funcionará assim como uma interface entre o usuário e o processamento de
intenso desempenho, ofertando inclusive serviços a clientes de webservice, através de requisições
feitas por máquinas utilizando SOAP (Simple
Object Access Protocol) descrito abaixo. Dentre estas máquinas estarão as
componentes das grades computacionais de processamento e de dados do SINAPAD,
principalmente as máquinas de outros núcleos CENABID que estão sendo criados em
torno de outros CENAPAD regionais.
As ferramentas computacionais
desenvolvidas
Os métodos e serviços criados
pelos diversos grupos de pesquisa em Bioinformática da UFMG serão implementados
como webservices, permitindo o acesso
programático às diversas ferramentas disponibilizadas pela rede CENABID. Todos
os serviços serão descritos por arquivos WSDL específicos para cada webservice. A tecnologia webservices permite que todos os
recursos metodológicos criados sejam explorados sem que os referidos programas
precisem sequer ser instalados nos computadores dos usuários. Para isso iremos
desenvolver aplicativos clientes em diversas linguagens de programação (tais
como Java, PHP, PERL, C++) que possam se comunicar com
nosso servidor através da troca específica de dados no formato XML através do
protocolo SOAP (Simple Object Acess
Protocol). Em tais mensagens, os métodos são invocados e os parâmetros de
cada análise são transmitidos para o servidor. Após a execução do serviço, uma
nova mensagem em XML é criada para retornar os resultados ao usuário do webservice.
Usuários (i) anônimos, (ii) credenciados
no primeiro acesso ou (iii) verificados por comitês de gerenciamento formarão
grupos distintos de acesso. O objetivo final do projeto é prover serviços a
usuários anônimos, todavia isto dependerá da demanda e da origem da mesma (se
de grupos colaboradores, se do território nacional ou se internacional).
As metodologias específicas de
cada ferramenta incorporada serão relatadas em relatórios técnicos previstos no
cronograma de atividades.
4. Cronograma de atividades
Ano |
Atividades |
2008 |
Serviços baseados em bases e
software públicos |
2009 |
Credenciamento de usuários e
início de serviços |
2010 |
Instalação de serviços originais |
2011 |
Distribuição de serviços em
território nacional |
2012 |
Estruturação de indução de novos
serviços |
Inicialmente o pacote EMBnet [14] será instalado com colaboração da Drª. Ana
Tereza R. Vasconcelos, LNCC. Será feita a replicação de bases distribuídas pelo
NCBI e a instalação de pacotes BLAST. Serviços de Modelagem Molecular por
homologia, dentre outros serviços de domínio público serão preparados para
oferta em larga escala. No segundo ano, a formação de catálogos de usuários e
abertura do site para uso irrestrito será possível. Embora já iniciada nos
períodos anteriores, planeja-se para o terceiro ano a abertura das áreas do
site com acesso a uma vasta quantidade de serviços originais, entendidos como
ferramentas, bases de dados e serviços criados por centros de pesquisa
nacionais. Espera-se que o acesso a algumas aplicações seja muito intenso e,
embora também iniciado nos períodos anteriores, planeja-se uma alta atividade
de distribuição das aplicações dentre os vários CENAPAD para esta etapa.
Finalmente, o sistema criará uma interface de colaboração indutora com centros
de pesquisa e pós-graduação em Bioinformática para a criação de novos serviços
nativos em intenso desempenho.
5. Resultados pretendidos
·
Indicadores:
1.
Criação e lançamento do CENABID
2.
Inclusão de serviços de domínio público
3.
Credenciamento de usuários no território nacional
4.
Inclusão de serviços originais
5.
Compartilhamento de dados e serviços com outros
CENAPAD
6.
Implementação de serviços web via SOAP.
7.
Interface de adição de novos serviços
·
Progresso científico e tecnológico esperado:
Espera-se
o fortalecimento da pesquisa nacional e da produção tecnológica na área de
Bioinformática. Espera-se que a repercussão internacional do CENABID nos levará
a um diferente patamar no cenário mundial. O CENABID terá condições e pessoal
treinado para interagir com o setor empreendedor através de colaborações temáticas.
·
Inovações tecnológicas esperadas:
O
CENABID tem perspectivas de suporte ao desenvolvimento de drogas, á pesquisa de
genes candidatos a vacinas, genes e locos ligados a
resistência a estresse biótico e abiótico em plantas e demais inovações tecnológicas
que se beneficiem de processamento em algo desempenho e integração de dados. O
CENABID propriamente dito não deixa de ser um produto de inovação tecnológica.
·
Aplicações industriais:
O uso de
informações do CENABID passa por níveis anônimo, credenciao
quando do primeiro acesso ou autorizado por um comitê interno. Todavia,
consultas especializadas ao sistema serão possíveis por meio de convênios
firmados com as equipes regionais especializadas no tema de interesse da
colaboração. Neste aspecto, juntamente com a estruturação de dados e serviços,
é importante ressaltar a formação de pessoal implicada no desenvolvimento de um
projeto de tal porte.
6. Conclusões
A criação do CENABID é um
evento simultâneo, porém não restrito a esta proposta. Todavia, nos parece
bastante estratégico o suporte de bolsistas PNPD neste momento. O programa se
adapta perfeitamente à iniciativa e a Capes poderá por meio dele induzir o
aumento do alcance da produção científica do Programa de Doutorado em
Bioinformática da UFMG, colaborar com a evolução do SINAPAD e oferecer uma
relevante oportunidade de contribuição tecnológica no campo da bioinformática.
7. Referências Bibliográficas
[3]
http://www.ncbi.nlm.nih.gov
[5]
http://www.labinfo.lncc.br
[6]
Almeida LG, Paixão R, Souza RC, Costa GC,
Barrientos FJ, Santos MT, Almeida DF, Vasconcelos AT. A System for Automated Bacterial (genome) Integrated
Annotation--SABIA. Bioinformatics 2004 Nov 1;20(16):2832-3.
Epub 2004 Apr 15.
[7]
http://cgap.nci.nih.gov/SAGE
[8]
http://biodados.icb.ufmg.br
[9]
Barbosa-Silva A, Satagopam VP, Schneider R and
Ortega JM. Clustering of cognate
proteins among distinct proteomes derived from multiple links to a single seed
sequence. BMC Bioinformatics, in press.
[10] Melo RC,
Ribeiro C, Murray CS, Veloso CJM, Silveira CH, Neshich G, Meira-Jr W, Carceroni
RL and Santoro MM. Finding
protein-protein interaction patterns by contact map matching. Genet. Mol.
Res. 6 (4): 946-963 (2007).
[11] Faria-Campos
AC, Gomes RR, Moratelli FS, Rausch-Fernandes H, Franco GR, Campos SV. BNDb--Biomolecules Nucleus Database: an
integrated proteomics and transcriptomics database. Genet
Mol Res. 2007 Oct 5;6(4):937-45.
[12] Artiguenave
F, Lins A, Maciel WD, Junior AC, Nacif-Coelho C, de Souza Linhares MM, de
Oliveira GC, Barbosa LH, Lopes JC, Junior CN. The Tropical Biominer Project: mining old sources for
new drugs. OMICS. 2005 Summer;9(2):130-8.
[13] http://www.lncc.br/sinapad
[14] http://www.labinfo.lncc.br/embnet
[15] http://www.bioinfo.dout.icb.ufmg.br