CENABID

CENABID é um centro de serviços e processamento em Bioinformática de intenso desempenho, alimentado por grupos de Bioinformática de todo o país, suportado pelos cursos de pós-graduação em Bioinformática e de áreas afins e pela AB3C. O CENABID opera em conjunto com o SINAPAD utilizando suas grades de dados e processamento formadas pelos centros nacionais de processamento de alto desempenho (CENAPAD).

Núcleos regionais CENABID SINAPAD (Centros CENAPAD)

LNCC:

Ana Tereza R. Vasconcelos

UECE:

Diana Magalhães

UFMG:

J. Miguel Ortega

UFPE:

Ana Benko Iseppon

UFRGS:

Arnaldo Zaha

Unicamp:

Gonçalo A. G. Pereira

USP:

Sandro J. de Souza

LNCC:

Wagner Léo

UFC:

Rossana Andrade

UFMG:

Márcio Bunte de Carvalho

UFPE:

Ramiro Brito Willmersdorf

CESUP:

Denise Ewald

Unicamp:

Edison Zacarias

IMPE:

Eugênio Almeida

COPPE:

Alvaro Coutinho

1. Proposta

Nota: esta proposta foi idealizada para ser encaminhada por distintos núcleos regionais colaboradores na criação do CENADIB.

Centros de Bioinformática oferecem serviços com enorme potencial biotecnológico. Podemos citar o centro GenomeNet, produtor da Enciclopédia de Genes e Genomas de Kyoto (KEGG) [1] no Japão, o Instituto de Bioinformática Europeu (EBI) [2], o Centro Nacional de Informação Biotecnológica (NCBI) nos EUA [3] e o Instituto Suíço de Bioinformática (SIB) produtor do Sistema Perito em Análises de Proteínas (ExPASy) [4]. No Brasil destacam-se os serviços e softwares produzidos pelo Laboratório de Bioinformática (Labinfo) no Laboratório Nacional de Computação Científica (LNCC) [5] como, por exemplo, o sistema Sabiá de anotação genômica [6] e o Sistema de análises de etiquetas SAGE denominado SAGE Genie [7], produzido no Instituto Ludwig de Pesquisa sobre o Câncer.

Na UFMG o Laboratório de Biodados oferece as ferramentas PCT (Protein Classification Tool) e K-EST (KOG Expression-Sampling Tool), distribui o banco de dados UECOG [8] e produziu o software Seed Linkage [9]; o Laboratório de Físico-Química de Proteínas e Enzimologia produziu uma ferramenta de comparação de mapas de contato [10]; o Laboratório de Genética Bioquímica mantém uma base de dados de biomoléculas nucleares (BMDb) [11] e o Núcleo de Estudos em Química Medicinal colaborou para a construção do Projeto Biominerador Tropical [12].

Recentemente, um Sistema Nacional de Processamento de Alto Desempenho (SINAPAD) [13] foi criado para ser uma infra-estrutura computacional capaz de responder à demanda de ensino e pesquisa por processamento de desempenho elevado e é composto por oito CENAPAD (Centro Nacional de Processamento de Alto Desempenho), incluindo o CENAPAD-UFMG. O SINAPAD desenvolve um projeto de uma Grade Computacional de Processamento e de uma Grade Computacional de Dados. Esta proposta visa criar uma equipe de trabalho para o núcleo da UFMG do Centro Nacional de Processamento em Bioinformática de Intenso Desempenho (CENABID-UFMG) que estamos fundando e que será uma interface entre o desenvolvimento de software, bancos de dados e principalmente serviços ofertados por grupos de Bioinformática da UFMG e de seus colaboradores nacionais e internacionais e o CENAPAD-UFMG, que por sua vez fará a integração da tecnologia através do SINAPAD. É esperado que propostas similares sejam apresentadas, nesta ou futuras chamadas, para montagem de núcleos regionais que trabalharão em conjunto com a equipe da UFMG no CENABID.

O Doutorado em Bioinformática da UFMG foi criado em 2003, já formou nove Doutores e apresenta 25 estudantes desenvolvendo seus trabalhos de tese, que freqüentemente envolvem a participação de colaboradores nacionais e internacionais. A produção científica derivada destes projetos tem sido publicada em periódicos especializados e também comunicada em eventos da área, principalmente na Conferência Internacional da AB³C (Associação Brasileira de Bioinformática e Biologia Computacional), a qual apoiará com o desenvolvimento da proposta com a realização de workshops sobre hiper-computação em bioinformática. A criação de um ambiente de desenvolvimento para as várias ferramentas que foram produzidas até aqui ou que serão elaboradas já com perspectiva de oferta de serviço a múltiplos usuários, funcionará como suporte ao desenvolvimento científico e tecnológico da Bioinformática do estado de Minas Geral e nacional. Espera-se que o acesso centralizado ao site do CENABID-UFMG gere repercussão internacional e um projeto deste vulto necessita certamente de uma manutenção de alto nível, justificando a contratação de pós-doutorandos para a execução do projeto.

O CENABID está sendo lançado pela colaboração dos seguintes pesquisadores na coordenação dos núcleos regionais: J. Miguel Ortega (UFMG, MG), Ana Tereza R. Vasconcelos (LNCC, RJ), Sandro J. de Souza (LICR, SP), Gonçalo Amarante G. Pereira (Unicamp, SP), Arnaldo Zaha (UFRGS, RS), Ana M. Benko Iseppon (UFPE, PE), Diana Magalhães de Oliveira (UEC) e conta com o apoio dos CENAPAD regionais. O núcleo CENABID-UFMG conta com a colaboração do CPqRR (Guilherme Oliveira), da EMBRAPA Informática Agropecuária (Goran Nerhich) e do Protein Institute Resource USA (Darren Natale), além de futuros colaboradores estão sendo convidados.

2. Objetivos

· Criar o CENADIB, uma rede de Bioinformática de intenso desempenho em colaboração com os Centros Nacionais de Processamento de Alto Desempenho (CENAPAD) estruturados no sistema SINAPAD.

· Criar na UFMG um núcleo do Centro Nacional de Processamento em Bioinformática de Intenso Desempenho (CENABID-UFMG).

· Subsidiar a implementação de serviços, distribuição de software e bases de dados produzidas por grupos de Bioinformática da UFMG e de seus colaboradores nacionais e internacionais.

· Oferecer serviços públicos de Bioinformática de intenso desempenho como ferramentas EMBnet, BLAST, Modelagem molecular, dentre outras, através do portal CENABID.

· Colaborar para a integração dos serviços do CENABID-UFMG com as grades do SINAPAD.

· Realizar cursos de treinamento e capacitação em processamento bioinformático de intenso desempenho, integrando os núcleos regionais do CENABID.

3. Metodologia

Na UFMG os serviços web e os aplicativos locais serão disparados pelo servidor www.cenabid.ufmg.br que será gerenciado pelo núcleo CENABID-UFMG e estará conectado por rede infiniband de alta velocidade ao hiper-computador do CENAPAD-UFMG. O servidor CENABID local funcionará assim como uma interface entre o usuário e o processamento de intenso desempenho, ofertando inclusive serviços a clientes de webservice, através de requisições feitas por máquinas utilizando SOAP (Simple Object Access Protocol) descrito abaixo. Dentre estas máquinas estarão as componentes das grades computacionais de processamento e de dados do SINAPAD, principalmente as máquinas de outros núcleos CENABID que estão sendo criados em torno de outros CENAPAD regionais.

As ferramentas computacionais desenvolvidas em cada CENABID serão desenvolvidas para processamento paralelo, adaptação de demanda ao fluxo de disparo e integradas dentro da grade SINAPAD seja por espelhamento, seja por redirecionamento da requisição feita por clientes SOAP, quando apropriado, todavia esta definição será dinâmica acompanhando o acesso de cada aplicação.

Os métodos e serviços criados pelos diversos grupos de pesquisa em Bioinformática da UFMG serão implementados como webservices, permitindo o acesso programático às diversas ferramentas disponibilizadas pela rede CENABID. Todos os serviços serão descritos por arquivos WSDL específicos para cada webservice. A tecnologia webservices permite que todos os recursos metodológicos criados sejam explorados sem que os referidos programas precisem sequer ser instalados nos computadores dos usuários. Para isso iremos desenvolver aplicativos clientes em diversas linguagens de programação (tais como Java, PHP, PERL, C++) que possam se comunicar com nosso servidor através da troca específica de dados no formato XML através do protocolo SOAP (Simple Object Acess Protocol). Em tais mensagens, os métodos são invocados e os parâmetros de cada análise são transmitidos para o servidor. Após a execução do serviço, uma nova mensagem em XML é criada para retornar os resultados ao usuário do webservice.

Usuários (i) anônimos, (ii) credenciados no primeiro acesso ou (iii) verificados por comitês de gerenciamento formarão grupos distintos de acesso. O objetivo final do projeto é prover serviços a usuários anônimos, todavia isto dependerá da demanda e da origem da mesma (se de grupos colaboradores, se do território nacional ou se internacional).

As metodologias específicas de cada ferramenta incorporada serão relatadas em relatórios técnicos previstos no cronograma de atividades.

4. Cronograma de atividades

Ano	Atividades
2008	Serviços baseados em bases e software públicos
2009	Credenciamento de usuários e início de serviços
2010	Instalação de serviços originais
2011	Distribuição de serviços em território nacional
2012	Estruturação de indução de novos serviços

Inicialmente o pacote EMBnet [14] será instalado com colaboração da Drª. Ana Tereza R. Vasconcelos, LNCC. Será feita a replicação de bases distribuídas pelo NCBI e a instalação de pacotes BLAST. Serviços de Modelagem Molecular por homologia, dentre outros serviços de domínio público serão preparados para oferta em larga escala. No segundo ano, a formação de catálogos de usuários e abertura do site para uso irrestrito será possível. Embora já iniciada nos períodos anteriores, planeja-se para o terceiro ano a abertura das áreas do site com acesso a uma vasta quantidade de serviços originais, entendidos como ferramentas, bases de dados e serviços criados por centros de pesquisa nacionais. Espera-se que o acesso a algumas aplicações seja muito intenso e, embora também iniciado nos períodos anteriores, planeja-se uma alta atividade de distribuição das aplicações dentre os vários CENAPAD para esta etapa. Finalmente, o sistema criará uma interface de colaboração indutora com centros de pesquisa e pós-graduação em Bioinformática para a criação de novos serviços nativos em intenso desempenho.

5. Resultados pretendidos

· Indicadores:

1. Criação e lançamento do CENABID

2. Inclusão de serviços de domínio público

3. Credenciamento de usuários no território nacional

4. Inclusão de serviços originais

5. Compartilhamento de dados e serviços com outros CENAPAD

6. Implementação de serviços web via SOAP.

7. Interface de adição de novos serviços

· Progresso científico e tecnológico esperado:

Espera-se o fortalecimento da pesquisa nacional e da produção tecnológica na área de Bioinformática. Espera-se que a repercussão internacional do CENABID nos levará a um diferente patamar no cenário mundial. O CENABID terá condições e pessoal treinado para interagir com o setor empreendedor através de colaborações temáticas.

· Inovações tecnológicas esperadas:

O CENABID tem perspectivas de suporte ao desenvolvimento de drogas, á pesquisa de genes candidatos a vacinas, genes e locos ligados a resistência a estresse biótico e abiótico em plantas e demais inovações tecnológicas que se beneficiem de processamento em algo desempenho e integração de dados. O CENABID propriamente dito não deixa de ser um produto de inovação tecnológica.

· Aplicações industriais:

O uso de informações do CENABID passa por níveis anônimo, credenciao quando do primeiro acesso ou autorizado por um comitê interno. Todavia, consultas especializadas ao sistema serão possíveis por meio de convênios firmados com as equipes regionais especializadas no tema de interesse da colaboração. Neste aspecto, juntamente com a estruturação de dados e serviços, é importante ressaltar a formação de pessoal implicada no desenvolvimento de um projeto de tal porte.

6. Conclusões

A criação do CENABID é um evento simultâneo, porém não restrito a esta proposta. Todavia, nos parece bastante estratégico o suporte de bolsistas PNPD neste momento. O programa se adapta perfeitamente à iniciativa e a Capes poderá por meio dele induzir o aumento do alcance da produção científica do Programa de Doutorado em Bioinformática da UFMG, colaborar com a evolução do SINAPAD e oferecer uma relevante oportunidade de contribuição tecnológica no campo da bioinformática.

7. Referências Bibliográficas

[1] http://www.genome.jp/kegg

[2] http://www.ebi.ac.uk

[3] http://www.ncbi.nlm.nih.gov

[4] http://ca.expasy.org

[5] http://www.labinfo.lncc.br

[6] Almeida LG, Paixão R, Souza RC, Costa GC, Barrientos FJ, Santos MT, Almeida DF, Vasconcelos AT. A System for Automated Bacterial (genome) Integrated Annotation--SABIA. Bioinformatics 2004 Nov 1;20(16):2832-3. Epub 2004 Apr 15.

[7] http://cgap.nci.nih.gov/SAGE

[8] http://biodados.icb.ufmg.br

[9] Barbosa-Silva A, Satagopam VP, Schneider R and Ortega JM. Clustering of cognate proteins among distinct proteomes derived from multiple links to a single seed sequence. BMC Bioinformatics, in press.

[10] Melo RC, Ribeiro C, Murray CS, Veloso CJM, Silveira CH, Neshich G, Meira-Jr W, Carceroni RL and Santoro MM. Finding protein-protein interaction patterns by contact map matching. Genet. Mol. Res. 6 (4): 946-963 (2007).

[11] Faria-Campos AC, Gomes RR, Moratelli FS, Rausch-Fernandes H, Franco GR, Campos SV. BNDb--Biomolecules Nucleus Database: an integrated proteomics and transcriptomics database. Genet Mol Res. 2007 Oct 5;6(4):937-45.

[12] Artiguenave F, Lins A, Maciel WD, Junior AC, Nacif-Coelho C, de Souza Linhares MM, de Oliveira GC, Barbosa LH, Lopes JC, Junior CN. The Tropical Biominer Project: mining old sources for new drugs. OMICS. 2005 Summer;9(2):130-8.

[13] http://www.lncc.br/sinapad

[14] http://www.labinfo.lncc.br/embnet

[15] http://www.bioinfo.dout.icb.ufmg.br

LNCC:	Ana Tereza R. Vasconcelos
UECE:	Diana Magalhães
UFMG:	J. Miguel Ortega
UFPE:	Ana Benko Iseppon
UFRGS:	Arnaldo Zaha
Unicamp:	Gonçalo A. G. Pereira
USP:	Sandro J. de Souza

LNCC:	Wagner Léo
UFC:	Rossana Andrade
UFMG:	Márcio Bunte de Carvalho
UFPE:	Ramiro Brito Willmersdorf
CESUP:	Denise Ewald
Unicamp:	Edison Zacarias
IMPE:	Eugênio Almeida
COPPE:	Alvaro Coutinho