Exame Logo

Os bits por trás do genoma

Tecnologia de vanguarda põe o Brasil no mapa da bioinformática

EXAME.com (EXAME.com)
DR

Da Redação

Publicado em 9 de outubro de 2008 às 12h30.

João Alexandre Barbosa é um pescador fora do comum. Todos os dias pela manhã, logo no início do batente, ele toma nas mãos uma agulha de menos de 2 centímetros de comprimento, prende numa de suas extremidades um minúsculo fio de cobre em forma de laço e sai para pescar... proteínas.

A operação é tão surpreendente quanto rápida: em questão de segundos, Barbosa pesca um cristal protéico dentro de uma pequena gota pousada numa lâmina de microscópio, posiciona-a bem à frente de um canhão de elétrons e dispara um feixe dessas partículas numa velocidade aproximada de 300 mil quilômetros por segundo. A proteína é atingida em cheio e explode em milhares de pedaços nanométricos, que são espalhados numa tela metálica e imediatamente digitalizados para uma estação de trabalho Dell OptiPlex. Com o "peixe" nas mãos, Barbosa tem agora a árdua tarefa de decifrar códigos numéricos, algoritmos e diagramas tridimensionais, a fim de formar a estrutura preliminar dessa proteína, processo que demora não menos de quatro a seis semanas de trabalho intensivo.

Veja também

Bem-vindo ao fascinante mundo da biotecnologia. Barbosa é pesquisador do Laboratório Nacional de Luz Síncrotron (LNLS), em Campinas (SP), um dos mais avançados centros de pesquisas do país. Trata-se da ponta mais avançada do ambicioso projeto brasileiro que ajuda a decifrar a estrutura biomolecular do homem. O LNLS, na verdade, trabalha num ramo da biotecnologia chamado proteômica (veja box no final da matéria), ciência que complementa os trabalhos da genômica. No entanto, as duas têm algo em comum: o estado da arte high tech.

Não é exagero dizer que o Brasil é um país avançado quando o assunto é biotecnologia. Além da rica biodiversidade, o país conta com algumas das melhores cabeças do mundo dos computadores nessa área. Isso mesmo: engana-se quem pensa que a tarefa de decifrar códigos genéticos é privilégio dos biólogos. É óbvio que a importância desses profissionais é fundamental nessa área, mas poucos avanços seriam realmente possíveis se o pessoal do mundo dos bits não estivesse na jogada.

A estrutura computacional necessária para decifrar códigos genéticos é extremamente complexa. Em primeiro lugar é preciso um aparato de hardware muito robusto, formado por servidores multiprocessados, discos rígidos de centenas de gigabytes e memória RAM à vontade. Somente o primeiro projeto importante de biotecnologia feito no Brasil, o mapeamento genético da bactéria Xylella fastidiosa (causadora de uma praga nas laranjas), consumiu dois anos de trabalho, 4 GB de memória RAM e 100 GB de disco. "E o equipamento quase pediu água", afirma João Meidanis, na época coordenador do Instituto de Computação da Universidade de Campinas (Unicamp) e um dos responsáveis pela infra-estrutura tecnológica do projeto, ao lado dos pesquisadores João Carlos Setúbal e João Paulo Kitajima. O trio, aliás, é um dos expoentes do núcleo de bioinformática do Projeto Genoma brasileiro, financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), que até agora já consumiu investimentos de 100 milhões de dólares.

O seqüenciamento de um genoma começa nos laboratórios de biologia, onde são extraídos fragmentos de DNA das células de seres vivos. Depois de serem submetidos a diversas reações químicas, os fragmentos são colocados num seqüenciador eletrônico, hardware que mapeia as bases nitrogenadas - as famosas letrinhas A (adenina), T (timina), C (citosina) e G (guanina) - e as ordena numa seqüência. Esses dados caem na tela de um computador, onde são avaliados por um cientista, e enviados via internet para os servidores do laboratório de bioinformática.

A partir daí, entram em cena três tipos de software: um montador de fragmentos (o mais utilizado é o americano Phred/Phrap/Consed, proprietário da Universidade de Washington e distribuído de graça para as instituições acadêmicas); um comparador de seqüências (como o Blast, do governo americano, também distribuído gratuitamente pela web); e um editor de genoma (que não possui similar no mercado e é feito sob medida por cada grupo de pesquisas, normalmente em Perl). No Laboratório de Bioinformática da Unicamp esses programas rodam em ambiente Unix em quatro servidores Sun e Compaq, respectivamente modelos E450 e ES40, com configuração máxima de quatro processadores de 667 MHz, 8 GB de memória RAM e 300 GB de disco. Os dados são armazenados num banco de dados MySQL.

Todo o processo de seqüenciamento leva de 18 a 24 meses para ser concluído (seis meses para a montagem do genoma e pelo menos um ano de anotações e análises dos dados). Para ter uma idéia da complexidade do processo, somente 40% das bases seqüenciadas apresentam um alto grau de confiabilidade. O resto é lixo. Em termos de computação, o fator crítico do Projeto Genoma é a memória, muito mais que a velocidade de processamento dos dados. "É o nosso principal gargalo, pois só é possível decifrar uma seqüência genética se a compararmos com todo o banco de dados de genes disponível na web. Sem memória, o computador simplesmente trava", explica Kitajima.

Bits contra o câncer
O Instituto Ludwig de Pesquisas sobre o Câncer, em São Paulo, utiliza uma parte da infra-estrutura da Unicamp para tentar desvendar o código genético dos tumores que causam a doença. Seus servidores próprios, porém, são poderosíssimos. A menina dos olhos do biólogo Sandro de Souza, coordenador de bioinformática do Ludwig, é um computador da americana Paracel construído especialmente para projetos de biotecnologia. A máquina, dedicada exclusivamente ao processamento de informações, possui nada menos que 1028 processadores paralelos. Há também uma estação de storage com saída SCSI e 640 GB de capacidade. Tudo roda em Linux. "Já conseguimos analisar mais de 1,2 milhão de seqüências", diz Souza.

Além do LNLS, da Unicamp e do Instituto Ludwig, a Fapesp financia 80 centros de biotecnologia que formam uma rede virtual de pesquisa genética denominada Onsa (Organization for Nucleotide Sequencing and Analysis). O próximo desafio desses laboratórios é usar a tecnologia de computação compartilhada para acelerar ainda mais os projetos e consolidar a posição do Brasil entre os líderes mundiais de bioinformática. Competência - e tecnologia - para isso há de sobra.

Acompanhe tudo sobre:[]

Mais lidas

exame no whatsapp

Receba as noticias da Exame no seu WhatsApp

Inscreva-se

Mais de Tecnologia

Mais na Exame