( PDF ) Aspectos de genômica comparativa

Download PDF

ads:

Aspectos de genˆomica comparativa

Carlos Juliano Moura Viana

Disserta¸c˜ao de Mestrado

Orienta¸c˜ao:Prof.Dr. Nalvo Franco de Almeida Jr.

Area de Concentra¸c˜ao: Biologia Computacional

Durante a elabora¸c˜ao desse trabalho o autor recebe u apoio ﬁnanceiro da CAPES.

dct ufms

Departamento de Computa¸c˜ao e Estat´ıstica

Centro de Ciˆencias Exatas e Tecnologia

Universidade Federal de Mato Grosso do Sul

Agosto/2006

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Aspectos de genˆomica comparativa

Este exemplar corresponde `a reda¸c˜ao ﬁnal da

tese devidamente corrigida e defendida por

Carlos Juliano Moura Viana e aprovada pela

comiss˜ao julgadora.

Campo Grande/MS, 31 de agosto de 2006.

Banca Examinadora:

• Prof. Dr. Nalvo Franco de Almeida Junior - Orientador (DCT-UFMS)

• Profa. Dra. Maria Em´ılia Machado Te lles Walter (CIC-UNB)

• Prof. Dr. Said Sadique Adi (DCT-UFMS)

ads:

`a minha amada Amandita

e aos meus pais.

Agradecimentos

Tenho a oportunidade neste momento de fazer os meus agradecimentos a todas as pessoas

que me ajudaram a transpor mais uma etapa na minha vida.

Gostaria primeiramente de agradecer a Deus pela sa´ude, pois sem ela nada disso seria

poss´ıvel.

Agrade¸co a minha amada fam´ılia pelo carinho e pelo pleno apoio para continuar os

meus estudos.

Um agradecimento em especial `a minha amada Amandita pela sua enorme paciˆencia,

aten¸c˜ao, carinho, dedica¸c˜ao e pelos seus conselhos, que n˜ao me permitiram desanimar

jamais diante dos momentos dif´ıceis.

Ao professor Edson Norberto C´aceres que n˜ao mede esfor¸cos para melhorar os cursos

de Bacharelado e Mestrado em Ciˆencia da Computa¸c˜ao nesta universidade. Ao professor

Marcelo Henriques de Carvalho pelas suas dicas e colabora¸c˜ao com os trabalhos que

desenvolvi no mestrado. Agrade¸co ao professor Henrique Mongelli pelas recomenda¸c˜oes,

que trouxeram-me novamente para o t´ermino desse trabalho.

Gostaria de agradecer em especial, ao meu orientador, professor Nalvo Franco de

Almeida Junior, pela paciˆencia, conselhos, dicas e aten¸c˜ao dedicados, desde o projeto

ﬁnal de curso at´e a conclus˜ao deste trabalho de mestrado.

As minhas ex-colegas de sala, Graziela e Luciana, pelas valiosas discuss˜oes em bio-

inform´atica. A minha amiga Bianca (B1), pelos incentivos, aux´ılios e pelas divertidas

conversas durante todo o mestrado. Aos meus amigos Cristiano, Anderson e M´arcio pelos

momentos descontra´ıdos que aliviaram os momentos dif´ıceis.

Em especial, ao meu amigo Cristiano, pelo convite e oportunidade de continuar tra-

balhando durante o ﬁnal do mestrado, e pelos seus valiosos conselhos. Agrade¸co tamb´em

ao pessoal do Laborat´orio de Engenharia de Software (LEDES) pelo ´otimo acolhimento.

Enﬁm, agrade¸co desejando um muito obrigado a todos que me ajudaram de alguma

forma a concluir esse trabalho.

Resumo

Com o avan¸co no seq¨uenciamento de genomas e facilidade no acesso `as seq¨uˆencias, t´ecnicas

computacionais de an´alise comparativa tornaram-se indispens´aveis ferramentas para uma

melhor caracteriza¸c˜ao e compreens˜ao dos organismos em estudo. Um projeto genoma

consiste, basicamente, em 3 grandes fases: seq¨uenciamento, anota¸c˜ao e an´alise. A se-

gunda fase, anota¸c˜ao, consiste em determinar onde, em cada cromossomo, se encontram

as regi˜oes que codiﬁcam informa¸c˜oes gen´eticas, os genes, assim como em determinar a

caracteriza¸c˜ao funcional de cada gene. Na f ase de an´alise, busca-se uma caracteriza¸c˜ao

do organismo estudado, em termos de suas funcionalidades biol´ogicas, a partir das in-

forma¸c˜oes geradas nas duas fases anteriores. E ste trabalho est´a inserido no contexto da

an´alise do genoma. Especiﬁcamente, o trabalho consiste na total reformula¸c˜ao do pa-

cote de ferramentas denominado EGG. A reformula¸c˜ao inclui a reimplementa¸c˜ao de todo

o c´odigo-fonte, bem como a descri¸c˜ao e implementa¸c˜ao de novas metodologias e funcio-

nalidades. O objetivo principal ´e disponibilizar `a comunidade cient´ıﬁca um pacote com

um conjunto de ferramentas para a compara¸c˜ao de genomas no n´ıvel dos seus genes e

prote´ınas.

Abstract

With the advance in the genome sequencing and easiness in accessing the sequences,

computational techniques of comparative analysis had become indispensable tools for a

better characterization and understanding of the organisms in study. A genome project

consists basically in 3 major phases: sequencing, annotation and analysis. The second

phase, annotation, consists of determining, in each chromosome, where genetic coding

regions are as well as in determining the functional characterization of each gene. In the

analysis, the goal is a characterization of the organism of interest, in terms of its biological

functionalities, from the information generated in the two previous phases. This work is

inserted in the context of the analysis of the genome. Speciﬁcally, the work consists of

the total reformularization of the package of tools named EGG . T he reformularization

includes reimplementing of the source code, as well as description and implementation of

new methodologies and features. The main goal is to give to the scientiﬁc community a

package with a set of tools for genome comparison in the level of its genes and proteins.

iii

Sum´ario

Agradecimentos i

Resumo ii

Abstract iii

1 Introdu¸c˜ao 1

2 Preliminares 4

2.1 Fundamentos b´asicos de Biologia Molecular . . . . . . . . . . . . . . . . . 4

2.2 Fundamentos b´asicos de Computa¸c˜ao . . . . . . . . . . . . . . . . . . . . . 6

2.3 Compara¸c˜ao de seq¨uˆencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 BLAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Compara¸c˜ao de dois genomas 12

3.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.1 Genes Espec´ıﬁcos e Ort´ologos . . . . . . . . . . . . . . . . . . . . . 15

3.1.2 Regi˜oes espec´ıﬁcas (REs) . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.3 Regi˜oes Ort´ologas (ROs) . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.4 Espinha dorsal dos proteomas . . . . . . . . . . . . . . . . . . . . . 17

3.2 Nova implementa¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.1 Descri¸c˜ao das fases de egg . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 Novas Funcionalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4 Outras ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 Determina¸c˜ao de genes par´alogos 35

4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.1.1 Agrupamento de seq¨uˆencias . . . . . . . . . . . . . . . . . . . . . . 36

4.1.2 Busca hom´ologos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Compara¸c˜ao de trˆes genomas 41

5.1 Comparando trˆes genomas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2 Descri¸c˜ao do M´etodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.3 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.4 Alguns resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Considera¸c˜oes ﬁnais 48

A Detalhes operacionais de egg 50

A.1 Descri¸c˜ao das Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

A.2 Exemplos de alguns arquivos de sa´ıda . . . . . . . . . . . . . . . . . . . . . 54

B Detalhes operacionais para obter par´alogos 65

B.1 Pacote PARALOGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

B.2 Exemplos de alguns arquivos de sa´ıda . . . . . . . . . . . . . . . . . . . . . 66

Referˆencias Bibliogr´aﬁcas 69

Lista de Algoritmos

1 Subseq

encias-Maximais . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Constr

oi-Run . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Junta-Runs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4 M

etodo-3GC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Lista de Figuras

2.1 Exemplo da representa¸c˜ao de como as duas ﬁtas de DNA pareiam. . . . . . 5

2.2 Exemplo de um grafo com seis v´ertices. . . . . . . . . . . . . . . . . . . . . 7

2.3 Exemplo de um grafo bipartido. . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4 Exemplo de uma clique de tamanho 3. . . . . . . . . . . . . . . . . . . . . 8

2.5 Exemplo de uma clique de tamanho 4 maximal. . . . . . . . . . . . . . . . 8

3.1 Exemplo de representa¸c˜ao dos genes de um proteoma G. . . . . . . . . . . 13

3.2 Representa¸c˜ao de uma RO. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 Representa¸c˜ao de uma Espinha Dorsal. . . . . . . . . . . . . . . . . . . . . 14

3.4 Exemplo de uma regi˜ao espec´ıﬁca. . . . . . . . . . . . . . . . . . . . . . . . 23

3.5 Exemplo de um run paralelo consistente. . . . . . . . . . . . . . . . . . . . 25

3.6 Representa¸c˜ao gr´aﬁca de run . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.7 Exemplo de uma RO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.8 Representa¸c˜ao gr´aﬁca da RO. . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.9 Trecho do arquivo texto da espinha dorsal direta entre os BBHs dos geno-

mas dos organismos Xac e Xcc . . . . . . . . . . . . . . . . . . . . . . . . 28

3.10 Trecho do arquivo de BBHs entre genes do organismo Cg e ESTs do orga-

nismo Pb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.11 Trecho do arquivo de matches entre genes do organismo Pa e ESTs do

organismo Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.12 Trecho do arquivo de genes esp ec´ıﬁcos do organismo Ao em rela¸c˜ao as ESTs

do organismo Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1 Representa¸c˜ao de uma JMC. . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Fluxo de execu¸c˜ao da fase Busca Hom´ologos . . . . . . . . . . . . . . . . . 38

4.3 Uma fam´ılia encontrada em Xylella fastidiosa 9a5c. . . . . . . . . . . . . . 39

vii

5.1 Diagrama de Venn representando (a) seq¨uˆencias exclusivas a um genoma,

(b) seq¨uˆencias compartilhadas por dois genomas, e (c) seq¨uˆencia comparti-

lhadas aos trˆes genomas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2 Genes que podem se r atribu´ıdos as regi˜oes do diagrama de Venn. . . . . . . 42

5.3 Casos complexos de atribui¸c˜ao dos genes `as regi˜oes do diagrama de Venn. . 43

5.4 Diagramas de Venn gerados pela compara¸c˜ao entre dois genomas de fungos

pat´ogenos e cinco genomas de fungos n˜ao-pat´ogenos. . . . . . . . . . . . . 47

A.1 Trecho do arquivo xacxcc.12. . . . . . . . . . . . . . . . . . . . . . . . . . 54

A.2 Trecho do arquivo xacxcc.1. . . . . . . . . . . . . . . . . . . . . . . . . . . 54

A.3 Trecho do arquivo atsm.bbh. . . . . . . . . . . . . . . . . . . . . . . . . . . 55

A.4 Exemplo de uma espinha dorsal entre os genomas dos organismos Xac e Xcc. 56

A.5 Trecho do arquivo atml.exc. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

A.6 Trecho do arquivo atsm.k12. . . . . . . . . . . . . . . . . . . . . . . . . . . 58

A.7 Trecho do arquivo xacxcc.mul. . . . . . . . . . . . . . . . . . . . . . . . . 59

A.8 RO resultante da compara¸c˜ao entre os genomas dos organismos Xac e Xcc. 60

A.9 Exemplo de um run paralelo consistente entre os genomas dos organismos

Sm e Ml. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

A.10 Regi˜ao espec´ıﬁca do genoma do organismo At em rela¸c˜ao ao genoma do

organismo Sm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

A.11 Plotagem do alinhamento obtido pelo LCS entre os BBHs dos genomas dos

organismos Xac e Xcc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A.12 Plotagem dos BBHs entre os genomas dos organismos Xac e Xcc. . . . . . 64

B.1 Componente conexa encontrada no grafo gerado a partir das prote´ınas do

genoma do organismo Pa. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

B.2 Trecho do arquivo papa.comps. . . . . . . . . . . . . . . . . . . . . . . . . 67

B.3 Clique maximal enc ontrada no grafo gerado para o genoma do organismo

Ssp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

B.4 Fam´ılia encontrada ap´os eliminar as seq¨uˆencias discrepantes de sua clique

maximal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

B.5 Fam´ılia encontrada ap´os agregar uma nova prote´ına. . . . . . . . . . . . . . 68

viii

Lista de Tabelas

4.1 Informa¸c˜oes das fam´ılias encontradas em cada genoma. . . . . . . . . . . . 40

Cap´ıtulo 1

Introdu¸c˜ao

Os avan¸cos na ´area de Biotecnologia, em especial no desenvolvimento de t´ecnicas de

seq¨uenciamento de DNA, tˆem produzido uma gigantesca massa de dados biol´ogicos, tra-

duzidos em seq¨uˆencias de DNA e de prote´ına. O grande desaﬁo criado a partir da gera¸c˜ao

desses dados ´e a tarefa de analis´a-los e transform´a-los em informa¸c˜oes biol´ogicas rele-

vantes, capazes de proporcionar aos pesquisadores novas habilidades. Essas habilidades

incluem, por exemplo, novas t´ecnicas para diagn´ostico e tratamento de doen¸cas gen´eticas.

Em uma vis˜ao mais ampla, as descobertas feitas a partir dessas an´alises devem ser capa-

zes de nos proporcionar um maior entendimento dos mecanismos biol´ogicos que ditam as

funcionalidades dos seres vivos.

A utiliza¸c˜ao da Ciˆencia da Computa¸c˜ao no tratamento dessas informa¸c˜oes ´e impres-

cind´ıvel, n˜ao somente pela grande quantidade de dados gerados ou pelo tamanho das

seq¨uˆencias, mas tamb´em pela possibilidade de se des envolverem novas t´ecnicas computa-

cionais para resolver problemas de Biologia Molecular. Essas novas t´ecnicas deram origem

a uma nova ´area de pesquisa, denominada Bioinform´atica ou Biologia Computacional.

O crescimento constante da Biologia Computacional tornou-se mais evidente com os

in´umeros genomas seq¨uenciados nos ´ultimos anos. Um projeto genoma consiste basi-

camente em trˆes grandes fases: o seq ¨uenciamento, anota¸c˜ao e an´alise. O seq¨uenciamento

consiste na obten¸c˜ao da seq¨uencia exata de nucleot´ıdeos que comp˜oe cada cromossomo

do organismo estudado. A anota¸c˜ao ´e a tarefa de descobrir onde, em cada cromossomo,

se encontram as regi˜oes que codiﬁcam informa¸c˜oes gen´eticas, denominadas genes, al´em

da determina¸c˜ao da fun¸c˜ao biol´ogica de cada um desses genes. A ´ultima fase, de an´alise,

consiste em determinar as funcionalidades biol´ogicas gerais do organismo, a partir das

informa¸c˜oes geradas na fase de anota¸c˜ao e seq¨uenciamento.

Este trabalho se insere na fase de an´alise de um genoma. Em particular, estamos interessa-

dos no desenvolvimento de t´ecnicas e metodologias para a compara¸c˜ao de genomas. Essas

compara¸c˜oes podem elucidar quest˜oes relacionadas a funcionalidades comuns e espec´ıﬁcas

importantes dos organismos. Uma forma de auxiliar na descoberta de tais informa¸c˜oes

relevantes passa, certamente, pela de termina¸c˜ao dos pap´eis que os mais diversos objetos

envolvidos num genoma desempenham. Esses pap´eis est˜ao muitas vezes relacionados `as

caracter´ısticas estruturais de cada objeto. Isso acontece de forma bem clara no caso de

prote´ınas, que tˆem suas fun¸c˜oes determinadas diretamente pela sua forma e estrutura.

Assim, ´e de se esperar que a compara¸c˜ao entre obje tos, nas suas formas mais prim´arias,

nos tragam pistas de relacionamentos entre eles e, por conseq¨uˆencia, entre suas funciona-

lidades [1].

No caso de genomas ´e de se esperar, portanto, que a compara¸c˜ao entre seus objetos, espe-

ciﬁcamente seq¨uˆencias de DNA e seus genes, seja ´util na determina¸c˜ao de funcionalidades

comuns. A id´eia ent˜ao ´e termos ferramentas que evidenciem aspectos funcionais comuns,

al´em de proporcionarem uma melhor compreens˜ao de como os genes se organizam nos

diversos genomas.

Especiﬁcamente, a compara¸c˜ao de genomas tem como principais objetivos:

• detec¸c˜ao de similaridades e diferen¸cas entre genomas completos, no n´ıvel de DNA;

• identiﬁca¸c˜ao de genes ou grupos de genes envolvidos em diversas fun¸c˜oes;

• identiﬁca¸c˜ao de genes ou grupos de genes respons´aveis por caracter´ısticas fenot´ıpicas

peculiares a um genoma particular;

• identiﬁca¸c˜ao de genes hom´ologos (genes descendentes de um mesmo gene ancestral);

• anota¸c˜ao de genes de genomas n˜ao completos; e

• inferˆencia de rela¸c˜oes ﬁlogen´eticas entre os organismos.

Hist´orico e Justiﬁcativa

Objetivando o desenvolvimento de ferramentas computacionais para a compara¸c˜ao de dois

genomas, o trabalho desenvolvido por Almeida [1], em 2002, foi apresentado como tese

de doutorado no Instituto de Computa¸c˜ao da Unicamp. Uma das ferramentas propostas

em [1], denominada egg, compara dois proteomas. O proteoma de um organismo ´e o

conjunto de prote´ınas expressas por seus genes. egg foi inicialmente proposto em [3],

reformulado em [4] e em [1], e sendo utilizado com sucesso em v´arios projetos genoma

[9, 12, 15, 20, 21, 24, 26, 37, 45, 46]. egg leva em considera¸c˜ao as posi¸c˜oes relativas dos

genes nos cromossomos.

Apesar das reformula¸c˜oes sofridas e apesar de ter sido intensamente utilizada, a ferramenta

egg ainda necessita de reformula¸c˜oes visando a melhoria de desempenho e portabilidade,

al´em do acr´escimo de novas funcionalidades. Este trabalho consiste na reformula¸c˜ao e

reimplementa¸c˜ao de egg.

Sum´ario de resultados

Os principais resultados deste trabalho s˜ao:

• total reformula¸c˜ao do c´odigo dos programas contidos na ferramenta egg;

• implementa¸c˜ao de metodologia para encontrar regi˜oes espec´ıﬁcas – essa metodologia

foi proposta em [1] mas n˜ao havia sido implementada;

• desenvolvimento e implementa¸c˜ao de nova metodologia para encontrar genes par´alogos

(genes hom´ologos pertencentes ao mesmo organismo);

• desenvolvimento e implementa¸c˜ao de uma vers˜ao de egg, chamada egg-lite, para

a compara¸c˜ao de genomas incompletos, onde se tem apenas genes, ou transcritos do

organismo, sem o seq¨uenciamento completo dos cromossomos;

• desenvolvimento e implementa¸c˜ao de m´odulo para a compara¸c˜ao de trˆes proteomas.

Ap´os essa reformula¸c˜ao, os c´odigos-fonte de egg, al´em de manuais e documenta¸c˜ao

encontram-se dispon´ıveis para download em http://egg.dct.ufms.br/egg.

A aplica¸c˜ao das novas metodologias inseridas em egg foram utilizadas em trabalhos de

pesquisa e resultaram na co-autoria das publica¸c˜oes [5, 41, 47]. Al´em disso, a experiˆencia

adquirida durante o programa de mestrado permitiu ainda a co-autoria de [44].

Organiza¸c˜ao do texto

O texto est´a organizado da seguinte forma. No Cap´ıtulo 2 alguns conceitos b´asicos e

nota¸c˜oes preliminares s˜ao apresentados. O Cap´ıtulo

3 traz a metodologia para a com-

para¸c˜ao de dois genomas. No Cap´ıtulo 4 a nova metodologia para a determina¸c˜ao de

genes par´alogos ´e apresentada. No Cap´ıtulo 5 a metodologia para a compara¸c˜ao de trˆes

genomas ´e descrita. Finalmente, o C ap´ıtulo 6 traz coment´arios conclusivos e propostas

para trabalhos futuros.

Cap´ıtulo 2

Preliminares

Neste cap´ıtulo abordamos descri¸c˜oes de conceitos e nota¸c˜oes utilizados no trabalho. Des-

crevemos alguns conceitos b´asicos de Biologia Molecular e de Computa¸c˜ao. Estes con-

ceitos permitem uma melhor interpreta¸c˜ao e compreens˜ao das metodologias descritas no

cap´ıtulos posteriores.

Na Se¸c˜ao 2.1 descrevemos alguns f undamentos b´asicos da Biologia Molecular. A Se¸c˜ao 2.2

traz alguns fundamentos b´asicos de Computa¸c˜ao. Na Se¸c˜ao 2.3 descrevemos conceitos

envolvendo a compara¸c˜ao entre seq¨uˆencias, como: alinhamento; o m´etodo de programa¸c˜ao

dinˆamica para a compara¸c˜ao entre duas seq¨uˆencias; e um m´etodo pr´atico para a busca em

bases de dados. Por ﬁm, na Se¸c˜ao 2.4, descrevemos uma conhecida ferramenta utilizada

na compara¸c˜ao de seq¨uˆencias.

2.1 Fundamentos b´asicos de Biologia Molecular

Neste trabalho utilizamos DNA,(da l´ıngua inglesa DeoxyriboNucleic Acid) para referen-

ciar uma seq¨uˆencia de letras escritas no alfabeto formado por A, C, G, T, e RNA (da l´ıngua

inglesa RiboNucleic Acid) para referenciar uma seq¨uˆencia de letras escritas no alfabeto

A, C, G, U. Essas letras representam as bases nitrogenadas: Adenina, Citosina, Guanina e

Timina.

A base nitrogenada ´e um componente de uma estrutura b´asica denominada de nu-

cleot´ıdeo. Um nucleot´ıdeo ´e um composto qu´ımico que consiste de uma mol´ecula de

a¸c´ucar denominada 2



-deoxyribose no caso de DNA e 2



-ribose no caso de RNA, por

uma mol´ecula de fosfato e por uma base nitrogenada. Existem quatro tipos diferentes

de nucleot´ıdeos, um para cada base, observando-se que a base nitrogenada T no DNA

corresponde a base nitrogenada U no RNA.

A mol´ecula de a¸c´ucar cont´em cinco ´atomos de carbono que s˜ao rotulados de 1



para 5



Os nucleot´ıdos conectam-se atrav´es da liga¸c˜ao entre o carbono 5



de um nucleot´ıdeo com

o carbono 3



do nucleot´ıdeo seguinte, utilizando a mol´ecula de fosfato. Dessa forma, a

m´olecula resultante, denominada cadeia simples de DNA, possui por conven¸c˜ao, uma

orienta¸c˜ao, de 5



para 3



A uni˜ao dos nucleot´ıdeos em duas cadeias (ﬁtas) interligadas e anti-paralelas com a con-

forma¸c˜ao de dupla-h´elice formam a seq¨uˆencia de DNA. Para designar um conjunto de

poss´ıveis nucleot´ıdeos em uma determinada posi¸c˜ao da seq¨uˆencia de DNA, s˜ao admitidas

letras adicionais. Esse alfabeto ´e descrito em [27]

O DNA inteiro de um organismo ´e denominado genoma. O genoma costuma variar em

tamanho de acordo com a esp´ecie, desde milh˜oes de letras, no caso das bact´erias, at´e

bilh˜oes de letras, no caso de mam´ıferos. Genomas s˜ao compostos tamb´em por longas

seq¨uˆencias de DNA, que costumam ser divididas em unidades denominadas de cromos-

somos. Um cromossomo ´e formado por duas cadeias (ﬁtas) de DNA que se “torcem”

uma sobre a outra.

As duas ﬁtas de DNA s˜ao unidas pela liga¸c˜ao das bases de seus nucleot´ıdeos. A base

A sempre liga-se a base T e a base G sempre liga-se a base C. Os pares A-T e C-G s˜ao

denominados pares de bases complementares. Esses pares s˜ao conhecidos como pares

de base Watson-Crick. As duas ﬁtas s˜ao ditas anti-paralelas, pois possuem orienta¸c˜oes,

da extremidade 5



→ 3



, opostas uma em rela¸c˜ao a outra.

No decorrer do texto, consideramos o DNA como uma seq¨uˆencia de letras, onde cada letra

representa uma base. Na Figura 2.1 apresentamos um exemplo da representa¸c˜ao do DNA

como duas seq¨uˆencias de letras, com cada letra de uma seq¨uˆencia justaposta a outra. As

seq¨uˆencias (ﬁtas) de DNA s˜ao escritas uma sobre a outra revelando o pareamento entre

as bases.

Uma ﬁta ´e dita ser o complemento-reverso da outra. O complemento-reverso de um

trecho de DNA G ser´a denotado aqui por G

5’ ... A T G G G C A C C G T G C G C ... 3’

| | | | | | | | | | | | | | |

3’ ... T A C C C G T G G C A C G C G ... 5’

Figura 2.1: Exemplo da representa¸c˜ao de como as duas ﬁtas de DNA pareiam.

Utiliza-se como unidade de medida de c omprimento de um trecho de DNA, de ﬁta dupla,

o n´umero de pares de bases, denotado por bp (do inglˆes base pair). N´umeros maiores

em geral s˜ao representadas por Kb (10

bp) e Mb (10

bp).

A seq¨uˆencia de pares de bases do DNA de um organismo cont´em a informa¸c˜ao necess´aria

para a s´ıntese de prote´ınas. As prote´ınas s˜ao seq¨uˆencias de letras pertencentes ao alfa-

beto de 20 amino´acidos. Trˆes nucleot´ıdeos codiﬁcam um amino´acido. A tabela que per-

mite corresponder cada tripla de nucleot´ıdeos em um amino´acido ´e denominada c´odigo

gen´etico.

Combinando os 4 nucleot´ıdeos em triplas, obtemos 64 combina¸c˜oes de poss´ıveis triplas

de nucleot´ıdeos. Cada uma das combina¸c˜oes ´e denominada de codon. Como temos

apenas 20 amino´acidos, mas 64 codons poss´ıveis, temos que alguns codiﬁcam o mesmo

amino´acido.

Dentre os 64 codons poss´ıveis, 3 n˜ao especiﬁcam amino´acidos. Esses codons s˜ao denomi-

nados de codons de parada (ou stop codons), que sinalizam a termina¸c˜ao da tradu¸c˜ao

de uma seq¨uˆencia do alfabeto de nucleot´ıdeo para o alfabeto de amino´acidos. O c´odigo

gen´etico estabelece tamb´em um codon de in´ıcio (ou start codon), que indica o in´ıcio do

processo de tradu¸c˜ao.

Os trechos da seq¨uˆencia de bases do DNA que s˜ao codiﬁcados em informa¸c˜ao gen´etica s˜ao

denominados de genes. Existem dois tipos de genes, aqueles que codiﬁcam prote´ınas (a

maioria) e aqueles que n˜ao codiﬁcam prote´ınas (codiﬁcam RNAs).

O conjunto de genes de um genoma que codiﬁcam prote´ınas ´e denominado de proteoma.

Utilizamos os termos gene e prote´ına indistintamente, apesar de sabermos que um gene

pode codiﬁcar mais de uma prote´ına e que existem genes que n˜ao codiﬁcam prote´ınas.

Na anota¸c˜ao de genomas tentamos predizer quais genes codiﬁcam uma ou mais prote´ınas.

Dessa forma, comumente utilizamos o termo prote´ına predita de um determinado gene.

Em nosso trabalho, estamos interessados nos genes que s˜ao hom´ologos, ou seja, genes que

evoluiram a partir de um gene ancestral comum. Especiﬁcamente, estamos interessados

nos genes ort´ologos e par´alogos. Dois genes g e h s˜ao denominados de ort´ologos se

ambos descendem de um mesmo gene ancestral e pertencem a esp´ecies distintas. Quando

os genes g e h descendem de um mesmo gene ancestral, por´em pertencem a um mesma

esp´ecie, g e h s˜ao denominados par´alogos. A rela¸c˜ao (g, h) entre genomas distintos ´e

donominada “par de genes ort´ologos”.

Na se¸c˜ao seguinte abordamos alguns conceitos b´asicos computacionais com o objetivo de

prover informa¸c˜oes suﬁcientes para a compreens˜ao das metodologias descritas no decorrer

do texto.

2.2 Fundamentos b´asicos de Computa¸c˜ao

Uma cadeia ´e um sucess˜ao de caracteres ou s´ımbolos de um conjunto ﬁnito denominado

de alfabeto. Utilizamos o termo seq¨uˆencia como um sinˆonimo para o termo cadeia.

As seq¨uˆencias podem ter s´ımbolos repetidos, por exemplo s = TGCATT. O tamanho de

um seq¨uˆencia s, denotado por |s|, ´e o n´umero de s´ımbolos em s. Para o exemplo anterior,

|s| = 6. Um s´ımbolo que ocupa a posi¸c˜ao i em uma seq¨uˆencia s ´e denotado por s

. Logo,

uma seq¨uˆencia s ´e composta pelos s´ımbolos s

, . . . s

|s|

. Quando |s| = 0, denominamos s

de seq¨uˆencia vazia.

Apesar dos termos cadeia e seq¨uˆencia possu´ırem o mesmo signiﬁcado, os termos subca-

deia e subseq ¨uˆencia representam conceitos distintos. Uma subseq¨uˆencia de s ´e uma

seq¨uˆencia que pode ser obtida a partir de s pela remo¸c˜ao de alguns de seus s´ımbolos.

Considerando a seq¨uˆencia exemplo s anteriormente, GAT ´e uma subseq¨uˆencia de s, mas

GTAT n˜ao ´e subseq¨uˆencia de s. Uma subcadeia de s ´e uma cadeia formada p elos s´ımbolos

consecutivos de s, na mesma ordem em que aparecem em s. Considerando novamente a

cadeia s como exemplo, GCA ´e uma subcadeia de s, mas GAT n˜ao ´e uma subcadeia de s.

Dado duas s eq¨uˆencias X e Y , dizemos que uma seq¨uˆencia Z ´e uma subseq¨uˆencia comum

de X e Y se Z ´e uma subseq¨uˆencia de ambos X e Y . Como exemplo, considere as

seq¨uˆencias A = ACGTACAG e B = TGAACC. A seq¨uˆencia GAC ´e uma subseq¨uˆencia comum

de A e B. Um segmento de uma seq¨uˆencia ´e uma subcadeia da seq¨uˆencia.

Alguns problemas computacionais envolvem subcadeias e subseq¨uˆencias, como o problema

de determinar uma subcadeia de m´axima soma de uma cadeia de n´umeros reais S; sua

generaliza¸c˜ao, que consiste em determinar n˜ao apenas uma, mas todas as subcadeias de

m´axima soma; e o problema de determinar a subseq¨uˆencia comum mais longa (LCS).

Podemos descrever o problema das subcadeias maximais e do LCS da se guinte forma:

Deﬁni¸c˜ao 2.1 (Problema das subcadeias maximais) A entrada ´e uma cadeia ou

seq¨uˆencia (x

, x

, . . . , x

), de n´umeros reais (n˜ao necessariamente positivos), denominada

de “pontua¸c˜ao”. O objetivo consiste em identiﬁcar todas as subcadeias que possuem maior

pontua¸c˜ao, onde a pontua¸c˜ao S

i,j

de uma subcadeia (x

, x

i+1

, . . . , x

) ´e obtida simplesmente

pela soma de seus elementos:

i,j



k=i

Deﬁni¸c˜ao 2.2 (Problema da subseq¨uˆencia comum mais longa - LCS) Dadas duas

seq¨uˆencias X = (x

, x

, . . . , x

) e Y = (y

, y

, . . . , y

), desejamos encontrar a subseq¨uˆencia

comum de tamanho m´aximo entre X e Y .

Uma melhor caracteriza¸c˜ao do problema do LCS pode ser encontrada em [14].

Um grafo G ´e uma tripla ordenada (V (G), E(G), ψ

) consistindo de um conjunto n˜ao

vazio V (G) de v´ertices, um conjunto E(G) (disjunto de V (G)) de arestas, e uma fun¸c˜ao

de incidˆe ncia ψ

que associa a cada aresta de G um par n˜ao ordenado de (e n˜ao ne-

cessariamente distinto) v´ertices de G. Se e ´e uma aresta e u e v s˜ao v´ertices tais que

(e) = (u, v), ent˜ao dizemos que e liga u a v. Os v´ertices u e v s˜ao denominados

extremos de e. Na Figura 2.2 apresentamos um grafo com um conjunto de v´ertices

V = {v

, v

} e com um conjunto de arestas E = {e

, e

Figura 2.2: Exemplo de um grafo com seis v´ertices e cinco arestas.

Em um grafo G, se todo v´ertice ´e “ating´ıvel” pelos outros v´ertices, dizemos que o grafo

G ´e conexo. Quando um grafo n˜ao ´e conexo, podemos determinar suas componentes

conexas. A Figura 2.2 ilustra um grafo com duas componentes conexas.

Um grafo G ´e bipartido se o seu conjunto de vertices V pode ser particionado em dois

conjuntos X e Y tais que, qualquer aresta (u, v) ´e tal que: u ∈ X e v ∈ Y , ou u ∈ Y

e v ∈ X. Na Figura 2.3 apresentamos um grafo bipartido com cinco v´ertices e quatro

arestas.

Figura 2.3: Exemplo de um grafo bipartido, tal que X = {v

, v

} e Y = {v

, v

Um conjunto C de v´ertices de um grafo G(V, E) ´e uma clique, se para todo par u, v de

v´ertices distintos em C, existe uma aresta (u, v) ∈ E. Uma clique C em G ´e maximal,

se n˜ao existe outra clique C



em G que contenha C propriamente. As Figuras 2.4 e 2.5

ilustram, respectivamente, um exemplo de uma clique e de clique maximal no grafo G.

Figura 2.4: Exemplo de uma clique de tamanho 3 formada pelos v´ertices v

, v

e v

Figura 2.5: Exemplo de uma clique de tamanho 4 maximal formada pelos v´ertices v

, v

e v

Um Modelo Oculto de Markov (HMM) ´e uma base formal para constru¸c˜ao de modelos

probabil´ısticos. O modelo provˆe um conjunto de ferramentas conceituais para a constru¸c˜ao

de modelos complexos simplesmente pelo desenho de uma ﬁgura intuitiva [18]. Os modelos

de Markov s˜ao bem adequados para muitas tarefas em Biologia Molecular e s ˜ao o n´ucleo

de uma diversa faixa de programas, incluindo os programas para procurar genes, buscar

por perﬁs, obter alinhamento m´ultiplo e identiﬁcar regi˜oes regulat´orias em DNA. Segundo

Eddy [18], HMMs s˜ao os “legos” da an´alise computacional de seq¨uˆencias.

Em uma descri¸c˜ao mais formal, um modelo oculto de markov M ´e deﬁnido por um

alfabeto Σ, um conjunto de estados (escondidos) Q, uma matriz das probabilidades de

transi¸c˜ao de estados A, e uma matriz de probabilidades de emiss˜ao de s´ımbolos E, mais

especiﬁcamente:

• Σ ´e um alfabeto de s´ımbolos;

• Q ´e um conjunto de estados que emitem s´ımbolos do alfabeto Σ;

• A = (a

) ´e uma matriz |Q| × |Q| das probabilidades de transi¸c˜ao de estados; e

• E = (e

(b)) ´e uma matriz |Q| × |Σ| das probabilidades de emiss˜ao de s´ımbolos;

Um caminho π = π

. . . π

em um HMM M ´e uma seq¨uˆencia de estados. A probabilidade

de que uma seq¨uˆencia x de s´ımbolos tenha sido gerada por uma seq¨uˆencia de estados π

dado um modelo M ´e :

P (x|π) =



i=1

P (x

|π

)P (π

|π

i+1

) = a

,π



i=1

) · a

,π

i+1

Convenientemente inserimos π

e π

n+1

como os ﬁct´ıcios estados iniciais e terminais in´ıcio

e ﬁm.

Na grande maioria das aplica¸c˜oes, deseja-se conhecer, dada uma seq¨uˆencia x de s´ımbolos,

que ´e a parte n˜ao-oculta do modelo, qual a seq¨uˆencia de estados (o caminho π) mais

prov´avel de ocorrer. Ou seja, π ´e o componente oculto do modelo.

Um simples exemplo ´e o de lan¸camento de 3 moedas, m

, m

, divulgando apenas a

seq¨uˆencia de resultados (cara ou coroa) e perguntando ao modelo qual ´e a seq¨uˆencia de

moedas lan¸cadas, ou seja, para cada lan¸camento, qual foi a moeda lan¸cada.

Neste caso,

• Σ = {cara, coroa};

• Q = {m

, m

};

• A ´e a matriz que indica a probabilidade do lan¸cador trocar de moeda; e

• E ´e a matriz que dita o v´ıcio de cada moeda.

A utiliza¸c˜ao mais popular de HMM em Biologia Molecular ´e como um “perﬁl proba-

bil´ıstico” de uma fam´ılia de prote´ınas, o qual ´e denominado de perﬁl HMM (pHMM).

A partir de fam´ılias de prote´ınas ou de DNA, um perﬁl HMM pode s er constru´ıdo para

buscar, em uma base de dados, por outros membros da fam´ılia.

Um Perﬁl ´e uma simples representa¸c˜ao de uma fam´ılia de prote´ınas relacionadas, que ´e

dada por uma alinhamento m´ultiplo. Dado um alinhamento m´ultiplo de n colunas em

um alfabeto A, um perﬁl P ´e uma matriz |A| × n que especiﬁca a freq¨uˆencia e

(a) de

cada s´ımbolo a de um alfabeto A em uma coluna i [28]. Mais adiante descreveremos o

conceito de alinhamento.

Na literatura temos alguns textos que abordam HMMs e pHMMs, permitindo uma me-

lhor compreens˜ao dos conceitos aqui descritos. Especiﬁcamente, citamos o trabalho de

Eddy [17], que descreve uma revis˜ao sobre pHMMs; Salzberg e outros [33] fazem uma

descri¸c˜ao n˜ao-matem´atica, no entanto mais did´atica, de HMMs, descrevendo-os atrav´es

de um exemplo e posteriormente descrevendo perﬁs HMMs; Pevzner [28] descreve HMMs

e pHMMs mais formalmente; Eddy [18] descreve em s´ıntese o que ´e um odelo oculto de

Markov; e um exemplo de HMM para encontrar promotores em uma seq¨uˆencia de DNA

procari´otico ´e descrito em Almeida [2].

2.3 Compara¸c˜ao de seq¨uˆencias

Compara¸c˜ao de seq¨uˆencias ´e a mais importante opera¸c˜ao em bioinform´atica, servindo

como base para muitas outras manipula¸c˜oes mais complexas.

Ao compararmos duas seq¨uˆencias, podemos determinar a similaridade e o alinhamento

entre elas. A similaridade de duas seq¨uˆencias ´e uma medida que indica o quanto as

seq¨uˆencias s˜ao semelhantes. O alinhamento de duas seq¨uˆencias ´e uma forma de posici-

onar uma seq¨uˆencia sobre a outra, acrescentando espa¸cos nas duas seq¨uˆencias, para que

ambas ﬁquem do mesmo tamanho, com o objetivo de evidenciar a correspondˆencia entre

s´ımbolos ou subseq¨uˆencias similares das seq¨uˆencias, ou seja, o alinhamento evidencia qu˜ao

similares duas seq¨uˆencias s˜ao.

Para computar a similaridade entre duas seq¨uˆencias, poder´ıamos gerar todos os poss´ıveis

alinhamentos e escolher o melhor, ou seja, o de maior valor. Entretanto, o n´umero de

alinhamentos entre duas seq¨uˆencias ´e exponencial. Uma solu¸c˜ao eﬁciente para o problema

´e fornecida pela t´ecnica de programa¸c˜ao dinˆamica.

A t´ecnica de programa¸c˜ao dinˆamica consiste basicamente em solucinar uma instˆancia do

problema tirando vantagem de solu¸c˜oes anteriormente computadas de instˆancias meno-

res do mesmo problema. Na pr´atica, a programa¸c˜ao dinˆamica soluciona todos os sub-

problemas somente uma vez, armazenando as solu¸c˜oes em uma tabela, para que sejam re-

cuperadas sem a necessidade de uma recomputa¸c˜ao. Uma excelente descri¸c˜ao da t´ecnica,

incluindo aplica¸c˜oes, pode ser encontradas no livro de Cormen [14]. Setubal e Meida-

nis [36] fazem uma descri¸c˜ao mais detalhada da compara¸c˜ao de duas seq¨uˆencias, incluindo

uma excelente descri¸c˜ao de algoritmos que utilizam a t´ecnica de programa¸c˜ao dinˆamica

para a compara¸c˜ao de seq¨uˆencias biol´ogicas.

Com o crescente volume de seq¨uˆencias sendo geradas pelos laborat´orios, bancos de dados

de seq¨uˆencias foram sendo criados. Esse evento criou uma necessidade por programas eﬁ-

cientes para comparar as seq¨uˆencias nesses bancos de informa¸c˜oes biol´ogicas. Em essˆencia,

o problema consiste em listar quais trechos de uma seq¨uˆencia de prote´ına ou de DNA s˜ao

similares a quais regi˜oes de uma determinada seq¨uˆencia de prote´ına ou DNA fornecida

pelo usu´ario.

Devido a complexidade quadr´atica dos algoritmos baseados em programa¸c˜ao dinˆamica,

novos e r´apidos m´etodos tˆem sido des envolvidos, em especial heur´ısticas tˆem sido emprega-

das na pr´atica. Um dos programas baseado em heur´ısticas, mais freq¨uentemente utilizado

de busca de seq¨uˆencias similares em bases de dados, ´e o blast, que ser´a descrito a seguir.

2.4 BLAST

O blast, Basic Local Alignment Search Tool, foi inicialmente proposto por Altschul e

colegas [6], e desde ent˜ao vem sendo aperfei¸coado [7].

Dada uma seq¨uˆencia de entrada, denominada de seq¨uˆencia query, blast retorna uma lista

de poss´ıveis seq¨uˆencias similares, denominadas hits, e seus alinhamentos com a seq¨uˆencia

query. Cada hit ´e acompanhado de uma estimativa de signiﬁcˆancia estat´ıstica, de-

nominada e-value. Em essˆencia, o e-value representa a quantidade de hits com uma

determinada pontua¸c˜ao que s˜ao esperados ao acaso. Dessa forma, quando menor ´e o

valor de e-value, menor ´e a probabilidade de um determinado hit ter sido encontrado

ao acaso. Os alinhamentos entre a seq¨uˆencia query e seus hits possuem um valor, de-

nominado de score. O valor de score considera o tamanho do banco de seq¨uˆencias e os

tamanhos das seq¨uˆencias.

A metodologia de blast para computar os hits ´e basicamente a seguinte. Primeiro,

blast encontra certas “sementes”, que s˜ao subcadeias curtas de tamanho W da seq¨uˆencia

query, cujo alinhamento com subcadeias de mesmo tamanho das seq¨uˆencias da base de

seq¨uˆencias, tenha valor maior ou igual a uma valor limite T , utilizando para isso alguma

matriz de substitui¸c˜ao de amino´acidos. As “sementes” da seq¨uˆencia query e da base de

seq¨uˆencias s˜ao ent˜ao estendidas em ambas as dire¸c˜oes, at´e o score m´aximo poss´ıvel, para

que a extens˜ao dessa “semente” em particular seja alcan¸cada. blast tem um crit´erio

de parar as extens˜oes quando o valor de score cair a um valor de limite inf erior X. Os

segmentos estendidos s˜ao utilizados na constru¸c˜ao do alinhamento.

Os valores de W , T e X s˜ao parˆametros de blast. Obviamente, todos os parˆametros de

blast inﬂuenciam diretamente no resultado da busca por seq¨uˆencias, fazendo com que a

complexidade do bla st seja dif´ıcil de c alcular, visto que todos os parˆametros tornam-se

fatores importantes na disputa entre sensibilidade e seletividade.

Cap´ıtulo 3

Compara¸c˜ao de dois genomas

Neste cap´ıtulo abordaremos a estrat´egia descrita em Almeida [1] para a compara¸c˜ao de

dois genomas, que nos permita determinar regi˜oes comuns em termos de genes conserva-

dos, determinar os genes espec´ıﬁcos e as regi˜oes espec´ıﬁcas entre os proteomas, determinar

os pares de genes ort´ologos e as regi˜oes ort´ologas, construir o alinhamento entre os pro-

teomas, e por ﬁm comparar genomas n˜ao seq¨uenciados completamente. Objetivamos

desenvolver uma ferramenta que ajude a explicar como a reordena¸c˜ao e o reagrupamento

de genes inﬂuenciam nas diferen¸cas entre as funcionalidades de dois genomas.

Estamos interessados nos genes que codiﬁcam prote´ınas, presentes nas ﬁtas de DNA de

uma esp´ecie, onde cada prote´ına possui uma posi¸c˜ao de acordo com a ordem em que o

seu respectivo gene aparece no genoma. Assim, t´ecnicas de compara¸c˜ao para as prote´ınas

preditas dos genomas s˜ao necess´arias.

Este cap´ıtulo est´a organizado da seguinte forma. Na Se¸c˜ao 3.1 descrevemos a metodo-

logia utilizada. Na Se¸c˜ao 3.2 descrevemos uma proposta de implementa¸c˜ao segundo a

metodologia descrita. Na Se¸c˜ao 3.3 descrevemos as novas funcionalidades acrescentadas `a

nova proposta de implementa¸c˜ao. Por ﬁm, na Se¸c˜ao 3.4, descrevemos sucintamente uma

compara¸c˜ao com outras ferramentas.

3.1 Metodologia

Descreveremos nessa se¸c˜ao a metodologia utilizada por Almeida em [1] que possibilita

a compara¸c˜ao entre dois proteomas. Existem outras meto dologias [22, 23, 31, 32, 39]

que tamb´em permitem determinar regi˜oes de elementos conservados entre as esp´ecies

comparadas. Na Se¸c˜ao 3.4 desc reveremos algumas dessas outras metodologias.

Embora algumas deﬁni¸c˜oes tenham sido descritas anteriormente, no Cap´ıtulo 2, descreve-

remos e refaremos outras deﬁni¸c˜oes, para uma melhor interpreta¸c˜ao das pr´oximas se¸c˜oes.

• A ﬁta de um gene ´e a ﬁta de DNA a qual o gene pertence, sendo denominada de

ﬁta ‘+’ ou ‘-’;

• A ordem dos genes de um proteoma ´e dada pela ordem n˜ao-decrescente das

coordenadas de in´ıcio dos genes. Seja P

a posi¸c˜ao da primeira base de um gene g

caso g

tenha sido codiﬁcado na ﬁta ‘+’; ou a posi¸c˜ao da ´ultima base antes do c´odon

de termina¸c˜ao, caso g

tenha sido codiﬁcado na ﬁta ‘-’. Ent˜ao a ordem dos genes,

, g

, . . . , g

, ´e determinada respeitando a rela¸c˜ao P

≤ P

≤ . . . ≤ P

;

Na Figura 3.1 temos duas representa¸c˜oes gr´aﬁcas simpliﬁcadas do proteoma de um

genoma G. A primeira representa¸c˜ao ilustra os genes e suas orienta¸c˜oes: setas

para a esquerda representam genes pertencentes a ﬁta ‘-’, enquanto que setas para

a direita representam genes pertencentes a ﬁta ‘+’. A segunda representa¸c˜ao ´e

mais adequada para nosso prop´osito, pois considera a ordem dos genes baseada nas

orienta¸c˜oes descritas acima.

→

←−

→

←

−→

←−

→

−→

←

① ① ① ① ① ① ① ① ① ① ①

Figura 3.1: Exemplo de representa¸c˜ao dos genes de um proteoma G.

• Dois genes g

e g

s˜ao hom´ologos se s˜ao descendentes de um mesmo gene ancestral;

• Dois genes g

e g

de um mesmo genoma G s˜ao par´alogos se s˜ao hom´ologos e essa

homologia originou-se atrav´es de um evento de duplica¸c˜ao;

• Uma regi˜ao de genes consecutivos (RGC) ´e um conjunto de genes consecutivos

em um proteoma, de acordo com suas coordenadas de in´ıcio, independente da ﬁta.

Assim, temos que o pr´oprio proteoma ´e uma RGC;

• Dois genes g de G e h de H s˜ao ort´ologos se s˜ao hom´ologos em genomas diferentes

atrav´es de um evento de especia¸c˜ao o corrido antes de um evento de duplica¸c˜ao.

Dizemos que (g, h) ´e um par de ort´ologos;

• Um gene g de um proteoma G ´e espec´ıﬁco em rela¸c˜ao a um proteoma H se n˜ao

existir gene h no proteoma H tal que g e h s˜ao ort´ologos;

• Uma regi˜ao espec´ıﬁca (RE) de um proteoma G em rela¸c˜ao a um outro proteoma

H ´e uma regi˜ao de G, denotada por RE(G), tal que |RE(G)| ≥ E



, onde E



´e um

limite ﬁxo;

• Uma regi˜ao ort´ologa (RO) de dois proteomas G e H ´e um par (α, β) tal que:

– α ´e uma RGC em G;

– β ´e uma RGC em H;

– α e β s˜ao descendentes de uma mesma regi˜ao ancestral; e

– α e β contˆem aproximadamente o mesmo n´umero de genes.

Uma descri¸c˜ao mais formal e detalhada de regi˜ao ort´ologa ser´a apresentada na

Se¸c˜ao 3.1.3.

• Dois pares de genes ort´ologos (g, h) e (g



, h



) formam um cruzamento quando a

ordem de g e g



no proteoma G e a ordem de h e h



no proteoma H s˜ao invertidas;

• A espinha dorsal de duas RGCs, α de G e β de H, ´e uma seq¨uˆencia de pares

de ort´ologos (g, h), tal que:

– cada gene em α tem no m´aximo um gene ort´ologo a ele em β, e vice-versa; e

– n˜ao existem cruzamentos entre os pares da seq¨uˆencia.

As ﬁguras abaixo ilustram, respectivamente, um exemplo de RO e de uma espinha dorsal

de duas RGCs.

i+1

i+2

i+3

i+4

i+5

j+1

j+2

j+3

j+4

Figura 3.2: Representa¸c˜ao de uma regi˜ao ort´ologa.

i+1

i+2

i+3

i+4

i+5

j+1

j+2

j+3

j+4

Figura 3.3: Representa¸c˜ao de uma espinha dorsal de duas Regi˜oes de Genes Consecutivos

- RGCs.

Antes de apresentarmos a metodologia descrita por Almeida em [1], citaremos os objetivos

que desejamos alcan¸car na compara¸c˜ao de dois proteomas:

1. Encontrar genes espec´ıﬁcos entre proteomas;

2. Encontrar regi˜oes espec´ıﬁcas entre proteomas;

3. Encontrar pares de genes ort´ologos;

4. Encontrar regi˜oes ort´ologas;

5. Determinar a espinha dorsal entre proteomas; e

6. Determinar fam´ılias de genes par´alogos de um proteoma.

Apresentaremos separadamente o item de n´umero 6 no Cap´ıtulo 4. Nas se¸c˜oes se guintes,

descreveremos os passos para alcan¸carmos os outros objetivos listados acima.

3.1.1 Genes Espec´ıﬁcos e Ort´ologos

Para apresentarmos os passos para encontrar os genes espec´ıﬁcos e os genes ort´ologos,

necessitamos das seguintes deﬁni¸c˜oes:

• Sejam g e h genes dos proteomas G e H respectivamente;

• Seja s(g, h) uma medida de signiﬁcˆancia estat´ıstica de similaridade de g e h, de tal

modo que, quanto menor s(g, h), mais similares g e h s˜ao. Sua implementa¸c˜ao ser´a

descrita na Se¸c˜ao 3.2; e

• Seja A um alinhamento entre as seq¨uˆencias representantes dos genes g e h. Sejam

, J

, I

, J

posi¸c˜oes de g e h como deﬁnidas abaixo:

– I

e J

s˜ao o primeiro e o ´ultimo s´ımbolos de g que aparecem em A, respecti-

vamente; e

– I

e J

s˜ao o primeiro e o ´ultimo s´ımbolos de h que aparecem em A, respecti-

vamente.

A cobertura do alinhamento A em g , denotada por c(A, g), ´e dada pelo percentual

de |g| que aparece em A. Assim,

c(A, g) =

− I

+ 1

|g|

× 100

A mesma deﬁni¸c˜ao vale para c(A, h), ou seja,

c(A, h) =

− I

+ 1

|h|

× 100

Segundo as deﬁni¸c˜oes acima, utilizamos o seguinte crit´erio para a determina¸c˜ao dos genes

ort´ologos:

• Um gene h ´e ort´ologo a um gene g e vice-versa se, e somente se :

– s(g, h) ≤ S, onde S ´e um limite ﬁxo; e

– o alinhamento A entre g e h ´e tal que c(A, g) ≥ P e c(A, h) ≥ P , onde P ´e um

limite ﬁxo.

Quando os genes g e h s˜ao ort´ologos e h ´e o gene de H que possui menor medida de

signiﬁcˆancia estat´ıstica de similaridade com g, para qualquer gene h



de H ort´ologo

a g e vice-versa, deﬁnimos g e h como genes fortemente ort´ologos. Utilizaremos

essa deﬁni¸c˜ao de genes fortemente ort´ologos objetivando o alinhamento entre os

proteomas.

• Um gene g de G ´e espec´ıﬁco em rela¸c˜ao ao proteoma H se, e somente se, a medida

de signiﬁcˆancia s(g, h) ´e tal que s(g, h) > S



para qualquer gene h de H e S



≥ S,

onde S



´e um limite ﬁxo.

Conforme os crit´erios citados acima, necessitamos de um algoritmo que compare dois

genes, fornecendo a similaridade e a signiﬁcˆancia estat´ıstica entre eles. Na Se¸c˜ao 3.2,

descreveremos como essa compara¸c˜ao e como esses valores ser˜ao obtidos.

3.1.2 Regi˜oes espec´ıﬁcas (REs)

O problema de determinar REs pode ser modelado para o problema computacional co-

nhecido como subcadeia de m´axima soma, deﬁnido na Se¸c˜ao 2.2.

Na literatura, especiﬁcamente em an´alise de prote´ınas, encontramos algumas aplica¸c˜oes

para esse problema, como a identiﬁca¸c˜ao de regi˜oes de transmembranas e dom´ınios de

liga¸c˜ao, ambos citados em Ruzzo e Tompa [30].

Conforme deﬁni¸c˜ao do problema no Cap´ıtulo 2, utilizamos a mesma estrat´egia de Almeida,

que consiste em atribuir valores aos genes do proteoma, onde um valor δ ´e atribu´ıdo para

os genes n˜ao espec´ıﬁcos e um valor ∆ para os genes espec´ıﬁcos, tal que ∆ > δ. Assim, a

seq¨uˆencia de entrada para o problema ´e constitu´ıda pelos valores atribu´ıdos aos genes.

Dessa forma, um algoritmo para encontrar todas as subcadeias maximais ´e suﬁciente para

a implementa¸c˜ao dessa estrat´egia. Na Se¸c˜ao 3.2 utilizaremos uma vers˜ao modiﬁcada do

algoritmos de Ruzzo e Tompa [30], que foi descrita por C´aceres e colegas [8], e que resolve

eﬁcientemente esse problema.

3.1.3 Regi˜oes Ort´ologas (ROs)

Para descrevermos os m´etodos necess´arios para determina¸c˜ao das regi˜oes ort´ologas, as

seguintes deﬁni¸c˜oes s˜ao necess´arias:

Deﬁni¸c˜ao 3.1 (Run) Sejam dois genomas G e H. Seja α uma RGC de G formada pelos

genes g

, . . . , g

e β uma RGC de H formada pelos genes h

, . . . , h

, tais que k − i + 1 =

l − j + 1, k > i e l > j. Dizemos que α e β formam um run se quaisquer das seguintes

seq¨uˆencias de pares de genes ort´ologos ocorrerem:

1. (g

, h

), (g

i+1

, h

j+1

), . . . , (g

, h

); ou

2. (g

, h

), (g

i+1

, h

l−1

), . . . , (g

, h

Um run ´e classiﬁcado como paralelo ou anti-paralelo. Classiﬁcamos um run como para-

lelo quando a seq¨uˆencia de pares ort´ologos corresponder a op¸c˜ao n´umero 1 acima. Quando

a seq¨uˆencia de pares de ort´ologos corresponder a op¸c˜ao n´umero 2 acima, classiﬁcamos o

run como anti-paralelo.

Os runs s˜ao classiﬁcados tamb´em como consistentes ou inconsistentes. Um run ´e classi-

ﬁcado como consistente se, quando for paralelo, todos os pares de genes s˜ao tais que os

genes participantes de cada par pertencem `a mesma ﬁta; e no caso de ser anti-paralelo,

os genes de cada par pertencem a ﬁtas opostas. Caso contr´ario, o run ´e classiﬁcado como

inconsistente.

Assim, podemos redeﬁnir o conceito de RO, descrito na Se¸c˜ao 3.1, detalhando as suas

caracter´ısticas.

Deﬁni¸c˜ao 3.2 (Regi˜ao Ort´ologa) Deﬁnimos uma regi˜ao ort´ologa R como:

1. um run isolado com pelo menos M pares de ort´ologos, onde M ´e um valor ﬁxo; ou

2. a uni˜ao de runs, cada um com um total de pelo menos M pares de ort´ologos, e cuja

distˆancia entre os genes extremos

de runs consecutivos n˜ao seja maior que um

determinado valor ﬁxo k, em n´umero de genes; ou

3. um BBH. Deﬁniremos o conceito de BBH na Se¸c˜ao 3.2.1.

A estrat´egia para determinar ROs consiste em percorrer todos os runs, da esquerda para

a direita (conforme a ordem dos genes de um dos proteomas), e juntar aqueles runs que

s˜ao pr´oximos, segundo o crit´erio 2 acima deﬁnido.

Desta forma, a estrat´egia utilizada para a determina¸c˜ao das ROs est´a fundamentada na

jun¸c˜ao de runs pr´oximos e na determina¸c˜ao de valores adequados para M e k.

Os testes realizados por Almeida em [1] sugerem que o valor M = 3, para genomas de

procariotos, ´e suﬁciente para garantir que um run n˜ao seja encontrado ao acaso.

A implementa¸c˜ao da estrat´egia para determinar as ROs ser´a descrita detalhadamente na

Se¸c˜ao 3.2.

3.1.4 Espinha dorsal dos proteomas

A estrat´egia aplicada para a determina¸c˜ao da espinha dorsal entre dois proteomas con-

siste no alinhamento global entre eles. O alinhamento entre os proteomas ´e baseado no

problema computacional denominado subseq¨uˆencia comum mais longa [14].

Particularmente, cada s´ımbolo do alinhamento corresp onde ao n´umero seq¨uencial do gene

no proteoma, e dois s´ımbolos das cadeias s ˜ao iguais se, e somente se, os respec tivos genes

compartilham uma determinada rela¸c˜ao.

Para minimizar a interferˆencia de genes par´alogos, a rela¸c˜ao exigida para que dois genes

(g, h) sejam candidatos a se alinharem, ´e que g e h devem ser genes fortemente ort´ologos.

Os genes extremos dos runs s˜ao aqueles genes que encontram-se mais pr´oximos de um outro run.

Dessa forma, objetivamos obter o alinhamento com maior n´umero de pares de genes

ort´ologos, sem que existam cruzamentos, o que caracteriza um alinhamento.

Podemos observar, nesse caso, a diferen¸ca entre a estrat´egia acima deﬁnida, e a estrat´egia

utilizada para a determina¸c˜ao de runs. No caso da espinha dorsal, aplicamos o conceito de

ortologia forte para minimizarmos a a¸c˜ao dos genes par´alogos. Para a determina¸c˜ao dos

runs, n˜ao podemos aplicar a mesma estrat´egia, pois um determinado gene pode participar

de mais de um par de ort´ologos, podendo participar de mais de uma regi˜ao ort´ologa, devido

as duplica¸c˜oes internas que po dem ocorrer no genoma [34].

A se¸c˜ao seguinte cont´em as implementa¸c˜oes e descri¸c˜oes da mais detalhadas da utiliza¸c˜ao

dessa metodologia para determina¸c˜ao da espinha dorsal, que procura evidenciar a proxi-

midade dos proteomas.

3.2 Nova implementa¸c˜ao

Nesta se¸c˜ao abordaremos uma nova proposta de implementa¸c˜ao para a metodologia de

Almeida, descrita anteriormente. Inicialmente, a primeira implementa¸c˜ao da metodologia

resultou no programa de computador denominado de Extended Genome-Genome compar-

sion (egg). egg foi inicialmente formulado por Almeida e Setubal em [3], posteriormente

reformulado em [4] e em [1].

Posteriormente `a ´ultima reformula¸c˜ao, existiu a necessidade de uma reestrutura¸c˜ao do

programa, que atendesse `as corre¸c˜oes de pequenas falhas, a melhoria da portabilidade e de-

sempenho, al´em da inclus˜ao de novas funcionalidades e disponibiliza¸c˜ao para os usu´arios.

Conforme essas necess idades, descreveremos nesse cap´ıtulo a terceira reformula¸c˜ao de

egg.

Segundo Almeida [1], o objetivo principal de egg ´e a compara¸c˜ao de dois proteomas. Pri-

meiramente, ´e realizada uma compara¸c˜ao das prote´ınas preditas, na forma todas-contra-

todas, utilizando o blast. Posterior a essa compara¸c˜ao, um grafo bipartido ´e constru´ıdo,

onde o conjunto de v´ertices ´e constitu´ıdo pelos genes particionados pelos genomas e o con-

junto de arestas ´e constitu´ıdo pelas ortologias entre os genes. Por ﬁm, algumas es truturas

organizacionais s˜ao constru´ıdas para alcan¸car os objetivos listados na Se¸c ˜ao 3.1.

Assim como a metodologia, esta nova reimplementa¸c˜ao tamb´em ´e baseada na reformula¸c˜ao

apresentada por Almeida em [1].

3.2.1 Descri¸c˜ao das fases de egg

Podemos distinguir em egg trˆes fases importantes:

• Compara¸c˜ao dos genes todos-contra-todos;

• Constru¸c˜ao do grafo bipartido; e

• Determina¸c˜ao das estruturas organizacionais.

Nas se¸c˜oes subse q¨uentes, descreveremos cada uma das 3 fases de egg e detalhes de suas

implementa¸c˜oes.

Compara¸c˜ao dos genes todos-contra-todos

Nessa fase, temos a compara¸c˜ao de cada gene g

de um genoma G contra todos os genes

do genoma H e, em seguida, cada gene h

de H ´e comparado contra todos os genes de

G. O objetivo consiste em relacionar os genes com a ﬁnalidade de determinar os genes

ort´ologos e genes espec´ıﬁcos.

Para realizar esse procedimento, egg utiliza como ferramenta comparativa o programa

blast [6, 7]. Esse programa fornece para cada gene g

, uma lista de genes h

similares a

, dentre todos os genes de H e algumas informa¸c˜oes sobre os alinhamentos entre esses

genes. Cada gene similar h

retornado por blast´e denominado de hit.

Para implementar o valor de similaridade descrito na Se¸c˜ao 3.1.1, usamos a medida de

signiﬁcˆancia estat´ıstica do blast, denominada e-value. Conforme descrito no Cap´ıtulo 2,

essa medida ´e proporcional `a probabilidade de um determinado hit ter sido encontrado

ao acaso. Assim, quanto menor ´e o valor de e-value, menor ´e a probabilidade de um hit

ter sido encontrado ao acaso, ou seja, mais signiﬁcante ´e o hit.

Para armazenarmos os hits obtidos pelo blast, utilizamos a estrutura de dados lista

ligada, que armazenar´a para c ada gene g

de G uma lista de todos os seus hits h

de H,

ordenados de forma n˜ao-decrescente pelo valor de e-value. Esta forma de armazenamento

permite obter o melhor hit de um gene g

em tempo constante.

Ao ﬁnal dessa fase, egg consegue determinar os genes espec´ıﬁcos entre os proteomas,

objetivo 1 listado na Se¸c˜ao 3.1. Especiﬁcamente, egg considera que um gene g

´e espec´ıﬁco

em rela¸c˜ao a H, se g

n˜ao obteve hits com e-value menor ou igual a S



= 10

−3

. Na se¸c˜ao

seguinte descreveremos o crit´erio para encontrarmos os genes ort´ologos.

Determina¸c˜ao das arestas do grafo

Na ´ultima reformula¸c˜ao, egg criou um grafo bipartido determinando as ortologias entre

os genes dos genomas. Essas ortologias s˜ao estabelecidas atrav´es da especiﬁca¸c˜ao do

relacionamento, denominado match, e ntre os genes. egg utiliza os matches como arestas

do grafo bipartido. Utilizaremos o termo match no lugar de “par de genes ort´ologos” no

decorrer do texto.

Um match entre os genes g

de G e h

de H ocorre quando g

encontrar h

como hit,

com os seguintes valores limites: S = 10

−5

, P = 60 e vice-versa. Esses valores foram

utilizados por Almeida em [1]. Tamames [39] utilizou os valores 10

−5

e 75 para S e P

respectivamente. Assim como em Almeida, os valores de S e P podem ser alterados pelo

usu´ario.

Pela determina¸c˜ao dos matches, egg atinge o objetivo 3, que ´e determinar pares de

genes ort´ologos. Assim, podemos reescrever os seguintes crit´erios para obtermos os genes

ort´ologos e os genes espec´ıﬁcos:

• Dados dois genes g e h pertencentes, respectivamente, aos genomas G e H, e os

alinhamentos A e A



retornado pelo blast, tais que A ´e o alinhamento de g para h

e A



´e o alinhamento de h para g. Dizemos que g e h s˜ao ort´ologos se, e somente se

(s(g, h)+s(h, g))/2 ≤ 10

−5

e (c(A, g)+c(A



, g))/2 ≥ 60 e (c(A, h)+c(A



, h))/2 ≥ 60.

• Um gene g ´e espec´ıﬁco em rela¸c˜ao a um genoma H se, e somente se, s(g, h

) > 10

−3

para 1 ≤ j ≤ |H|.

Conforme os crit´erios acima deﬁnidos, consideramos que os e-values menores ou iguais a

−5

indicam homologia com alta probabilidade. Dessa forma, dois genes s˜ao considerados

ort´ologos se eles forem hom´ologos com alta probabilidade e se a cobertura do alinhamento

entre eles for maior ou igual a P = 60. Por outro lado, os genes que n˜ao possu´ırem hits

com e-values menores ou iguais a 10

−3

s˜ao denominados como genes espec´ıﬁcos. Por

esses crit´erios, consideramos a regi˜ao compreendida entre 10

−3

e 10

−5

como uma regi˜ao

de d´uvida, da terminologia em inglˆes “twilight zone”.

A implementa¸c˜ao do conceito de “pares de genes fortemente ort´ologos” ´e realizada atrav´es

da utiliza¸c˜ao do melhor hit bidirecional, da tradu¸c˜ao do termo em inglˆes, Bidirectional

Best Hit (BBH). O termo BBH foi empregado em [1, 4, 35, 39] tamb´em para determinar

os pares de genes ort´ologos. Um par de genes ort´ologos (g

, h

) formam um BBH, se h

´e

o melhor hit encontrado por g

, ou seja, com menor e-value, e vice-versa [1].

Armazenamos os matches entre os genes g

de G e h

de H na mesma estrutura que

implementa um hit h

de um gene g

, sinalizando quando (g

, h

) formar um match. Como

os hits de um gene g

est˜ao armazenadas na lista ligada de hits, com o melhor hit de g

primeira posi¸c ˜ao da lista, em tempo constante, obtemos o melhor hit de um determinado

gene g

. Dessa forma, obtemos todos os BBHs de dois proteomas em tempo linear no

n´umero de genes de G e H.

Determina¸c˜ao das estruturas organizacionais.

Nessa fase desc reveremos as regi˜oes espec´ıﬁcas, os runs, as regi˜oes ort´ologas e a espinha

dorsal entre dois proteomas.

Regi˜oes espec´ıﬁcas

A implementa¸c˜ao das regi˜oes espec´ıﬁcas ´e realizada conforme a estrat´egia descrita na

Se¸c˜ao 3.1.2. Deﬁnimos que o valor δ = −1 ´e atribu´ıdo para os genes n˜ao espec´ıﬁcos e ∆ = 1

para os genes espec´ıﬁcos, atendendo a restri¸c˜ao ∆ > δ. Dessa forma, faz-se necess´aria a

implementa¸c˜ao de um algoritmo que encontre to das as subseq¨uˆencias cont´ıguas de soma

m´axima, de uma seq¨uˆencia de entrada A composta pelos valores 1 e −1.

Segundo Ruzzo e Tompa [30], as caracter´ısticas do problema de determinar todas as

subseq¨uˆencias de soma m´axima de uma seq¨uˆencia X sugerem um algoritmo simples de

divis˜ao e conquista com os seguintes passos:

1. Encontre a subseq¨uˆencia m´axima de maior soma e remova-a da seq¨uˆencia X;

2. Aplique o algoritmo recursivamente, para as partes restantes `a esquerda e `a direita

da por¸c˜ao removida.

No entanto, a an´alise desse algoritmo ´e similar a an´alise do algoritmo de ordena¸c˜ao Quick-

Sort, que no pior caso, necessitar´a de tempo quadr´atico para encontrar a solu¸c˜ao do

problema [14].

No mesmo trabalho [30], Ruzzo e Tompa descrevem um algoritmo para encontrar todas

as subseq¨uˆencias de m´axima soma em temp o linear. Segundo os pr´oprios autores, o algo-

ritmo, conforme descrito, n˜ao executa em tempo linear, sendo necess´aria uma altera¸c˜ao

em uma poss´ıvel fase de implementa¸c˜ao, para que o tempo total de execu¸c˜ao do algoritmo,

utilizando a an´alise amortizada, torne-se linear.

Inicialmente, implementamos a vers˜ao de divis˜ao e conquista conforme descrita em [30].

Devido aos testes de compara¸c˜ao de tempo, entre os algoritmos da vers˜ao de divis˜ao e

conquista e de tempo linear, realizados por Ruzzo e Tompa em [30]; e pela diferen¸ca

entre suas complexidades, decidimos implementar o algoritmo descrito por Alves e cole-

gas [8], que ´e uma vers˜ao modiﬁcada do algoritmo de Ruzzo e Tompa, que tamb´em possui

complexidade O(n) amortizada.

Embora os algoritmos de [30] e [8] possuam complexidades similares, o algoritmo apre-

sentado por Alves [8] est´a descrito de forma mais expl´ıcita, fazendo utiliza¸c˜ao de vetores

com a ﬁnalidade de facilitar a an´alise e compreens˜ao; e tamb´em mantendo a mesma

complexidade da vers˜ao do algoritmo de Ruzzo e Tompa. Neste algoritmo, a entrada ´e

uma seq¨uˆencia A e a sa´ıda s˜ao dois vetores denominados Mlista(A) (Ml(A)) e P lista(A)

(P l(A)), que armazenam, respectivamente, as informa¸c˜oes sobre as subseq¨uˆencias maxi-

mais e o seu ´ındice de ocorrˆencia na seq¨uˆencia A. Intuitivamente, o algoritmo mant´em o

vetor Ml(A) com as informa¸c˜oes de cada subseq¨uˆencia de m´axima pontua¸c˜ao e um vetor

de ´ındices de subseq¨uˆencias candidatas de m´axima soma preﬁxa, onde pretende-se esten-

der alguma subseq¨uˆencia candidata para que transforme-se em uma subseq¨uˆencia maior

e de m´axima soma. O algoritmo descrito por Alves e colegas utiliza os vetores P l(A) e

Ml(A) como a estrutura de dados de pilhas. Descrevemos em seguida, de forma sucinta,

o algoritmo Subseq

encias-Maximais de Alves e colegas.

Algoritmo 1 Subseq

encias-Maximais

Entrada: Seq¨uˆencia A = (a

, a

, . . . , a

|A|

)

Sa´ıda: Ml(A) e P l(A) com n

e n

elementos. s mant´em a soma de cada subseq¨uˆencia.

1: n

← 0, n

← 0, s ← 0

2: para i ← 1 at´e |A| fa¸ca

3: s ← s + a

4: se a

negativo ent˜ao

5: enquanto tiver subseq¨uˆencia candidata e ela n˜ao contribuir para a soma da

subseq¨uˆencia atual fa¸ca

6: n

← n

− 1 {Desempilha subseq¨uˆencia candidata}

7: ﬁm enquanto

8: ﬁm se

9: se a

positivo ent˜ao

10: {Empilha a nova seq¨uˆencia formada por a

}

11: n

← n

+ 1

12: {Obt´em informa¸c˜oes da nova seq¨uˆencia}

13: {Armazena ´ındice n

no vetor P l(A)}

14: enquanto tiver subseq¨uˆencia candidata e ela n˜ao contribuir para a extens˜ao at´e

fa¸ca

15: n

← n

− 1{Desempilha subseq¨uˆencia candidata}

16: ﬁm enquanto

17: n

← n

+ 1

18: {P l[n

] aponta para a melhor subseq¨uˆencia candidata}

19: n

← P l[n

]

20: {Completa as informa¸c˜oes da melhor subseq¨uˆencia}

21: ﬁm se

22: ﬁm para

Todo comando presente no la¸co na linha 2 executa em tempo constante, exceto os la¸cos

das linhas 5 e 14. Nesse caso, com a an´alise amortizada no n´umero de elementos da

pilha P l(A), observamos que os la¸cos n˜ao ir˜ao procurar por todas as subseq¨uˆencias de A,

mas apenas pelas candidatas de m´axima soma. Por meio da an´alise amortizada temos

que o custo do algoritmo ´e O(n) amortizado. As provas da complexidade amortizada do

algoritmo, assim como maiores detalhes da implementa¸c˜ao da vers˜ao de Alves e colegas

est˜ao descritos em [8].

Em nosso trabalho particularmente, a entrada do algoritmo ´e o vetor A constitu´ıdo p e los

valores conforme deﬁnidos anteriormente. Por´em, a sa´ıda do algoritmo s˜ao as subcadeias

de m´axima soma, do vetor de entrada A, tal que |A

| ≥ w. Nesse trabalho utilizamos

o valor w = 10, que pode ser alterado pelo usu´ario.

Como sa´ıda de egg, temos um arquivo texto onde as REs encontradas s˜ao apresentadas.

Na Figura 3.4 temos uma RE de Xanthomonas axonopodis pv. citri str. 306 (Xac) em

rela¸c˜ao ao proteoma de Xanthomonas campestris pv. campestris str. ATCC 33913 (Xcc).

Maiores detalhes sobre o arquivo podem ser vistos em no Apˆendice A.

>Region from 4061 to 4091

31 orfs

=====================================================================

Gene Synonym start..end product

=====================================================================

# -_ XAC4118 4833465..4833995 hypothetical protein

# -_ XAC4119 4833998..4837528 hypothetical protein

# -_ XAC4120 4837525..4838880 hypothetical protein

# -_ XAC4121 4838787..4840121 hypothetical protein

# -_ XAC4122 4840701..4842017 hypothetical protein

# -_ XAC4123 4842304..4842852 hypothetical protein

# -_ XAC4124 4842849..4844885 hypothetical protein

-_ XAC4125 4844967..4846298 hypothetical protein

# -_ XAC4126 4846534..4846929 hypothetical protein

# -pknB XAC4127 4846892..4849189 serine threonine kinase

# -ecfR XAC4128 4849390..4849929 extracytoplasmic sigma factor

+rpoE XAC4129 4850278..4850805 ECF sigma factor

+_ XAC4130 4850802..4851872 transmembrane_sensor

+_ XAC4131 4852271..4855222 hypothetical protein

+appA XAC4132 4855361..4856611 6 phytase

# +_ XAC4133 4856619..4857986 hypothetical protein

# +_ XAC4134 4858039..4858398 hypothetical protein

# -_ XAC4135 4858635..4859336 hypothetical protein

# -_ XAC4136 4859777..4861771 hypothetical protein

+_ XAC4137 4862893..4864107 ISxac1 transposase

+_ XAC4138 4864112..4864522 transposase

# -_ XAC4139 4864528..4865544 hypothetical protein

-clpB XAC4140 4865531..4868311 ClpB

# -_ XAC4141 4868367..4869407 hypothetical protein

# -_ XAC4142 4869371..4871254 hypothetical protein

# -_ XAC4143 4871259..4871762 hypothetical protein

# -_ XAC4144 4871768..4872607 hypothetical protein

# -_ XAC4145 4872761..4873264 hypothetical protein

# -_ XAC4146 4873345..4874838 hypothetical protein

# -_ XAC4147 4874842..4875351 hypothetical protein

# +feaR XAC4148 4875665..4876336 transcriptional regulator

Figura 3.4: Exemplo de regi˜ao espec´ıﬁca de Xanthomonas axonopodis pv. citri str. 306

em rela¸c˜ao a Xanthomonas campestris pv. campestris str. ATCC 33913. O s´ımbolo #

indica os genes que pertencem a regi˜ao espec´ıﬁca.

Runs

Conforme descrito na metodologia, para obter as regi˜oes ort´ologas, devemos determinar

previamente os runs. A implementa¸c˜ao dos runs ´e realizada utilizando os matches, con-

forme descrito na Se¸c˜ao 3.2.1. Segundo a Deﬁni¸c˜ao 3.1, temos que um run ´e uma seq¨uˆencia

de pelo menos dois matches. Dessa forma, determinamos os runs primeiramente armaze-

nando os matches em uma matriz bin´aria A

, onde m ´e o n´umero de genes do genoma

G e n o n´umero de genes do genoma H, tal que A

i,j

= 1 se, e somente se, os genes g

de G

e h

de H formam um match. Em seguida, percorremos a matriz A procurando por pelo

menos duas posi¸c˜oes consecutivas em qualquer diagonal, onde as p osi¸c˜oes est˜ao preenchi-

das com 1. Em seguida descrevemos, em pseudo-c´odigo, o algoritmo Constr

oi-Run que

determina os runs.

Algoritmo 2 Constr

oi-Run

Entrada: Uma matriz bin´aria A

Sa´ıda: Uma lista de runs

1: para i ← m at´e 1 fa¸ca

2: para j ← n at´e 1 fa¸ca

3: {Obt´em as coordenadas ﬁnais do run.}

4: k ← i

5: l ← j

6: enquanto A[k][l] = 0 fa¸ca

7: {Obt´em informa¸c˜oes sobre consistˆencia.}

8: k ← k − 1

9: l ← l − 1

10: ﬁm enquanto

11: {Obt´em as coordenadas iniciais e o c´odigo do run.}

12: ﬁm para

13: ﬁm para

Conforme a deﬁni¸c˜ao de run na Se¸c˜ao 3.1, temos que os runs podem ser anti-paralelos.

Nesse caso, o algoritmo ´e an´alogo ao acima apresentado, com altera¸c˜oes no ´ındice da

linha 2 e nas linhas 8 e 9. O custo do algoritmo descrito acima, no melhor caso, ´e O(mn),

que ocorre quando todos os elementos da matriz forem 0s. Por outro lado, o custo de pior

caso ´e O(mn)

e ocorre quando todos os elementos da matriz forem 1s.

O programa egg apresenta em um arquivo texto os runs encontrados, onde cada run ´e

identiﬁcado por um c´odigo. O c´odigo de um run ´e composto pelas seguintes informa¸c˜oes:

os seis primeiros s´ımbolos identiﬁcam os pares de genomas comparados; os 8 d´ıgitos se-

guintes identiﬁcam o ano, o mˆes e o dia; o n´umero seguinte ´e um n´umero seq¨uencial

do run na compara¸c˜ao proteˆomica; e os caracteres ﬁnais indicam se o run ´e paralelo ou

anti-paralelo e se ´e consistente ou anti-consistente.

Nas Figuras 3.5 e 3.6 temos, respectivamente, um trecho do arquivo resultante da com-

para¸c˜ao entre Xanthomonas axonopodis pv. citri str. 306 e Xanthomonas campestris pv.

campestris str. ATCC 33913 ; e uma representa¸c˜ao gr´aﬁca desse run. Maiores detalhes

sobre o arquivo texto est˜ao apresentados no Apˆendice A.

>XACXCC20060329-245-Pc

# of matches: 5

6kb in XAC - 6kb in XCC

===============================================================================================

Gene |Synonym start size e-value [ best hit ] product

===============================================================================================

-_ |XAC0925 1087413 139 3e-43 [best ] hypothetical protein

-_ |XCC0848 1007675 139 4e-63 [best ] hypothetical protein

------------------------------------------

+_ |XAC0926 1088018 184 1e-103 [best ] hypothetical protein

+_ |XCC0849 1008268 184 1e-103 [best ] hypothetical protein

------------------------------------------

+ilvE |XAC0927 1088637 361 0 [best ] branched chain amino acid aminotransferase

+ilvE |XCC0850 1008887 361 0 [best ] branched chain amino acid aminotransferase

------------------------------------------

+_ |XAC0928 1090032 575 0 [best ] extracellular protease

+_ |XCC0851 1010286 580 0 [best ] extracellular protease

------------------------------------------

+_ |XAC0929 1091789 546 1e-162 [+_ |XCC0 851 /1e-174] extracellular protease

+_ |XCC0852 1012120 518 1e-169 [best ] extracellular protease

------------------------------------------

Figura 3.5: Exemplo de um run paralelo consistente entre Xanthomonas axonopodis pv.

citri str. 306 e Xanthomonas campestris pv. campestris str. ATCC 33913.

XCC0848

XAC0925 XAC0929

XCC0852

XAC

XCC

Figura 3.6: Representa¸c˜ao gr´aﬁca do run do trecho de arquivo da Figura 3.5

Na ﬁgura acima, as setas para a esquerda representam os genes pertencentes a ﬁta ’-’,

enquanto que as setas para a direita representam os genes pertencentes a ﬁta ’+’. As

linhas de cor azul conectam os genes que ﬁzeram BBH, enquanto que a linha de cor

vermelha conecta os genes que ﬁzeram match.

Regi˜oes ort´ologas

Segundo a Deﬁni¸c˜ao 3.1.3, uma regi˜ao ort´ologa ´e composta por M pares de ort´ologos ou

pela uni˜ao de runs com pelo menos M pares de ort´ologos que distam, a partir dos seus

genes extremos, no m´aximo um determinado valor ﬁxo k.

Como a metodologia est´a baseada na uni˜ao de runs pr´oximos, devemos implementar a

no¸c˜ao de distˆancia entre os genes extremos dos runs. Descreveremos abaixo uma im-

plementa¸c˜ao, conforme Almeida [1], para determinarmos a proximidade adequada para

juntar os runs.

Sejam R

e R

dois runs entre os genomas G e H. Sem perda de generalidade, segundo

a deﬁni¸c˜ao de run da Se¸c˜ao

3.1, representamos R

e R

como:

= (g

, h

), (g

i+1

, h

j+1

), . . . , (g

, h

) e R

= (g

, h

), (g

p+1

, h

q+1

), . . . (g

, h

)

Sejam tamb´em I

e I

os n ´umeros de genes entre os runs nos proteomas G e H, respec-

tivamente, tal que I

= p − k − 1 e I

= q − l − 1; I

min

e I

max

os intervalos m´ınimos

e m´aximos entre os runs; max small gaps e max large gaps os valores dos tamanhos

m´aximos, do menor e do maior intervalo entre os runs, fornecidos pelos usu´ario.

Como queremos juntar os runs pr´oximos formando uma s´o regi˜ao que evidencie um bloco

de genes com certo grau de ortologia [1], juntaremos os runs conforme a seguinte regra

de distˆancia:

min

≤ max small gap e I

max

≤ max large gap

Na ﬁgura 3.7, temos uma representa¸c˜ao gr´aﬁca de uma jun¸c˜ao entre dois runs R

, seguindo as restri¸c˜oes da regra de distˆancia descrita acima. Nesse caso, deﬁnimos

max small gap = 5 e max large gap = 2.

i+1

j+1

q+1

q+2

p+1

min

max

Figura 3.7: Exemplo de uma jun¸c˜ao entre dois runs R

e R

Denominamos os runs que obedecem a rela¸c˜ao de distˆancia, de runs pr´oximos, e o

procedimento de uni˜ao dos runs de jun¸c˜ao.

Utilizamos o algoritmo incremental de Almeida [1] para determinar as ROs entre dois

proteomas. Abaixo temos uma des cri¸c˜ao de um pseudo-c´odigo para esse algoritmo.

Algoritmo 3 Junta-Runs

Entrada: LR : uma lista de runs

Sa´ıda: LRO : uma lista de ROs

1: LRO ← ∅

2: para i ← 1 at´e |LR| fa¸ca

3: para j ← i + 1 at´e |LR| fa¸ca

4: {Obt´em I

min

e I

max

}

5: se I

min

≤ max small gaps e I

max

≤ max large gaps ent˜ao

6: {junta os runs i e j}

7: ﬁm se

8: ﬁm para

9: ﬁm para

O algoritmo, de forma increme ntal, realiza a jun¸c˜ao dos runs do in´ıcio para o ﬁnal dos

proteomas, ou seja, uma regi˜ao ort´ologa resultante da uni˜ao de runs pr´oximos poder´a ser

unida com o pr´oximo run `a direita. A complexidade de tempo do algoritmo, no pior caso

´e O(|LR|

), onde |LR| ´e o n´umero de runs na lista LR. O pior caso do pesudo-algoritmo

ocorre quando todos os runs n˜ao passarem na regra de distˆancia, deﬁnida anteriormente.

Segundo Almeida, poderemos ter uma situa¸c˜ao onde um run est´a pr´oximo a um match

isolado, e ambos n˜ao podem ser juntados se estiverem isolados no decorrer do proteoma.

Essa jun¸c˜ao pode ser importante, pois po der´a gerar uma regi˜ao com 3 ou mais matches.

Para esses casos, permitiremos que o run possa ser juntado com o match se este match

contribuir signiﬁcativamente para a regi˜ao, ou seja, se o match for BBH e obedecer a regra

de distˆancia em rela¸c˜ao ao run. Logo, consideramos um BBH isolado como um run.

egg mostra as regi˜oes ort´ologas encontradas em um arquivo texto. Na Figura 3.8 temos

um trecho do arquivo texto da Regi˜ao Ort˜ologa resultante da compara¸c˜ao entre Xylella

fastidiosa 9a5c e Neisseria meningitidis MC58. Maiores detalhes sobre o arquivo de texto

podem ser vistos no Apˆendice A.

>XFNMB20060710-26-Rc

7 matches

7kb in XF - 10kb in NMB

=====================================================================

Gene Synonym (XF) gi size product

=====================================================================

+_ XF0736 15837338 635aa threonyl-tRNA synthetase

+infC XF0737 15837339 159aa translation initiation factor IF-3

+_ XF0738 15837340 31aa hypothetical protein

+rpmI XF0739 15837341 65aa 50S ribosomal protein L35

+_ XF0740 15837342 119aa 50S ribosomal protein L20

+pheS XF0741 15837343 333aa phenylalanyl-tRNA synthetase alpha subunit

+pheT XF0742 15837344 792aa phenylalanyl-tRNA synthetase beta subunit

+_ XF0743 15837345 99aa integration host factor alpha subunit

=====================================================================

Gene Synonym (NMB) gi size product

=====================================================================

+thrS NMB0720 15676618 637aa threonyl-tRNA synthetase

+infC NMB0721 15676619 155aa translation initiation factor 3

+rpmI NMB0722 15676620 65aa 50S ribosomal protein L35

+rplT NMB0723 15676621 119aa 50S ribosomal protein L20

+pheS NMB0724 15676622 330aa phenylalanyl-tRNA synthetase alpha subunit

+_ NMB0725 15676623 352aa modification methylase HgaI-1

+_ NMB0726 15676624 489aa type II restriction enzyme HgaI

+_ NMB0727 15676625 216aa N-6 adenine-specific DNA methylase

+phe NMB0728 15676626 787aa phenylala nyl- tRNA synthetase beta subunit

+himA NMB0729 15676627 100aa integration host factor, alpha subunit

=======

matches

=======

===============================================================================================

Gene Synonym start size e-value [ best hit ] product

===============================================================================================

+_ XF0743 698556 99 1e-27 [best ] integration host factor alpha subunit

+himA NMB0729 761371 100 2e-27 [best ] integration host factor, alpha subunit

------------------------------------------

+pheT XF0742 696154 792 1e-151 [best ] phenylalanyl tRNA synthetase beta subunit

+pheT NMB0728 758934 787 1e-150 [best ] phenylalanyl tRNA synthetase beta subunit

------------------------------------------

+pheS XF0741 695069 333 1e-104 [best ] phenylalanyl tRNA synthetase alpha subunit

+pheS NMB0724 754557 330 2e-88 [best ] phenylalanyl tRNA synthetase alpha subunit

------------------------------------------

+_ XF0740 694438 119 2e-40 [best ] 50S ribosomal protein L20

+rplT NMB0723 753852 119 1e-35 [best ] 50S ribosomal protein L20

------------------------------------------

+rpmI XF0739 694230 65 2e-12 [best ] 50S ribosomal protein L35

+rpmI NMB0722 753642 65 3e-12 [best ] 50S ribosomal protein L35

------------------------------------------

+infC XF0737 693490 159 2e-47 [best ] translation initiation factor IF 3

+infC NMB0721 753028 155 3e-55 [best ] translation initiation factor 3

------------------------------------------

+_ XF0736 691467 635 0 [best ] threonyl tRNA synthetase

+thrS NMB0720 751043 637 0 [best ] threonyl tRNA synthetase

------------------------------------------

Figura 3.8: Exemplo de uma RO entre Xylella fastidiosa 9a5c e Neisseria meningitidis

MC58.

Na Figura 3.9, temos uma representa¸c˜ao gr´aﬁca da regi˜ao ort´ologa da Figura 3.8 resultante

da jun¸c˜ao de 3 runs com 2, 3 e 2 matches respectivamente. O gene de cor preta ilustra

um gene anotado como hipot´etico. O sentido das setas representam as orienta¸c˜oes dos

genes, como na Figura 3.6.

NMB0720

XF0736 XF0743

NMB0729

Figura 3.9: Representa¸c˜ao gr´aﬁca da RO da Figura 3.8.

Espinha Dorsal

Segundo a metodologia desc rita na Se¸c˜ao 3.1.4, egg implementa a espinha dorsal entre

os proteomas utilizando o algoritmo de programa¸c˜ao dinˆamica descrito por Cormen e

outros [14], para o problema de LCS, deﬁnido na Se¸c˜ao 2.2. Particularmente, as seq¨uˆencias

s e t de entrada s˜ao tais que, s

= i, para 1 ≤ i ≤ m, representando os genes de G e

= p(j), para 1 ≤ j ≤ n, representando os genes de H, onde p(j) = i se, e s omente se,

, h

) forem BBHs, ou p(j) = 0 caso contr´ario.

O programa egg encontra a espinha dorsal entre os proteomas de forma direta e reversa,

com a ﬁnalidade de encontrar a espinha dorsal que mais evidencie o quanto os genomas

s˜ao parecidos. Na forma direta, as seq¨uˆencias s e t s˜ao conforme deﬁnimos acima. Por´em

na forma reversa, trocamos a seq¨uˆencia t pela sua seq¨uˆencia reversa e comparamos com

a seq¨uˆencia s da mesma forma como descrito no par´agrafo acima.

Por ﬁm, egg mostra as espinhas dorsais em arquivos textos. Na ﬁgura 3.10 temos um

trecho do arquivo texto que mostra a espinha dorsal direta entre os proteomas de Xantho-

monas axonopodis pv. citri str. 306 e Xanthomonas campestris pv. campestris str. ATCC

33913. Maiores detalhes sobre o arquivo texto podem s er vistos no Apˆendice A.

===========================================================================================================================================

PRODUCT START..END GENE(STRAND) (STRAND)GENE START..END PRODUCT

===========================================================================================================================================

chromosomal replication initiator 42..1370 XAC0001 (+) <<<>>> (+) XCC0001 42..1370 chromosomal replication initiator

DNA polymerase III beta chai 1647..2747 XAC0002 (+) <<<>>> (+) XCC0002 1646..2746 DNA polymerase III beta chain

DNA replication and repair RecF 3799..4905 XAC0003 (+) <<<>>> (+) XCC0003 3633..4739 DNA replication and repair RecF protein

DNA gyrase subunit 5020..7464 XAC0004 (+) <<<>>> (+) XCC0004 4853..7297 DNA gyrase subunit B

hypothetical protein 7685..8368 XAC0005 (+) <<<>>> (+) XCC0005 7359..8201 hypothetical protein

hypothetical protein 8552..9358 XAC0006 (+) <<<>>> (+) XCC0006 8264..9070 hypothetical protein

hypothetical protein 9636..10829 XAC0007 (+) <<<>>> (+) XCC0007 9209..10405 hypothetical protein

TonB protein 10983..11654 XAC0008 (+) <<<>>> (+) XCC0008 10559..11230 TonB protein

biopolymer transport ExbB protein 11740..12501 XAC0009 (+) <<<>>> (+) XCC0009 11315..12076 biopo lymer transport ExbB protein

biopolymer transport ExbD1 protein 12548..12970 XAC0010 (+) <<<>>> (+) XCC0010 12123..12545 biop olyme r transport ExbD1 protein

biopolymer transport ExbD2 protein 12974..13387 XAC0011 (+) <<<>>> (+) XCC0011 12549..12959 biop olyme r transport ExbD2 protein

pyridoxal phosphate biosynthetic 13649..14416 XAC0012 (-) <<<>>> (-) XCC0012 14113..14883 pyridoxal phosphate biosyn

hypothetical protein 14424..14756 XAC0013 (-) <<<>>> (-) XCC0013 14891..15160 hypothetical protein

cardiolipin synthetas 14768..16228 XAC0014 (-) <<<>>> (-) XCC0014 15235..16695 cardiolipin synthetase

hypothetical protein 16671..17330 XAC0015 (+) # -

hypothetical protein 17330..17920 XAC0016 (+) # -

hypothetical protein 18131..19258 XAC0017 (-) <<<>>> (+) XCC0015 16981..18075 hypothetical protein

hypothetical protein 19442..20359 XAC0018 (-) <<<>>> (-) XCC0016 18170..18940 hypothetical protein

outer_membrane protein 20413..21753 XAC0019 (-) <<<>>> (-) XCC0017 19513..20853 outer membrane protein

hypothetical protein 21972..22664 XAC0020 (+) <<<>>> (+) XCC0018 21074..21766 hypothetical protein

Figura 3.10: Trecho do arquivo texto da espinha dorsal direta entre os BBHs dos geno-

mas dos organismos Xanthomonas axonopodis pv. citri str. 306 (Xac) e Xanthomonas

campestris pv. campestris str. ATCC 33913 (Xcc).

3.3 Novas Funcionalidades

Com o advento do seq¨uenciamento de ESTs, muitas das ESTs tem sido seq¨uenciadas

como uma alternativa ao seq¨uenciamento completo dos genomas. Ferramentas de Bioin-

form´atica baseadas em an´alise de seq¨uˆencias tˆem sido estendidas ao escopo da an´alise de

ESTs no campo da proteˆomica, desenvolvimento de marcadores e anota¸c˜ao genˆomica [29].

Embora existam metodologias baseadas em arrays (Macroarrays ou Microarrays) que

permitem a investiga¸c˜ao massiva e de forma paralela da express˜ao de genes, podemos

utilizar tamb´em as seq¨uˆencias de ESTs para inferir similaridades entre genes e ESTs,

como realizado com ESTs de fungos pat´ogenos e genes de fungos n˜ao pat´ogenos [41].

Dessa forma, para utilizarmos o programa egg para an´alise ou compara¸c˜ao entre ESTs e

genes de genomas seq¨uenciados completamente, necessitar´ıamos manipular as informa¸c˜oes

de entrada (ESTs) para que egg executasse adequadamente. Assim, surgiu a necessi-

dade da implementa¸c˜ao de uma ferramenta menos robusta, por´em que pudesse inferir

informa¸c˜oes s obre os conjuntos de seq¨uˆencias em compara¸c˜ao. Para atender a essas ne-

cessidades, implementamos a ferramenta denominada egg-lite, que possibilita a com-

para¸c˜ao de dois conjuntos de seq¨uˆencias provenientes de genomas incompletos para inferir

similaridade entre elas.

A estrutura do programa egg-lite ´e semelhante a egg, por´em sem a cria¸c˜ao das estrutu-

ras organizacionais, terce ira fase de egg. egg-lite realiza a compara¸c˜ao das seq¨uˆencias

de forma todas-contra-todas, utilizando tamb´em a ferramenta blast. No ﬁnal dessa

fase, egg-lite, assim como egg, determina os genes espec´ıﬁcos, da mesma forma como

descrito na Se¸c˜ao 3.2.1. Em seguida, os matches e os BBHs tamb´em s˜ao determinados,

conforme descrito na Se¸c˜ao 3.2.1. Como esperado, egg-lite n˜ao constr´oi as estrutu-

ras organizacionais, pois estas dependem de informa¸c˜oes relativas ao posicionamento dos

genes no genoma.

O programa egg-lite mostra a descri¸c˜ao das seq¨uˆencias que ﬁzeram BBH, matches e que

s˜ao espec´ıﬁcas, em arquivos texto, contendo as informa¸c˜oes descritivas de cada seq¨uˆencia

a partir de seus arquivos multi-fasta.

As ﬁguras a seguir mostram trechos dos arquivos de sa´ıda para as seq¨uˆencias que ﬁzeram

BBH, matches e que s˜ao espec´ıﬁcas.

##############################

CGPB bidirectional best hits

##############################

==============================================================================================

Identifier

==============================================================================================

(CHG00002.1) hypothetical pro tein (translation)

Contig1420 nucleotide excisio n repair protein rad23 homolog

------------------------------------

(CHG00007.1) hypothetical pro tein (translation)

PBGAC-M1-015t_D06 Sulfur meta boli te repression control protein

------------------------------------

(CHG00008.1) hypothetical pro tein (translation)

Contig1600

------------------------------------

(CHG00009.1) hypothetical pro tein (translation)

PBDEX-M1-035t_D07 zinc metall o-pr otea se

------------------------------------

(CHG00013.1) hypothetical pro tein (translation)

Contig582 vacuolar aminopeptidase ysc1

------------------------------------

Figura 3.11: Trecho do arquivo de BBHs entre genes do organismo Chaetomium globosum

(Cg) e ESTs do organismo Paracoccidioides brasiliensis (Pb), respectivamente.

##############################

matches between PA and PB

##############################

==============================================================================================

Identifier

==============================================================================================