( PDF ) Ferramenta auxiliar para identificação de regiões codificadoras em organismos eucariotos

Download PDF

ads:

FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES

CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR

Vincenzo De Roberto Junior

TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS

PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE

FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS

NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS

EM ENGENHARIA CIVIL.

Aprovada por:

____________________________________________

Prof. Nelson Francisco Favilla Ebecken, D.Sc.

____________________________________________

Prof. Alexandre Gonçalves Evsukoff, Dr.

____________________________________________

Prof. Orlando Bonifacio Martins, D. Sc.

____________________________________________

Prof. Emmanuel Piseces Lopes Passos, D. Sc.

____________________________________________

Prof. Luiz Biondi Neto, D. Sc.

RIO DE JANEIRO, RJ – BRASIL

OUTUBRO DE 2007

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

ROBERTO JUNIOR, VINCENZO DE

Ferramenta Auxiliar para Identificação de

Regiões Codificadoras em Organismos

Eucariotos – EXONBR [Rio de Janeiro] 2007

XVI, 144 p. 29,7 cm (COPPE/UFRJ, D.Sc.,

Engenharia Civil, 2007)

Tese - Universidade Federal do Rio de

Janeiro, COPPE

1. Bioinformática

2. Redes Neurais

3. Interface

I. COPPE/UFRJ II. Título ( série )

ads:

iii

A Deus,

ao meu pai,

à minha mãe e

à minha querida Danielle

AGRADECIMENTOS

A Deus, por me confortar e me orientar em todos os instantes da vida, me dando

ainda a saúde e a determinação necessárias ao desenvolvimento desse trabalho.

A minha querida Danielle pelo apoio, ajuda e paciência em todos os instantes.

Aos meus pais e minha tia Carmela, pelo incentivo e contribuição na minha

formação como pessoa e como profissional.

Ao professor Nelson, por todo o conhecimento e incentivo transmitidos, bem

como pela confiança em mim depositada.

Ao meu amigo Elias pela ajuda e incentivo.

A todos os professores, colegas e funcionários que, de alguma forma ajudaram

no desenvolvimento desse trabalho.

Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários

para a obtenção do grau de Doutor em Ciências (DSc.)

FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES

CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR

Vincenzo De Roberto Junior

Outubro/2007

Orientador: Nelson Francisco Favilla Ebecken

Programa: Engenharia Civil

A conclusão de vários projetos de seqüenciamento proporciona um volume

considerável de dados, que precisa ser processado adequadamente de forma a se obter

informações genéticas úteis. Uma das regiões mais importantes para neste processo são

conhecidas como genes. A identificação de genes em organismos eucariotos é um

problema que ainda hoje não teve uma completa solução.

Esta tese investiga a aplicação de técnicas de inteligência computacional para a

solução deste problema. Os principais objetivos deste trabalho são melhorar a predição

das regiões codificadoras e a criação de uma ferramenta auxiliar para detecção destas

regiões em genes eucariotos, denominada ExonBR.

As principais inovações propostas são a utilização da técnica de redes neurais

com entradas baseadas nas probabilidades dos hexâmeros (matriz peso-posição

modificada) para detecção de regiões codificadoras e a disponibilização, para o biólogo,

de uma ferramenta adaptável a qualquer organismo.

Os objetivos deste trabalho foram alcançados, criando uma ferramenta amigável

e adaptável a qualquer organismo. De acordo com os resultados encontrados, este

programa pode ser comparado aos melhores existentes atualmente, com taxas de acerto

variando entre 80% e 95% para o organismo para o qual foi treinado e aqueles

próximos, evolutivamente, dele.

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Doctor of Science (DSc.)

AUXILIARY TOOL FOR THE IDENTIFICATION OF GENETIC CODING

SEQUENCES IN EUKARYOTIC ORGANISMS - EXONBR

Vincenzo De Roberto junior

October/2007

Advisor: Nelson Francisco Favilla Ebecken

Department: Civil Engineering

The conclusion of several sequencing projects provides a considerable amount

of data that needs to be processed appropriately in order to obtain useful genetic

information. Among these areas, the most important in that process are known as genes.

The gene finding in eukaryotic organisms is an unsolved problem yet.

The thesis analyses the use of computational intelligence techniques to solve that

problem. The main objective of this work is improving the performance of the

prediction of coding regions and creating an auxiliary tool for the identification of

coding areas in eukaryotic genes, called ExonBR.

The main innovation proposed in this work is the use of neural networks with

inputs based on the probabilities of hexamers (modified weight-position matrix) for

detection of coding areas and to make available to biologists a tool suitable to any

organism.

The target of this work was reached by creating a friendly and suitable tool for

any organism. In accordance with the obtained results, this program can be compared to

the best ones that exist nowadays. The program ExonBR shows prediction rates about

80% and 95% for the organism that was trained and those ones evolutionary near to it.

vii

INDICE

1 INTRODUÇÃO .................................................................................1

1.1 O

BJETIVOS

......................................................................................................... 1

1.2 C

ONCEITOS

ÁSICOS DE

IOQUÍMICA

............................................................... 2

1.3 C

OMPOSIÇÃO DO

RABALHO

............................................................................. 4

2 BANCO DE DADOS EM BIOLOGIA MOLECULAR (BDBM)............................6

2.1 I

NTRODUÇÃO

..................................................................................................... 6

2.2 O

RINCIPAIS

ANCOS DE

ADOS DE

IOLOGIA

OLECULAR

......................... 7

2.3 C

ARACTERÍSTICAS DE

BDBM

....................................................................... 10

2.3.1 Volume de Dados.................................................................................................... 10

2.3.2 Consistência da Informação.................................................................................... 10

2.3.3 Informações Armazenadas...................................................................................... 11

2.3.4 Formatos dos Bancos de Dados .............................................................................. 14

2.4 G

ANK

........................................................................................................ 18

2.4.1 Esquema.................................................................................................................. 19

2.4.2 Outras informações armazenadas............................................................................ 24

2.4.3 A construção do Banco de Dados ........................................................................... 25

2.4.4 Informações adicionais............................................................................................ 26

3 AS PRINCIPAIS FERRAMENTAS PARA BUSCA DE GENES.........................27

3.1 I

NTRODUÇÃO

................................................................................................... 27

3.2 GRAIL

ENE

ECONIGNITION AND

NALYSIS

NTERNET

INK

)........................ 29

3.3 G

ENE

ID........................................................................................................... 32

3.4 FGENEH/FGENES........................................................................................ 32

3.5 N

ETPLANT

ENE

.............................................................................................. 33

3.6 PROCRUSTES............................................................................................... 36

3.7 MZEF

ICHEAL

HANG

’

XON

INDER

)....................................................... 37

3.8 G

ENIE

.............................................................................................................. 40

3.9 GENSCAN..................................................................................................... 42

3.10 G

ENE

ARSER

................................................................................................... 46

3.11 HMM

GENE

...................................................................................................... 50

3.12 M

ORGAN

......................................................................................................... 51

3.13 G

ENE

ARK

HMM

............................................................................................ 54

3.14 T

ÉCNICAS DE COMBINAÇÃO DE PROGRAMAS

................................................... 56

viii

3.14.1 Método baseado em AND....................................................................................... 56

3.14.2 Método baseado em OR.......................................................................................... 57

3.14.3 Método HIGHEST.................................................................................................. 58

3.14.4 Método RULE......................................................................................................... 59

3.14.5 Método BOUNDARY............................................................................................. 60

3.14.6 Algoritmo EUI (Éxon Union-Intersection)............................................................. 61

3.14.7 Algoritmo GI (Gene Intersection)........................................................................... 61

3.14.8 Algoritmo EUI_frame (Éxon Union-Intersection with Reading Frame

Consistency)............................................................................................................................. 61

3.14.9 Algoritmo SNB (Static Naive Bayes)..................................................................... 62

3.14.10 Algoritmo SFB (Static Full Bayes)......................................................................... 62

3.15 O

UTRAS TÉCNICAS E FERRAMENTAS

................................................................ 63

3.15.1 GeneSeqer............................................................................................................... 63

3.15.2 GeneSplicer............................................................................................................. 64

3.15.3 Reconhecimento de pequenas regiões codificadoras baseadas no códon terminal. 64

3.15.4 Twinscan................................................................................................................. 65

3.15.5 GeneMachine.......................................................................................................... 65

3.15.6 SGP2 ..................................................................................................................... 65

3.15.7 AGenDA ................................................................................................................. 66

3.15.8 DGSplicer................................................................................................................ 66

3.15.9 SpliceMachine......................................................................................................... 66

3.15.10 GeneZilla................................................................................................................. 67

3.15.11 JIGSAW ................................................................................................................. 67

3.15.12 SpliceScan............................................................................................................... 67

4 MEDIDAS DE EXATIDÃO DA PREDIÇÃO.........................................................68

4.1 I

NTRODUÇÃO

................................................................................................... 68

4.2 N

ÍVEL DE

UCLEOTÍDEOS

................................................................................ 68

4.3 N

ÍVEL DE

XONS

............................................................................................. 71

5 METODOLOGIA ...............................................................................74

5.1 I

NTRODUÇÃO

................................................................................................... 74

5.2 O

ODELO PARA

ENE

................................................................................... 75

5.3 S

ELEÇÃO DE

ADOS

........................................................................................ 77

5.4 O

MODELO PARA A DESCOBERTA DE REGIÕES CODIFICADORAS

....................... 78

5.5 A

PROBABILIDADE DA REGIÃO CODIFICADORA

................................................ 84

5.6 P

REDIÇÃO DE REGIÕES CODIFICADORAS A PARTIR DA BASE DE DADOS

............ 85

6 RESULTADOS E DISCUSSÃO 86

6.1 A

VALIAÇÃO DO MODELO PARA ÉXONS

(

REGIÕES CODIFICADORAS

)................. 87

6.1.1 Seleção de dados..................................................................................................... 87

6.1.2 Testes com a rede neural......................................................................................... 88

6.2 T

ESTES EM NÍVEL DE SEQÜÊNCIA

................................................................... 115

6.2.1 Seleção de dados................................................................................................... 115

6.2.2 Testes da técnica ................................................................................................... 115

6.2.3 Testes com outras espécies.................................................................................... 117

7 A FERRAMENTA .............................................................................125

7.1 D

IAGRAMA DO CONTEXTO DO SISTEMA

XON

BR.......................................... 127

7.2 D

IAGRAMA DE

LUXO DE

ADOS DO SISTEMA

XON

BR............................... 127

7.3 D

IAGRAMA DE

RANSIÇÃO DE

STADOS DO SISTEMA

XON

BR.................... 128

7.4 F

UNCIONAMENTO DO SISTEMA

XON

BR....................................................... 130

8 CONCLUSÃO .............................................................................133

REFERÊNCIAS BIBLIOGRÁFICAS ...........................................................................136

Lista de Abreviações

A Adenina

AC Correlação aproximada (approximate correlation)

B G T C

BAC Bacterial Artificial Chromosome

BDBM Banco de Dados em Biologia Molecular

bp Pares de bases (bases pairs)

C Citosina

CC Coeficiente de correlação

cDNA clone de DNA

D G A T

DNA Ácido Desoxirribonucléico

ESn Sensibilidade em nível de éxon

ESp Especificidade em nível de éxon

EST Expressed Sequence Tags

EUI Exon Union-Intersection

FN falsos negativos (false negatives)

FP falsos positivos (false positives)

G Guanina

GHMM Modelo Oculto de Markov Generalizado

GSS Genome Survey Sequences

H A C T

HMM Modelo Oculto de Markov

HTC High Throughput cDNA Sequences

HTGS High Throughput Genomic Sequences

INSDC International Nucleotide Sequence Database Colaboration

K G T (keto)

M A C (amino)

MDD Maximal Dependence Decomposition

ME Éxons perdidos (Missing éxons)

mRNA RNA mensageiro

N A G C T (qualquer)

NCBI National Center for Biotechnology Information

NIH National Institute of Health

ORF Quadros de leitura abertos (Open Reading Frame)

pré-mRNA pré RNA mensageiro (não maduro)

R G A (purinas)

RNA Ácido Ribonucléico

S G C

Sn Sensibilidade

Sp Especificidade

STS Sequence Tagged Sites

T Timina

TN verdadeiros negativos (true negatives)

TP verdadeiros positivos (true positives)

tRNA RNA transportador

U Uracil

V G C A

W A T

WAM Weight Array Model

WE Éxons errados (Wrong éxons)

WMM Método de matriz de pesos (Weight Matrix Model)

WWAM Windowed second order Weight Array Model

Y T C (pirimidinas)

xii

Índice de Figuras

Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001).........................................4

Figura 2.1 - Crescimento do GenBank................................................................................19

Figura 3.1 – Exemplo de duas variáveis a qual uma função quadrática separa os dois

grupos ..........................................................................................................................38

Figura 3.2 – Modelo do Genie.............................................................................................40

Figura 3.3 – Modelo do GenScan........................................................................................43

Figura 3.4 – Rede Neural do GeneParser............................................................................50

Figura 3.5 – Árvore de decisão para classificação de seqüências como éxons internos.....53

Figura 3.6 – Modelo Oculto de Markov do GeneMark.hmm..............................................56

Figura 3.7 – Técnica de Combinação de programas utilizando o método AND.................57

Figura 3.8 – Técnica de Combinação de programas utilizando o método OR....................58

Figura 3.9 – Técnica de Combinação de programas utilizando o método HIGHEST ........59

Figura 3.10 – Técnica de Combinação de programas utilizando o método RULE.............60

Figura 3.11 – Static Naive Bayes.........................................................................................62

Figura 3.12 – Static Full Bayes ...........................................................................................63

Figura 4.1 – Tabela de contigência que representa o relacionamento entre os

nucleotídeos codificados preditos e reais ....................................................................68

Figura 4.2 – Exemplo das medidas em nível de nucleotídeos.............................................69

Figura 4.3 – Exemplo das medidas em nível de éxons........................................................71

Figura 5.1 – Funcionamento da ferramenta auxiliar para predição de genes ExonBR .......75

Figura 5.2 – Modelo de gene...............................................................................................76

Figura 5.3 – Exemplo da criação das janelas ......................................................................78

Figura 5.4 – Seleção dos hexâmeros numa seqüência.........................................................80

Figura 5.5 – Exemplo de codificação de entrada na rede neural.........................................82

Figura 5.6 – Exemplo de redes backpropagation testadas para regiões codificadoras.......83

Figura 5.7 – Exemplo de redes backpropagation testadas para regiões codificadoras

com informação de G+C .............................................................................................84

Figura 6.1 – Variação da taxa de erro em relação a quantidade de seqüências na entrada

em redes neurais para éxons internos..........................................................................91

Figura 6.2 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation para 48 bp e 21 neurônios na camada escondida.................91

xiii

Figura 6.3 – Gráfico comparativo da taxa de erro em nível de éxons em relação a rede

com e sem informação de G+C ...................................................................................93

Figura 6.4 – Gráfico comparativo das taxa de erro em relação a quantidade de neurônios

na camada escondida para rede neural de éxons internos ...........................................94

Figura 6.5 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 48 bp com 17 neurônios na camada escondida para

éxons internos..............................................................................................................95

Figura 6.6 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons internos...........................................................................................97

Figura 6.7 – Variação da taxa de erro em relação a quantidade de seqüências na entrada

para as redes neurais de éxons iniciais......................................................................100

Figura 6.8 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 40 bp para éxons iniciais...............................................100

Figura 6.9 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas das

redes neurais para éxon iniciais com e sem informação de G+C..............................101

Figura 6.10 – Gráfico comparativo das taxa de erro em relação a quantidade de

neurônios na camada escondida da rede neural para éxons iniciais..........................103

Figura 6.11 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 40 bp com 3 neurônios na camada escondida para

éxons iniciais .............................................................................................................103

Figura 6.12 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons iniciais ..........................................................................................105

Figura 6.13 – Variação da taxa de erro em relação à quantidade de seqüências na

entrada da rede neural para éxons terminais..............................................................107

Figura 6.14 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation para éxons terminais com 37 bp e 15 neurônios na camada

escondida...................................................................................................................108

Figura 6.15 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas

das redes neurais para éxon terminais com e sem informação de G+C ....................109

Figura 6.16 – Gráfico comparativo das taxa de erro em relação à quantidade de

neurônios na camada escondida da rede neural para éxons terminais.......................111

Figura 6.17 – Variação da taxa de erro em relação à quantidade de épocas para rede

neural Backpropagation de 37 bp com 2 neurônios na camada escondida para

éxons terminais..........................................................................................................111

xiv

Figura 6.18 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons terminais.......................................................................................113

Figura 6.19 – Gráfico comparativo de desempenho para Drosophila melanogaster........117

Figura 6.20 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 55 bp com 12 neurônios na camada escondida para

HMR 195...................................................................................................................119

Figura 6.21 – Gráfico comparativo de desempenho para o HMR195...............................119

Figura 6.22 – Variação da taxa de erro em relação à quantidade de épocas para rede

neural Backpropagation de 54 bp com 9 neurônios na camada escondida para

Arabidopsis thaliana .................................................................................................121

Figura 6.23 – Gráfico comparativo de desempenho para a Arabidopsis thaliana ............121

Figura 6.24 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural Backpropagation de 54 bp com 20 neurônios na camada escondida para

Oryza sativa...............................................................................................................123

Figura 6.25 – Gráfico comparativo de desempenho para Oryza sativa (arroz).................123

Figura 7.1 – Tela principal da ferramenta ExonBR...........................................................125

Figura 7.2 – Tela do modo teste da ferramenta ExonBR ..................................................126

Figura 7.3 – Tela do treinamento da rede neural da ferramenta ExonBR.........................126

Figura 7.4 – Diagrama do contexto do sistema ExonBR ..................................................127

Figura 7.5 – Diagrama de Fluxo de Dados (DFD) do sistema ExonBR ...........................128

Figura 7.6 – Diagrama de Transição de Estados (DTE) do sistema ExonBR...................129

Índice de Tabelas

Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados ... 11

Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniPro .. 13

Tabela 2.3 – Caracteres definidos pela International Union of Pure and Applied

Chemistry (IUPAC)................................................................................................ 15

Tabela 2.4 – Divisões do GenBank................................................................................ 22

Tabela 5.1 – Exemplo de quantidade de hexâmeros por posição normalizada.............. 80

Tabela 6.1 – Resultados dos testes com a quantidade de hexâmeros para a rede neural de

éxon interno............................................................................................................ 90

Tabela 6.2 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon interno ....................................................................................................... 92

Tabela 6.3 - Resultados dos testes com tamanho da camada escondida da rede neural de

éxon interno............................................................................................................ 94

Tabela 6.4 - Resultados dos testes da influência do valor de saída na rede neural de éxon

interno..................................................................................................................... 96

Tabela 6.5 – Importância da rede neural na descoberta de regiões codificadora para

éxons internos......................................................................................................... 98

Tabela 6.6 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de

éxon iniciais............................................................................................................ 99

Tabela 6.7 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon iniciais..................................................................................................... 101

Tabela 6.8 - Resultados dos testes com tamanho da camada escondida da rede neural de

éxon iniciais.......................................................................................................... 102

Tabela 6.9 - Resultados dos testes da influência do valor de saída na rede neural de éxon

iniciais................................................................................................................... 104

Tabela 6.10 – Importância da rede neural na descoberta de regiões codificadora para

éxons iniciais ........................................................................................................ 106

Tabela 6.11 - Resultados dos testes com a quantidade de hexâmeros para a rede neural

de éxon terminal ................................................................................................... 107

Tabela 6.12 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon terminais.................................................................................................. 109

Tabela 6.13 - Resultados dos testes com tamanho da camada escondida da rede neural

de éxon terminais.................................................................................................. 110

xvi

Tabela 6.14 - Resultados dos testes da influência do valor de saída na rede neural de

éxon terminais ...................................................................................................... 112

Tabela 6.15 – Importância da rede neural na descoberta de regiões codificadora para

éxons terminais..................................................................................................... 114

Tabela 6.16 – Resultados da combinação dos modelos de éxons para Drosophila

melanogaster ........................................................................................................ 115

Tabela 6.17 – Tabela com os resultados comparativos dos testes realizados com outras

ferramentas ........................................................................................................... 116

Tabela 6.18 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para o HMR 195.............................................................................. 118

Tabela 6.19 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para Arabidopsis thaliana ............................................................... 120

Tabela 6.20 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para Oryza sativa............................................................................. 122

1 Introdução

1.1 Objetivos

A conclusão de vários projetos de seqüenciamento, principalmente o do genoma

humano no início de 2003, proporciona um volume considerável de dados,

aparentemente sem sentido algum, que precisa ser processado adequadamente de forma

a se obter informações genéticas úteis a seu respeito. Este processamento inclui várias

fases. A primeira delas corresponde a uma análise das seqüências de DNA (ácido

desoxirribonucléico) no intuito de reconhecer as diversas regiões componentes desta

molécula. Dentre estas regiões, as mais importantes para o processo de síntese de

proteínas pelas células são conhecidas como genes, surgindo, então, o problema de

identificação de genes.

Segundo Fickett e Tung (1992), o processo de identificação de genes consiste no

desenvolvimento de um algoritmo que receba como entrada uma seqüência de DNA e

produza como saída uma tabela contendo a localização e a estrutura de todos os genes

presentes nessa seqüência. Hoje, as estruturas mais estudadas deste processo são as

regiões codificadoras, conhecidas como éxons, e as não codificadoras, conhecidas como

íntrons.

A primeira ferramenta, realmente utilizada pelos biólogos, que propôs esta

predição para genes eucariotos

foi o GRAIL (UBERBACHER & MURAL, 1991;

MURAL et al., 1992). A partir deste estudo diversos sistemas e problemas foram

identificados. Devido à complexidade deste problema, várias técnicas (descritas no

Capítulo 3) são empregadas para solucioná-lo.

Alguns problemas persistem, ainda hoje, para a completa solução da predição de

genes de eucariotos:

• Dificuldade na predição das estruturas em genes muito pequenos ou

muito grandes;

• Taxa de erro elevada na descoberta de estruturas em seqüências que

envolvam múltiplos genes;

• Problemas para detecção de regiões diferentes das codificadoras (por

exemplo: poli A, promotor e sítios de splice);

Existem fundamentalmente duas classes de células: as procarióticas, cujo material genético apresenta-se

disperso no citoplasma e as eucarióticas, com um núcleo bem individualizado e delimitado pelo

envoltório nuclear.

• Os métodos são específicos para um organismo;

• Taxa de acerto baixa para a localização exata das estruturas.

Este trabalho visa melhorar o desempenho da predição para alguns destes

problemas, sendo seu principal objetivo criar uma ferramenta auxiliar para identificação

das regiões codificadoras em organismos eucariotos. Foi confeccionado para tal um

sistema amigável que permitirá a busca destas regiões.

As principais inovações propostas neste trabalho são a utilização da técnica de

redes neurais com entradas baseadas nas probabilidades dos hexâmeros

(matriz peso-

posição modificada) para detecção de regiões codificadoras e a disponibilização,para o

biólogo, de uma ferramenta adaptável a qualquer organismo.

Esta ferramenta, denominada ExonBR, traz como contribuição a possibilidade

do usuário criar bases de dados para qualquer organismo, além da técnica citada

anteriormente.

1.2 Conceitos Básicos de Bioquímica

Existem fundamentalmente duas classes de células: as procarióticas, cujo material

genético não está separado do citoplasma por uma membrana e as eucarióticas, com um

núcleo bem individualizado e delimitado pelo envoltório nuclear. Este trabalho tem

como objetivo descobrir regiões codificadoras em genes eucariotos.

O gene é uma unidade hereditária que consiste numa seqüência particular de bases

no DNA e que especifica a produção de certa proteína (por exemplo, uma enzima), uma

cadeia polipeptídica, um tRNA ou um rRNA. Eles têm diferentes tamanhos e estão

situados numa determinada região, denominada lócus.

O DNA (ácido desoxirribonucléico) é o principal armazenador da mensagem

genética. Em 1953, Watson e Crick, idealizaram um modelo capaz de explicar as

propriedades do DNA. Este modelo representa a molécula de DNA por um filamento

duplo formado por muitos nucleotídeos. No DNA as bases nitrogenadas

são a timina

(T), a citosina (C); a adenina (A) e a guanina(G).

Para se entender a estrutura dos genes eucarióticos, é importante descrever como

ocorre o processo de síntese de proteínas pelas células destes organismos.

Conjunto de 6 nucleotídeos.

Os ácidos nucléicos são moléculas formadas pelo encadeamento de um grande número de unidades

chamadas nucleotídeos. Cada nucleotídeo é formado por três tipos de substâncias químicas: um composto

cíclico de nitrogênio (base nitrogenada), um açúcar de cinco carbonos (pentose) e um radical de ácido

fosfórico(fosfato).

A síntese de uma proteína se inicia com um processo chamado de transcrição. A

transcrição é a transferência da mensagem genética do DNA para o ácido ribonucléico

mensageiro (mRNA). Esta transferência ocorre quando um filamento de DNA se afasta

de seu complementar, expondo suas bases, onde se encaixam os nucleotídeos de RNA.

Denomina-se promotor a seqüência de nucleotídeos no DNA que interage com a RNA

polimerase

, iniciando a transcrição.

O próximo passo da síntese da proteína é denominado tradução. Traduzir a

mensagem genética consiste em passar o código, que está na forma de uma seqüência de

bases de RNA, para uma seqüência de aminoácidos de uma proteína. O mecanismo de

tradução é o seguinte: Um grupo de três bases consecutivas do mRNA é o código

correspondente a um aminoácido. Essas trincas de bases são chamadas códons

A tradução da seqüência de bases do mRNA para a proteína é feita no

ribossomo

. A seqüência de códons do mensageiro determina a seqüência de

aminoácidos que formarão a proteína. À medida que os ribossomos deslizam pelo RNA

mensageiro, os aminoácidos vão-se unindo e formando uma molécula de proteína.

Observou-se que os genes são interrompidos por inserções de regiões de DNA

não codificadoras. Estas seqüências de DNA, que não são encontradas no mRNA

maduro, são denominadas seqüências intercaladas ou íntrons, entretanto, nem todos

os genes eucarióticos possuem íntrons

. As partes da seqüência de DNA que codificam

uma proteína são chamadas de éxons. Existem quatro (4) tipos de éxons:

• Éxons iniciais

Primeiro éxon que aparece num gene.

• Éxons terminais

Último éxon que aparece num gene.

• Éxons internos

Éxons que ficam entre o éxons iniciais e terminais.

• Éxons simples

Gene composto somente de um éxon.

Enzima que sintetiza uma molécula de RNA a partir do DNA

Existem 64 possíveis códons. Sessenta e um códons correspondem a aminoácidos e três representam

sinais para a terminação das cadeias polipeptídicas (códons STOP).

O ribossomo é uma organela presente na célula cujos principais constituintes são o ácido ribonucléico

(RNA) e as proteínas

Organismos procariotos não possuem íntrons

A modificação do pré-mRNA com íntrons para o mRNA maduro é denominado

splicing e ocorre dentro do núcleo. Todo o processo de transformação é ilustrado na

Figura 1.1.

Portanto, dentro dos genes estão codificadas todas as informações genéticas de

um dado indivíduo, tornando o reconhecimento destas estruturas um passo importante

para a compreensão de todo o maquinário envolvido com o processo de síntese de

proteínas pelas células, entendimento este de inquestionável importância prática.

DNA

Éxon 1 Íntron 1 Éxon 2 Íntron 2 Éxon 3 Éxon 4Íntron 3

Promotor

Transcrição

RNA

Cap 5' Poli-A

GU AG GU AG GU AG

Sítio de

Splice

Doador

Sítio de

Splice

Aceptor

Splicing

mRNA

Códon

Terminal

Códon

Inicial

Cap 5' Poli-A

Tradução

Proteína

Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001)

1.3 Composição do Trabalho

Além do capítulo introdutório com os objetivos da pesquisa e conceitos básicos de

bioquímica, esta proposta conta com outros oito (8) capítulos, divididos conforme se

segue:

Capítulo 2 – Este capítulo visa apresentar os principais bancos de dados em

biologia molecular (BDBM), as características destes e o formato do GenBank, o

principal BDBM existente.

Capítulo 3 –Descreve as principais ferramentas de predição de genes, além das

técnicas de combinação de ferramentas, que estão sendo utilizadas atualmente para

genes eucariotos.

Capítulo 4 –Descreve as medidas de exatidão utilizadas para verificar a eficácia

das ferramentas de busca de genes.

Capítulo 5 – Apresenta a metodologia que será empregada para o

desenvolvimento da ferramenta auxiliar para busca de genes.

Capítulo 6 – Descreve os testes e as discussões sobre a técnica proposta.

Capítulo 7 – Apresenta a ferramenta desenvolvida no trabalho.

Capítulo 8 – Apresenta a conclusão e sugestões de trabalhos futuros.

2 Banco de Dados em Biologia Molecular (BDBM)

2.1 Introdução

Os bancos de dados em biologia molecular (BDBM) são importantes,

principalmente, para proporcionar uma forma de tornar os dados produzidos em todo o

mundo acessíveis de maneira mais fácil, rápida e inteligente.

A primeira base de dados de biologia molecular surgiu por volta de 1960, quando

Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de

proteínas conhecidas até então. Essas seqüências foram publicadas num livro chamado

“Atlas of Protein Sequences and Structure”, de 1965. O conteúdo dessa base de dados

não ultrapassaria 1 Mb, se transferido para computadores modernos.

Com o advento do seqüenciamento do DNA e, principalmente, a partir do

seqüenciamento em larga escala (década de 90), foi necessária a construção de bancos

de dados mais robustos para abrigar a explosão no número de seqüências obtidas pelos

pesquisadores. O National Center for Biotechnology Information (NCBI), que controla

o maior banco de dados de biologia molecular, foi criado pelo National Institute of

Health (NIH) em 1988 para abrigar esse tipo de informação.

Dessa forma, foi criada uma colaboração internacional para montar um banco de

dados de seqüências de nucleotídeos, a International Nucleotide Sequence Database

Colaboration (INSDC). Essa instituição contém o NCBI, o European Molecular Biology

Laboratory (EMBL) e o DNA Data Bank of Japan (DDJB). Cada um desses centros

possibilita a submissão individual de seqüências de DNA e trocam informações entre si

diariamente, sendo que os três possuem informações atualizadas de todas as seqüências

disponíveis para os pesquisadores. Apesar disso, cada centro apresenta os dados num

formato particular.

Existem muitas outras bases além das que participam do INSDC e, hoje, é difícil

estimar o número de BDBM’s existentes. Atualmente, não só existem os bancos de

dados de seqüências de nucleotídeos (DNA) e de aminoácidos (proteínas), mas também

inúmeros outros com informações bem específicas, como organismos especiais,

biosseqüências específicas (ex.: tRNA e rRNA), enzimas, mutações, famílias de

biosseqüências (filogenia), entre outros. Além disso, existem bancos que guardam

estruturas tridimensionais das biosseqüências.

É possível destacar os seguintes BDBM’s como os maiores atualmente:

•

GenBank Sequence Database

•

EMBL Nucleotide Sequence Database

•

Genome Sequence Database (GSDB)

•

Genome Database (GDB)

•

UniProt – Universal Protein Resource

•

A. Caenorhabditis elegans DataBase (ACeDB).

Nestes bancos de dados estão armazenadas anotações relevantes, além das

próprias biosseqüências.

Este capítulo visa apresentar os principais BDBM’s, as características destes

bancos e o formato do GenBank.

2.2 Os Principais Bancos de Dados de Biologia Molecular

Existem diversas organizações que armazenam BDBM na Internet. A seguir,

estão listadas algumas das mais importantes:

•

GenBank Sequence Database (BENSON et al., 2006)

Organização responsável: National Center for Biotechnology Information (NCBI)

at the National Library of Medicine (NLM), National Institutes of Health (NIH)

Informações principais: Seqüências de nucleotídeos

URL: http://www.ncbi.nlm.nih.gov/

•

EMBL Nucleotide Sequence Database (COCHRANE et al., 2006)

Organização responsável: EMBL OutStation - The European Bioinformatics

Institute

Informações principais: Seqüências de nucleotídeos

URL: http://www.ebi.ac.uk/

•

Genome Database (GDB) (LETOVSKY et al., 1998)

Organização responsável: U.S Department of Energy, com apoio adicional de U.S.

National Institutes of Health, Japanese Science and Technology Agency, the British

Medical Research Council, INSERM of France, e European Union.

Informações principais: Seqüências de nucleotídeos

URL: http://www.gdb.org/

•

UniProt - Universal Protein Resource (WU et al.,2006)

Organização responsável: The European Bioinformatics Institute (EBI), Swiss

Institute of Bioinformatics (SIB) e Georgetown University

Informações principais: Seqüências de aminoácidos

URL: http://www.uniprot.org

•

Protein Data Bank (PDB) (BERMAN et al., 2002)

Organização responsável: Federal Government Agency

Informações principais: Estruturas das proteínas

URL: http://www.rcsb.org/pdb

•

WormBase (CHEN et al., 2005)

Organização responsável: NIH National Center for Research Resources

Informações principais: C. elegans, Human Chromosome 21, Human

Chromosome X, Drosophila melanogaster, Mycobacteria, Arabidopsis, soybeans,

rice, maize, grains, forest trees, Solanaceae, Aspergillus nidulans, Bos taurus,

Gossypium hirsutum, Neurospora crassa, Saccharomyces cerevisiae,

Schizosaccharomyces pombe, and Sorghum bicolor.

URL: http://www.wormbase.org/

•

TIGR (LEE et al., 2005)

Organização responsável: The Institute for Genomic Research (TIGR)

Informações principais: Seqüências de nucleotídeos

URL: http://www.tigr.org

•

FlyBase (GRUMBLING et al., 2006)

Organização responsável: U.S. National Institutes of Health e British Medical

Research Council.

Informações principais: Drosophila

URL: http://flybase.bio.indiana.edu/

•

Eukariotic Promoter Database (EPD) (SCHMID et al., 2006)

Organização responsável: ISREC em Epalinges s/Lausanne (Switzerland)

Informações principais: Eukariotic promoter

URL: http://www.epd.isb-sib.ch

•

DNA Data Bank of Japan (DDBJ) (OKUBO et al., 2006)

Organização responsável: Center for Information Biology, National Institute of

Genetics, Yata, Mishima, Japan

Informações principais: Seqüências de Nucleotídeos.

URL: http://www.ddbj.nig.ac.jp

•

PROSITE (HULO et al., 2006)

Organização responsável: Swiss Institute of Bioinformatics (SIB)

Informações principais: Sítios funcionais de proteínas

URL: http://ca.expasy.org/prosite/

•

Mitomap (BRANDON et al., 1998)

Organização responsável: Emory University, Atlanta

Informações principais: Genoma da mitocôndria humana

URL: http://www.mitomap.org

•

ENZYME (BAIROCH, 2000a)

Organização responsável: Swiss Institute of Bioinformatics (SIB)

Informações principais: Nomenclatura de enzimas

URL: http://www.expasy.ch/enzyme/

•

BLOCKS (HENIKOFF et al., 1999)

Organização responsável: Fred Hutchinson Cancer Research Center in Seattle,

Washington, USA

Informações principais: Sistema para classificação de proteínas

URL: http://blocks.fhcrc.org/

•

HIV Sequence Database, Los Alamos

Organização responsável: University of California

Informações principais: Banco de dados de seqüências do HIV

URL: http://hiv-web.lanl.gov/

•

Mouse Genome Database (BLAKE et al., 2006)

Organização responsável: National Human Genome Research Institute

Informações principais: Genoma do Rato

URL: http://www.informatics.jax.org

•

Stanford Microarray Database (SHERLOCK et al., 2001)

Organização responsável: Stanford University

Informações principais: Banco de dados de Microarray

URL: http://genome-www5.stanford.edu/

2.3 Características de BDBMs

2.3.1 Volume de Dados

O volume de dados é um ponto importante na análise de BDBM. Este vem

aumentando rapidamente com o passar do tempo devido ao avanço tecnológico e do

grande interesse no genoma. Hoje o GenBank armazena algo em torno de 77 bilhões de

bases, sendo a espécie humana a mais seqüenciada (Tabela 2.1).

Esta quantidade de dados se origina do comprimento do genoma de uma espécie,

que é consideravelmente grande e, ainda, da necessidade de armazenar genomas de

vários seres e muitas informações relacionadas a eles.

2.3.2 Consistência da Informação

Quanto à consistência das informações armazenadas, pode-se dividir os BDBM’s

em dois tipos:

•

Os bancos de dados primários: Apresentam resultados de dados experimentais

que são publicados com alguma interpretação, nos quais não há uma análise

cuidadosa desses dados com relação aos outros publicados anteriormente.

Esse é o caso, por exemplo, do GenBank, EMBL e PDB.

•

Os bancos de dados secundários: São aqueles nos quais há uma compilação e

interpretação dos dados de entrada de forma que podem ser obtidos dados

mais representativos e interessantes. Esses são os bancos de dados curados,

como o UniProt.

Normalmente, as bases de dados secundárias são menores que as primárias

devido a demora na compilação e interpretação dos dados, porém seus dados são menos

sujeitos a erros (a taxa de erro de um banco de dados primário é estimada em 1 a cada

10.000 bases (BAXEVANIS & OUELLETTE, 2001)).

DNA que foi colocado num chip com uma ordem de pontos microscópicos, cada um representa um

gene. mRNA que codifica para proteínas conhecidas é adicionado e cruzará com o DNA complementar

no chip. O resultado será um sinal fluorescente que indica que o gene específico foi ativado.

Espécie Tamanho genoma

haplóide

Bases Entradas

Homo sapiens 3.310.000.000

12.649.896.894

11.103.627

Mus musculus (rato) 3.300.000.000

8.191.906.517

6.900.531

Rattus norvegicus (ratazana) 2.900.000.000

5.748.815.391

1.268.979

Bos taurus (boi) 3.600.000.000

3.693.385.829

1.856.645

Zea mays (milho) 5.000.000.000

3.315.419.379

2.837.151

Danio rerio (peixe zebra) 1.900.000.000

2.746.510.155

1.550.369

Oryza sativa (arroz) 400.000.000

1.514.103.647

1.170.719

Sus scrofa ND

1.424.141.849

1.286.174

Strongylocentrotus purpuratus ND

1.352.195.825

1.401.024

Xenopus tropicalis ND

1.125.373.076

1.174.272

Pan troglodytes (chimpanzé) ND

934.298.402

211.999

Drosophila melanogaster

(mosca de fruta)

180.000.000

889.539.202

719.188

Arabidopsis thaliana (um

vegetal)

125.000.000

879.228.118

1.949.245

Gallus gallus (galinha) ND

855.887.010

802.323

Vitis vinifera ND

810.255.328

497.528

Macaca mulatta (macaco

Rhesus)

688.075.766

75.710

Canislupus familiaris ND

685.124.541

1.220.121

Sorghum bicolor ND

657.600.968

1.006.205

Triticum aestivum (trigo) ND

647.624.511

1.101.600

Medicago truncatula (um tipo

de leguminosa)

514.485.883

401.462

Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados

(Junho/2007)

2.3.3 Informações Armazenadas

Os bancos de dados aplicados à biologia molecular podem ser classificados de

acordo com as informações biológicas que armazenam (ASHBURNER et al., 1997),

que são, principalmente, de:

•

seqüências de nucleotídeos e suas anotações;

•

seqüências de proteínas e suas anotações;

•

proteínas e informações sobre as respectivas funções;

•

estruturas secundárias ou terciárias das moléculas de proteínas;

•

taxonomia (classificações dos organismos vivos);

•

bibliografia na área de biologia molecular (artigos, jornais, periódicos, etc.).

Seqüências de nucleotídeos (SEIBEL et al., 2000)

Os bancos de seqüências de nucleotídeos armazenam a seqüência de

nucleotídeos e anotações contendo dados de características biológicas relevantes sobre

elas, que são, normalmente:

•

organismo a que pertence;

•

sítios das seqüências que codificam moléculas de proteínas;

•

função;

•

fenótipo (características aparentes);

•

links para outros bancos de dados contendo informações biológicas sobre a

seqüência.

Embora exista um controle sobre erros comuns detectados na submissão de

seqüências ao banco, a qualidade da informação é do pesquisador que submeteu a

seqüência. Os laboratórios que submetem seqüências ao banco têm diferentes critérios

sobre a qualidade da seqüência que está sendo enviada. Assim, redundâncias e

inconsistências são inevitáveis. Os bancos de dados de nucleotídeos são, portanto,

considerados primários, apresentando diversos erros.

As seqüências existentes nestes bancos podem estar incompletas, contaminadas

e com erros oriundos do próprio seqüenciamento. Alguns administradores destes bancos

estão tentando resolver o problema de redundância, apesar da dificuldade de inferir que

uma seqüência é origem de outra.

Os principais bancos de dados genéricos que armazenam seqüências de

nucleotídeos são aqueles que compõem o INSDC. Estes bancos armazenam também

informações sobre partes das seqüências que codificam moléculas de proteínas ou de

RNA, além de anotações que contêm outras informações biológicas relevantes.

Além destes, outros bancos de dados específicos de um certo organismo também

armazenam informações sobre seqüências, como por exemplo o ACeDB e toda a

família de bancos de dados que é baseada na sua arquitetura.

Outros bancos de dados especializados (em determinadas células ou

componentes, em mutações, em funções gênicas, entre outros) também armazenam

informações de seqüências, como por exemplo o Mitomap.

Seqüências de proteínas

Os bancos de dados de seqüências de proteínas armazenam a seqüência e

informações sobre a função da proteína no organismo. Estes bancos de dados têm

também como característica a redundância e inconsistência das informações sobre as

seqüências armazenadas.

O principal banco de seqüências de proteínas é o UniProt . Existe maior cuidado

com a qualidade da informação que é incluída neste banco, seu conteúdo é não

redundante e inclui extensas anotações sobre as seqüências (banco de dados

secundário). No entanto, este cuidado exige um intervalo de tempo entre a inclusão de

uma seqüência nos bancos de nucleotídeos e sua correspondente tradução para o

UniProt. Alguns bancos de nucleotídeos também armazenam seqüências de proteínas,

como o Genbank.

Espécie Seqüências

Homo sapiens 16.602

Mus musculus 13.316

Saccharomyces cerevisiae 6.163

Rattus norvegicus 6.199

Arabidopsis thaliana 5.706

Escherichia coli 4.930

Bos taurus 4.025

Schizosaccharomyces pombe 3.188

Caenorhabditis elegans 3.032

Bacillus subtilis 2.835

Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniProt

(Maio/2007)

Proteínas

Os bancos de dados de proteínas são especializados. O banco ENZYME, por

exemplo, armazena informações sobre a nomenclatura das enzimas. O banco PROSITE,

por sua vez, armazena sítios funcionais das proteínas. Existem outros bancos de dados

de grupamentos de proteínas segundo diferentes critérios/algoritmos, como por exemplo

o banco BLOCKS.

Os bancos de dados de seqüências de proteínas contêm links para as bases de

dados de proteínas, que têm anotações mais completas sobre cada uma.

Estruturas de proteínas

Estes bancos de dados armazenam as estruturas secundárias e/ou terciárias das

proteínas. O principal banco de estruturas é o PDB, que armazena informações

estruturais das moléculas de proteínas. Não existe uma grande quantidade de

informações de estruturas armazenadas nesses bancos de dados, devido ao difícil

processo de obtenção de dados, feito via cristalografia ou ressonância magnética

nuclear.

Taxonomia (SEIBEL et al., 2000)

Os bancos de dados de taxonomia são bastante discutidos, uma vez que não

existe consenso entre os especialistas sobre as classificações ali contidas. Os exemplos

destes bancos de dados são: Species 2000, International Organization for Plant

Information, Integrated Taxonomic Information System, The Tree of Life Project, entre

outros. Cabe ressaltar que o GenBank mantém informações de taxonomia, que são

definidas e mantidas por um grupo de especialistas independente.

Publicações (SEIBEL et al., 2000)

Os bancos de dados de publicações armazenam informações sobre a literatura

científica de diversas áreas. Na área da biologia molecular, o mais importante

repositório de tais informações é o MEDLINE, agora denominado PUBMED, que pode

ser acessado via NCBI, através de uma interface denominada Entrez. O correspondente

ao MEDLINE para a área agrícola é o AGRICOLA.

2.3.4 Formatos dos Bancos de Dados

Outra característica dos BDBM’s é a variedade de formatos de armazenamento

das informações. Não existe ainda um formato padrão para estas bases de dados,

portanto, cada centro segue seu próprio formato ou em alguns casos utilizam banco de

dados comerciais para este fim, por exemplo, o GSDB (Sybase).

Além do formato de armazenamento dos dados nas bases públicas, muitos dos

aplicativos utilizados em biologia molecular têm formato próprio.

Os principais formatos encontrados são:

•

Seqüências em formato plano

As seqüências armazenadas neste formato contém apenas caracteres IUPAC

(Tabela 2.3) e espaços. Um arquivo no formato plano pode conter apenas

uma seqüência.

Um exemplo de uma seqüência armazenada no formato plano é demonstrada

a seguir:

AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC

TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC

CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT

TTCAACAATGGATCTCTTGGTTCCGGC

Caractere Descrição

A Adenina

C Citosina

G Guanina

T Timina

U Uracil

R G A (purinas)

Y T C (pirimidinas)

K G T (keto)

M A C (amino)

S G C

W A T

B G T C

D G A T

H A C T

V G C A

N A G C T (qualquer)

Tabela 2.3 – Caracteres definidos pela International Union of Pure and Applied

Chemistry (IUPAC)

•

EMBL

Um arquivo de seqüências no formato EMBL (utilizado no banco de dados

EMBL) pode armazenar várias seqüências.

A entrada de uma seqüência começa com um identificador de linha (“ID”),

seguido por anotações sobre esta seqüência. O início de uma seqüência é

delimitado pelo marcador “SQ” e o final por duas barras (“//”). A seguir,

observa-se um exemplo deste formato:

ID AA03518 standard; DNA; FUN; 237 BP.

AC U03518;

DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S

DE rRNA and 5.8S rRNA genes, partial sequence.

SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;

aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60

tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120

ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180

tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237

•

FASTA

Um arquivo de seqüências no formato FASTA pode conter mais de uma

seqüência.

Uma seqüência neste formato começa com uma linha com a descrição,

seguida por várias linhas com seqüência de dados. A linha de descrição deve

começar com o caractere maior que (“>”) na primeira coluna. Normalmente,

o número de seqüências por linha neste arquivo é de 60 (sessenta). Exemplo

do formato FASTA:

> seq1 This is the description of my first sequence.

AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA

CGACGTAGATGCTAGCTGACTCGATGC

> seq2 This is the description of my second sequence.

AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA

CGACGTAGATGCTAGCTGACTCGATGC

Este formato é utilizado pelos aplicativos da família FAST.

•

Genetics Computer Group (GCG)

Um arquivo de seqüências no formato GCG (utilizado pelo pacote de

anotação GCG) contém apenas uma seqüência, começando com linhas de

anotações. O início da seqüência é marcado por uma linha terminada com

dois pontos (“..”). Esta linha também contém um identificador da seqüência,

o tamanho da seqüência e um checksum.

Exemplo de formato GCG:

ID AA03518 standard; DNA; FUN; 237 BP.

AC U03518;

DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S

DE rRNA and 5.8S rRNA genes, partial sequence.

SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;

AA03518 Length: 237 Check: 4514 ..

1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc

61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg

121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc

181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc

•

GenBank

Um arquivo no formato GenBank pode conter várias seqüências. Uma

seqüência no formato GenBank começa com uma linha contendo a palavra

“LOCUS” e um número para a anotação. O começo da seqüência é marcado

por uma linha contendo a palavra “ORIGIN” e o fim é marcado por duas

barras (“//”). Os outros campos deste formato serão explicados na seção 2.4.

Exemplo de formato GenBank:

LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995

DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S

rRNA and 5.8S rRNA genes, partial sequence.

ACCESSION U03518

BASE COUNT 41 a 77 c 67 g 52 t

ORIGIN

1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc

61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg

121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc

181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc

•

IntelliGenetics (IG)

Um arquivo de seqüências no formato IG (utilizado pelo pacote

multifuncional IG Suite) pode conter várias seqüências, cada uma contendo

um conjunto de linhas de comentários começando com ponto e vírgula (“;”),

uma linha com o nome da seqüência (que não pode conter espaços) e a

seqüência que é terminada com os caracteres “1”(linear) e “2” (seqüências

circulares). Exemplo do formato IG:

; comment

U03518

AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC

TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC

CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT

TTCAACAATGGATCTCTTGGTTCCGGC1

•

Clustal

O formato de arquivo Clustal contém a palavra “CLUSTAL” no início. Este

formato aceita a apresentação das seqüências de forma intercalada ou

seqüencial. Exemplo do formato Clustal (intercalado):

CLUSTAL W (1.74) multiple sequence alignment

seq1 -----------------------KSKERYKDENGGNYFQLREDWWDANRETVWKAITCNA

seq2 ---------------YEGLTTANGXKEYYQDKNGGNFFKLREDWWTANRETVWKAITCGA

seq3 ----KRIYKKIFKEIHSGLSTKNGVKDRYQN-DGDNYFQLREDWWTANRSTVWKALTCSD

seq4 ------------------------SQRHYKD-DGGNYFQLREDWWTANRHTVWEAITCSA

seq5 --------------------NVAALKTRYEK-DGQNFYQLREDWWTANRATIWEAITCSA

seq6 ------FSKNIX--QIEELQDEWLLEARYKD--TDNYYELREHWWTENRHTVWEALTCEA

seq7 -------------------------------------------------KELWEALTCSR

seq1 --GGGKYFRNTCDG--GQNPTETQNNCRCIG----------ATVPTYFDYVPQYLRWSDE

seq2 P-GDASYFHATCDSGDGRGGAQAPHKCRCDG---------ANVVPTYFDYVPQFLRWPEE

seq3 KLSNASYFRATC--SDGQSGAQANNYCRCNGDKPDDDKP-

NTDPPTYFDYVPQYLRWSEE

seq4 DKGNA-YFRRTCNSADGKSQSQARNQCRC---KDENGKN-ADQVPTYFDYVPQYLRWSEE

seq5 DKGNA-YFRATCNSADGKSQSQARNQCRC---KDENGXN-ADQVPTYFDYVPQYLRWSEE

seq6 P-GNAQYFRNACS----EGKTATKGKCRCISGDP----------PTYFDYVPQYLRWSEE

seq7 P-KGANYFVYKLD-----RPKFSSDRCGHNYNGDP---------LTNLDYVPQYLRWSDE

Este formato é utilizado pelos programas da família Clustal de alinhamento

múltiplo.

2.4 GenBank

O GenBank é, hoje, o maior e mais importante repositório de seqüências de

nucleotídeos, representando mais de 105.000 espécies. É usado como referência no

sentido de verificar se uma dada seqüência já está catalogada.

O histórico do volume de seqüências no GenBank demonstra que o número de

seqüências e bases armazenadas, cresce exponencialmente (Figura 2.1). Historicamente,

o GenBank dobra de tamanho a cada 18 meses, mas esta taxa vem acelerando para cada

14 meses, isto ocorre, principalmente, devido à grande quantidade de dados vindos de

Expressed Sequence Tags (EST’s).

Crescimento do GenBank

10000

20000

30000

40000

50000

60000

70000

80000

90000

1982

1991

1994

1998

1999

2000

2002

2003

2005

2006

Pares de Bases (em milhões)

Figura 2.1 - Crescimento do GenBank

O NCBI utiliza estruturas ASN.1 (INTERNATIONAL ORGANIZATION FOR

STANDARDIZATION, 1987) para armazenar as informações no GenBank. Tais

estruturas implementam um tipo de modelo de dados semi-estruturado, bastante útil

para troca de informações com a comunidade científica. O GenBank, também, distribui

suas informações em arquivos flat-file num formato próprio (GenBank flat-file - GBFF)

e no formato FASTA. O XML, atualmente, é outro formato disponível para acesso dos

dados do GenBank (através de um aplicativo que faz a conversão ASN.1  XML).

2.4.1 Esquema

O Genbank armazena seqüências de nucleotídeos e proteínas, além de

informações biológicas importantes sobre cada seqüência, por exemplo: o nome

científico, a taxonomia do organismo de origem, e um conjunto de anotações de

relevância biológica. Um registro do GenBank é identificado pelo atributo número de

acesso. A seguir é apresentado um exemplo de registro do GenBank no formato GBFF.

Cada registro possui campos que definem a informação que está armazenada.

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002

DEFINITION Saccharomyces cerevisiae strain YJM269, partial genome.

ACCESSION AF458979

VERSION AF458979.1 GI:19880933

KEYWORDS .

SOURCE baker's yeast.

ORGANISM Saccharomyces cerevisiae

Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;

Saccharomycetales; Saccharomycetaceae; Saccharomyces.

REFERENCE 1 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I.,

Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Dissecting the architecture of a quantitative trait locus in yeast

JOURNAL Nature 416 (6878), 326-330 (2002)

MEDLINE 21904897

PUBMED 11907579

REFERENCE 2 (bases 1 to 32057)

AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I.,

Oefner,P.J., McCusker,J.H. and Davis,R.W.

TITLE Direct Submission

JOURNAL Submitted (14-DEC-2001) Biochemistry, Stanford University, 789

Campus Drive West, Stanford, CA 94305, USA

FEATURES Location/Qualifiers

source 1..32057

/organism="Saccharomyces cerevisiae"

/strain="YJM269"

/db_xref="taxon:4932"

gene complement(<1..1836)

/gene="YNL095C"

/note="compared to Saccharomyces cerevisiae S288c genome"

/evidence=not_experimental

ORIGIN

1 cactccattt ggattggcgc agttgtttct ggcggcgtaa aactggcggt gaaatatata

61 agggtagtca tcgttggcaa gttccagctg attgctataa caaatagtag cattctatca

121 tcttgccaat taacccatcc agctttcact aaccgatcac accataggac accaaaaatt

181 ggcatgacac attgtctcaa aatgacgagt gtcacagcgg ctttccaaaa tccaggataa

241 aggttgccaa tctttaatct tcctaaagtt gctcctaata atatcaaccc aaatggaaca

301 catgcggcac cgacataacc tgtaaaatcc atgaaaaagc ttaatggtgg tgcattgtca

361 ggagcttggc ttatgtgagg agtattagcg gtagtcacga acaaagcctt gacccatggg

421 ataaatgcaa cagttagggc gatgatcacg gccatagagc acggtctcaa acaattcttt

481 aggaaaaaca caagtaatgg agttaatgaa aattttctca tccactgtgg taatgattcg

541 ccggatgttt caatatcctt tttacttaca gtggcatctg atgttaagat cctggttagg

601 ttagcagttt ttatagtctg taaagtggaa tttgagctaa ttgaatgcac atcattcata

661 tcagcgccgc gtaaactgga attcctcctt tgatgaccat actggtcaac gttggagtac

721 tctctgataa gatggtgtat attttgagaa ggtaatgcac gcatatcaat ggagcggata

781 ggttccaatg ccgccataga catatttttt gggcattttt catctaaaca gttctcttct

841 aggagtgtgg tagtattgta agctctcggc tggctcgcgg ttctacgtgc tctcatagta

901 tctatgctac tctcataact ctctgacgta ttataagaat gtattgttga agcagatgat

961 tggctatcta atggatttga accacgagtt gcctgtgact cttcgctttg agtgcacgca

1021 atagtatttc ttgccttcac ctgaactggt tttgtaatct ttgaattcga agaagtgtct

1081 ggtagtgaca ggggagctat actatttgtt gatctccttg aaattggtgg tacgtctgcg

1141 ttttcaccct ttgtacctat agcttcagtg agactatcgc gagcggtgta cttattgttg

1201 aaaagctgtt gttcgtttga gaagaaacgc tcgctagtat ctgtattagt tgtgtttgca

1261 cttactgcgg gctgtgtctt tgtcgtttct gaaaccctaa cggcgctttc atcgtcgttg

1321 tactcgaaat cgctttcaat cagtcgaaac cccccccaaa ttgaaaatgc aaattagaaa

1381 cattgtcaga aatataatga cgttagccac acctttgtta ccttcttctt ccgaaaatac

1441 aagcccttgg tccatagatt gtaaatatgc aattggtaaa tcacttatat ttggaaacat

1501 accaccggca agaataccac cgtaccattg tttaggaaca ggcaggaata gcctaacaac

1561 gtatgcaaaa aagaacccag aaccaaatat taggagggca gacagacaga taattcccac

1621 agatttgatg tctttatctt caatattagc gacaatcttg ttgaatgaca gacagggtag

1681 taaaactgtt agcacgatat cagaaataat tcttgttgct tcaaccgtaa gaattcccat

1741 tttagccatc agaaagccga ctcctataat caaataaatc ttgattatcg gcttaactga

1801 cacccatatc gcttgaccca gagtaatgtg caccatctga tgaaaatttg aggtttcaat

Os campos referem-se às seguintes informações biológicas: (GENBANK, 2006)

•

Cabeçalho

O cabeçalho é a primeira linha de um arquivo GBFF (Locus line) e contém as

seguintes informações:

 Locus Name: nome curto escolhido para sugerir a definição da seqüência (só

aceita letras maiúsculas ou números e não pode ultrapassar 10 caracteres)

 Tamanho da seqüência, expresso em pares de bases (bp)

 Tipo da molécula. Os tipos aceitos são: DNA, RNA, tRNA, rRNA, mRNA e

uRNA.

 Código da divisão: Três letras que colocam esta a seqüência num dos grupos

(divisões) do GenBank. As divisões existentes estão descritas na

 Tabela 2.4.

 Data que o registro se tornou público.

No exemplo anterior temos as seguintes informações:

LOCUS AF458979 32057 bp DNA PLN 02-APR-2002

 Locus Name: AF458979

 Tamanho da seqüência: 32057 bp

 Tipo de molécula: DNA

 Divisão: PLN (Seqüências de plantas, fungos ou algas)

 Data do Registro: 02/04/2002

Tabela 2.4 – Divisões do GenBank (GENBANK, 2007)

Abreviação Divisão

PRI Seqüências de primatas

ROD Seqüências de roedores

MAM Seqüências de outros mamíferos

VRT Seqüências de outros vertebrados

INV Seqüências de invertebrados

PLN Seqüências de plantas, fungos ou algas

BCT Seqüências de bactérias

VRL Seqüências de vírus

PHG Seqüências de bacteriófagos

SYN Seqüências sintéticas

UNA Seqüências não anotadas

EST Seqüências EST

PAT Seqüências patenteadas

STS Seqüências STS (Sequence Tagged Sites)

GSS Seqüências GSS (Genome Survey Sequences)

HTG Seqüências HTGS (High Throughput Genomic

Sequences)

HTC Seqüências HTC (High Throughput cDNA

Sequences)

•

Definition

Nesta linha temos uma descrição concisa da informação. No caso anterior temos

o genoma parcial da Saccharomyces cerevisiae.

•

Accession

Número de acesso primário, um valor único e imutável atribuído para cada

seqüência.

•

Version line

A version line contém:

 Accession.version Indica a versão do registro. Toda a vez que um registro é

modificado a versão é incrementada.

 GI (geninfo identifier): Identificador da seqüência. Toda a vez que a

seqüência é modificada este número muda.

•

Keywords

Palavras-chave associadas ao gene ou a outras informações sobre o registro.

•

Segment

Informações sobre a ordem em que este registro aparece na série de seqüências

descontínuas de uma mesma molécula.

•

O campo Source

Este campo consiste de duas partes:

 A primeira parte encontra-se depois do rótulo Source e contém o nome do

organismo onde a seqüência foi encontrada.

 A segunda parte consiste de informações encontradas depois do rótulo

Organism. Ela possui o nome científico formal do organismo (gênero e

espécie, conforme catalogado) seguido por sua taxonomia.

•

Reference

Citações a todos os artigos que contêm dados sobre este registro. Ele é composto

pelo número da referência e o local das bases na seqüência citada e por mais

cinco partes:

 Authors: lista os autores na ordem em que eles aparecem no artigo citado.

 Title: título da publicação.

 Journal: citação da literatura para o registro da seqüência. A palavra

´Unpublished´ aparecerá depois do rótulo secundário Journal se os dados

não aparecerem na literatura científica, mas foram diretamente depositados

no banco de dados. Para as seqüências publicadas a linha Journal contém a

tese, a revista, ou o livro, incluindo o ano de publicação.

 Medline: identificador único da National Library of Medicine's Medline para

a citação (se conhecida).

 Remark: comentário que especifica a relevância da citação do registro.

•

Comment

Referências para outras seqüências, comparações com outras coleções, anotações

de modificações no nome do Locus e outras observações.

•

Features

Tabela que contém características encontradas em determinados sítios da

seqüência. No endereço http://www.ncbi.nlm.nih.gov/collab/FT/index.html pode

ser encontrada a lista de características aceitas.

No exemplo anterior, temos as características (features) “gene” e “source”. A

característica source é a única obrigatória em todos os registros do GenBank, e

define a origem dos dados. A característica gene indica onde se encontra um

gene e como ele foi encontrado.

•

Base Count

Sumário do número de ocorrências de cada código base na seqüência.

•

Origin

O campo origin pode estar em branco ou pode especificar como a primeira base

da seqüência relatada está localizada dentro do genoma.

Após este campo são informadas as seqüências na direção 5’ 3’, tendo cada linha

60 bases, divididas em grupos de 10 bases.

2.4.2 Outras informações armazenadas

O Genbank armazena diversas informações além das seqüências de nucleotídeos,

tais como:

•

representação de seqüências de proteínas, a partir das de nucleotídeos que estão

armazenadas no banco.

•

dados de genes, observados nas seqüências, que estão armazenados na divisão

EST (Expressed Sequence Tags).

•

informações biológicas relevantes sobre uma seqüência (e não apenas genes),

que estão armazenados na divisão STS (Sequence Tagged Site).

•

informações aleatórias de seqüências genômicas, que estão armazenadas na

divisão GSS (Genome Survey Sequence).

•

registros genômicos que foram obtidos através de seqüenciamento em larga

escala não finalizados, que estão armazenados na divisão HTG

(HighTthroughput Genomic Sequence). A divisão HTG divide os dados em

quatro fases (0 a 3) dependendo da qualidade dos dados. Estes registros, quando

finalizados (fase 3), são transferidos para a divisão apropriada do organismo.

•

registros de dados não finalizados gerados por grandes processamentos de

cDNA, que estão armazenados na divisão HTC (high-throughout cDNA).

•

informações de mutações de genes, na divisão SNP

(Single Nucleotide

Polimorphisms).

•

taxonomia.

•

estrutura tridimensional de proteínas

•

links para a literatura (MEDLINE).

2.4.3 A construção do Banco de Dados

Os dados para o GenBank vêm de duas origens:

•

Autor individual que submete os dados diretamente para uma base de dados;

•

Submissões de centros de seqüenciamento nos formatos ESTs, STSs, GSSs,

HTCs ou grandes registros genômicos (normalmente seqüências de cosmídios

BACs

ou YACs

Virtualmente, todos os registros entram no GenBank diretamente por submissão

eletrônica, com a maioria dos autores utilizando dois programas:

•

BankIt

O Bankit possibilita a submissão de seqüências pela Web através do endereço

http://www.ncbi.nlm.nih.gov/BankIt. Esta ferramenta é responsável por

aproximadamente 35% de todos os dados recebidos pelo GenBank.

Com o BankIt o autor entra a seqüência diretamente por um formulário Internet,

editando e adicionando anotações biológicas.

Este programa tem a capacidade de validar as submissões buscando os erros

mais comuns e contaminações dos vetores, através de uma variante do BLAST

chamada Vecscreen.

•

Sequin

O Sequin é um programa “stand-alone” multiplataforma desenvolvido pelo

NCBI, que possibilita a submissão de seqüências através de uma conexão online

com os servidores do NCBI.

Esta ferramenta manipula seqüências simples ou longas, para as quais o BankIt

não é apropriado.

Um ponto de mutação em alguns indivíduos de uma população.

Elemento genético extra-cromossomial contendo genes específicos do bacteriofágo lambda.

Bacterial Artificial Chromosome – Cromossomos Artificiais de Bactérias

Yeast Artificial Chromosome – Cromossomos Artificiais de Levedura

Este programa possui facilidades para edição de seqüências, colocação de

anotações complexas, além de um conjunto de funções para validação dos dados.

Esta ferramenta está disponível no endereço ftp://ftp.ncbi.nih.gov/sequin.

Além destes programas, o GenBank oferece procedimentos em batch para facilitar

a submissão de seqüências em larga escala, como o “fa2htgs” (OUELLETTE et al.,

1997).

2.4.4 Informações adicionais

O GenBank possui, aproximadamente, 800 organismos completamente

seqüenciados, seus dados e toda a base de dados podem ser obtidos no endereço

ftp://ftp.ncbi.nih.gov. No formato GBFF sem compressão estes dados estão com

aproximadamente 283 GB. (GENBANK, 2007)

3 As principais ferramentas para busca de genes

3.1 Introdução

Nos últimos vinte anos, um grande esforço tem sido dispendido na solução do

problema da identificação de genes, esforço este que resultou em um grande número de

métodos que permitem a identificação dos genes em uma dada seqüência de DNA.

Baxevanis e Ouellette (2001) agrupam estas estratégias de busca de genes em três

grandes categorias. São elas:

• Métodos baseados em similaridade

Este método é um dos mais antigos para identificação de genes. Seu

princípio consiste na tendência das bases componentes de regiões codificadoras

conservarem-se ao longo da evolução genética, tendência esta sustentada pela

grande relação existente entre a funcionalidade de um gene e a seqüência de

bases que o constitui. Neste método, procura-se regiões similares entre as

seqüências em estudo e as seqüências de um banco de dados conhecido. Com o

crescimento dos bancos de dados de genes e proteínas o uso desta abordagem

tornou-se interessante.

A maior vantagem deste método é que ao encontrar uma grande

similaridade entre as seqüências produz pistas para a função da seqüência e do

novo gene. Se a busca é realizada no nível de aminoácidos, ao invés de

nucleotídeos, uma vantagem adicional é a sensibilidade ao “ruído” causado por

mutações neutras

Quando não existem seqüências homólogas no banco de dados utilizado,

este método apresenta a desvantagem de produzir uma pequena quantidade,

normalmente inútil, de informações. Outro problema ocorre quando se utilizam

bancos de dados primários, pois estes podem conter erros, acarretando assim,

numa pista errada.

• Métodos baseados em conteúdo (estatísticos)

Os núcleos de muitos algoritmos de reconhecimento de genes são as

medidas de codificação (estatísticas). A agregação das medidas de uma região

podem formar uma máscara para encontrar éxons, íntrons e outras regiões

Mutações que modificam o nucleotídeo mas não modificam o aminoácido

genéticas. Estas métricas têm uma longa e rica história, no trabalho de Fickett &

Tung (1992) elas são sintetizadas e avaliadas.

Estas métricas correspondem, basicamente, a funções que calculam um

número ou vetor (de acordo com algum critério estatístico) que permitem

determinar a probabilidade da subseqüência dentro de uma janela pertencer a

uma estrutura genética. Apesar de serem amplamente utilizados, os métodos

estatísticos apresentam uma série de desvantagens. Dentre elas, pode-se citar o

fato de que a exatidão de seus resultados diminui à medida que o tamanho da

janela fica menor e, para a maioria das métricas, o tamanho ótimo de suas

janelas é maior que o tamanho médio dos éxons presentes em genes de seres

vertebrados.

Alguns exemplos destas medidas de codificação são:

• Códons utilizados

Um vetor com 64 elementos dando as freqüências dos 64

possíveis códons.

• Hexâmero

Freqüência numa janela de todos os hexâmeros (6 nucleotídeos).

• Aminoácidos utilizados

Um vetor com 21 elementos dando as freqüências dos 20

possíveis aminoácidos e o códon terminal

• Diaminoácidos utilizados

Um vetor com 441 elementos dando a freqüências de todos os

possíveis dipeptídios (incluindo aminoácidos e códon terminal).

• Composição [f(b,i)]

Para cada base b= {A,C,G,T} e posição do códon testado

i={1,2,3}, f(b,i) é a freqüência de b na posição i.

• Métodos baseados em sinais

O foco desta estratégia é a verificação da presença ou ausência de seqüências

específicas, padrões ou consensos. Normalmente, as seqüências dos sinais

envolvidos na determinação dos genes estão degeneradas ou mal definidas,

impedindo uma distinção clara entre as porções da seqüência que realmente

Combinações dos nucleotídeos TAA,TAG e TGA

participam do processo de síntese de proteínas daquelas, aparentemente, não

funcionais. Alguns exemplos destes sinais são:

• TATA-box

O TATA box é uma seqüência de consenso na região promotora de

vários genes eucarióticos (aproximadamente 70% deles possuem esta

seqüência). O promotor especifica a posição de início da transcrição.

• GC Box e CCAAT Box

Além do TATA box, outras seqüências de consenso são necessárias

para a correta e eficiente transcrição de um gene, como os chamados

CAAT box e GC box. Esses elementos são, freqüentemente,

encontrados em regiões cerca de 40 a 100 nucleotídeos acima do sítio

de início da transcrição nos eucariotos.

Os GC boxes são formados por seqüências GGGCGG e estão

relacionados a grande parte dos genes constitutivos (aqueles que são

expressos sempre, não necessitando de regulação). Já os CAAT boxes

são formados por seqüências GGNCAATCT.

• Poli A

A maioria dos RNAs eucariotos são alterados de forma a conter uma

cauda de poliadenilato na sua extremidade 3’. Nessa cauda estão

presentes cerca de 200 adeninas (A).

O advento dos métodos acima deu origem a uma série de sistemas computacionais,

conhecidos como ferramentas de predição de genes, cujo principal objetivo é descobrir

as possíveis localizações dos genes presentes numa seqüência, além de outras

informações relacionadas a eles (por exemplo, a fita na qual o gene se encontra, os

éxons que os compõem, etc.).

Este capítulo descreve as principais ferramentas de predição de genes, além das

técnicas de combinações desses sistemas, que estão sendo utilizadas atualmente para

genes eucariotos.

3.2 GRAIL (Gene Reconignition and Analysis Internet Link)

O GRAIL (UBERBACHER & MURAL, 1991; MURAL et al., 1992) é a mais

antiga técnica utilizada para predição de genes, foi o primeiro método desenvolvido na

área realmente utilizado.

Esta ferramenta, hoje, possui três versões: GRAIL 1, GRAIL 1a e GRAIL 2. O

GRAIL 1 utiliza uma rede neural para reconhecer uma potencial região codificadora de

tamanho fixo (99 bases) sem utilizar informações adicionais como códon inicial e final.

A rede neural desta ferramenta é formada por sete entradas que consistem de sete

sensores, duas camadas escondidas com 14 e 5 nós, respectivamente, e uma saída. Os

sete sensores utilizados, conforme descrito em Uberbacher & Mural (1991), foram:

• Matriz de tendências de estruturas

A base deste método é a freqüência não randômica com a qual as 4 bases

ocupam cada uma das 3 posições de um códon.

Esta influência, expressa por uma matriz, é usada como a probabilidade de

identificar uma potencial região codificadora.

O coeficiente de correlação entre esta matriz e cada estrutura lida é calculado

e a diferença entre o melhor e o pior coeficiente é utilizada como indicador de

região codificadora.

• Fickett

É uma implementação do algoritmo desenvolvido por Fickett (1982) que

considera várias propriedades das seqüências codificadoras. Numa janela

qualquer, são examinados, de forma independente, a triperiodicidade de cada

uma das 4 bases e comparadas com a propriedades periódicas de um DNA

codificador. Além disso, todas as composições de base do DNA testado são

comparadas com a composição conhecida para DNA codificador e não

codificador.

• Dimensão fractal dos dinucleotídeos

Esta medida baseia-se na ocorrência não randômica dos dinucleotídeos.

Examinando as transições seqüenciais dos dinucleotídeos, é possível ver a

seqüência de DNA como uma função randômica. Estas flutuações podem ser

caracterizadas como uma dimensão fractal (HSU & HSU, 1990). Mural et al.

(1991) observaram que uma região codificadora de DNA tem uma dimensão

menor que uma região não codificadora. Este sensor foi criado representando

a diferença de dimensão fractal entre um valor de referência derivado dos

íntrons e da janela examinada.

• Codificação Sêxtupla das Preferências da palavra

Uma forma de caracterizar seqüências é pelo exame das freqüências de

ocorrência das “palavras” dos nucleotídeos de um dado tamanho na seqüência.

Os diversos tipos de seqüências de DNA (íntrons, éxons, etc.) têm diferentes

distribuições das palavras (CLAVERIE et al., 1990). Cada valor ideal da

palavra é calculado como sendo a relação logarítmica das freqüências

normalizadas de ocorrências no DNA humano das regiões codificadoras

versus regiões não codificadoras no DNA humano. As freqüências sêxtuplas

para as regiões codificadoras de proteínas e não codificadoras são compiladas.

No caso do GRAIL 1 estas informações foram obtidas de cDNA e íntrons

humanos extraídos do GenBank.

• Codificação Sêxtupla das Preferências na estrutura

Similar ao caso anterior, sendo que as observações sêxtuplas no DNA testado

são comparadas com os valores ideais para sêxtuplas no quadro compiladas

para DNA codificador.

• Associação K-tuplas

Este sensor é definido como a relação logarítmica da freqüência normalizada

das ocorrências sêxtuplas dividida pela freqüência randômica esperada. A

pontuação de cada posição para a associação sêxtupla é calculada pela soma

de todas as associações sêxtuplas contidas na janela analisada.

• Palavras repetidas em sêxtuplas

Neste sensor a seqüência testada é comparada com as estatísticas sêxtuplas

para as várias classes dos DNA repetitivos de forma similar ao usado nos três

algoritmos anteriores, sendo a maior preferência total da janela utilizada como

sensor.

Uma adição nesta versão (GRAIL 1a) expandiu este método para levar em

consideração regiões imediatamente adjacentes à região julgada. Com isto houve uma

melhora no desempenho (diminuiu-se os falsos positivos

). O GRAIL 1 ou GRAIL 1a

(Mural et al., 1992) é uma ferramenta desenvolvida para a busca de éxons.

Um refinamento conduziu a uma segunda versão desta ferramenta, chamada

GRAIL 2 (XU et al.,1994). O GRAIL 2 aceita regiões de tamanhos variáveis e usa

Falsos positivos são regiões apontadas erroneamente pelos programas preditores como éxons ou genes.

informações do contexto (sinal de poli A, códons iniciais e finais e junções de splice). O

GRAIL 2 é apropriado para determinar o modelo da estrutura genética.

Mais recentemente, os autores do GRAIL lançaram o GRAIL-EXP (GRAIL

Experimental), que é baseado no GRAIL, acrescentando a busca numa base de dados

com o conhecimento de informações completas e parciais dos genes. Segundo os

autores esta inclusão aumentou significativamente o seu desempenho.

A ferramenta GRAIL pode ser encontrada no endereço

http://compbio.ornl.gov/Grail-1.3/ e o GRAIL-EXP em

http://compbio.ornl.gov/grailexp/.

3.3 GeneID

A versão atual do GeneID (GUIGÓ et al., 1992) procura éxons baseado em

medidas de potencial de codificação. A versão original deste programa usa um sistema

fundamentado em regras para examinar supostos éxons e agrupar o “gene mais

provável” para a seqüência.

O GeneID usa uma matriz de peso-posição para avaliar se uma extensão da

seqüência representa ou não um sítio de splice (aceptor ou doador), um códon de

inicialização ou um códon de terminação. Uma vez feita esta avaliação, são construídos

modelos de supostos éxons. Com base neste conjunto de éxons preditos, o GeneID faz

uma rodada de refinamento final produzindo a estrutura genética mais provável da

seqüência de entrada. A descoberta das regras foi realizada utilizando um conjunto de

169 genes de vertebrados e os resultados encontrados nos testes mostraram que esta

técnica é eficaz para a descoberta de genes.

Um trabalho mais recente com esta ferramenta foi realizado por Parra et al.

(2000) para a predição da estrutura da Drosophila, a principal mudança implementada

neste artigo foi no conjunto de treinamento, que agora é formado basicamente por genes

da Drosophila e esta modificação melhorou sensivelmente o resultado da predição deste

organismo.

O endereço desta ferramenta na Internet é http://www1.imim.es/geneid.html.

3.4 FGENEH/FGENES

FGENEH (SOLOVYEV et al., 1994; SOLOVYEV et al., 1995) é um método

para predizer éxons internos observando características estruturais como sítios de splice

aceptores e doadores, supostas regiões codificadoras, e regiões de íntrons na direção 5’

e 3’para um suposto éxon. Este método utiliza análise linear discriminante, uma técnica

matemática que permite a análise de dados de vários experimentos combinados. Uma

vez que os dados foram combinados, uma função linear é utilizada para discriminar

entre duas classes de eventos (real e pseudo-sítio).

No FGENEH, os resultados do discriminante linear são transferidos para um

algoritmo de programação dinâmica que determina a melhor combinação destes éxons

preditos num modelo de gene coerente. De forma simplificada, esse programa realiza a

predição de genes em uma dada seqüência de DNA seguindo os passos abaixo:

1. Todos os possíveis éxons internos, assim como possíveis éxons iniciais e finais

são encontrados utilizando-se funções lineares discriminantes que combinam

várias características relacionadas aos éxons encontrados nos genes.

2. Uma vez encontrados, os éxons são ordenados de acordo com as posições (na

seqüência original) dos seus nucleotídeos da extremidade.

3. Finalmente, por meio de um algoritmo que utiliza a técnica de programação

dinâmica, encontra-se uma “montagem” ótima destes éxons e constrói-se o gene

relacionado a ela.

Uma extensão do FGENEH, chamada FGENES, pode ser utilizada em casos, nos

quais múltiplos genes são esperados numa dada extensão de DNA.

O grupo que desenvolveu estas ferramentas também criou o programa Fgenesh

que é baseado no modelo oculto de Markov (HMM) tendo um algoritmo similar ao do

Genie (KULP et al., 1996) e GenScan (BURGE & KARLIN, 1997), diferindo apenas na

utilização de um termo de sinal (como de sítios de splice) no lugar do termo de

conteúdo (potencial de região codificadora). Este programa foi treinado com as

informações da Drosophila mostrando resultados melhores que seus concorrentes

(SALAMOV & SOLOVYEV, 2000).

O FGENEH pode ser encontrado no endereço http://genomic.sanger.ac.uk/.

3.5 NetplantGene

A ferramenta NetplantGene (HEBSGAARD et al., 1996) foi desenvolvida para

predição de genes da Arabidopsis thaliana

. Esta ferramenta combina técnicas de redes

neurais e um sistema baseado em regras para encontrar os sítios de splice.

Espécie de planta totalmente seqüenciada pertencente a família das Brassica (família do repolho e do

rabanete)

Este programa utilizou para o treinamento da sua rede neural, 109 genes com 539

sítios doadores e aceptores. Para o teste foram empregados 37 genes com 225 sítios

doadores e 227 sítios aceptores.

A rede neural usada foi uma backpropagation totalmente conectada, com três

camadas (entrada, escondida e saída). A codificação escolhida para entrada dos

nucleotídeos na rede não possuía dependência algébrica (A como (1000), C como

(0100), G como (0010) e T como (0001)), e os valores de saídas utilizados foram 0 ou 1.

As redes neurais deste sistema foram treinadas em duas tarefas:

• Detecção de região codificadora

• Predição de sítios splice

O coeficiente de correlação, representado pela equação 3.1, define o critério de

parada e verificação do desempenho da rede.

))()()((

)()(

ffff

PPNPPNNN

PNPN

++++

−

= (Equação 3.1)

Onde:

P → Número de nucleotídeos codificadores preditos corretamente.

N → Número de nucleotídeos não codificadores preditos corretamente.

-f

→ Número de nucleotídeos codificadores preditos erroneamente.

-f

→ Número de nucleotídeos não codificadores preditos erroneamente.

Duas outras medidas também foram utilizadas como critério de parada da rede

neural no treinamento dos sítios de splice:

• a taxa de falsos positivos, dada pela equação 3.2.

(Equação 3.2)

Onde:

→

Número de sítios de

splice

preditos incorretos.

N+P

→

Número total de sítios não-

splice

•

a taxa de verdadeiros positivos, dada pela equação 3.3.

= (Equação 3.3)

Onde:

P → Número de sítios de splice preditos corretamente.

P+N

→ Número total de sítios de splice.

Alguns testes de freqüência foram realizados para encontrar algumas

características da planta. As características encontradas foram:

• Os éxons têm tamanhos parecidos com os dos humanos

• Os íntrons são menores que os dos humanos

• A seqüência de consenso para sítios aceptores sugerida por White et al

(1992) (TGYAG|GT

) foi encontrada.

De posse destas informações foram treinadas várias configurações de redes

neurais para os sítios de splice, o melhor resultado encontrado para o sítio doador tinha

27 nucleotídeos na entrada e 10 neurônios na camada escondida. A forma encontrada

para minimizar o erro foi treinar 10 redes inicializadas de forma diferente, sendo a

média de suas saídas utilizada como resultado. O coeficiente de correlação encontrado

para este sítio foi de 0,65.

Para o sítio aceptor, a rede neural com melhor desempenho tinha 61 nucleotídeos

na entrada e 15 neurônios na camada escondida. A mesma quantidade de redes do sítio

doador foram utilizadas como forma de minimizar o erro e o coeficiente de correlação

para este sítio foi similar ao do caso anterior.

Para predição da região codificadora foi utilizado um sistema com seis redes

neurais:

• Uma rede com 101 nucleotídeos na entrada.

• Quatro redes com 201 nucleotídeos na entrada e 15 neurônios na camada

escondida.

• Uma rede com 251 nucleotídeos na entrada.

O coeficiente de correlação, para este caso, foi de 0,76.

A letra “Y” indica qualquer piridimina. Portanto, esta seqüência de consenso indica que o sítio deve

começar com TGYAG e terminar com GT.

A combinação destes sistemas de redes neurais tem como principal dificuldade à

sobreposição de regiões, esta distinção foi feita utilizando o critério:

local

> a∆ +t,

Onde:

∆ → Valor calculado pelo sistema de redes neurais para predição de

regiões codificadoras

a e t → Constantes

local

→ saída do sistema de redes neurais dos sítios de splice.

Com os valores ótimos de a e t, o coeficiente de correlação dos sítios doadores

aumentou para 0,86 e dos sítios aceptores foi para 0,76.

O próximo passo deste sistema foi utilizar regras para o refinamento do

resultado. Este refinamento foi realizado em três passos:

1. Descartou-se predições erradas de sítios de splice;

2. Escolheu-se entre duas ou mais predições próximas;

3. Melhorou-se predições fracas (ou perdidas);

As regras foram criadas utilizando mecanismos biológicos previamente sugeridos na

literatura sobre splice, foram utilizadas três regras, são elas:

• descarte de sítios de splice em regiões preditas de forma uniforme.

• procedimento de busca por pares de sítios aceptores em áreas de

prolongamento T em éxons 5’.

• remoção dos sítios doadores com predição fraca e até 15 nucleotídeos.

Os resultados encontrados foram satisfatórios para a predição de genes na

Arabidopsis thaliana. O servidor NetPlantGene pode ser encontrado no endereço

http://www.cbs.dtu.dk/services/NetPGene/. O programa NetGene2 (Brunak et al.,1991;

Hebsgaard et al., 1996), que utiliza as mesmas técnicas do NetPlantGene para a

predição de genes humanos pode ser encontrado no endereço

http://www.cbs.dtu.dk/services/NetGene2/

3.6 PROCRUSTES

O PROCRUSTES (GELFAND et al.,1996) recebe uma seqüência genômica de

DNA e “força” a se ajustar aos padrões definidos por uma proteína alvo. Ao contrário

dos outros métodos de predição de genes (que só precisam de uma seqüência de DNA)

este algoritmo requer que o usuário identifique supostos produtos do gene antes de fazer

a predição, assim, esta representa o melhor ajuste de uma dada seqüência de DNA em

relação à suposta transcrição. Este método faz uso de um algoritmo de alinhamento

entrelaçado para explorar seqüencialmente todas as possibilidades de blocos de éxons,

buscando o melhor ajuste para predizer a estrutura genética de uma proteína candidata.

Se uma proteína candidata conhecida “surgir” na seqüência consultada do DNA,

estruturas corretas dos genes serão preditas com grande precisão. O PROCRUSTES

pode manusear casos onde existam parciais ou múltiplos genes numa seqüência.

Este programa foi testado com um conjunto de fragmentos genômicos consistindo

de 47 genes completos com multi-éxon (cada gene com 10 ou mais éxons). Como alvo

foi utilizada uma lista de proteínas construídas através do banco de dados ENTREZ com

a pontuação de similaridade do BLAST

(ALTSCHUL et al.; 1990).

O PROCRUSTES pode ser encontrado no endereço http://hto-

13.usc.edu/software/procrustes/index.html.

3.7 MZEF (Micheal Zhang’s Éxon Finder)

Este método de predição baseia-se na técnica de análise discriminante quadrática

(QDA) (ZHANG, 1997). Um exemplo desta técnica consiste em imaginar um caso, no

qual dois tipos de predições são plotados num gráfico XY, se o relacionamento entre

estes dois conjuntos de dados for não linear, o gráfico resultante será visto como um

aglomerado de pontos. A predição correta caracteriza-se pela aglomeração dos pontos

numa determinada região do gráfico, sendo utilizada uma função quadrática para

separar os pontos, conforme demonstrado na Figura 3.1.

Alinhamento é definido como sendo a melhor combinação existente entre duas seqüências. Os

algoritmos de alinhamento permitem a busca desta combinação de forma automática. As mais famosas

ferramentas para este fim são o BLAST e o FAST.

Programa para alinhamento de seqüências.

Figura 3.1 – Exemplo de duas variáveis a qual uma função quadrática separa os dois

grupos

No caso do MZEF, são utilizadas nove medidas para a análise discriminante,

descritas abaixo:

• comprimento do éxon = log

(tamanho do éxon em bp)

• transições éxon-íntron = (freqüência dos hexâmeros nos íntrons numa janela

de 54 bp à esquerda do sítio de splice 3’) – (freqüência dos hexâmeros nos

éxons numa janela de 54 bp à esquerda do sítio de splice 3’)

• Pontuação do sítio de ramificação (branch) =pontuação do log-verosimilhança

na janela (-54, -3)

• Pontuação do sítio de splice 3’ = freqüência tripla dependente de posição dos

verdadeiros sítios de splice 3’ versus pseudos sítios de splice 3’ na janela (-

24,3)

• Pontuação éxon = (freqüência dos hexâmeros dos éxons versus íntrons)

• Pontuação do filamento (strand score) = (freqüência dos hexâmeros para o

forward strand versus reverse strand)

• Pontuação da estrutura (frame score) = Max

i=1,2,3

(freqüência específica da

estrutura dos hexâmero para os éxons versus íntrons na estrutura i)

• Pontuação do sítio de splice 5’ = freqüência tripla dependente de posição dos

verdadeiros sítios de splice 5’ versus pseudo-sítios de splice 5’ na janela (-3,8)

• transições íntron-éxon = (freqüência dos hexâmeros nos éxons numa janela de

54 bp à esquerda do sítio de splice 5’) – (freqüência dos hexâmeros nos

íntrons numa janela de 54 bp à esquerda do sítio de splice 5’)

Nesta ferramenta, A versus B representa a proporção da

B) de freqüênciaA de a(freqüênci

A de freqüência

O MZEF busca somente a predição dos éxons internos sem nenhuma outra

informação sobre a estrutura genética.

Este programa utilizou como conjunto de treinamento 1879 éxons verdadeiros

retirados do GenBank e 184217 pseudo éxons. A técnica QDA foi aplicada para separar

os dois grupos: éxons e pseudo éxons.

Um módulo adicional para esta ferramenta, o JTEF (Jack’s Terminal Éxon

Finder), foi desenvolvido por Tabaska et al. (2001) para encontrar éxons terminais 3’.

Esta ferramenta aplica a técnica do MZEF para marcar possíveis sítios aceptores,

através de quatro funções quadráticas discriminantes – aceptor, doador, poli A e

terminal; e num segundo momento utiliza uma função de pontuação bayesiana para

encontrar o melhor códon final para este sítio aceptor. A forma básica da função de

pontuação bayesiana é:

P(Fragmento Codificador Terminal|seqüência) =

a)P(Seqüênci

Terminal))r Codificado oP(Fragment x Terminal)r Codificado Fragmento |ia(P(seqüênc

Nos testes realizados com esta ferramenta foram encontrados melhores resultados

para sensibilidade

em relação ao GenScan e HMMgene, e piores resultados de

especificidade

em relação aos mesmos programas.

Num trabalho mais recente Zhang e Luo (2003) sugerem a colocação de diversas

medidas (informações como medida de GT e AG) para aumentar o desempenho da

técnica de análise de discriminante quadrática para descoberta de sítios de splice, esta

técnica é conhecida como IDQD (increment of diversity combined with quadratic

discriminant analysis).

O MZEF pode ser encontrado no endereço http://argon.cshl.org/genefinder/.

Sensibilidade. Definida na seção 4

Especificidade. Definida na seção 4

3.8 Genie

O Genie (KULP et al., 1996) utiliza um HMM generalizado (GHMM) com

distribuições de tamanho arbitrário associadas a alguns estados do modelo. Este sistema

é descrito como modular, no qual cada estado é treinado separadamente e novos estados

podem ser facilmente adicionados. A Figura 3.2 mostra o modelo do Genie, onde os

arcos correspondem aos estados numa máquina de estados e os nós representam as

transições entre eles. Esta ferramenta conceitua uma GHMM como uma máquina, na

qual cada estado gera um ou mais símbolos.

Legenda:

J5’- Região não traduzida 5’ D – Sítio Doador

J3’ – Região não codificante 3’ A – Sítio Aceptor

EI – Éxon Inicial S – Início da Tradução

E – Éxon Interno T- Término da Tradução

EF – Éxon Final B – Início (Begin)

ES – Éxon Simples F – Fim (Finish)

Figura 3.2 – Modelo do Genie

Dada uma seqüência X candidata a DNA, este algoritmo define:

M = Modelo

X = {X[1], X[2], ..., X[N]}

φ = { (q

, x

), (q

, x

), ..., (q

, x

)}

Onde X[i] é a i-ésima base da seqüência X de tamanho N, q

é o i-ésimo estado

da análise φ e x

é a i-ésima subseqüência de X. O objetivo deste modelo é encontrar a

análise ótima que é dada por P(X, φ). Para a otimização da análise foi utilizada

programação dinâmica.

Este modelo foi dividido em módulos, sendo os principais:

• Modelo para sítio de splice

Na primeira versão do Genie foram utilizadas duas redes neurais feedfoward

com treinamento backpropagtion e uma camada escondida para o

reconhecimento dos sítios doadores e aceptores. Cada seqüência foi

codificada utilizando 4 entradas para cada nucleotídeo, ou seja, uma

codificação sem dependência algébrica.

Uma janela de 15 bp (-7,+8) foi utilizada para os sítios doadores e uma de

41bp para os sítios aceptores (-21,+20), tamanhos esses considerados ótimos

em Brunak et al. (1991). O melhor resultado foi encontrado empregando 50

neurônios na camada escondida para sítios doadores e 40 unidades

escondidas para sítios aceptores. As saídas das duas redes neurais são

interpretadas como a probabilidade posteriori para um sítio doador ou

aceptor numa dada posição da seqüência.

Na segunda versão, a codificação de entrada da rede neural foi modificada,

devido à descoberta da forte correlação existente entre os nucleotídeos

vizinhos no sítio de splice (HERDENSON et al., 1996). Baseado nestes

resultados, a codificação foi alterada para a entrada de dinucleotídeos. Com

isto, uma janela de 15 nucleotídeos é codificada com 14 pares de

nucleotídeos adjacentes, e cada par é representado por 16 entradas. Porém, o

número de neurônios na camada escondida foi diminuído para 2 na rede de

sítio doador e 10 na de sítio aceptor.

• Modelo para Íntron

O modelo para Íntrons é um modelo sem janela. Para cada base b na posição

i, a freqüência de nucleotídeos numa janela de 300 bases, para i-150 e i+150

excluindo a posição i, é calculada. A probabilidade de b é dada de acordo

com a freqüência calculada. O Genie não inclui conhecimento sofisticado

para encontrar íntrons.

• Modelo para Éxon

Neste modelo são utilizadas duas estatísticas para determinar uma região

com potencial codificante. Na primeira, o conteúdo GC e uma freqüência

local são consideradas para o cálculo da freqüência de 4 nucleotídeos com

uma janela de 300 bases (janela similar ao modelo do íntron). A segunda é

uma cadeia de Markov de primeira ordem com a distribuição dos 61

possíveis códons. Estes critérios são combinados através de uma rede neural

com 2 camadas escondidas com 17 neurônios cada uma, treinada usando o

algoritmo backpropagation.

O treinamento do Genie foi feito com 304 genes humanos divididos em 7 grupos

para a utilização de validação cruzada. Os resultados dos testes na primeira versão desta

ferramenta (sem o modelo de dinucleotídeos para os sítios de splice) mostraram que, na

época, poderia ser considerado o “segundo melhor” programa de busca de genes,

perdendo apenas para o FGENEH. Com a mudança na busca dos sítios de splice, o

Genie, em seus testes, conseguiu melhores resultados que os outros programas do

gênero.

Esta ferramenta se encontra no endereço http://www.cse.ucsc.edu/~dkulp/cgi-

bin/genie.

3.9 GENSCAN

O GENSCAN (BURGE, 1997; BURGE & KARLIN, 1997; BURGE & KARLIN,

1998) foi desenvolvido para encontrar a estrutura completa de um gene. Esta ferramenta

pode identificar íntrons, éxons, sítios promotores e sinais poli A. O GENSCAN não

espera que a seqüência de entrada represente apenas um gene (a seqüência pode conter

vários genes). Sua habilidade de fazer previsões precisas de uma seqüência em diversos

contextos o faz um método particularmente útil para a predição genética.

Empregando os descritores da estrutura genética que correspondem à seqüência

consultada, o algoritmo pode fixar uma probabilidade da chance de uma extensão da

seqüência representar um éxon, promotor e assim por diante. O “éxon ótimo” será

aquele com maior probabilidade de representar a parte da seqüência que tiver a melhor

chance de ser um verdadeiro éxon. Este método pode predizer “éxons sub-ótimos” com

valores de probabilidades aceitáveis.

Este programa utiliza o modelo de estrutura genética mostrada no Figura 3.3.

Neste modelo os estados (representados por círculos e diamantes na figura)

correspondem as unidades funcionais fundamentais de um gene eucarioto, isto é, éxons,

íntrons, regiões intergênicas, entre outras, que podem ocorrer em qualquer ordem

biologicamente consistente. Os íntrons e éxons internos são divididos de acordo com a

“fase”. Portanto, a fase 0 consiste nos íntrons que estão entre códons, a fase 1 é formada

pelos que estão depois da primeira base de um códon,e a fase 2 representa aqueles que

ficam depois da segunda base de um códon, neste modelo são denominadas I

, I

e I

respectivamente. Os éxons internos são, similarmente, divididos de acordo com a fase,

sendo denominados de E

, E

e E

Por conveniência, sítios de splice doadores,

aceptores, inicialização da tradução e sinais de terminação são considerados como parte

associada a um éxon.

Figura 3.3 – Modelo do GenScan

O modelo, essencialmente, um tipo semi-Markov, é formulado como um estado

de duração explicita de um HMM do tipo descrito por Rabiner (1989). Resumidamente,

o modelo funciona como gerador de “análise gramatical” φ, consistindo de um conjunto

de estados ordenados, q = {q

, q

, ..., q

}, associado a um conjunto de comprimentos

(duração), d = {d

, d

, ..., d

}, o qual, usando um modelo probabilístico para cada tipo

de estado, gera uma seqüência de DNA S, de comprimento

∑

. A geração de

uma análise gramatical correspondente a uma seqüência de tamanho L é a seguinte:

1. Um estado inicial q

é escolhido de acordo com uma distribuição inicial de

estados, π, isto é, π

= P[q

(0)

], onde Q

(j)

(j=1,...,27) é o índice dos tipos

de estados (Figura 3.3)

2. Um tamanho (duração do estado), d

, correspondendo a um estado q

gerado condicionado a um valor de q

(i)

para a distribuição de tamanho

Q(i)

3. Um segmento da seqüência s

de tamanho d

é gerado, condicionado a um

e q

, conforme uma seqüência apropriada gerando modelo para o tipo de

estado q

4. O subseqüente estado q

é gerado, condicionado ao valor de q

, para a

matriz de estado de transição T, isto é, T

i,j

= P[q

k+1

(j)

| q

= Q

(i)

Este processo é repetido até a soma,

∑

, das durações dos estados exceder ou

ser igual a L no ponto em que a última duração do estado d

é adequadamente truncada,

a extensão final da seqüência é gerada, e o processo pára (a seqüência gerada é a

concatenação dos segmentos, S=s

, s

,..., s

Portanto, este modelo tem quatro(4) componentes principais:

• O vetor inicial de probabilidades, π

• A matriz de probabilidades de transição de estados T

• Um conjunto de distribuições de tamanho f

• O conjunto de seqüências geradas pelo modelo, P

Para uma seqüência de tamanho fixo, L, considera-se o espaço Ω = Φ

x 

onde Φ

é o conjunto de todas as possíveis análises de tamanho L e 

é o conjunto de

todas as possíveis seqüências de DNA de tamanho L. O modelo M pode ser obtido

como a probabilidade das medidas deste espaço, isto é, a função que atribui a densidade

de probabilidade para cada par análise/seqüência. Assim, para o caso particular de

seqüência S ∈ 

, pode-se calcular a probabilidade condicional de uma análise

particular φ

∈ Φ

usando a regra de Bayes:

S),P(

P(S)

S),P(

S) | P(

φφ

∈

∑

(Equação 3.4)

A probabilidade da junção P(φ

,S) é dada por:

P(φ

,S) = π

)P[s

| q

] x

∏

qk-1.qk

)P{s

} (Equação 3.5)

Onde os estados de φ

são q

, ..., q

associados aos estados de tamanho

,..., d

, de uma seqüência quebrada nos segmentos s

,..., s

Um algoritmo recursivo de ordenação de Viterbi (FORNEY, 1973) pode ser

usado para calcular φ

ótimo

, ou seja, a análise que tem a maior probabilidade de junção

(sobre M).

Além disso, neste modelo cada informação é modelada de uma forma diferente.

Os sinais de transcrição e tradução são modelados pelo método de matriz de pesos

(WMM) (STADEN, 1984) de 6 bp (consenso: AATAAA). Um modelo de WMM de 12

bp é usado para o sinal de tradução inicial. A WMM é definida pela equação 3.6.

WMM

)(

WMM

−

(Equação 3.6)

)(XP

WMM

∏

)(

, onde p

(i)

é a probabilidade de geração do nucleotídeo j na

posição i num sinal, normalmente estimado como sendo a freqüência posicional num

conjunto de seqüências e λ é o tamanho da seqüência. )(XP

WMM

−

corresponde a regiões

que não são sítios derivados de um conjunto de pseudo-sítios.

Para os promotores foi criado um modelo baseado em ter ou não o sinal TATA

(70% dos promotores eucariotos possuem este sinal). Para quem tem o sinal TATA foi

utilizado um WMM 15 bp TATA-box e 8 bp WMM sítio cap obtidos por Bucher

(1990). Nos casos sem o sinal TATA foram modelados como uma região intergênica de

tamanho 40 bp.

Os sítios de splice doador e aceptor são os mais importantes para a exatidão da

predição de um éxon. Para o doador foi criado o procedimento MDD (Maximal

Dependence Decomposition) cujo objetivo é capturar as mais significantes

dependências entre as posições. Essencialmente, substitui as probabilidades

incondicionais de um WMM por probabilidades condicionais. A janela utilizada para

este sítio foi de 9 bp, começando na posição –3 e terminando na +6. Para o aceptor foi

introduzido o conceito de “windowed second-order WAM (Weight Array Model

definido por Zhang & Marr (1993)) model” (WWAM) no qual os nucleotídeos são

gerados condicionados aos nucleotídeos de duas posições anteriores com uma janela de

23 bp da posição –20 até +3. A WWAM é definida como:

),1(

)1,2(

)1(),1,2(

)(

iii

zyx

−−−

(Equação 3.7)

Onde:

),1,2(

iii

zyx

−−

→

freqüência do trinucleotídeo x,y,z nas posições i-2,i-1 e i do

sinal.

)1,2(

−− ii

f →

freqüência do dinucleotídeo x,y nas posições i-2 e i-1.

),1(

−

→

freqüência do dinucleotídeo y,z nas posições i-1 e i.

)1( −i

→

freqüência do nucleotídeo y na posição i-1.

As porções codificadoras dos éxons são preditas usando um modelo de Markov

não homogêneo tri-periódico de quinta ordem como o de Borodovsky & McIninch

(1993). Os estados não codificadores F, T, N e I

são preditos usando um modelo de

Markov de quinta ordem homogêneo.

O conjunto de treinamento utilizado foi criado com humanos totalizando 142

genes com éxons simples e 238 genes com multi-éxons (1492 éxons e 1254 íntrons). O

tamanho do conjunto utilizado era de 2580965 bp. Para testes foi utilizada a base de

dados de Burset & Guigó (1996) com ótimos resultados.

Esta ferramenta pode ser encontrada no endereço

http://genes.mit.edu/GENSCAN.html.

3.10 GeneParser

O GeneParser (SNYDER & STORMO, 1993; SNYDER & STORMO, 1997)

emprega uma técnica diferente para identificar supostos íntrons e éxons. Ao invés de

predeterminar regiões candidatas de interesse, este programa computa a pontuação de

todos os “subintervalos” das seqüências submetidas. Uma vez que cada subintervalo é

pontuado, uma rede neural é utilizada para determinar se cada subintervalo contém um

éxon inicial, éxon interno, éxon final ou íntron. As predições individuais são, assim,

analisadas para que a combinação represente o gene mais provável, através de

programação dinâmica.

Este sistema utiliza um conjunto de métricas (estatísticas) na rede neural. As

medidas utilizadas foram:

•

Hexâmeros na estrutura (

in-frame hexamers

) definida para uma subseqüência

entre i e j, como:

)/log(

6,...,6,3,0

∑

−= jk

In-frame hexamer

(i,j) =max

)/log(

6,...,7,4,1

∑

−= jk

)/log(

6,...,8,5,2

∑

−= jk

, onde f

é a freqüência dos hexâmeros de uma tabela de hexâmeros na

estrutura das seqüências codificadoras humanas na posição k do intervalo, e

é a freqüência do mesmo hexâmero numa população randômica baseada

na composição de bases de uma seqüência:

∏

Onde v

é a freqüência do nucleotídeo b no lócus

em consideração.

•

Complexidade Composicional Local

Esta medida baseia-se na repetição das seqüências em regiões não

codificadora. Nesta ferramenta, foram utilizados oligonucleotídeos de

tamanho L=8, sendo esta métrica calculada como:

H = -

























∑

∈

GTCAk

},,,{

log (KONOPKA & OWENS, 1990),

Onde N

é o número de vezes que a base k ocorre no oligonucleotídeo.

•

Distribuição dos tamanhos dos íntrons e éxons

O tamanho dos íntrons e éxons pode ser utilizado para evidenciar que um

intervalo é membro de um tipo particular de seqüência. Uma pontuação

baseada no tamanho pode ser utilizada como evidência que um intervalo é

parte ou não da solução. (HAWKINS, 1988)

Posição do nucleotídeo

•

Bulk Hexamers

Vários autores (BOUGUELERT

et al.

, 1988; CLAVERIE &

BOUGUERLERT, 1986; CLAVERIE

et al.

, 1990) mostraram que as

freqüências dos hexâmeros podem ser bastante diferentes entre os diversos

tipos de classes, podendo assim, serem utilizadas para discrimina-las. A

pontuação

bulk hexamers

do intervalo de i a j numa seqüência de classe X, é

dado por:

(i,j) =

∑

−













Onde

é a freqüência do hexâmero k na seqüência classe X e F

é a

freqüência do hexâmero k numa população caracterizada pela composição de

base do lócus em questão.

•

Pontuação de similaridade BLAST

O programa BLAST (ALTSCHUL

et al.

, 1990) é uma ferramenta para

identificar regiões de similaridade entre uma seqüência consultada e

seqüências de proteínas ou nucleotídeos num banco de dados. O GenParser

utilizou uma busca BLASTX

para calcular a pontuação de similaridade, que

pega uma seqüência de DNA e traduz todas as ORFs para uso na busca num

banco de dados de seqüências de peptídeos (GISH & STATES, 1993). Uma

seqüência de DNA genômico gerará uma lista de proteínas na qual a

seqüência consultada tem similaridade (assumindo que esta seqüência existe)

com uma pontuação MSP (M

aximal-Segment Pair

) que avalia a significância

do alinhamento. Esta informação pode ser utilizada como evidência para um

intervalo ser classificado como éxon. Supondo que (i,j) seja um intervalo

consultado e (x,y) seja um segmento no banco de dados com pontuação MSP

igual a

, a pontuação éxon BLAST para este intervalo é dada por:

(i,j) =













−−













−−

jyix

(Equação 3.8)

Onde

é o valor do alinhamento BLAST no intervalo (x,y).

A programação dinâmica (DP), nesta ferramenta, foi utilizada para encontrar a

estrutura ótima que tenha maior pontuação na combinação éxon e íntrons. Cada

BLASTX é um programa de família BLAST

intervalo (i,j) de uma seqüência de classe k tem uma pontuação L

(i,j), que é calculada

como sendo a soma ponderada dos classificadores estatísticos escolhidos (acima

descritos). A pontuação para uma análise é definida como a soma dos valores da matriz-

L para cada componente do intervalo. Com esta definição, a pontuação DP, D, para uma

análise válida é dada por:

D = L

(i,j) + L

(j+1,k) + L

(k+1,l)+ L

(l+1,m) + L

(m+1,n)

Onde L

, L

são as pontuações para éxons iniciais, íntrons, éxons internos

e éxons finais, respectivamente.

As informações precisam ser combinadas para serem utilizadas como

classificadores do intervalo (escolher se aquele intervalo é membro ou não de uma

classe particular) e para tal foi aplicada uma rede neural adaptando-se a DP. Essa rede

neural procura os pesos que satisfazem a seguinte equação:

T,u

– D

F,u

( )

∑ ∑ ∑∑

∈ = ==













−+

























−

},,,{ 1

,,,

liefc

kjc

kjckc

BNNTTw

µµµµ

(Equação 3.9)

Onde:

T,u

→

Pontuação da solução correta para uma seqüência

F,u

→

Pontuação da solução incorreta para uma seqüência

c,j,k

→

Pontuação do classificador estatístico k para o j-ésimo intervalo do tipo c

→

Número de intervalos do tipo c na solução

→

número de classificadores estatísticos utilizados para seqüência do tipo c.

→

termo bias

c,k

→

peso para uma estatística.

A rede neural proposta tem como entradas os valores T

- T

para cada

estatística para cada tipo de seqüência (

∆

T), e a diferença entre o número de seqüência

de cada tipo na solução atual e na predita (

∆

N). Este tipo de rede é conhecido como

rede Delta porque é treinada com a diferença entre a solução correta e a incorreta de

uma seqüência em particular. A rede neural utilizada segue a arquitetura da Figura 3.4.

Neste sistema a utilização de múltiplas camadas não melhorou o seu desempenho. A

rede neural foi treinada com 59 genes humanos e testada com um conjunto de genes

humanos não utilizados no seu treinamento.

∆

Figura 3.4 – Rede Neural do GeneParser

Esta ferramenta foi desenvolvida em três versões:

•

GeneParser 1 – Treinado com todo o conjunto de treinamento

•

GeneParser 2 – Treinado com redes separadas de acordo com o conteúdo G+C

•

GeneParser 3 – Igual ao GeneParser2, mas incluindo a estatística BLAST.

O melhor resultado encontrado foi o do GeneParser 3 (acerto de 10% superior que

o GeneParser 2).

O endereço deste programa na Internet é

http://beagle.colorado.edu/~eesnyder/GeneParser.html.

3.11 HMMgene

O HMMgene (KROGH, 1997) prediz o gene inteiro de uma dada seqüência de

DNA a partir de um modelo oculto de Markov (HMM), gerado para maximizar a

probabilidade de acerto de uma predição. O uso de HMMs neste método ajuda a avaliar

a confiança de uma predição, habilitando, assim, o HMMgene a não somente, dizer a

“melhor” predição, mas também, fornecer predições alternativas para uma dada

seqüência. Um dos pontos fortes do método é que retornando múltiplas predições para

uma mesma região, o usuário pode ser capaz de aproveitar este discernimento em

possíveis alternativas de

splicing

que podem ocorrer na região de um gene.

O HMMgene utiliza a técnica de CHMM (

Class Hidden Markov Model)

. Este

programa utiliza um modelo com três estados de quarta ordem para modelar regiões

codificadoras, que são essencialmente uma cadeia de Markov não homogênea como

utilizado no GeneMark (BORODOVSKY & MCININCH ,1993). Os outros estados do

modelo são de primeira ordem, isto é, capturando a estatística de um dinucleotídeo,

exceto para os estados que modelam íntrons internos e o primeiro para regiões

intergênicas que são de terceira ordem. Para incorporar regras de

splicing

, são

necessárias três cópias do modelo de íntrons, sendo os estados destes três modelos

ligados, isto , também é utilizado nos éxons.

Uma segunda característica deste programa é o chamado

tying

, muito utilizado na

área de reconhecimento de voz (para redes neurais esta técnica é conhecida como

weight-sharing

Tying

de dois estados significa que a probabilidade da emissão e/ou a

probabilidade da transição são sempre idênticas em dois estados. Durante a estimação

de um grupo de estados ligados, estes são atualizados pela soma das modificações

calculadas para cada estado do grupo individualmente, assim é como ter o mesmo

estado aparecendo em diversos locais do modelo, o que é utilizado na modelagem dos

íntrons.

Para aumentar a velocidade do treinamento, a técnica de máxima verossimilhança

é usada como técnica inicial, seguida pela posterior aplicação da técnica de máxima

verossimilhança condicional. Durante a interação do algoritmo de Bauch-Welch

estendido o acerto do modelo no conjunto de treinamento foi monitorado e depois de

um número máximo de iterações, o modelo com maior taxa de acerto é escolhido. O

máximo número de iterações utilizado foi de 20.

Esta ferramenta foi criada com 353 genes humanos contendo, no mínimo, um

íntron. Estes genes foram divididos em 10 grupos para validação cruzada, 9 grupos são

utilizados para a estimação e um para o teste. Os resultados dos testes com este

programa mostraram ótimos resultados.

O servidor HMMgene pode ser encontrado no endereço

http://www.cbs.dtu.dk/services/HMMgene.

3.12 Morgan

O Morgan (SALZBERG

et al.

, 1998) é um sistema para predição de genes em

seqüências de DNA de vertebrados. Este sistema combina as técnicas de árvore de

decisão, programação dinâmica e cadeias de Markov para este fim. A técnica que chama

mais atenção neste programa é a de árvore de decisão, utilizada para classificar as

subseqüências em diferentes classes: éxon inicial, interno ou final.

Para identificar os sítios de inicialização, doador, aceptor e de terminação, este

programa utiliza duas cadeias de Markov de ordem fixa. O sítio de inicialização é

definido como uma região de tamanho fixo, na qual é computada a probabilidade de

cada quatro nucleotídeos estarem em cada posição da janela. A matriz resultante

caracteriza o sítio e é similar à utilizada no GeneID. A pontuação desta matriz

posicional é definida por:

b,i

= log (P(b,i)/P(b)), onde b é uma base e i a sua posição.

A pontuação do novo sítio é definida por:

S(i,j) = M

Si,0

∑

−

Si+k, k | Si+k-1, k-1

– log P(S

, ..., S

) (Equação 3.10)

Esta equação equivale a uma cadeia de Markov de primeira ordem.

Para a detecção dos sítios doadores e aceptores, este sistema utiliza uma cadeia de

Markov de segunda ordem com 64 trímeros.

A árvore de decisão tem como principal objetivo retornar a probabilidade

(pontuação) de uma seqüência ser um éxon inicial, um éxon interno, um éxon final ou

um íntron. A árvore utilizada baseia-se no sistema OC1 (MURTHY

et al.

, 1994), que é

um sistema de árvore de decisão randômico capaz de produzir diferentes resultados cada

vez que for treinado, mesmo sem mudanças no conjunto de treinamento. As métricas

utilizadas pela árvore de decisão Morgan foram:

•

Pontuação do sítio de inicialização

•

Pontuação do sítio aceptor e doador

•

Estatística de hexâmeros na estrutura (

in-frame hexamer

) (SNYDER &

STORMO, 1995), definida, para uma subseqüência entre i e j, como:

)/log(

6,...,6,3,0

∑

−= jk

In-frame hexame

r(i,j) =max

)/log(

6,...,7,4,1

∑

−= jk

)/log(

6,...,8,5,2

∑

−= jk

(Equação 3.11)

Legenda:

d, donor → Pontuação do Sítio doador

a → Pontuação do Sítio aceptor

hex → Hexâmeros na estrutura

asym → Estatística posicional assimétrica

, onde f

é a freqüência dos hexâmeros de uma tabela de hexâmeros na

estrutura computada para as regiões codificadoras do conjunto de

treinamento, e F

é a freqüência de hexâmeros de todos os hexâmeros no

conjunto de treinamento.

•

Estatística posicional assimétrica (FICKETT & TUNG, 1992). Esta

estatística conta a freqüência de cada base em cada uma das três posições do

códon. Se existe um determinado f(b,i) sendo a freqüência da base b na

posição i, onde i

∈

(1,2,3), então

(b) =

∑

ibf

3/),( , e a estatística

posicional assimétrica A é dada por:

A(b) =

∑

−

bibf

))(),((

(Equação 3.12)

A pontuação (probabilidade) de cada nó folha é dada por :

folha na presentes íntrons de Número

folha na presentes éxons de Número

(Equação 3.13)

O processo de treinamento encontrou um total de 40 árvores de decisão. A Figura

3.5 mostra uma árvore encontrada para classificar seqüências como éxons internos.

d+a<3.4 ?

d+a<1.3 ?

Sim

hex<16.3?

donor<0 ?

d+a<5.3 ?

hex<-5.6 ?

asym<4.6 ?

Não

hex<0.1?

(6,560)

(18,160) (9,49)

(142,73)

(23,16)

(5,21)

(24,13) (1,5)

(737,50)

Figura 3.5 – Árvore de decisão para classificação de seqüências como éxons internos

A programação dinâmica, neste processo, tem o papel de encontrar o segmento

ótimo para ser uma determinada região numa seqüência de DNA. A forma utilizada

neste programa é semelhante a descrita por Wu (1996). A formulação básica desta

programação dinâmica é expressa pela matriz D[t,n], que armazena a pontuação da

melhor análise de uma subseqüência S ser do tipo t na localização n. Os tipos tratados

são:

1. Região não codificadora inicial

2. Éxon inicial

3. Éxon interno

4. Íntron

5. Éxon final

6. Região não codificadora final

Algumas regras também foram utilizadas, são elas:

1. A primeira região codificadora começa com o códon de inicialização ATG

2. Deve existir um códon de terminação no éxon final

3. Cada éxon deve ter o mesmo quadro de leitura (

reading frame

) que o éxon

anterior.

4. Cada seqüência de DNA apresentada deve conter um único gene,

começando e terminando com uma região não codificadora.

5. Todo o íntron deve começar com o dinucleotídeo de consenso GT e

terminar com o dinucleotídeo de consenso AG.

Este sistema tem como saída padrão a localização e a probabilidade do éxon.

O Morgan foi treinado com todas as seqüências de multi-éxon da base de dados

de Burset & Guigó (1996), sendo assim, sua predição é limitada a este tipo de

informação. Os resultados de seus testes mostraram um desempenho superior aos outros

programas do gênero na determinação de bases codificadoras, quanto a exatidão na

descoberta de éxons, seus resultados foram piores que o Genie e o FGENEH.

Este sistema pode ser obtido no endereço

http://www.tigr.org/~salzberg/morgan.html.

3.13 GeneMark.hmm

O GeneMark.hmm (LUKASHIN

et al.

, 1998) foi, inicialmente, desenvolvido para a

busca de genes em bactérias, sendo, posteriormente, modificado para a detecção de

genes em organismos eucariotos. Este programa utiliza uma HMM de duração explícita

como o Genie e o GenScan. O candidato a gene ótimo é selecionado pela combinação

das técnicas de HMM e programação dinâmica, além de um algoritmo de

reconhecimento de sítios de ligação ribossômica.

O HMM utilizado segue o modelo da Figura 3.6. Os modelos de genes típicos e

atípicos foram derivados de um conjunto de seqüências de DNA codificadoras de

proteínas obtidas pela clusterização de um conjunto de genes pertence ao genoma de

uma determinada espécie. A seqüência ótima é encontrada pelo algoritmo de Viterbi

para um posterior processamento através da busca dos sítios de ligações ribossomiais

que buscam minimizar a sobreposição entre os genes preditos.

Os sítios de ligações ribossomiais são encontrados pela equação:

∑

)(

, (Equação 3.14)

onde )(kn

é o número de símbolos b (b= T,C,A,G) na posição k de uma janela de

alinhamento. No caso da E.Coli

, a seqüência de consenso encontrada foi AGGAG.

O conjunto de treinamento utilizado não é descrito e sua saída não mostra nenhum

tipo de probabilidade de acerto.

Para utilização desta ferramenta, a seqüência deve ser enviada para o endereço

[email protected]. A documentação que explica a utilização desta ferramenta

se encontra no endereço http://www.microbiology.adelaide.edu.au/links/genemark.htm.

Tipo de bactéria.

Estado não

codificador com n

nucleotídeos

Estado codificante em

leitura direta de gene típico

com i nucleotídeos

Códon inicial em

leitura direta

Estado codificante em

leitura direta de gene

atípico com j nucleotídeos

Códon final em

leitura direta

Estado codificante em

leitura reversa de gene

típico com i nucleotídeos

Códon final em

leitura reversa

Estado codificante em

leitura reversa de gene

atípico com j nucleotídeos

Códon inicial em

leitura reversa

Figura 3.6 – Modelo Oculto de Markov do GeneMark.hmm

3.14 Técnicas de combinação de programas

Hoje, muitos biólogos utilizam a combinação dos resultados de diversos

programas de busca de genes para chegar a alguma conclusão sobre os sítios existentes

em uma seqüência de DNA. Alguns autores percebendo esta disposição criaram

metodologias para este fim. Nesta seção serão explicadas as principais metodologias de

combinação de programas existentes.

3.14.1 Método baseado em AND (MURAKAMI & TAKAGI, 1998)

Este método, proposto por Murakami e Takagi (1998), seleciona os éxons

candidatos como as regiões preditas por todos os programas envolvidos, conforme

demonstrado na Figura 3.7. Este método pressupõe que o resultado tem uma taxa menor

de éxons errados.

Programa 1

Programa 2

Programa 3

Programa 4

Seqüência de DNA

Método AND

Região predita como éxon por um programa de predição

Região predita como éxon, utilizando o método de combinação de programas

Figura 3.7 – Técnica de Combinação de programas utilizando o método AND

3.14.2 Método baseado em OR (MURAKAMI & TAKAGI, 1998)

Para este método os éxons candidatos serão as regiões preditas por pelo menos

um dos programas envolvidos. Este método consegue uma maior sensibilidade em nível

de éxon. A Figura 3.8 mostra um exemplo de funcionamento deste método

Programa 1

Programa 2

Programa 3

Programa 4

Seqüência de DNA

Método OR

Região predita como éxon por um programa de predição

Região predita como éxon, utilizando o método de combinação de programas

Figura 3.8 – Técnica de Combinação de programas utilizando o método OR

3.14.3 Método HIGHEST (MURAKAMI & TAKAGI, 1998)

O método HIGHEST utiliza a pontuação dos programas de busca de genes. Os

éxons candidatos, para esta metodologia, serão as regiões que possuírem maior

pontuação entre os programas. A Figura 3.9 mostra um exemplo do funcionamento

desta metodologia.

Programa 1 P = 0,8

Programa 2 P = 0,4

Programa 3 P = 0,8

Programa 4 P = 0,9

Seqüência de DNA

Método HIGHEST

Região predita como éxon por um programa de predição

Região predita como éxon, utilizando o método de combinação de programas

Figura 3.9 – Técnica de Combinação de programas utilizando o método HIGHEST

3.14.4 Método RULE (MURAKAMI & TAKAGI, 1998)

Este método foi baseado nos teste feitos por Burset e Guigó (1996) e por Burge e

Karlin (1997). A região codificadora é determinada por ordem de prioridades entre

programas (no artigo de Murakami e Takagi (1998) a ordem foi: GenScan, FEXH,

GeneParser e GRAIL). Então, para cada cluster de um éxon predito, é selecionado o

programa com a maior prioridade. Portanto, o éxon candidato é a região predita por um

determinado programa. A Figura 3.10 mostra o resultado deste método supondo o

“Programa 3” com maior prioridade em todos os clusters dos éxons preditos.

Programa 1

Programa 2

Programa 3

Programa 4

Seqüência de DNA

Método HIGHEST

Região predita como éxon por um programa de predição

Região predita como éxon utilizando o método de combinação de programas

Figura 3.10 – Técnica de Combinação de programas utilizando o método RULE

3.14.5 Método BOUNDARY (MURAKAMI & TAKAGI, 1998)

Nesta metodologia existe a necessidade da definição da probabilidade do limite das

regiões codificadoras e não codificadoras serem corretos, dada por Pb(bt,P), onde P é a

pontuação e bt o tipo de limite. Os tipos de limites são: códon de inicialização (i), sítio

doador (d), sítio aceptor (a) e códon de finalização (t). Pb é estimado para cada

programa a partir de um conjunto de treinamento. Se existir um éxon com dois limites,

cujos tipos são l e r (l={i,a} e r={d,t}), com uma pontuação (P), é calculada uma nova

pontuação definida como:

E(l,r,P)=

P)Pb(r, x P)Pb(l,

(Equação 3.15)

Neste método o éxon selecionado é o que possui o melhor E.

3.14.6 Algoritmo EUI (Éxon Union-Intersection) (ROGIC et al.,2002)

Rogic et al.(2002) criaram este algoritmo para integrar os programas GenScan e

HMMGene. Este algoritmo funciona da seguinte forma:

Considere todos os éxons do GenScan e HMMgene que têm uma pontuação

maior ou igual a um limite p

(o valor considerado ótimo para o p

é 0,775). As

regiões preditas por, ao menos um, dos programas são denominadas éxons EUI.

Considere todos os éxons do GenScan e HMMgene que possuem uma pontuação

menor que p

. As regiões preditas por ambos os programas são denominadas

éxons EUI.

Existe uma exceção para o passo 1: Se um éxon interno predito pelo GenScan tem o

mesmo limite à direita (sítio doador) que um éxon inicial do HMMgene e ambos os

éxons têm pontuação maior que p

, é escolhido o éxon do HMMgene como um éxon

EUI, pois o HMMgene prediz o éxon inicial com melhor acerto que o GenScan,

conforme descrito em Rogic et al.(2001).

3.14.7 Algoritmo GI (Gene Intersection) (ROGIC et al.,2002)

Como no caso anterior, este método visa integrar os resultados do HMMgene e do

GenScan. Este algoritmo apresenta o seguinte mecanismo de funcionamento:

Para cada programa de predição selecionam-se todas as regiões preditas como

gene (genes são tratados como seqüências contínuas com o começo no primeiro

éxon predito e final no último). As regiões preditas por ambos os programas são

denominadas de genes GI (gene intersection).

Aplica-se o método EUI para todos os éxons que estão completamente inseridos

nos genes GI.

3.14.8 Algoritmo EUI_frame (Éxon Union-Intersection with Reading Frame

Consistency) (ROGIC et al.,2002)

Este algoritmo, criado para GenScan e HMMGene, funciona conforme descrito

abaixo:

Para cada programa de predição determina-se os limites entre os genes e para

cada um associa-se uma probabilidade calculada com a média da pontuação de

cada éxon contido no gene. Para cada éxon predito determinam-se as posições

dos sítios doadores e aceptores.

Se o gene predito pelo GenScan se sobrepuser ao do HMMgene, escolhe-se

aquele com maior probabilidade. Aplica-se o método EUI para determinar os

éxons ao longo dos genes selecionados.

3.14.9 Algoritmo SNB (Static Naive Bayes) (PAVLOVIC et al., 2002)

Pavlovic et al. (2002) sugeriram a utilização de redes bayesianas simples para a

combinação de múltiplos preditores de genes, como o da Figura 3.11. Nesta figura, os

três programas preditores são representados por E1, E2 e E3, e Y representa a

combinação dos sistemas.

E3E2E1

Figura 3.11 – Static Naive Bayes

Para este modelo uma “predição verdadeira” é dada como:

P(Y,E1,E2,E3) = P(E1|Y)P(E2|Y)P(E3|Y)P(Y) (Equação 3.16)

O caminho mais comum para selecionar os parâmetros é a utilização da máxima

verossimilhança dos dados de um conjunto de treinamento. Este esquema assume a

independência dos sistemas.

3.14.10 Algoritmo SFB (Static Full Bayes) (PAVLOVIC et al., 2002)

Outra sugestão de Pavlovic et al. (2002) foi a utilização de um esquema de

correlação entre os sistemas especializados usando o modelo de Bayes da Figura 3.12.

A distribuição definida nesta rede é P(Y|E1,E2,E3)P(E1)P(E2)P(E3). Os parâmetros

podem ser estimados de forma similar ao algoritmo SNB.

E3E2E1

Figura 3.12 – Static Full Bayes

3.15 Outras técnicas e ferramentas

Diversas técnicas e programas foram desenvolvidos e testados para melhorar o

desempenho da predição de genes, os mais recentes estudos são descritos nesta seção.

3.15.1 GeneSeqer (USAKA & BRENDEL, 2000; USAKA et al., 2000)

O GeneSeqer é uma ferramenta que busca predizer a estrutura de um gene

através do alinhamento do DNA genômico com seqüências protéicas. O seu algoritmo

procura o alinhamento ótimo de uma seqüência de tamanho N com uma seqüência de

proteínas de tamanho M. Os alinhamentos ótimos são como a seqüência de estados Q

com a saída associada

S ( representa uma seqüência de alinhamento entre a seqüência

genômica e a seqüência de proteínas como a probabilidade P(Q,

S )). Esta

probabilidade é calculada como:

P = max {

E ,

(

)

(

)

(

)

Onde

E = max P(Q=éxon,

S ),

(

)

= max P(Q=íntron

S )

para x=0,1,2; n=1,2,...,N e m = 1,2,...,M.

O GeneSeqer, em seus testes, conseguiu, na média, melhores resultados que

outros métodos baseados em alinhamento. Este programa pode ser encontrado no

endereço http://bioinformatics.iastate.edu/cgi-bin/gs.cgi .

3.15.2 GeneSplicer (PERTEA et al., 2001)

Esta ferramenta utiliza a técnica MDD (BURGE & KARLIN, 1998) combinada

com o modelo de Markov descrito em Salzberg et al.(1998,1999) para a detecção de

sítios de splice. Usando o DNA de dois organismos de referência (Arabidopsis thaliana

e humano) encontrou bons resultados quando comparados a outras ferramentas. Este

programa pode ser encontrado em http://www.tigr.org/tdb/GeneSplicer/gene_spl.html.

3.15.3 Reconhecimento de pequenas regiões codificadoras baseadas no códon

terminal (WANG et al.,2002)

Um dos grandes problemas nas ferramentas de predição existentes é o

reconhecimento de genes pequenos na estrutura genética. Wang et al. (2002)

propuseram uma solução para este problema fundamentada na distribuição dos códons

terminais (TAA, TAG e TGA).

A solução proposta baseia-se na análise discriminante linear de Fisher com quatro

variáveis, que são:

•

Variável assimétrica

= min (R

, R

Onde:

= y

(1)x y

(1)

→ Conteúdo de T na primeira posição de um códon

(1)

→ Conteúdo de G na primeira posição de um códon

(1)

→ Conteúdo de A na primeira posição de um códon

= y

(2)x y

(2)

→ Conteúdo de T na segunda posição de um códon

(2)

→ Conteúdo de G na segunda posição de um códon

(2)

→ Conteúdo de A na segunda posição de um códon

= y

(3)x y

(3)

→ Conteúdo de T na terceira posição de um códon

(3)

→ Conteúdo de G na terceira posição de um códon

(3)

→ Conteúdo de A na terceira posição de um códon

•

Variável de 3-Periodicidade

= ln P, onde P é o power spectrum calculado por uma FFT na posição

N/3, onde N é o tamanho da seqüência

lenghten-shuffling.

•

Variável Purina

= max (P

, P

Onde P

, P

são as freqüências das purinas em regiões codificantes, não

codificantes e intergências.

•

Variável do Códon Terminal

= (1+K

)x n, onde

K → é o número de frames (regiões codificante, não codificante e

intergênica) que contêm os três triplets (TAA,TAG e TGA) numa seqüência

e pode variar de 0 a 3.

n → é o número de triplets contidos nos três frames

Este sistema foi testado com genes humanos com o processo de validação

cruzada encontrando bons resultados com genes de 42 bp até 192 bp.

3.15.4 Twinscan (KORF et al., 2001)

O Twinscan é uma extensão direta de um programa de predição GenScan. O que

esta ferramenta faz de diferente é estender o GenScan permitindo a exploração de

semelhanças encontradas entre duas seqüências homólogas. Esta ferramenta pode ser

encontrada no endereço http://genes.cs.wustl.edu/query.html.

3.15.5 GeneMachine (MAKALOWSKA et al., 2001)

GeneMachine é uma ferramenta que permite a predição de éxons e genes através

da consulta de diversos programas de descoberta de genes (MZEF, GenScan, GRAIL 2,

Fgenes, BLAST, RepeatMasker).

Este sistema foi desenvolvido em Perl, sendo dividido em vários módulos, os

quais correspondem a um programa de descoberta de genes ou de busca por

semelhança. Neste sistema é possível a inclusão de novas ferramentas de forma rápida.

Este programa pode ser encontrado no endereço

http://genome.nhgri.nih.gov/genemachine e sua interface web se encontra em

http://genemachine.nhgri.nih.gov.

3.15.6 SGP2 (PARRA et al., 2003; GUIGÓ et al., 2003)

O SGP2 é uma extensão direta do programa de predição GeneID. Esta ferramenta

combina os resultados do TBlastX (W.Gish, 1996-2002, http://blast.wustl.edu) para

modificar a pontuação dos potenciais predições do GeneID. Neste sistema a

similaridade entre as seqüências consultadas e as seqüências codificadoras conhecidas

aumenta o desempenho da predição de genes. Esta ferramenta pode ser encontrada em

http://www1.imim.es/software/sgp2/.

3.15.7 AGenDA (RINNER & MORGENSTERN,2002 ; TAHER et al., 2003)

O AGenDA é um programa de descoberta de genes baseado em busca de

seqüências homólogas. Este programa pega a pontuação de alinhamento dos programas

CHAOS (BRUDNO & MORGENSTERN, 2002) e DIALIGN (MORGENSTERN,

1999). Numa próxima etapa este programa constrói um modelo de gene baseado na

similaridade encontrada pelo DIALIGN

. Este resultado é retornado para o usuário por

e-mail. Nesta metodologia, bons resultados são encontrados desde que a distância

evolucionária entre as espécies seja pequena. Este programa é otimizado para

seqüências humanas e de rato.

3.15.8 DGSplicer (CHEN et al., 2005)

Esta técnica utiliza um modelo gráfico para capturar a interdependência entre as

posições das bases num sítio de splice. Para facilitar a inferência estatística foi

expandida a dependência gráfica numa rede bayesiana, denominada rede bayesiana

estendida.

Neste artigo, esta técnica foi comparada com os modelos existentes encontrando

um melhor desempenho em todos os casos estudados.

3.15.9 SpliceMachine (DEGROEVE et al., 2005)

O SpliceMachine reconhece sítios de splice se baseando em informações

posicionais, de composição e de códons extraídos dos candidatos a sítios de splice. A

chave desta técnica é o modelo LSVM

(linear support vector machines), que é

considerado um classificador rápido de sítios candidatos.

Este artigo demonstra uma melhora na detecção de sítios de splice utilizando

esta técnica. Seus criadores, destacam que esta metodologia possibilita ainda a

incorporação de outros tipos de características de forma fácil, como a existência ou não

de uma característica estrutural (Patterson et al., 2002).

Método baseado numa função de pesos para todas as possíveis diagonais, não possuindo penalidades

por gaps.

O LSVM separa duas classes com um hiperplano. A característica deste hiperplano é manter a distância

entre as classes máxima e a grande possibilidade de fracionamento das instâncias da mesma classe. Esta

técnica foi baseada na técnica de SVM (Boser et al., 1992; Vapnik, 1995)

3.15.10GeneZilla (MAJOROS et al. 2004; MAJOROS et al. 2005)

O GeneZilla é um programa baseado em HMM generalizado (GHMM) como

GenScan e o Genie. O algoritmo de codificação do GeneZilla possibilita uma utilização

linear do tempo e da memória de acordo com o tamanho da seqüência. Modelos sub-

ótimos de genes podem ser explorados devido a representação baseada em teoria de

grafos. Esta ferramenta utiliza modelo interpolado de Markov (IMM), MDD (Maximal

Dependence Decomposition) e inclui estados para sinais de peptídeos, TATA boxes e

sítios CAP.

Esta ferramenta pode ser encontrada em http://www.genezilla.org.

3.15.11JIGSAW (ALLEN & SALZBERG, 2005)

Este programa prediz o modelo de gene utilizando a saída de outro software de

anotação. Ele usa um algoritmo estatístico para identificar evidências de padrões

correspondentes ao modelo de gene.

O JIGSAW calcula o peso relativo das evidências (baseado em outro software de

anotação) para ser um gene usando estatística baseada no conjunto de treinamento e

combina estas evidências utilizando programação dinâmica.

Esta ferramenta pode ser encontrada em

http://www.cbcb.umd.edu/software/jigsaw/.

3.15.12SpliceScan (CHURBANOV et al., 2006)

Esta ferramenta utiliza redes bayesianas simples para realizar a combinação linear

de um conjunto de componentes relatados de splicing para aumentar a predição dos

sítios de splice.

O sensor Bayesiano 5’ demonstrou um desempenho superior as técnicas existentes,

já o sensor Bayesiano 3’ demonstrou desempenho comparável as técnicas existentes.

Nos experimentos está técnica teve melhor desempenho que o Genie, porém, pior

que o GenScan, HMMGene, MZEF e GeneID.

4 Medidas de exatidão da predição

4.1 Introdução

As medidas de exatidão são utilizadas para avaliar os resultados de uma predição, e

portanto, são de extrema importância na verificação do desempenho das ferramentas de

busca de genes.

O conjunto de medidas de exatidão proposto por Burset e Guigó (1996), hoje, é

utilizado como “padrão” na área de predição de genes. Estas métricas são divididas em

dois níveis: nucleotídeo e éxon. Este capítulo tem como objetivo descrever estas

medidas.

4.2 Nível de Nucleotídeos

Neste nível, a exatidão da predição de uma seqüência é medida comparando o

valor predito com o verdadeiro valor codificado para cada nucleotídeo ao longo da

seqüência testada. Esta abordagem é a mais amplamente utilizada na avaliação das

regiões codificadoras e nos métodos de predição da estrutura dos genes.

Costuma-se representar a junção da distribuição de duas variáveis binárias através

de uma tabela de contingência 2x2 (Figura 4.1), que neste caso representa os

relacionamentos entre os nucleotídeos codificados reais e os preditos na seqüência

testada.

TP FP

FN TN

codificado

Não

codificado

Realidade

Não

codificado

Predição

Figura 4.1 – Tabela de contigência que representa o relacionamento entre os

nucleotídeos codificados preditos e reais

Na célula superior esquerda da Figura 4.1 foi colocado o número de nucleotídeos

codificadores corretamente preditos como codificadores (os verdadeiros positivos (

true

positives), TP), enquanto na célula inferior direita colocou-se o número de nucleotídeos

não codificadores corretamente preditos como não codificadores (os verdadeiros

negativos (true negatives), TN). As outras duas células desta tabela mostram o número

de nucleotídeos codificadores preditos como não codificadores (os falsos negativos

(falses negatives), FN) e o número de nucleotídeos não codificadores preditos como

codificadores (os falsos positivos (false positives), FP), portanto, estas células

correspondem à discordância entre a predição e a realidade. A Figura 4.2 mostra um

exemplo destas medidas.

TN FN TP FP TN FN TP FN TN

Real

Predito

Figura 4.2 – Exemplo das medidas em nível de nucleotídeos

As medidas de sensibilidade (Sn) e especificidade (Sp) são as duas mais utilizadas

e podem ser derivadas da Figura 4.1. Usualmente, a sensibilidade e a especificidade são

definidas como:

(Equação 4.1)

(Equação 4.2)

Sn é a proporção de nucleotídeos codificadores que são corretamente preditos, e

Sp é a proporção de nucleotídeos não codificadores que são corretamente preditos.

Contudo, a freqüência de nucleotídeos não codificadores numa seqüência genômica de

DNA é muito maior que a freqüência de nucleotídeos codificadores, TN tende a ser

muito maior que FP, e assim, Sp, sistematicamente, produz um grande número de

valores sem informação. Portanto, para a predição da estrutura de um gene, a

especificidade é, tradicionalmente, (BURSET & GUIGÓ, 1996) calculada por:

(Equação 4.3)

Sendo Sp, agora, a proporção de nucleotídeos codificadores preditos que são

realmente codificadores. Estas métricas podem ser reescritas como:

Sn= P(F(x)=c|x=c)

Sp=P(x=c|F(x)=c)

Onde x denota o atual estado de um dado nucleotídeo (c para codificador e n

para não codificador), e F(x) é o estado predito para este nucleotídeo.

Portanto, pode-se ter uma sensibilidade (Sn) muito grande com uma

especificidade (Sp) muito pequena e , reciprocamente, uma especificidade grande com

uma pequena sensibilidade. Assim, Sp e Sn isolados não constituem uma boa medida

global de exatidão, surgindo a necessidade de se utilizar um valor único para sumarizar

ambas as medidas globais de exatidão. Na literatura de predição da estrutura genética, a

medida preferida tem sido o Coeficiente de Correlação (CC). A partir de Figura 4.1 é

definida como:

)()()()(

)()(

FNTNFPTPFPTNFNTP

FPFNTNTP

+×+×+×+

−

(Equação 4.4)

A equação 4.4 é, somente, uma fórmula especial para o coeficiente de correlação

produto-momento de Pearson, neste caso particular, para duas variáveis. CC não

depende somente de P(F(x)=c|x=c) e P(x=c|F(x)=c), mas também de P(F(x)=n|x=n) e

P(x=n|F(x)=n). Enquanto as duas primeiras probabilidades correspondem à

sensibilidade e à especificidade na predição dos nucleotídeos codificadores, as outras

duas pode ser vistas como a sensibilidade e a especificidade da predição dos

nucleotídeos não codificadores. Portanto, CC parece ser apropriado para medida geral

da exatidão da predição. Contudo, CC tem uma propriedade indesejável: não é definido

quando TP+FN, FP+TN, TP+FP ou FN+TN são iguais a zero, significando que não

existe região codificadora na seqüência testada, ou se esta seqüência pode ser predita

totalmente como não codificante. Uma medida com características similares, porém

definida nestas circunstâncias, é a correlação aproximada (AC –

approximate

correlation

) definida como:

AC = (ACP – 0.5) * 2 (Equação 4.5)

onde ACP é a probabilidade condicional média (ACP –

Average condicional

probability

) definida como:













FNTN

FPTN

FPTP

FNTP

ACP

(Equação 4.6)

ACP apareceu, inicialmente, em Anderberg (1973) e pode ser entendido como a

média das probabilidades condicionais que compõem CC, sendo AC esta medida com

variação no intervalo de [-1,1] como CC.

4.3 Nível de Éxons

Neste nível, as medidas de exatidão da predição comparam os éxons preditos e os

éxons verdadeiros ao longo da seqüência testada (Figura 4.3).

O critério normalmente utilizado é considerar um éxon predito corretamente

quando ocorrer a combinação exata do predito com o real. Mas pode ser igualmente

legítimo considerar um éxon correto quando a sobreposição entre o éxon predito e o real

for maior que um limite ou quando pelo menos um dos sítios de

splice

forem

identificados corretamente.

Éxon

Errado

Éxon

Correto

Éxon

Perdido

Real

Predito

Figura 4.3 – Exemplo das medidas em nível de éxons

A medidas de sensibilidade (ESn) e especificidade (ESp) são utilizadas pra medir a

exatidão da predição da estrutura de um éxon. As fórmulas da sensibilidade e

especificidade para éxons são:

Número de éxons corretos

ESn =

Número de éxons reais

(Equação 4.7)

Número de éxons corretos

ESp =

Número de éxons preditos

(Equação 4.8)

Assim, a sensibilidade é a proporção de éxons reais numa seqüência testada que

são corretamente preditos e a especificidade é a proporção de éxons preditos que estão

corretos.

Neste nível são importantes, também, duas outras medidas: éxons perdidos (ME

–

Missing Éxons

) e éxons errados (WE –

Wrong Éxons

). As fórmulas para ME e WE

são:

Número de éxons perdidos

ME =

Número de éxons reais

(Equação 4.9)

Número de éxons errados

WE =

Número de éxons preditos

(Equação 4.10)

Assim, ME é a proporção de éxons reais sem sobreposição com os éxons

preditos e WE é a proporção dos éxons preditos sem sobreposição com os éxons reais.

Outras medidas neste nível também são utilizadas, as principais são:

Número de éxons preditos parcialmente

PCa =

Número de éxons reais

(Equação 4.11)

Número de éxons preditos parcialmente

Cp =

Número de éxons preditos

(Equação 4.12)

Número de éxons preditos sobrepostos aos reais

OL =

Número de éxons reais

(Equação 4.13)

É importante ressaltar que uma grande exatidão em nível de nucleotídeo não

implica numa boa exatidão em nível de éxons.

5 Metodologia

5.1 Introdução

Este capítulo tem como objetivo descrever a metodologia que foi empregada no

desenvolvimento de uma ferramenta auxiliar para a predição de regiões codificadoras,

denominada ExonBR. Os propósitos desta ferramenta são:

•

Predizer as regiões codificadoras a partir de uma seqüência;

•

Não ter limitação no tamanho das seqüências;

•

Encontrar éxons em conjuntos de nucleotídeos com éxons simples ou

multi-éxons;

•

Permitir ao usuário a criação de sua base de dados de conhecimento. Este

banco de dados permite a adaptação da ferramenta a um organismo.

•

Fornecer ao usuário uma interface bastante amigável.

A Figura 5.1 mostra, de forma simplificada, o funcionamento desta ferramenta.

Para a criação deste sistema, foi necessário o desenvolvimento de uma técnica de

predição de regiões codificadoras. Primeiramente, deve-se esclarecer o que foi

interpretado como uma região codificadora pela ferramenta ExonBR, como pode ser

visto na seção 5.2, na qual é explicado o modelo de gene proposto.

O próximo passo para solucionar este problema é a definição da seleção de dados

e do método a ser utilizado em cada etapa do modelo. Na seleção de dados, apresentada

na seção 5.3, são escolhidas as seqüências que serão utilizadas pelo programa ExonBR.

Os métodos testados, que são a principal contribuição deste trabalho, utilizam a

combinação da técnica de matriz peso-posição e redes neurais, apresentados na seção

5.4.

Um outro aspecto importante neste algoritmo é a probabilidade da região

codificadora

, ou seja, a medida da chance da seqüência (ou subseqüência) testada ser

uma região codificadora, este cálculo é apresentado na seção 5.5.

A seção 5.6 apresenta como é descoberta uma região codificadora à partir de uma

base de dados construída no módulo de treinamento.

Foi utilizada a ferramenta Borland Delphi para o desenvolvimento deste sistema.

A probabilidade da região codificadora pode ser utilizada para encontrar uma gama maior de

possibilidades de éxons. Isto é importante para o usuário quando ele faz comparações com organismos

não tão próximos evolutivamente do treinado.

Figura 5.1 – Funcionamento da ferramenta auxiliar para predição de genes ExonBR

5.2 O Modelo para Gene

A criação de uma ferramenta para predição de região codificadora necessita da

definição do que é entendido como uma região codificadora e, para tal, foi criado um

modelo, descrito na Figura 5.2, na qual estão identificadas as estruturas e as suas

possíveis ordens no gene.

Sítio

Aceptor

Sítio

Doador

Sítio

Aceptor

Sítio

Doador

Início

Éxon

Inicial

Éxon

Interno

Íntron

Éxon

Terminal

Fim

Exon

Simples

Região

Intergênica

Figura 5.2 – Modelo de gene

As estruturas genéticas definidas no modelo proposto são:

•

Início (códon de inicialização)

Sítio de inicio da tradução do gene.

•

Éxon simples

Modela a situação, na qual o gene não possui íntrons.

•

Éxon inicial

Éxon após o sítio de inicialização.

•

Éxon interno

Éxon entre íntrons.

•

Éxon terminal

Éxon antes do sítio terminal.

•

Íntron

Região não codificadora entre éxons.

•

Região Intergênica

Região não codificadora entre genes. Para simplificar, neste modelo,

qualquer região não traduzida antes do éxon inicial e depois do éxon

terminal será considerada como região intergênica.

•

Sítio de

splice

doador

Região localizada entre o final de um éxon e o início de um íntron. Este

sítio não existe em éxons simples e em éxons terminais.

•

Sítio de

splice

aceptor

Região localizada entre o início de um éxon e o final de um íntron. Este

sítio não existe em éxons simples e em éxons iniciais.

•

Fim (códon terminal)

Sítio onde termina a tradução de um gene.

Com o objetivo de solucionar o problema de predição de região codificadora foi

utilizado um modelo para cada estrutura codificadora definida. Esta decisão foi tomada

devido à adaptabilidade da ferramenta ExonBR, a base de treinamento apresentada.

Com esta separação, a ferramenta diferencia cada tipo de éxon. Caso os dados não

possuam a informação para a separação de cada tipo de éxon é utilizado um único

modelo para a identificação de regiões codificadoras, e, portanto, neste caso, a

ferramenta não faz distinção de tipos de éxons. Esta ferramenta não faz a distinção de

íntrons e regiões intergênicas, e não identifica sítios de

splice

5.3 Seleção de Dados

A seleção de dados é uma etapa de extrema importância na descoberta de genes.

Nesta etapa, seleciona-se os dados que serão utilizados pelo programa para o

aprendizado sobre o organismo. Como foi demonstrado por Claverie (1997), uma

ferramenta de busca de genes prediz com bom grau de exatidão apenas os organismos

para os quais foi treinada e aqueles que são próximos, evolutivamente, dos primeiros.

Devido a essas características, neste trabalho foi escolhido um organismo

(extraído do GenBank) para a construção de uma base de dados de treinamento e

validação. Só foram utilizadas as seqüências contendo informações relevantes ao

problema, nos arquivos GenBank esta informação foi buscada no campo CDS e nos

arquivos FASTA

, todas as informações foram consideradas de regiões codificadoras.

O organismo escolhido para treinamento e validação da técnica foi a

Drosophila

melanogaster

(mosca da fruta). Este organismo é bastante utilizado pelas técnicas de

predição de genes para validar seus resultados. Foram realizados testes, também, com a

base HMR195

criada por Rogic

et al.

(2001) ,

Arabidopsis thaliana

Oryza sativa

(arroz).

Formato descrito na seção 2.3.4.

Combinação de Homo sapiens, Mus musculus e Rattus norvegicus, amplamente utilizada como teste.

Pequena planta florida muito utilizada como o organismo modelo de plantas na área de descoberta de

genes.

5.4 O modelo para a descoberta de regiões codificadoras

O modelo proposto para identificar regiões codificadoras (éxon simples, éxon

inicial, éxon interno e éxon terminal), que é uma das contribuições deste trabalho, foi

fundamentado na combinação da técnica de matriz peso-posição modificada e redes

neurais. Esta escolha se deve ao fato da técnica de matriz peso-posição ter se mostrado

eficaz para solução do problema de descoberta de genes (GUIGÓ

et al

., 1992) e ao fato

das redes neurais serem amplamente utilizadas como técnica de classificação, além de

ter mostrado bons resultados na predição de genes (UBERBACHER & MURAL, 1991;

MURAL

et al

., 1992).

O primeiro passo para este modelo foi criar o banco de dados para o seu

treinamento e a sua validação. Esta base de dados foi desenvolvida com combinações de

regiões codificadoras e não codificadoras com o tamanho da janela escolhida.

Neste modelo, define-se como janela um bloco de N bases codificadoras ou não

codificadoras. O tamanho ideal deste bloco pode variar de acordo com o organismo,

portanto, deve-se testar várias janelas até encontrar a ideal para a base de dados de

treinamento apresentada. A ferramenta ExonBR faz vários testes de tamanho de janela

até encontrar a que permite melhor desempenho, a janela inicial sugerida é de 42 bp.

Esta escolha deve-se ao fato de que este tamanho corresponde ao menor éxon predito

corretamente pela maioria das ferramentas existentes. Este valor é configurável no

programa. A Figura 5.3 mostra como esta separação é realizada para uma janela de 8 bp.

Percebe-se que uma janela, denominada janela final, é criada para a detecção do final da

região codificadora. Vale ressaltar que esta separação é diferente das tradicionais,

trazendo uma melhora de desempenho da ferramenta ExonBR.

Figura 5.3 – Exemplo da criação das janelas

A Equação 5.1 mostra o total de janelas (

) de tamanho N geradas a partir de

uma base de dados com M bp, portanto com uma base de dados de 200.000 bp e em

uma janela de 42 bp têm-se 4.762 blocos codificadores.













entoArredondam

(Equação 5.1)

Onde M é o tamanho da base de dados em bp e N é o tamanho da janela em bp

Outro ponto importante para definição deste modelo é a determinação das

entradas da rede neural. As entradas foram baseadas em hexâmeros, esta escolha se

deve ao fato de que em muitos sistemas para predição de genes utilizam-se informações

destes polímeros como ponto principal de seu algoritmo. Testes realizados por Burge

(1997) em sua tese mostraram que o hexâmero é a principal fonte de informações para a

descoberta de regiões codificadoras.

Com a escolha do hexâmero como entrada, a próxima etapa consiste em decidir

uma forma de codificá-lo. Existem 4096 (4

) hexâmeros e isto torna impraticável a

utilização de uma codificação sem dependência algébrica, pois cada hexâmero

precisaria de 4.096 entradas na rede neural. Como exemplo pode-se citar uma rede

neural com janela de 96 bp, que teria 65536 entradas. A solução encontrada, neste

trabalho, foi tratar cada hexâmero como uma única entrada na rede neural, sendo,

portanto, necessário um cálculo para sua codificação.

No cálculo utilizado, cada hexâmero foi representado como a quantidade

normalizada de sua existência na região desejada. Esta técnica assemelha-se com a

matriz peso-posição utilizada por Guigó

et al.

(1991), portanto denominada matriz peso-

posição modificada, sendo uma inovação apresentada neste trabalho. A modificação

implementada é a utilização de hexâmeros e a normalização dos valores (em seu

trabalho Guigó

et al.

(1991) utilizavam diretamente os nucleotídeos para a criação desta

matriz). Esta pontuação foi calculada a partir do conjunto de treinamento e fixada para

qualquer seqüência de entrada na rede neural. A matriz terá sempre 4096 linha por C

colunas (matriz 4096 x C), onde C é dado pela equação 5.2, portanto, para uma janela

de 42 bp está matriz terá 37 colunas por 4096 linhas, ou seja, 151.552 células.

C = N – 5

(Equação 5.2)

Onde N é o tamanho da janela escolhida e C é a quantidade de colunas na matriz

peso-posição.

A seguir, tem-se um exemplo com seqüências de até 8 bp para a criação da

matriz peso-posição:

Seqüência 1 – AAGCCTAG

Seqüência 2 – CAGCCTAG

Seqüência 3 – AGCCTA

Seqüência 4 – CCGCCTAG

Seqüência 5 – CAGCGGT

Seqüência 6 – AAGCCTTA

A Tabela 5.1 mostra a quantidade de hexâmeros por posição normalizada. Para

melhorar a visualização as linhas sem valores

foram omitidas. A Figura 5.4 mostra

como os hexâmeros são selecionados e suas posições.

Figura 5.4 – Seleção dos hexâmeros numa seqüência.

Tabela 5.1 – Exemplo de quantidade de hexâmeros por posição normalizada – Matriz

peso-posição modificada

Hexâmero Posição 1 Posição 2 Posição 3

AAGCCT 1 0 0

AGCCTA 1 1 0

GCCTAG 0 0 1

CAGCCT 1 0 0

GCCTAG 0 0 0.5

CCGCCT 1 0 0

CGCCTA 0 0.5 0

CAGCGG 1 0 0

AGCGGT 0 0.5 0

AAGCCT 1 0 0

AGCCTT 0 0.5 0

GCCTTA 0 0 0.5

Linhas onde todas as posições possuem valor zero.

Nesta matriz, cada hexâmero tem um número que varia de 0 a 4095

, definido

como

(hexâmero)

. A Equação 5.3 mostra como calcular

(hexâmero)

−

∑

Equação 5.3

Onde:

→

Valor do nucleotídeo na posição i do hexâmero. Os nucleotídeos

são convertidos para os seguintes valores:

→

0; T

→

1; G

→

2 ; C

→

O valor de cada célula da matriz peso-posição, P(k,j), é dado pela Equação 5.5.

Q (k,j) =

∑

, Equação 5.4

P (k,j) =

Max

jkQ ),(

, Equação 5.5

Onde:

→

Possui o valor 1 se o hexâmero k existe na posição j da i-ésima

seqüência testada, caso contrário possui o valor 0.

→

Número de seqüências codificadoras no conjunto de treinamento.

Max

→

Maior valor da matriz na posição j.

A matriz peso-posição modificada, portanto, define a probabilidade do hexâmero

existir numa posição baseado no conjunto de treinamento. Esta estatística é utilizada

como entrada da rede neural, e a quantidade de entradas desta rede é

, sendo esta

combinação uma inovação neste trabalho.

A Figura 5.5 mostra como é feita a entrada na rede neural baseado no exemplo

da Figura 5.4. Nesta figura cada hexâmero é inserido na rede com a informação da

proabilidade de sua existência numa posição, definido como P(

(hexâmero)

,posição). Vale

ressaltar que a rede neural possui N-5 entradas, onde N é o tamanho da janela escolhida,

portanto existem N-5 possíveis posições.

Existem 4096 possíveis hexâmeros.

Figura 5.5 – Exemplo de codificação de entrada na rede neural

Somente regiões com alguma chance de serem codificadoras são usadas na rede

neural, logo pelo menos um hexâmero deve ter sua pontuação diferente de 0 (zero) para

ter chance de ser codificador. Nas seções 6.1.2.1, 6.1.2.2 e 6.1.2.3 são mostrados testes

com e sem este filtro.

As seqüências repetidas e menores que a janela escolhida são retiradas para o

treinamento da rede neural. Vale ressaltar que elas foram utilizadas na criação da matriz

peso-posição modificada.

Outro teste realizado foi a colocação da taxa de G+C na seqüência, o que se deve

ao fato de Guigó

et al.

(1992) demonstrarem a influência destes nucleotídeos para a

predição correta de regiões codificadoras. Esta entrada foi calculada como sendo a

porcentagem de G+C na janela testada. Os resultados destes testes estão descritos nas

seções 6.1.2.1, 6.1.2.2 e 6.1.2.3

Feito isto, foi definida a quantidade de neurônios e a codificação de saída da rede

neural. Foi utilizado um neurônio nesta camada, tendo como saída a informação de ser

uma região codificadora ou não.

A seguir, foi escolhido o tipo de rede neural a ser utilizado. Como este problema

é de classificação, foi utilizada uma rede neural totalmente interligada, empregando o

algoritmo de aprendizado

backpropagation

baseado no método de gradiente

decrescente, sendo a tangente hiperbólica utilizada como função de ativação. Nesta rede

foi utilizada a validação tradicional, não sendo utilizada a validação cruzada para

melhorar de desempenho da ferramenta. Foram realizados testes com redes neurais de

função de base radial (RBF –

Radial Basis Function

) (POWELL, 1985) não sendo

encontrados resultados satisfatórios devido à dificuldade nos ajustes dos parâmetros.

Todas as redes neurais foram desenvolvidas na ferramenta, não sendo utilizadas

ferramentas prontas com esta técnica.

Foram avaliadas redes com diversas quantidades de neurônios na camada

escondida. Foi criada uma rede neural para cada tipo de região codificadora a ser predita

no caso dos arquivos no formato GenBank, e para os arquivos FASTA foi criada

somente uma rede com as informações das regiões codificadoras. O arquivo FASTA

não possui informações diferenciando éxon simples, inicial, final ou interno. Vale

ressaltar, que mesmo em arquivos do GenBank a ferramenta pode ser configurada para

não separar os tipos de éxons. A Figura 5.6 mostra exemplos das redes

backpropagation

testadas supondo entrada de 42 bp sem informação de G+C e a Figura 5.7 mostra a

mesma rede com informações de G+C.

A ferramenta ExonBR inova testando automaticamente diversas quantidades de

neurônios na camada escondida, sendo o valor inicial configurável no sistema.

Figura 5.6 – Exemplo de redes

backpropagation

testadas para regiões codificadoras

Figura 5.7 – Exemplo de redes

backpropagation

testadas para regiões codificadoras

com informação de G+C

No caso dos arquivos no formato GenBank, um desafio, é a combinação dos

modelos propostos, podendo ocorrer superposição de estruturas. A solução encontrada

foi aceitar apenas as estruturas que se enquadrarem no modelo de gene descrito na seção

5.2, ou aquela que possuir a maior chance de ser o éxon selecionado.

O resultado desta fase é uma base de dados com a matriz peso-posição modificada

e a estrutura da melhor rede neural com seus pesos. Estas informações permitem ao

usuário a adaptabilidade a qualquer organismo, sendo uma novidade implementada na

ferramenta ExonBR.

5.5 A probabilidade da região codificadora

A probabilidade da região codificadora pode ser definida como sendo uma medida

que denota a chance da seqüência (ou subseqüência) testada ser uma região

codificadora.

A saída da rede neural foi utilizada, neste modelo, como probabilidade do gene.

Foram testadas várias probabilidades para verificar sua influência no resultado final,

estes testes são apresentados na seção 6.1.2.

5.6 Predição de regiões codificadoras a partir da base de dados

A predição das regiões codificadoras na ferramenta ExonBR é baseada no banco

de dados criado na etapa de treinamento. O primeiro passo desta fase é a escolha da

base de dados a ser utilizada. Feito isto, a ferramenta carrega as informações necessárias

para o seu funcionamento (matriz peso-posição, estrutura e pesos da rede neural).

Os testes são realizados utilizando a técnica de janela deslizante

com o tamanho

N, onde N é o tamanho da janela descoberta na etapa de treinamento. A forma como é

testada esta janela é uma das contribuições deste trabalho.

Ao ser encontrada uma janela identificada como codificadora, todos os

nucleotídeos desta janela são classificados como possíveis codificadores. Em seguida, a

janela deslizante é incrementada em N posições, a próxima janela é testada, e, se esta

for, também, possível codificadora, a janela anterior é classificada como codificadora,

caso contrário, a janela deslizante volta N-1 posições testando posição a posição

procurando o final do éxon. Nesta técnica, pelo menos uma janela completa deve ser

considerada codificadora.

A técnica de janela deslizante cria para cada nucleotídeo uma janela com N bases para ser testada.

6 Resultados e Discussão

Os testes foram realizados utilizando a base de dados criada para validação da

metodologia. As métricas sugeridas por Burset e Guigó (1996) foram aplicadas para a

avaliação do desempenho desta ferramenta nos testes que envolviam seqüências de

tamanho variável. Isto porque estas medidas são consideradas padrões para a área de

predição de genes.

O sistema desenvolvido ao longo deste trabalho foi comparado com os principais

programas de descoberta de genes existentes no mercado para a espécie escolhida,

exceto o Grail 2, que foi escolhido por utilizar a técnica de redes neurais. São eles:

•

Fgenes

•

GeneID

•

Genie

•

HMMGene

•

SNB

Esta comparação foi efetuada através da medição do desempenho de cada

ferramenta em relação ao banco de dados de validação nos testes relativos as seqüências

de tamanho variável.

Outro aspecto importante para esta etapa foi a escolha dos testes realizados. Neste

trabalho, além dos testes relativos à validação da técnica utilizada foram realizados os

seguintes testes com as seqüências de dados:

•

Testes em nível de nucleotídeos.

Testes para avaliar a ferramenta em nível de nucleotídeos utilizando as

medidas definidas por Burset e Guigó (1996) para este fim.

•

Testes em nível de éxons.

Testes para avaliar a ferramenta em nível de éxons utilizando as medidas

definidas por Burset e Guigó (1996) para este fim. Diversos tamanhos de

éxons foram utilizados.

•

Testes para verificação da sensibilidade em nível de G+C.

Teste para avaliar a ferramenta com uma informação adicional de G+C.

•

Teste da importância da rede neural.

Verificação da necessidade da rede neural para a solução do problema.

•

Teste com a combinação dos modelos para cada tipo de éxon.

Verificação do desempenho da técnica combinado os modelos de éxons.

Os testes foram divididos em dois grandes grupos:

•

Testes para validação da técnica

Nesta etapa foram realizados testes com seqüências de tamanho fixo

definidas ou não como regiões codificadoras.

•

Testes com seqüências de tamanho variável

Estes testes utilizaram seqüências de tamanhos variáveis possuindo todas

as estruturas genéticas. As avaliações foram em nível de nucleotídeo e de

éxon, sendo utilizadas as métricas de Burset e Guigó (1996) para

verificação de desempenho. Neste teste foi realizada a comparação com o

desempenho de outras ferramentas.

6.1 Avaliação do modelo para éxons (regiões codificadoras)

6.1.1 Seleção de dados

Para este estudo foram criadas bases de dados para treinamento e validação. Foi

utilizado o lócus AE014298 da

Drosophila melanogaster

retirado do GenBank para tal

tarefa. As informações estatísticas deste lócus são:

•

Éxon inicial

Número de seqüências: 57

Tamanho da menor seqüência: 12 bp

Tamanho da maior seqüência: 2163 bp

Tamanho médio das seqüências: 389 bp

Número total de bases: 22214

•

Éxon terminal

Número de seqüências: 58

Tamanho da menor seqüência: 24 bp

Tamanho da maior seqüência: 3147 bp

Tamanho médio das seqüências: 469 bp

Número total de bases: 27207

•

Éxon simples

Número de seqüências: 2

Tamanho da menor seqüência: 177 bp

Tamanho da maior seqüência: 297 bp

Tamanho médio das seqüências: 237 bp

Número total de bases: 474

•

Éxon interno

Número de seqüências: 290

Tamanho da menor seqüência: 21 bp

Tamanho da maior seqüência: 7.643 bp

Tamanho médio das seqüências: 415 bp

Número total de bases: 120.419

As bases de dados foram criadas utilizando 80% das bases codificadoras para

treinamento e 20% das bases para validação. O tamanho do conjunto de treinamento

varia de acordo com o tamanho da entrada utilizada. Por exemplo, numa rede neural

com 42 bp, no caso de éxons internos, existem, aproximadamente, (as seqüências

menores que o tamanho mínimo são descartadas) 2866 valores com 42bp, portanto,

2293 serão utilizadas para treinamento e 573 para validação. Em todas as bases foram

geradas de forma aleatória uma quantidade igual de seqüências não codificadoras. As

bases foram embaralhadas para o melhor desempenho da rede.

O banco de dados de validação foi apresentado para a rede em forma de

seqüências de bases, onde deverá ser identificado corretamente a posição da região

codificadora, além das regiões codificadoras foi colocada na base de validação uma

grande quantidade de seqüências não codificadoras (íntrons e regiões intergênicas).

6.1.2 Testes com a rede neural

Foi criada uma rede neural para cada uma das regiões codificadoras definidas no

modelo de genes. São elas:

•

Éxons internos

•

Éxons iniciais

•

Éxons terminais

As informações sobre éxons simples foram incluídas nas de éxons internos devido

à pequena quantidade de seqüências.

Em todas estas redes foram avaliados:

•

Quantidade de hexâmeros na entrada

Neste teste foram apresentadas à rede neural diversas janelas até encontrar

a que possibilitava o melhor desempenho com o menor número possível

de nucleotídeos. A quantidade de neurônios na camada escondida foi

fixada para esta avaliação.

•

Tamanho da camada escondida

Foram avaliados diversos tamanhos de camada escondida com o número

de hexâmetros encontrado no teste anterior, buscando a rede com o menor

quantidade possível de neurônios na camada escondida.

•

Importância do taxa de G+C na rede neural.

Verificação da importância de uma informação adicional de G+C para

melhora do desempenho da técnica.

•

Influência do valor de saída da rede neural

Avaliação da saída da rede neural como probabilidade da região ser

codificadora.

•

Importância de rede neural

Teste para verificar a necessidade da combinação matriz peso-posição

modificada e rede neural.

6.1.2.1 Rede Neural para Éxons internos

•

Dados sobre as base de dados

Base de dados de treinamento: 192.672 bp (96.336 bp de éxons internos e

96.336 bp de seqüências aleatórias).

Base de dados de validação: 601.984 bp (24.083 bp de éxons internos e

577.901 bp de íntrons e regiões intergênicas).

•

Quantidade de hexâmeros

Para a realização dos testes foi fixada a quantidade de neurônios na camada

escondida. Na rede foram utilizados 21 neurônios na camada escondida.

A taxa de aprendizado utilizada na rede

backpropagation

foi de 0,05 e o momento

foi de 0,7.

Os resultados encontrados estão na Tabela 6.1, que mostra na primeira coluna o

tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e

especificidade em nível de éxon na base de validação. A Figura 6.1 mostra a variação da

taxa de erro em relação a quantidade de seqüências na entradas e a Figura 6.2 mostra a

variação da taxa de erro (erro médio quadrático não normalizado) da melhor rede neural

encontrada.

A ferramenta ExonBR obteve o melhor desempenho com 48 bp, valor próximo do

mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &

KARLIN, 1998; WANG

et al.

,2002), portanto, a quantidade mínima aceitável para um

bom desempenho deste programa. A convergência desta rede foi obtida com

aproximadamente 800 épocas. Foram consideradas regiões codificadoras aquelas cujo

saída da rede neural fosse superior a 0,9.

Tabela 6.1 – Resultados dos testes com a quantidade de hexâmeros para a rede neural de

éxon interno

Base de Dados de Validação

Base de

Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

(%) Sp

ESn ESp

30 bp 91,5 0,95 0,85 0,36 0,09

35 bp 96,8 0,98 0,94 0,61 0,31

38 bp 97,3 0,99 0,96 0,71 0,50

40 bp 98,6 0,99 0,97 0,84 0,68

42 bp 98,3 0,99 0,97 0,82 0,66

45 bp 99,2 0,99 0,98 0,90 0,79

46 bp 99,1 0,99 0,99 0,91 0,83

47 bp 99,1 0,99 0,99 0,87 0,77

48 bp 99,3 0,99 0,99 0,96 0,91

49 bp 99,5 0,99 0,99 0,95 0,86

50 bp 99,6 0,99 0,99 0,91 0,83

Variação do Erro

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

30 bp 35 bp 38 bp 40 bp 42 bp 45 bp 46 bp 47 bp 48 bp 49 bp 50 bp

Tamanho da seqüência

Erro

Bp Sp

Bp Sn

Bp ESn

Bp ESp

Figura 6.1 – Variação da taxa de erro em relação a quantidade de seqüências na entrada

em redes neurais para éxons internos

Treinamento da Backpropagation 48bp

100

150

200

250

300

350

400

450

500

1 25 49 73 97 121 145 169 193 217 241 265 289 313 337 361 385 409 433 457 481 505 529 553 577 601 625 649 673 697 721 745 769 793

Épocas

Erro Médio

Figura 6.2 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

para 48 bp e 21 neurônios na camada escondida

•

Importância da taxa de G+C na rede neural

Para os testes da importância do G+C na rede neural foram utilizadas como

entrada redes variando de 42 bp a 48 bp que foram as de melhor desempenho nos testes

de quantidade de entradas. Foram utilizados 21 neurônios na camada escondida da rede

neural.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7. Foram testadas redes com e sem taxa de G+C.

Os resultados encontrados estão na Tabela 6.2, que descreve na primeira coluna o

tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível

de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em

nível de éxon com e sem informação de G+C na base de validação. A Figura 6.3 mostra

um gráfico comparativo da taxa de erro em nível de éxons em relação a rede com e sem

informação de G+C.

Tabela 6.2 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon interno

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

Com

G+C

(%)

Sem

G+C

(%)

Com

G+C

Sem

G+C

Com

G+C

Sem

G+C

Com

G+C

ESn

Sem

G+C

ESn

Com

G+C

ESp

Sem

G+C

ESp

42 bp 99,1 98,3 0,99 0,99 0,99 0,97 0,89 0,82 0,73 0,66

45 bp 99,2 99,2 0,99 0,99 0,99 0,98 0,87 0,90 0,74 0,79

46 bp 99,4 99,1 0,99 0,99 0,99 0,99 0,90 0,91 0,83 0,83

47 bp 99,3 99,1 0,99 0,99 0,99 0,99 0,90 0,87 0,81 0,77

48 bp 99,6 99,3 0,99 0,99 0,99 0,99 0,93 0,96 0,86 0,91

Taxa de Erro relativa a influência de G+C

0,2

0,4

0,6

0,8

1,2

42 bp 45 bp 46 bp 47 bp 48 bp

Tamanho da entrada

Erro

Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp

Figura 6.3 – Gráfico comparativo da taxa de erro em nível de éxons em relação a rede

com e sem informação de G+C

Pelos resultados encontrados, a informação de G+C na rede neural não gerou grande

diferença no desempenho, isto se deve ao fato da matriz peso-posição já possuir esta

informação na sua estatística.

•

Tamanho da camada escondida

Para os testes do tamanho da camada escondida foi escolhida como entrada 48 bp

sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho

nos testes com o tamanho de entrada.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7.

Os resultados encontrados estão na Tabela 6.3, que mostra na primeira coluna o

tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base

de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a

sensibilidade e especificidade em nível de éxon na base de validação. A Figura 6.4

gráfico comparativo das taxa de erro em relação a quantidade de neurônios na camada

escondida. A Figura 6.5 mostra a variação da taxa de erro (erro médio quadrático) da

melhor rede neural encontrada.

Tabela 6.3 - Resultados dos testes com tamanho da camada escondida da rede neural de

éxon interno

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Camada

Escondida

(%) Sp

ESn ESp

3 99,5 0,99 0,99 0,93 0,84

5 99,7 0,99 0,99 0,94 0,86

7 99,8 0,99 0,99 0,94 0,86

10 99,8 0,99 0,99 0,94 0,86

12 99,8 0,99 0,99 0,94 0,86

15 99,8 0,99 0,99 0,94 0,87

16 99,8 0,99 0,99 0,96 0,90

17 99,8 0,99 0,99 0,97 0,91

20 99,8 0,99 0,99 0,97 0,91

25 99,8 0,99 0,99 0,97 0,91

Taxa de Erro em relação a quantidade de neurônios

0,75

0,8

0,85

0,9

0,95

1,05

3 5 7 10 12 15 16 17 20 25

Quantidade de Neurônios

Erro

Sp e Sn ESn ESp

Figura 6.4 – Gráfico comparativo das taxa de erro em relação a quantidade de neurônios

na camada escondida para rede neural de éxons internos

Variação da Taxa de Erro em relação a quantidade de épocas

0,00

500,00

1000,00

1500,00

2000,00

2500,00

1 26 51 76 101 126 151 176 201 226 251 276 301 326 351 376 401 426 451 476 501 526 551 576 601 626 651 676 701 726 751 776

Épocas

Erro

Figura 6.5 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

de 48 bp com 17 neurônios na camada escondida para éxons

internos

A melhor e mais simples rede neural encontrada possui 17 neurônios na camada

escondida. Esta rede obteve convergência com aproximadamente 700 épocas. Foram

consideradas regiões codificadoras aquelas cujo saída da rede neural fosse superior a

0,9.

Percebe-se, experimentalmente, que a variação do tamanho da camada escondida

para este problema a partir de certo ponto tem pouca influência na taxa de acerto, isto se

deve ao fato de a matriz peso-posição conter informações importantes para a descoberta

da região codificadora, e ao fato de a rede neural melhorar o desempenho desta técnica.

Baseado neste resultado a ferramenta ExonBR foi ajustada para iniciar com a

quantidade de neurônios na camada escondida igual a 35% da quantidade de neurônios

da camada de entrada.

•

Influência do valor de saída da rede neural

Para os testes da influência do valor de saída da rede neural nos resultados foi

escolhida como entrada 48 bp sem informação de G+C com 17 neurônios na camada

escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes

com o tamanho de entrada.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7.

Os resultados encontrados estão na Tabela 6.4, que na primeira coluna mostra o

valor de saída, a seguir as informações de especificidade e sensibilidade em nível de

nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A

Figura 6.6 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída

da rede neural.

Tabela 6.4 - Resultados dos testes da influência do valor de saída na rede neural de éxon

interno

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

Valor de

Saída

ESn ESp

0,6 0,85 0,99 0,97 0,14

0,65 0,88 0,99 0,97 0,18

0,7 0,93 0,99 0,97 0,25

0,75 0,95 0,99 0,97 0,38

0,80 0,98 0,99 0,96 0,60

0,85 0,99 0,99 0,97 0,87

0,90 0,99 0,99 0,97 0,91

0,95 0,99 0,99 0,94 0,89

0,98 0,99 0,99 0,93 0,88

Taxa em relação a variação do valor de saída

0,2

0,4

0,6

0,8

1,2

0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 0,98

Valor de saída

Erro

Sp Sn ESn Esp

Figura 6.6 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons internos

De acordo com os resultados encontrados, a variação do valor de saída

influência os resultados principalmente do ESp gerando muito éxons preditos

erroneamente, isto ocorre porque foi diminuído o filtro (valor de saída da rede) para

determinação dos éxons, gerando muitos falsos éxons.

•

Testes da importância da rede neural

Este teste tem como objetivo verificar a necessidade da existência da rede neural e

da existência do filtro com matriz peso-posição

comparado com a combinação destas

técnicas.

A Tabela 6.5 mostra na primeira coluna o teste realizado, nas demais colunas os

resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade

e sensibilidade em nível de éxons para a base de dados de validação.

O filtro, conforme descrito na seção 5.4, consiste em aceitar somente seqüências onde existam algum

hexâmero com chance de ser codificador

Tabela 6.5 – Importância da rede neural na descoberta de regiões codificadora para

éxons internos

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

ESn

ESp

Utilizando apenas matriz peso-

posição

0,90 0,91 0,80 0,75

Utilizando somente rede neural 0,88 0,87 0,78 0,71

Combinação das técnicas 0,99 0,99 0,97 0,91

De acordo com os resultados, a combinação das técnicas foi a que alcançou o

melhor desempenho, percebe-se que a rede neural sem o filtro da matriz peso-posição

aumenta consideravelmente a taxa de erro, portanto esta informação é bastante

importante para o desempenho da rede. O filtro da matriz peso-posição.sozinho não

consegue alcançar o desempenho das técnicas combinadas, portanto, a rede neural

aumenta o desempenho desta técnica.

6.1.2.2 Rede Neural para Éxons iniciais

•

Dados sobre as base de dados

Base de dados de treinamento: 35.542 bp (17.771 bp de éxons iniciais e 17.771

bp de seqüências aleatórias).

Base de dados de validação: 93.303 bp (4.443 bp de éxons iniciais e 88.860 bp

de íntrons e regiões intergênicas).

•

Quantidade de hexâmeros

Para a realização dos testes foi fixada a quantidade de neurônios na camada

escondida. Na rede foram utilizados 15 neurônios na camada escondida.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7.

Os resultados encontrados estão na Tabela 6.6, que mostra na primeira coluna o

tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e

especificidade em nível de éxon na base de validação. A Figura 6.7 mostra a variação da

taxa de erro em relação a quantidade de seqüências na entradas e a Figura 6.8 mostra a

variação da taxa de erro (erro médio quadrático não normalizado) da melhor rede neural

encontrada.

Tabela 6.6 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de

éxon iniciais

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

(%)

ESn

ESp

30 bp 100 0,99 0,99 0,89 0,77

35 bp 100 0,99 0,99 0,92 0,85

36 bp 100 0,99 0,99 0,93 0,85

37 bp 100 0,99 0,99 0,93 0,85

38 bp 100 0,99 0,99 0,93 0,88

39 bp 100 0,99 0,99 0,93 0,88

40 bp 100 0,99 0,99 0,93 0,93

42 bp 100 0,99 0,99 0,93 0,93

Variação do Erro

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

30 bp 35 bp 36 bp 37 bp 38 bp 39 bp 40 bp 42 bp

Tamanho da seqüência

Erro

Bp Sp

Bp Sn

Bp ESn

Bp ESp

100

Figura 6.7 – Variação da taxa de erro em relação a quantidade de seqüências na entrada

para as redes neurais de éxons iniciais

Variação da Taxa de Erro em relação a quantidade de épocas

0,00

5,00

10,00

15,00

20,00

25,00

30,00

1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976

Épocas

Erro

Figura 6.8 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

de 40 bp para éxons iniciais

A ferramenta ExonBR obteve o melhor desempenho com 40 bp, valor próximo do

mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &

KARLIN, 1998; WANG

et al.

,2002). A convergência desta rede foi obtida com

aproximadamente 800 épocas. Foram consideradas regiões codificadoras aquelas cujo

saída da rede neural fosse superior a 0,9.

•

Importância da taxa de G+C na rede neural

Para os testes da importância do G+C na rede neural foram utilizadas como

entrada redes variando de 36 bp a 40 bp que foram as de melhor desempenho nos testes

de quantidade de entradas.

A taxa de aprendizado utilizada na rede Backpropagation foi de 0,05 e o momento

foi de 0,7. Foram testadas redes com e sem taxa de G+C.

Os resultados encontrados estão na Tabela 6.7, que descreve na primeira coluna o

tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível

101

de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em

nível de éxon com e sem informação de G+C na base de validação. A Figura 6.9 mostra

um gráfico comparativo da taxa de erro em nível de éxons em relação a rede com e sem

informação de G+C.

Tabela 6.7 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon iniciais

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

Com

G+C

(%)

Sem

G+C

(%)

Com

G+C

Sem

G+C

Com

G+C

Sem

G+C

Com

G+C

ESn

Sem

G+C

ESn

Com

G+C

ESp

Sem

G+C

ESp

36 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,85

37 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,85

38 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,88

39 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,88

40 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,88 0,93

Taxa de Erro relativa a influência de G+C

0,8

0,82

0,84

0,86

0,88

0,9

0,92

0,94

36 bp 37 bp 38 bp 39 bp 40 bp

Tamanho da entrada

Erro

Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp

Figura 6.9 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas das

redes neurais para éxon iniciais com e sem informação de G+C

102

Pode-se observar, pelos resultados, que da mesma forma que ocorreu com os éxons

internos, a informação de G+C na rede neural não gerou grande diferença no

desempenho, isto ocorre porque a matriz peso-posição já possui esta informação na sua

estatística.

•

Tamanho da camada escondida

Para os testes do tamanho da camada escondida foi escolhida como entrada 40 bp

sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho

nos testes com o tamanho de entrada.

A taxa de aprendizado utilizada na rede Backpropagation foi de 0,1 e o momento

foi de 0,7.

Os resultados encontrados estão na Tabela 6.8, que mostra na primeira coluna o

tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base

de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a

sensibilidade e especificidade em nível de éxon na base de validação. A Figura 6.10

mostra o gráfico comparativo das taxa de erro em relação a quantidade de neurônios na

camada escondida. A Figura 6.11 mostra a variação da taxa de erro (erro médio

quadrático) da melhor rede neural encontrada.

Tabela 6.8 - Resultados dos testes com tamanho da camada escondida da rede neural de

éxon iniciais

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Camada

Escondida

(%) Sp

ESn ESp

1 100 0,99 0,99 0,93 0,83

2 100 0,99 0,99 0,93 0,88

3 100 0,99 0,99 0,93 0,93

5 100 0,99 0,99 0,93 0,93

7 100 0,99 0,99 0,93 0,93

10 100 0,99 0,99 0,93 0,93

12 100 0,99 0,99 0,93 0,93

15 100 0,99 0,99 0,93 0,93

103

Taxa de Erro em relação a quantidade de neurônios

0,75

0,8

0,85

0,9

0,95

1,05

1 2 3 5 7 10 12 15

Quantidade de Neurônios

Erro

Sp e Sn ESn ESp

Figura 6.10 – Gráfico comparativo das taxa de erro em relação a quantidade de

neurônios na camada escondida da rede neural para éxons iniciais

Variação da Taxa de Erro em relação a quantidade de épocas

0,00

10,00

20,00

30,00

40,00

50,00

60,00

1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976

Épocas

Erro

Figura 6.11 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

de 40 bp com 3 neurônios na camada escondida para éxons

iniciais

Conforme os resultados a melhor e menor camada escondida encontrada para

40bp foi a com 3 neurônios.Os resultados mostram uma camada escondida com poucos

104

neurônios.Verificando a estatística sobre os éxons iniciais percebe-se que este tipo de

estrutura começa com o códon ATG ( 99,86% dos casos), isto facilita o aprendizado da

rede neural, sendo o principal motivo da pequena quantidade de neurônios. Com base

nos resultados, pode-se definir que todos os éxons iniciais devem começar com o códon

ATG

•

Influência do valor de saída da rede neural

Para os testes da influência do valor de saída da rede neural nos resultados foi

escolhida como entrada 40 bp sem informação de G+C com 3 neurônios na camada

escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes

com o tamanho de entrada

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,1 e o momento

foi de 0,7.

Os resultados encontrados estão na Tabela 6.9, que na primeira coluna mostra o

valor de saída, a seguir as informações de especificidade e sensibilidade em nível de

nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A

Figura 6.12 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída

da rede neural.

Tabela 6.9 - Resultados dos testes da influência do valor de saída na rede neural de éxon

iniciais

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

Valor de

Saída

ESn ESp

0,6 0,99 0,99 0,93 0,75

0,65 0,99 0,99 0,93 0,80

0,7 0,99 0,99 0,93 0,83

0,75 0,99 0,99 0,93 0,83

0,80 0,99 0,99 0,93 0,87

0,85 0,99 0,99 0,93 0,93

0,90 0,99 0,99 0,93 0,93

0,95 0,99 0,99 0,93 0,93

Regra na área de biologia.

105

Taxa em relação a variação do valor de saída

0,2

0,4

0,6

0,8

1,2

0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95

Valor de saída

Erro

Sp e Sn ESn Esp

Figura 6.12 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons iniciais

De acordo com os resultados encontrados, a variação do valor de saída

influencia os resultados, principalmente, do ESp gerando éxons preditos erroneamente.

Isto ocorre, como no caso anterior, porque foi diminuído o filtro (valor de saída da rede)

para determinação dos éxons, gerando muitos falsos éxons.

•

Testes da importância da rede neural

Este teste tem como objetivo verificar a necessidade da existência da rede neural

para éxons iniciais e da existência do filtro com matriz peso-posição comparado com a

combinação destas técnicas.

A Tabela 6.10 mostra na primeira coluna o teste realizado, nas demais colunas os

resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade

e sensibilidade em nível de éxons para a base de dados de validação.

106

Tabela 6.10 – Importância da rede neural na descoberta de regiões codificadora para

éxons iniciais

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

ESn

ESp

Utilizando apenas matriz peso-

posição

0,85 0,85 0,80 0,72

Utilizando somente rede neural 0,85 0,85 0,70 0,68

Combinação das técnicas 0,99 0,99 0,93 0,93

De acordo com os resultados, a combinação das técnicas foi a que alcançou o

melhor desempenho. Percebe-se que a rede neural sem o filtro da matriz peso-posição

aumenta a taxa de erro, logo, esta informação é bastante importante para o desempenho

da rede. O filtro da matriz peso-posição consegue um bom resultado, mas não consegue

alcançar o desempenho das técnicas combinadas, portanto, a rede neural aumenta o

desempenho desta técnica.

6.1.2.3 Rede Neural para Éxons terminais

•

Dados sobre as base de dados

Base de dados de treinamento: 43.532 bp (21.766 bp de éxons internos e

21.766 bp de seqüências aleatórias).

Base de dados de validação: 114.261 bp (5.441 bp de éxons internos e 108.820

bp de íntrons e regiões intergênicas).

•

Quantidade de hexâmeros

Para a realização dos testes foi fixada a quantidade de neurônios na camada

escondida. Na rede foram utilizados 15 neurônios na camada escondida.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7.

Os resultados encontrados estão na Tabela 6.11, que mostra na primeira coluna o

tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e

especificidade em nível de éxon na base de validação. A Figura 6.13 mostra a variação

107

da taxa de erro em relação à quantidade de seqüências na entrada e a Figura 6.14 mostra

a variação da taxa de erro da melhor rede neural encontrada.

Tabela 6.11 - Resultados dos testes com a quantidade de hexâmeros para a rede neural

de éxon terminal

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

(%) Sp

ESn ESp

30 bp 100 0,99 0,99 0,93 0,82

35 bp 100 0,99 0,99 0,93 0,91

36 bp 100 0,99 0,99 0,93 0,91

37 bp 100 0,99 0,99 0,93 0,93

38 bp 100 0,99 0,99 0,93 0,93

39 bp 100 0,99 0,99 0,93 0,93

40 bp 100 0,99 0,99 0,93 0,93

42 bp 100 0,99 0,99 0,93 0,93

Variação do Erro

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

30 bp 35 bp 36 bp 37 bp 38 bp 39 bp 40 bp 42 bp

Tamanho da seqüência

Erro

Sp e Sn

ESn

ESp

Figura 6.13 – Variação da taxa de erro em relação à quantidade de seqüências na

entrada da rede neural para éxons terminais

108

Variação da Taxa de Erro em relação a quantidade de épocas

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

40,00

45,00

50,00

1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976

Épocas

Erro

Figura 6.14 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

para éxons terminais com 37 bp e 15 neurônios na camada

escondida

A ferramenta ExonBR obteve o melhor desempenho com 37 bp, valor próximo do

mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &

KARLIN, 1998; WANG

et al.

,2002), sendo, portanto, a quantidade mínima aceitável

para um bom desempenho deste programa. A convergência desta rede foi obtida com,

aproximadamente, 800 épocas. Foram consideradas regiões codificadoras aquelas cujo

saída da rede neural fosse superior a 0,9.

•

Importância da taxa de G+C na rede neural

Para os testes da importância do G+C na rede neural foram utilizadas como

entrada redes variando de 30 bp a 37 bp que foram as de melhor desempenho nos testes

de quantidade de entradas.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7. Foram testadas redes com e sem taxa de G+C.

Os resultados encontrados estão na Tabela 6.12, que descreve na primeira coluna

o tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de

treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível

de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em

109

nível de éxon com e sem informação de G+C na base de validação. A Figura 6.15

mostra um gráfico comparativo da taxa de erro no nível de éxons em relação à rede com

e sem informação de G+C.

Tabela 6.12 - Resultados dos testes com importância da taxa de G+C para a rede neural

de éxon terminais

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Entrada

Com

G+C

(%)

Sem

G+C

(%)

Com

G+C

Sem

G+C

Com

G+C

Sem

G+C

Com

G+C

ESn

Sem

G+C

ESn

Com

G+C

ESp

Sem

G+C

ESp

30 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,82 0,82

33 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,82 0,82

35 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,91 0,91

36 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,91 0,91

37 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,93 0,93

Taxa de Erro relativa a influência de G+C

0,76

0,78

0,8

0,82

0,84

0,86

0,88

0,9

0,92

0,94

30 bp 33 bp 35 bp 36 bp 37 bp

Tamanho da entrada

Erro

Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp

Figura 6.15 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas

das redes neurais para éxon terminais com e sem informação de G+C

110

Pode-se observar, pelos resultados obtidos, que da mesma forma que ocorreu com os

éxons internos e iniciais, a informação de G+C na rede neural não gerou grande

diferença no desempenho. Isto ocorre porque a matriz peso-posição já possui esta

informação na sua estatística.

•

Tamanho da camada escondida

Para os testes do tamanho da camada escondida, foi escolhida como entrada 37 bp

sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho

nos testes com o tamanho de entrada.

A taxa de aprendizado utilizada na rede

Backpropagation

foi de 0,05 e o

momento foi de 0,7.

Os resultados encontrados estão na Tabela 6.13, que mostra na primeira coluna o

tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base

de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a

sensibilidade e especificidade em nível de éxon na base de validação. A Figura 6.16

mostra o gráfico comparativo das taxa de erro em relação à quantidade de neurônios na

camada escondida. A Figura 6.17 mostra a variação da taxa de erro da melhor rede

neural encontrada.

Tabela 6.13 - Resultados dos testes com tamanho da camada escondida da rede neural

de éxon terminais

Base de Dados de Validação

Base de Dados

Treinamento

Nível de Nucleotídeos Nível de Éxons

Camada

Escondida

(%) Sp

ESn ESp

1 100 0,99 0,99 0,93 0,88

2 100 0,99 0,99 0,93 0,93

3 100 0,99 0,99 0,93 0,93

5 100 0,99 0,99 0,93 0,93

7 100 0,99 0,99 0,93 0,93

10 100 0,99 0,99 0,93 0,93

12 100 0,99 0,99 0,93 0,93

111

Taxa de Erro em relação a quantidade de neurônios

0,2

0,4

0,6

0,8

1,2

1 2 3 5 7 10 12

Quantidade de Neurônios

Erro

Sp e Sn ESn ESp

Figura 6.16 – Gráfico comparativo das taxa de erro em relação à quantidade de

neurônios na camada escondida da rede neural para éxons terminais

Variação da Taxa de Erro em relação a quantidade de épocas

0,00

50,00

100,00

150,00

200,00

250,00

1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976

Épocas

Erro

Figura 6.17 – Variação da taxa de erro em relação à quantidade de épocas para rede

neural

Backpropagation

de 37 bp com 2 neurônios na camada escondida para éxons

terminais

Conforme os resultados, a melhor e menor camada escondida encontrada para 37 bp

foi com 2 neurônios. Este resultado mostra uma camada escondida com poucos

112

neurônios. Verificando a estatística sobre os éxons terminais, percebe-se que este tipo

de estrutura termina com poucas possibilidades de códons, denominados códons de

parada

, o que facilita o aprendizado da rede neural, sendo o principal motivo da

pequena quantidade de neurônios. Pelos resultados, pode-se definir que todos os éxons

terminais devem terminar com os códons de parada.

•

Influência do valor de saída da rede neural

Para os testes da influência do valor de saída da rede neural nos resultados foi

escolhida como entrada 37 bp sem informação de G+C com 2 neurônios na camada

escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes

com o tamanho de entrada.

A taxa de aprendizado utilizada na rede

backpropagation

foi de 0,05 e o momento

foi de 0,7.

Os resultados encontrados estão na Tabela 6.14, que na primeira coluna mostra o

valor de saída, a seguir as informações de especificidade e sensibilidade em nível de

nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A

Figura 6.18 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída

da rede neural.

Tabela 6.14 - Resultados dos testes da influência do valor de saída na rede neural de

éxon terminais

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

Valor de

Saída

ESn ESp

0,6 0,99 0,99 0,93 0,63

0,65 0,99 0,99 0,93 0,84

0,7 0,99 0,99 0,93 0,90

0,75 0,99 0,99 0,93 0,93

0,80 0,99 0,99 0,93 0,93

0,85 0,99 0,99 0,93 0,93

0,90 0,99 0,99 0,93 0,93

0,95 0,99 0,99 0,93 0,93

Estes códons são: TAA, TGA e TAG.

113

Taxa em relação a variação do valor de saída

0,2

0,4

0,6

0,8

1,2

0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95

Valor de saída

Erro

Sp e Sn ESn Esp

Figura 6.18 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede

neural para éxons terminais

De acordo com os resultados encontrados, a variação do valor de saída

influencia os resultados, principalmente, do ESp gerando éxons preditos erroneamente.

Isto ocorre, como nos casos anteriores, porque foi diminuído o filtro (valor de saída da

rede) para determinação dos éxons, gerando muitos falsos éxons.

•

Testes da importância da rede neural

Este teste tem como objetivo verificar a necessidade da existência da rede neural

para éxons iniciais e da existência do filtro com matriz peso-posição comparado com a

combinação destas técnicas.

A Tabela 6.15 mostra na primeira coluna o teste realizado, nas demais colunas os

resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade

e sensibilidade em nível de éxons para a base de dados de validação.

114

Tabela 6.15 – Importância da rede neural na descoberta de regiões codificadora para

éxons terminais

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

ESn

ESp

Utilizando apenas matriz peso-

posição

0,87 0,86 0,82 0,75

Utilizando somente rede neural 0,86 0,85 0,77 0,71

Combinação das técnicas 0,99 0,99 0,93 0,93

De acordo com os resultados, a combinação das técnicas foi a que alcançou o

melhor desempenho. Verifica-se que a rede neural sem o filtro da matriz peso-posição

aumenta a taxa de erro, portanto esta informação é bastante importante para o

desempenho da rede. O filtro da matriz peso-posição consegue um bom resultado, mas

não alcança o desempenho das técnicas combinadas, portanto, a rede neural aumenta o

desempenho desta técnica.

6.1.2.4 Combinação dos modelos de éxons

Este teste verifica os resultados combinando os modelos de éxons (interno,

inicial e terminal). Foram realizados dois testes, o primeiro considera erro a

determinação errada do tipo de éxon e o segundo considera erro se a região não foi

classificada como codificadora. Foi utilizada a base de dados de validação com todas as

seqüências codificadoras de validação do organismo e seqüências não codificadoras

retiradas aleatoriamente do organismo estudado, totalizando 808.738 bp (33.967 bp de

regiões codificadoras e 774.771 bp de regiões não codificadoras).

O tempo de treinamento da ferramenta ExonBR foi de 1 hora e 42 minutos para

todos os tipos de éxons num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. Os

resultados encontrados estão na Tabela 6.16, onde estão as informações de

especificidade e sensibilidade em nível de nucleotídeos e a sensibilidade e

especificidade em nível de éxons para a base de dados de validação.

115

Tabela 6.16 – Resultados da combinação dos modelos de éxons para

Drosophila

melanogaster

Base de Dados de Validação

Nível de Nucleotídeos Nível de Éxons

ESn

ESp

Com a determinação correta do tipo

de éxon

0,98 0,97 0,93 0,84

Sem a determinação correta do tipo

de éxon

0,98 0,97 0,95 0,87

Pelos resultados encontrados, na combinação dos modelos predominou os valores

encontrados nos éxons internos, o que ocorre devido a esta estrutura ser a que possui

mais seqüências no organismo. Na determinação correta do tipo de éxon, ocorreu pouca

mudança no resultado, pois as estruturas possuem características bem distintas (isto

pode ser verificado pelo resultado da matriz peso-posição).

6.2 Testes em nível de seqüência

6.2.1 Seleção de dados

Para este estudo foi utilizada a base de dados de validação da

Drosophila

melanogaster

dos testes anteriores. Esta base de dados é formada por 400 seqüências de

tamanho variável retiradas em posições aleatórias do lócus estudado, totalizando

808.738 bp.

6.2.2 Testes da técnica

O sistema desenvolvido neste trabalho foi comparado com as principais

ferramentas utilizadas atualmente para a descoberta de regiões codificadoras na

Drosophila melanogaster

. São elas:

•

Fgenes

•

GeneID

•

Genie

•

HMMGene

•

SNB

116

•

Grail 2

Esta comparação mede o desempenho de cada uma das ferramentas em relação à

base de dados de validação descrita na seção de seleção de dados, esta base foi

apresentada para cada ferramenta. Foram realizados testes em níveis de nucleotídeos e

de éxons. Os resultados estão descritos na Tabela 6.17, que mostra na primeira coluna o

programa testado, a seguir as informações de especificidade e sensibilidade em nível de

nucleotídeos, sensibilidade, especificidade, éxons perdidos e éxons errados em nível de

éxon.

Tabela 6.17 – Tabela com os resultados comparativos dos testes realizados com outras

ferramentas

Nível de Nucleotídeo Nível de Éxon

Programa

ESn ESp

ME WE

ExonBR 0,98 0,97 0,95 0,87 0,03 0,08

FGenes 0,89 0,77 0,65 0,49 0,11 0,32

GenScan 0,96 0,92 0,68 0,68 0,11 0,10

GeneID 0,86 0,83 0,58 0,34 0,21 0,47

Genie 0,96 0,92 0,70 0,57 0,08 0,17

HMMGene 0,97 0,91 0,68 0,53 0,05 0,20

SNB 0,97 0,93 0,94 0,84 0,04 0,13

Grail 2 0,91 0,83 0,18 0,11 - -

117

Comparativo de desempenho na Drosophila

melanogaster

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

ExonBR FGenes GenScan GeneID Genie HMMGene SNB Grail 2

Sp Sn ESn ESp

Figura 6.19 – Gráfico comparativo de desempenho para

Drosophila melanogaster

De acordo com os resultados encontrados, a ferramenta ExonBR, e as técnicas

associadas a ela, mostraram-se bastante eficazes na busca de regiões codificadoras para

o organismo

Drosophila melanogaster

. Seu desempenho pode ser comparado com o das

melhores ferramentas existentes para esta espécie.

6.2.3 Testes com outras espécies

Para verificar o desempenho da ferramenta ExonBR foram selecionadas algumas

espécies para serem treinadas pelo sistema.

Algumas seqüências destas espécies foram escolhidas para realização de um

estudo comparativo com as principais ferramentas de predição para a espécie

selecionada. As bases estudadas foram:

•

HMR195

A HMR195 é uma base de dados padrão para testes de programas de busca de

regiões codificadora. Este banco é formado por 195 seqüências de humanos,

camundongos e ratos com uma taxa de 103:82:10. A média do tamanho das seqüências

é de 7.096 bp. A média do tamanho dos éxons é de 208 bp, sendo 14% das seqüências

codificadoras. O tamanho deste banco de dados é de 1.383.720 bp.

118

O banco de dados para os testes com a ferramenta ExonBR foi criado utilizando

80% das bases codificadoras para treinamento e 20% das bases para validação. O tempo

de treinamento da ferramenta ExonBR foi de 2 horas e 43 minutos para todos os tipos

de éxons num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede

encontrada possui 55 bp e 12 neurônios na camada escondida. Os resultados estão

descritos na

Tabela 6.18, que apresenta na primeira coluna o programa testado, a seguir as

informações de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,

especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.20 mostra

a variação da taxa de erro durante o aprendizado da melhor rede encontrada, e a Figura

6.21 mostra um gráfico comparativo com os resultados.

Tabela 6.18 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para o HMR 195

Nível de Nucleotídeo Nível de Éxon

Programa

ESn ESp

ME WE

ExonBR 0,97 0,90 0,87 0,84 0,05 0,01

TwinScan 0,93 0,89 0,80 0,75 0,08 0,09

GenScan 0,93 0,89 0,70 0,69 0,08 0,09

JIGSAW 0,97 0,88 0,84 0,82 0,10 0,01

HMMgene 0,93 0,93 0,76 0,77 0,12 0,07

119

Variação da Taxa de Erro em relação a quantidade de épocas - HMR 195

100

200

300

400

500

600

700

1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989

Épocas

Erro

Figura 6.20 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

de 55 bp com 12 neurônios na camada escondida para HMR

195

Comparativo de desempenho no HMR195

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

ExonBR TwinScan GenScan JIGSAW HMMgene

Sp Sn ESn ESp

Figura 6.21 – Gráfico comparativo de desempenho para o HMR195

De acordo com os resultados encontrados, a ferramenta ExonBR mostrou-se

bastante eficaz e versátil na busca de regiões codificadoras na base de dados HMR195 ,

seu desempenho pode ser comparado com as melhores ferramentas existentes para esta

espécie. A janela de 55 bp não gerou uma grande perda nesta base de dados.

120

•

Arabidopsis thaliana

(planta herbácea da família da mostarda)

Arabidopsis thaliana

é um organismo considerado padrão para testes de detecção de

regiões codificadoras para plantas, uma vez que foi a primeira planta cujo genoma foi

completamente seqüenciado. A base de dados foi formada por 300 seqüências com

tamanho médio de 171 bp. A maior seqüência possui 4.282 bp e a menor 6 bp. O

tamanho do banco de dados é de 51.313 bp sendo 24.237 codificadoras.

O banco de dados para teste foi criado utilizando 80% das bases codificadoras para

treinamento e 20% das bases para validação. O tempo de treinamento que a ferramenta

ExonBR utilizou foi de 1 hora e 2 minutos para descoberta de regiões codificadoras

num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede encontrada

possui com 54 bp e 9 neurônios na camada escondida. Os resultados estão descritos na

Tabela 6.19, que mostra na primeira coluna o programa testado, a seguir as informações

de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,

especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.22 mostra

a variação da taxa de erro durante o aprendizado da melhor rede encontrada e a Figura

6.23 mostra um gráfico comparativo com o resultado.

Tabela 6.19 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para

Arabidopsis thaliana

Nível de Nucleotídeo Nível de Éxon

Programa

ESn ESp

ME WE

ExonBR 0,99 0,97 0,90 0,90 0,09 0,01

JIGSAW 0,98 0,95 0,88 0,93 0,03 0,01

GeneZilla 0,98 0,95 0,77 0,81 0,08 0,05

GenScan 0,91 0,93 0,67 0,69 0,11 0,08

121

Variação da Taxa de Erro em relação a quantidade de épocas Arabidopsis thaliana

100

150

200

250

300

1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989

Épocas

Erro

Figura 6.22 – Variação da taxa de erro em relação à quantidade de épocas para rede

neural

Backpropagation

de 54 bp com 9 neurônios na camada escondida para

Arabidopsis thaliana

Comparativo de desempenho na Arabidopsis thaliana

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

ExonBR JIGSAW GeneZilla GenScan

Sp Sn ESn ESp

Figura 6.23 – Gráfico comparativo de desempenho para a

Arabidopsis thaliana

A ferramenta ExonBR, de acordo com os resultados encontrados, mostrou-se eficaz

na busca de regiões codificadoras de

Arabidopsis thaliana

. O software se adaptou a este

organismo com uma rede neural de 54 bp, o que gerou uma alta taxa de perda de éxons,

pois esta espécie possui vários éxons menores que esta janela.

122

•

Oryza sativa

(Arroz)

Outra espécie testada foi o Oryza sativa (arroz), seus dados foram coletados do

GenBank. A base de dados é formada por 38 seqüências com tamanho médio de 554 bp.

A maior seqüência possui 2721 bp e a menor 57 bp. O tamanho do banco de dados é de

21.084 bp sendo 4.528 codificadoras.

A bases de dados para os testes foi criado utilizando 80% das bases

codificadoras para treinamento e 20% das bases para validação. O tempo de treinamento

da ferramenta ExonBR foi de 17 minutos e 38 segundos para descoberta de regiões

codificadoras num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede

encontrada possui 50 bp e 20 neurônios na camada escondida. Os resultados estão

descritos na Tabela 6.20, que mostra na primeira coluna o programa testado, a seguir as

informações de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,

especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.24 mostra

a variação da taxa de erro durante o aprendizado da melhor rede encontrada, e a Figura

6.25 mostra um gráfico comparativo com os resultados.

Tabela 6.20 – Tabela com os resultados comparativos dos testes realizados em nível de

nucleotídeos para

Oryza sativa

Nível de Nucleotídeo Nível de Éxon

Programa

ESn ESp

ME WE

ExonBR 0,97 0,86 0,85 0,90 0,03 0,01

JIGSAW 0,97 0,85 0,75 0,86 0,04 0,01

GenScan 0,90 0,70 0,58 0,75 0,12 0,10

123

Variação da Taxa de Erro em relação a quantidade de épocas - Oryza Sativa (Arroz)

1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989

Épocas

Erro

Figura 6.24 – Variação da taxa de erro em relação a quantidade de épocas para rede

neural

Backpropagation

de 54 bp com 20 neurônios na camada escondida para

Oryza

sativa

Comparativo de desempenho no Oryza Sativa (arroz)

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

ExonBR JIGSAW GenScan

Sp Sn ESn ESp

Figura 6.25 – Gráfico comparativo de desempenho para

Oryza sativa

(arroz)

Como nos casos anteriores, a ferramenta mostrou-se bastante eficaz para a detecção

das regiões codificadoras no organismo

Oryza sativa

. Vale ressaltar a adaptabilidade do

sistema ExonBR. Deve-se notar o rápido treinamento desta espécie, devido ao fato do

124

banco de dados utilizado possuir poucas bases codificadoras, que são as informações

usadas para o treinamento.

125

7 A ferramenta

Este capítulo tem como objetivo descrever as técnicas utilizadas no

desenvolvimento da ferramenta de descoberta de regiões codificadoras (ExonBR).

Estas técnicas serão descritas utilizando a metodologia de análise estruturada

moderna, descrita em Yourdon (1990).

Serão apresentados o diagrama do contexto, o diagrama de fluxo de dados e o

diagrama de transição de estados, além das explicações sobre o funcionamento da

ferramenta.

A Figura 7.1 mostra a tela principal do programa, a Figura 7.2 apresenta a tela do

modo teste da ferramenta e na Figura 7.3 vê-se a etapa de treinamento da rede neurais

do ExonBR.

Figura 7.1 – Tela principal da ferramenta ExonBR

126

Figura 7.2 – Tela do modo teste da ferramenta ExonBR

Figura 7.3 – Tela do treinamento da rede neural da ferramenta ExonBR

127

7.1 Diagrama do contexto do sistema ExonBR

O diagrama do contexto tem como objetivo demonstrar a interface externa com o

sistema. Na ferramenta ExonBR, o principal ator é o biólogo. A Figura 7.4 mostra o

diagrama do contexto do sistema ExonBR.

Figura 7.4 – Diagrama do contexto do sistema ExonBR

7.2 Diagrama de Fluxo de Dados do sistema ExonBR

O diagrama de fluxo de dados (DFD) oferece uma visão orientada das funções

do sistema. O sistema ExonBR possui, basicamente, duas funções aprender um ou

vários lócus (modo treinamento) e testar uma seqüência baseado num banco de dados de

espécies (lócus) treinadas. O banco de dados de espécie treinadas é gerado no modo

treinamento. A Figura 7.5 mostra este diagrama.

128

Figura 7.5 – Diagrama de Fluxo de Dados (DFD) do sistema ExonBR

7.3 Diagrama de Transição de Estados do sistema ExonBR

O diagrama de transição de estados (DTE) mostra o comportamento tempo-

dependente do sistema. A Figura 7.6 mostra os estados do sistema ExonBR.

129

Figura 7.6 – Diagrama de Transição de Estados (DTE) do sistema ExonBR

130

7.4 Funcionamento do sistema ExonBR

Nesta seção será explicado o funcionamento do sistema ExonBR. Este sistema

foi dividido em dois módulos. São eles:

•

Módulo de Treinamento (Modo Treinamento)

O módulo de treinamento é responsável pelo treinamento das redes neurais

envolvidas no processo de detecção da região codificadora. O resultado

final deste módulo é uma base de dados com estrutura e pesos da rede

neural e da matriz peso-posição utilizada.

•

Módulo de Testes (Modo Teste)

Este modo de funcionamento permite ao usuário utilizar base de dados já

criada para a busca de regiões codificadoras numa seqüência.

O módulo de treinamento pode ser dividido nos seguintes subsistemas:

•

Analisador sintático

Este subsistema permite a análise de um arquivo no formato do GenBank

e FASTA. Busca informações importantes para o treinamento, através da

averiguação do campo CDS, no caso dos arquivos GenBank. Os dados

analisados são:

Posição das regiões codificadoras no lócus;

Tipo de região codificadora (éxon simples, éxon inicial, éxon

terminal ou éxon interno);

Seqüências inválidas.

•

Analisador Estatístico

A tarefa do analisador estatístico é gerar as informações sobre os

hexâmeros para formar a entrada da rede neural, conforme descrito na

seção 5.4.

Para tal, uma matriz é gerada com as informações posicionais de cada

hexâmero (matriz peso-posição).

131

•

Gerador de Base de Dados

Nesta etapa, a base de dados de treinamento e validação é criada. São

selecionadas, aleatoriamente, seqüências codificadoras na taxa de 80%

para treinamento e 20% para validação.

As seqüências repetidas são retiradas. Um conjunto com a mesma

quantidade de seqüências não codificadoras é criado aleatoriamente e

inserido na base de dados de treinamento e validação.

Após a criação da base de dados, esta é embaralhada.

•

Pré-Processamento

Este subsistema realiza as funções de pré-processamento. O pré-

processamento é utilizado na descoberta de éxons iniciais e finais, estes

tipos de regiões codificadoras possuem estruturas previsíveis (códon

inicial e terminal). Este módulo, também, realiza a adequação dos dados

para entrada na rede neural.

•

Rede Neural

Este módulo faz o treinamento da rede neural utilizando o algoritmo de

backpropagation

. Este subsistema testa várias redes neurais até encontrar

a que melhor se adequa ao organismo. A rede escolhida é a que possuir

melhor generalização e menor quantidade de neurônios na camada de

entrada e na camada escondida. As possíveis janelas de entrada e

quantidade de neurônios na camada escondida são configurações do

sistema. Os resultados desta etapa são os pesos da rede neural treinada.

•

Pós-Processamento

Nesta etapa são realizados os testes para validação da técnica no lócus

sugerido.

O resultado desta etapa é a aceitação ou não dos novos dados para

composição da base de espécies treinadas.

O módulo de teste, por sua vez, pode ser dividido nos seguintes subsistemas:

•

Pré-Processamento

132

Este subsistema realiza as funções de pré-processamento descritas

anteriormente. Além destas funções, o pré-processamento realiza a

adequação dos dados para entrada na rede neural de acordo com a espécie

selecionada no banco de dados do ExonBR.

•

Rede Neural

Esta rede neural tem como objetivo aplicar a base de dados previamente

treinada selecionada sobre a seqüência que está sendo analisada. O

resultado desta etapa é a informação de onde estão localizadas as regiões

codificadoras.

•

Pós-Processamento

A tarefa desta etapa é realizar os ajustes necessários para a exibição das

regiões codificadoras, de acordo com que foi pedido pelo usuário.

133

8 Conclusão

Este trabalho tem como principal contribuição o desenvolvimento de uma nova

técnica baseada na matriz peso-posição modificada combinada com redes neurais para a

identificação de regiões codificadoras, e a ferramenta ExonBR que utiliza esta

metodologia.

Os objetivos deste trabalho foram alcançados, criando uma ferramenta amigável e

adaptável a qualquer organismo. De acordo com os resultados encontrados, este

programa pode ser comparado com os melhores existentes atualmente, com taxas de

acerto variando entre 80% e 95% para o organismo para o qual foi treinado e aqueles

próximos evolutivamente dele.

Os testes mostraram que janelas menores que 40 bp não geram bons resultados na

predição de regiões codificadoras. Verificou-se que a informação de G+C não foi útil

para a melhora do desempenho da rede neural, isto ocorre, pois esta informação já está

contida na matriz peso-posição modificada, que é a entrada da rede neural.

Viu-se, ainda, que a rede neural escolhida varia de acordo com o organismo,

adaptando a ferramenta para predição de qualquer espécie. Isto pode ser observado nos

testes realizados com outros organismos eucariotos diferentes da

Droshopila

melanogaster

Observou-se que o hexâmero é uma grande fonte de informação para descoberta

de regiões codificadoras e que a matriz peso-posição é uma técnica eficaz para este fim,

sendo seu resultado bastante melhorado com a aplicação de uma rede neural. Portanto,

estas técnicas isoladamente não apresentam resultados tão satisfatórios quanto a sua

combinação.

Verificou-se que os éxons iniciais e terminais são mais fáceis de descobrir que

os internos e os simples, pois estas regiões possuem estruturas fixas no seu início (no

caso dos éxons iniciais) ou no seu fim (no caso dos éxons terminais) facilitando a sua

predição.

A utilização da saída da rede neural como probabilidade da região influenciou no

resultado. A variação deste valor pode ser utilizada para a predição de uma gama maior

de possíveis éxons no caso de organismos próximos evolutivamente do treinado,

diminuindo a quantidade de testes que devem ser realizados para descoberta de regiões

codificadoras.

134

As grandes vantagens e contribuições do sistema proposto são a facilidade na

manipulação da ferramenta, a boa taxa de acerto proporcionada, a possibilidade de

criação de um banco de dados próprio com qualquer espécie e a adaptabilidade aos

organismos.

As principais desvantagens desta técnica são o tamanho mínimo para descoberta

de éxons, podendo acarretar, nos organismos que possuem grande quantidade de éxons

pequenos, uma perda considerável na descoberta de regiões codificadoras; e a demora

para o treinamento, que piora com o aumento da base de treinamento.

A grande dificuldade no desenvolvimento deste trabalho foi descobrir a forma

como seria feita e entrada da rede neural. Várias formas de matriz foram testadas, porém

a técnica de matriz peso-posição foi a que encontrou melhores resultados. Outro ponto

importante foi a forma que os dados seriam testados. O teste nucleotídeo por

nucleotídeo mostrou-se eficaz, porém, lento, e a técnica descrita nesta tese (neste

trabalho) gerou os mesmos resultados de forma rápida. A descoberta da forma para

elaborar o conjunto de treinamento, também foi um desafio. Se todas as possibilidades

fossem treinadas na rede neural teríamos uma quantidade enorme de dados, retardando e

dificultando o treinamento, logo, a divisão dos dados em blocos foi a forma mais eficaz

para resolver este problema. A dificuldade de treinar a rede neural também deve ser

ressaltada, pois percebeu-se que para uma automatização da técnica foi necessário

diminuir a taxa de aprendizado, acarretando assim num maior tempo de treinamento,

porém, mais eficaz e com menor possibilidade de encontrar um mínimo local. Buscou-

se sempre minimizar o processamento e memória durante o desenvolvimento das

técnicas e da ferramenta.

Tendo em vista o que foi apresentado ao longo do trabalho, pode-se dizer que o

sistema proposto e as técnicas associadas a ele possibilitam grande facilidade e uma boa

flexibilidade para descoberta de éxons maiores ou iguais ao tamanho da janela mínima.

135

Sugestões para trabalhos futuros

Pode-se sugerir, para o futuro, os seguintes trabalhos:

•

desenvolvimento de novas técnicas para descoberta de outras regiões

genéticas (promotores,

splices

alternativos, entre outros) para o

acoplamento nesta ferramenta;

•

desenvolvimento desta ferramenta com processamento paralelo para

minimizar a demora no treinamento;

•

desenvolvimento de uma interface web com repositório universal de

espécies treinadas;

•

avaliação das regras produzidas pela rede neural que podem fornecer uma

informação interessante para o usuário;

•

programação de uma interface visual para mostrar as regiões encontradas;

•

busca de informação genética para diminuir o tamanho da janela mínima

para descoberta de éxons;

•

aplicação de técnicas para descoberta da melhor rede neural em um menor

tempo;

•

utilização de outros tipos de redes neurais para maximizar o desempenho

da ferramenta.

136

Referências bibliográficas

ADI, S. S.; FERREIRA, C. E., 2002 – Uma avaliação de ferramentas para predição de

genes – Instituto de Matemática e Estatística, USP.

ALLEN, J.E.; SALZBERG, S.L., 2005 - JIGSAW: integration of multiple sources of

evidence for gene prediction – Bioinformatics, Vol. 21 no. 18, pages 3596–3603.

ANDERBERG, M. R., 1973 – Cluster Analisys for Application, Academic Press, New

York

ASHBURNER, M., GOODMAN, N., 1997, “Informatics – Genome and Genetics

Databases

”

. In:

Current Opinion in Genetics & Development

, 7, pp. 750-756

ALTSCHUL, S.F.; GISH, W.; MYERS, E.W.; LIPMAN, D.J.; 1990 – Basic local

aligment search tool. J. Mol. Biol. 215, 403-410.

BALDI, P., 2001,

Bioinformatics: The Machine Learning Approach

, 2

ed, The MIT

Press.

BAIROCH, A., 2000, “The ENZYME database in 2000”, In:

Nucl. Acids. Res

, 28, pp.

304-305.

BAXEVANIS A.D., OUELLETTE B.F.F., 2001,

Bioinformatics: A practical guide to

the analysis of genes and proteins

., 2

ed., Ed. Wiley-interscience.

BENSON, D.A., KARSCH-MIZRACHI, I., LIPMAN, D.J.,

et al

., 2006, "GenBank",

In:

Nucl. Acids. Res

,34, pp. D16-D20

BERMAN, H. M., WESTBROOK, J., FENG, Z.,

et al

., 2002, "The Protein Data Bank",

In:

Nucl. Acids. Res

., 30, pp. 245-248.

BLAKE, J.A., EPPIG, J.T., BULT, C.J.,

et al

., 2006, “The Mouse Genome Database

(MGD): updates and enhancements”, In:

Nucl. Acids Res.

34: D562-D567.

BOSER,B.; GUYON,I.; VAPNIK,V.N. ,1992 -A training algorithm for optimal margin

classifiers. In: Proc. COLT (Haussler,D., ed.), ACN Press, Pittsburgh, PA, 144–152.

BOUGUELERET, L.; TEKAIA, F.; SAUVAGET, I.; CLAVERIE, J.M.; 1988 –

Objective comparation of éxon and intron sequences by the means 2-dimensional data

analysis methods. Nucleic Acids Res., 16, 1729-1738.

BORODOVSKY, M.; MCININCH, J., 1993 – GENMARK: parallel gene recognition

for both DNA strands. Comp. Chem. 17, 123-133

137

BRANDON M. C., LOTT M. T., NGUYEN K.C.,ET AL., 2005 - MITOMAP: a human

mitochondrial genome database—2004 update - Nucleic Acids Res. 33(Database Issue):

D611–D613.

BRENT, M.R.; GUIGÓ, R., 2004 - Recent advances in gene structure prediction - Curr

Opin Struct Biol.;14(3):264-72

BRUDNO,M.; MORGENSTERN,B., 2002 - Fast and sensitive alignment of large

genomic sequences. In Proceedings IEEE Computer Society Bioinformatics conference.

pp. 138–147. http://www.stanford.edu/brudno/chaos/

BRUNAK, S.; ENGELBRECHT, J.; KNUDSEN, S.; 1991 – Prediction of Human

mRNA Donor and Acceptor Sites from the DNA Sequence - J. Mol. Biol., 220, 49-65

BUCHER, P. 1990 – Weight matrix descriptions of four eukaryotic RNA plymerase II

promoter elements derived from 502 unrelated promoter sequences. – J. Mol. Biol. 212,

563-578

BUNEMAN, P., DAVIDSON, S.B, HART, K.,

et al.

, 1995, “A Data Transformation

System for Biological Data Sources.”, In:

Proceedings of 21th International Conference

on Very Large Data Bases

, pp 158-169.

BURSET M., GUIGÓ R., 1996 – Evaluation of Gene Structure Prediction Programs-

Genomics 34, 353-367.

BURGE, C., 1997 – Identification of Genes in Human Genomic DNA – Thesis Stanford

University.

BURGE, C. AND KARLIN, S. 1997 – Prediction of complete gene structures in human

genomic DNA, J. Mol. Biol., 268, 78-94.

BURGE, C AND KARLIN, S. 1998. Finding the genes in genomic DNA, Curr. Opin.

Struc. Biol.. 8:.346-354

CHEN,T; LU,C.; LI,W., 2005 - Prediction of splice sites with dependency graphs and

their expanded bayesian networks - Bioinformatics, Vol. 21 no. 4, pages 471–482

CHEN N., Harris T.W., Antoshechkin I.,

et al.

, 2005 -WormBase: a comprehensive data

resource for Caenorhabditis biology and genomics - Nucleic Acids Res. 2005 January 1;

33(Database Issue): D383–D389

CHURBANOV, A.; ROGOZIN,I.B.; DEOGUN, J.S.; ALI, H., 2006 - Method of

predicting Splice Sites based on signal interactions - Biology Direct 2006, 1:10

CLAVERIE, J. M.; BOUGUELERET, L.; 1986 – Heuristic informational analysis of

sequences. Nucleic Acids Res. 14, 179-96.

138

CLAVERIE, J. M.; SAUVAGET, I.; BOUGUELERET, L.; 1990 – k-Tuple frequency

analysis from intron/éxon discrimination to T-cell epitope mapping. Methods Enzymol,

183, 237-252.

CLAVERIE, J. M. – 1997. Computational methods for the identification of genes in

vertebrate genomic sequences – Human Molecular Genetics, 1997, Vol. 6, No. 10

Review 1735–1744

COCHRANE, G., ALDEBERT P., ALTHORPE N.,

et al.

, 2006, “The EMBL

Nucleotide Sequence Database: developments in 2005”, In:

Nucl. Acids. Res.

, 34, pp.:

D10-D15.

DAVIS, L., 1991 -. Handbook of Genetic Algorithms. Van Nostrand Reinhold

DEGROEVE, S.; SAEYS,Y.; DE BAETS,B.;ROUZÉ,P.;VAN DE PEER,Y., 2005 -

SpliceMachine: predicting splice sites from high-dimensional local context

representations - Bioinformatics, Vol. 21 no. 8 2005, pages 1332–1338

FICKETT, J.W., 1982 - "Recognition of protein coding regions in DNA sequences",

Nucleid Acids Res, 10, 5305-5318

FICKETT J.W. & TUNG C.S., 1992 –Assesssment of protein coding measures -

Nucleid Acids Res, 20, 6441

FICKETT J. W., 1996 – “The gene identification problem: An overview for

developers”- Computers Chem, 20(1):103-118

FOGEL, G. B.; CORNE, D. W, 2003 – Evolutionary Computation in Bioinformatics –

Morgan Kaufmann Publishers.

FORNEY, G. D., 1973 – The Viterbi Algorithm – Proc. IEEE, 61, 268-278

GENBANK, 2007, NCBI-GenBank Flat File Release 160.0,

ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt.

FUJIMORI,S.; WASHIO,T.; TOMITA, M., 2005 - GC-compositional strand bias

around transcription start sites in plants and fungi -BMC Genomics, vol. 6:26

GELFAND S. M, MIRONOV, A. A., PEVZNER, P.A., 1996 – Gene reconigtion via

spliced sequence alignement – Proc. Natl. Acad. Sci. USA 93:9601-9066

GELFAND, M. S. , 1995 – Prediction of function in DNA sequence analysis, J. Comp.

Biol. 2(1), 87-115

GISH, W.; STATES, D.J.; 1993 – Identification of protein coding regions by database

similarity search. Nature Genet., 3, 266-272.

GRUMBLING G., STRELETS V., THE FLYBASE CONSORTIUM, 2006, " FlyBase:

anatomical data, images and queries", In:

Nucl. Acids. Res.,

34 , pp. D484-D488.

139

GUIGÓ, R; KNUDSEN, S., DRAKE, N., SMITH, T.F., 1992 – Prediction of gene

structure. Journal of Molecular Biology 226, 141-157

GUIGÓ, R.; DERMITZAKIS, E.T.; AGARWAL, P.; PONTING, C.P.; PARRA, G.;

REYMOND, A.; ABRIL, J.F.; KEIBLER, E.; LYLE, R.; UCLA, C.; ANTONARAKIS,

S.E.; BRENT, M.R., 2003 -Comparison of mouse and human genomes followed by

experimental verification yields an estimated 1,019 additional genes.- Proc. Nat. Acad.

Sci. 100(3):1140-1145

HAYKIN, S., 2001 – Redes Neurais: Princípios e prática – Bookman, 2001.

HAWKINS, J.D., 1988 – A survey on intron and éxon lengths. Nucl. Acids. Res. 16,

9893-9908.

HEBSGAARD, S. M.; KORNING, P.G.; TOLSTRUP, N.; ENGELBRECHT, J.;

ROUZÉ, P.; BRUNAK, S.; 1996 – Splice site prediction in

Arabidopsis thaliana

pre-

mRNA by combining local and global sequence information.- Nucleic Acids Research,

24(17), 3439-3452

HENDERSON J.; SALZBERG S.; FASMAN, K, 1996 – Finding genes in human DNA

with a hidden markov mode. In Proceeding 4

International Conference on Intelligent

Systems for Molecular Biology, St. Lois. AAAI Press.

HENIKOFF, J.G., HENIKOFF, S., PIETROKOVSKI, S., 1999, “New features of the

Blocks Database servers”, In:

Nucl. Acids. Res

., 27, pp. 226-228.

HULO N., BAIROCH A., BULLIARD V., ET AL., 2006 – “The PROSITE database” -

Nucl. Acids Res. 34: D227-D230.

HSU, K.; HSU, A., 1990 – Proc. Natl. Acad. Sci. USA 87 938-941.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 1987

"Informationprocessing systems - Open Systems Interconnection - Specification of

Abstract Syntax Notation One (ASN.1)", In:

Technical Report ISO-8824

, International

Organization for Standardization, Switzerland.

KONOPKA, A. K.; OWENS, J., 1990 – Complexity charts can be used to map

functional domains in DNA- Gene Anal. Techn. Appl. 7, 35-38

KORF, I.; FLICEK, P.; DUAN, D.; BREANT, M. R., 2001 – Integrating genomic

homology into gene structure prediction. Bioinformatics, 1, S1-S9.

KRAEMER, E.; WANG, J.; GUO, J.; HOPKINS, S.; ARNOLD, J., 2001 - An analysis

of gene-finding programs for Neurospora crassa , Bioinformatics, 17:901-912.

140

KROGH, A., BROWN, M.; MIAN, I. S.; SJÖLANDER,K., HAUSSLER, D., 1994 -

Hidden Markov models in computional biology: Applications to protein modeling.

Journal of Molecular Biology 235:1501-1531.

KROGH, A.; MIAN, I. S.; HAUSSLER, D., 1994 A Hidden Markov model that find

genes in e. coli DNA. Nucleic Acids Reasearch 22:4768-4778

KROGH, A., 1997. Two methods for improving perfomance of an HMM and their

application for gene-finding. In Proceedings of the Fourth International Conference on

Intellligent Systems, pp. 134-142, AAAI Press, Menlo Park, CA.

KULP, D., HAUSSLER, D., REESE, M.G, EECKMAN, F.H., 1996 – A generalized

hidden Markov model for the recognition of human genes in DNA – In Proceedings of

the Fifth International Conference on Intelligent Systems for Molecular Biology – pp.

134-142, AAAI Press, Menlo Park, CA.

LEE, Y., TSAI, J., SUNKARA, S., KARAMYCHEVA, S.,

et al

. ,2005 -The TIGR

Gene Indices: clustering and assembling EST and known genes and integration with

eukaryotic genomes. Nucleic Acids Res 33 Database Issue D71-74.

LEHNINGER, A. L., 1980- Bioquímica - Edgard Blüche

LINHARES, S. V.; GEWANDSZNAJDER, F., 1985 – Biologia Programa Completo –

Editora Ática

LETOVSKY, S. I., COTTINGHAM, R. W., PORTER, C. J.,

et al

., 1998, "GDB: the

Human Genome Database", In:

Nucleic Acids Research

, 26(01), pp. 94-99.

NCBI, 2002, http://www.ncbi.nih.gov/.

LUKASHIN, A. V, BORODOVSKY, M., 1998 – GeneMark.hmm: The new solutions

for gene-finding. Nucleic Acids Res., 26: 1107-1115

MAJOROS, W. H.; PERTEA M. ; SALZBERG S. L., 2004 - TigrScan and

GlimmerHMM: two open source ab initio eukaryotic gene-finders.

MAJOROS, W. H.; PERTEA M. ; DELCHER, A.L. ; SALZBERG S. L., 2005 -

Efficient decoding algorithms for generalized hidden Markov model gene finders.

MAKALOWSKA I.; RYAN J.F.; BAXEVANIS, A.D., 2001 -GeneMachine: gene

prediction and sequence annotation , Bioinformatics, 17:843-844.

MORGENSTERN, B, 1999 - DIALIGN 2: improvement of the segment-to-segment

approach to multiple sequence alignment. Bioinformatics, 15, 211–218.

MURAKAMI, K.; TAKAGI, T., 1998 – Gene recognition by combination of several

gene-finding programs – Bioinformatics, 14(8), 665-675

141

MURAL, R.J.; MANN, R.C.; UBERBACHER, E.C., 1991 – in Proceeding of the First

International Conference on Electrophoresis, Supercomputing and the Human Genome,

pp. 164-172.

MURAL, R.J., EINSTEIN, J.R., GUAN, X., MANN, R.C., UBERBACHER, E. C.,

1992 – "An artificial intelligence approach to DNA sequence feature recognition” –

Trends Biotech. 10,67-69

OKUBO K., SUGAWARA H., GOJOBORI T, TATENO Y., 2006 – “DDBJ in

preparation for overview of research activities behind data submissions” - Nucl. Acids

Res. 34: D6-D9

OUELLETTE, B.F.F, BOGUSKI, M. S., 1997, “Database Division and homology

search files: a guide for the perplexed”,

Genome Res

., 7, pp. 952-957

MURTHY, S. K.; KASIF S.; SALZBERG S., 1994 – A system for induction of obliqúe

decision trees. Journal of Artificial Intelligence Research 2,1-33.

PATTERSON,D.J.; YASUHARA,K.; RUZZO,W.L., 2002 - Pre-mRNA secondary

structure prediction aids splice site prediction. Proceedings of the Pacific Symposium on

Biocomputing. Lihue, Hawaii, World Scientific Press, pp. 223–234.

PARRA, G.; BLANCO, E.; GUIGÓ, R., 2000 – GeneID in

Drosophila

- Genome

Research, 10(4):511-515.

PARRA, G.; AGARWAL, P.; ABRIL, J.F.; WIEHE, T.; FICKETT, J.W.; GUIGÓ; R,

2003 - Comparative gene prediction in human and mouse - Genome Research

13(1):108-117

PAVLOVIC V., GARG A., KASIF S., 2002, "A Bayesian framework for combining

gene predictions", Bioinformatics, 18:19-27

PERTEA, M.; LIN, X.; SALZBERG, S.L.,2001 - GeneSplicer: a new computational

method for splice site prediction - Nucleic Acids Research, 29(5):1185-1190.

POWELL, M.J.D, 1985 – Radial basis functions form multivariable interpolation: A

review – IMA Conference on Algorithms for the Approximation of Functional and

Data, pp. 143-167, RMCS, Shrivenham, England

RABINER, L. R., 1989 – A tutorial on Hidden Markov Models and selected

applications in speech recognition, Proc. IEEE, 77(2), 257-285

RINNER, O.; MORGENSTERN, B., 2002 - AGenDA: Gene prediction by comparative

sequence analysis - In Silico Biol., 2, 195–205.

http://www.bioinfo.de/isb/2002/02/0018/

142

ROGIC, S., MACKWORTH, A. K., OUELLETTE, F.B.F, 2001 – Evaluation of Gene-

Finding Programs on Mammalian Sequences- Genome Research, 817-832

ROGIC S., OUELLETTE F.B.F., MACKWORTH A.K, 2002.- Improving gene

recognition accuracy by combining predictions from two gene-finding programs-

Bioinformatics 18: 1034-1045

SALAMOV, A. A.; SOLOVYEV, V.V., 2000 – Ab initio Gene Finding in Drosophila

Genomic DNA – Genome Research, 10, 516-522.

SALZBERG, S.L.; DELCHER, A.; FASMA, K.; HENDERSON, J., 1998 - A decision

tree system for finding genes in DNA.- J. Comp. Biol.,5, 667-680

SALZBERG, S.L.; PERTEA, M.; DELCHER, A.; GARDNER, M.J.;TETTELIN, H.,

1999. Interpolated Markov for eukariotic gene finding. Genomics,59, 24-31.

SCHMID C.D., PÉRIER, R. C., PRAZ, V., BUCHER, P.,

et al

., 2006, "EPD in its

twentieth year: towards complete promoter coverage of selected model organisms", In:

Nucl. Acids Res.

D82-D85

SEIBEL, L.F.B, LEMOS, M., LIFSCHITZ, S., 2000, “Banco de Dados de Genoma”,

SBBD 2000

SHERLOCK, G., HERNANDEZ-BOUSSARD, T., KASARSKIS, A.,

et al

., 2001, “The

Stanford Microarray Database”, In:

Nucl. Acids. Res

. ,29, pp.152-155.

SNYDER, E. E., STORMO,G. D., 1993 – Identification of coding regions in genomic

DNA sequences: an application of dynamic programming and neural networks. Nucleic

Acids Res. 21, 607-613

SNYDER, E. E., STORMO,G. D., 1997 – Identification genes in genomic DNA

sequences. DNA and Protein Sequence analysis, M.J. Bishop and C.J.Rawlings, eds.

(New York: Oxford University Press), p. 209-224

SOLOVYEV, V. V.; SALAMOV, A. A.; LAWRENCE, C.B., 1994 – Predicting

internal éxons by oligonucleotide composition and discriminant analysis of spliceable

open reading frames. Nucleic Acids Research, 22, 5156-5163

SOLOVYEV, V. V.; SALAMOV, A. A.; LAWRENCE, C.B., 1995 –Identification of

human gene structure using linear discriminant function and dynamic programming.

Ismb 3,367-375

Staden, R., 1984 – Computer methods to locate signals in nucleic acid sequences –

Nucl. Acids. Res., 12, 505-519

UNIPROT, 2007 - UniProtKB/Swiss-Prot Protein Knowledgebase release statistics 11.0

of 29-May-2007 - http://www.expasy.org/sprot/relnotes/

143

TABASKA, J.E.; DAVULURI, R.; ZHANG, M.Q., 2001 -A novel 3'-terminal éxon

recognition algorithm – Bioinformatics, 17(7), pp. 602-607

TAHER, L.; RINNER, O.; GARG, S.; SCZYRBA, A.; BRUDNO, M.; BATZOGLOU,

S.; MORGENSTERN, B., 2003 - AGenDA: homology-based gene prediction -

Bioinformatics, Vol. 19 no. 12, pages 1575–1577

WHELLER, D.L., CHURCH, D.M., LASH, A.E.,

et al

., 2002, “Database resources of

the National Center for Biotechnology information: 2002 update”, In:

Nucleics Acid

Reserch

, 30(1), pp. 13-16.

UBERBACHER, E.C. AND MURAL, R. J., 1991 – Locating protein-coding regions in

human DNA sequences by a multiple sensor-neural network approach. Proceedings of

the National Academy of Sciences of the U.S.A. 88, 11261-11265

USAKA , J.; ZHU, W.; BRENDEL, V., 2000 – Optimal spliced alignment of

homologous cDNA to a genomic DNA template. Bioinformatics, 16

USAKA, J.; BRENDEL, V.; 2000 – Gene Structure Prediction by Spliced Alignment of

Genomic DNA with Protein Sequences: Increased Accuracy by Differencial Splice Site

Scoring. Journal of Molecular Biology, 297, 1075-1085.

VAPNIK,V.N.,1995 - The Nature of Statistical Learning Theory. Springer-Verlag,

Berlin.

XU, Y.; EINSTEIN, J.R.; MURAL, R.J.; SHAH, M.; UBERBACHER, E.C., 1994 –

„An improved system for éxon recognition and gene modeling in human DNA

sequences“ In „ISMB-94 Proceedings Second International Conference on Intelligent

Systems for Molecular Biolog“, pp. 376-384, AAAI Press, Menlo Park.

YOURDON, EDWARD, 1990 – Analise Estruturada Moderna 3

Edição – Editora

Campus.

ZHANG, M.Q., 1997. Identification of protein coding regions in the human genome by

quadratic discriminant analysis. Proc. Natl. Acad. Sci. 94:565-568

ZHANG, M. Q., MARR, T. G., 1993 – A weight array method for splicing signal

analysis – Comp. Appl. Biol. Sci. 9(5), 499-509

ZHANG, L.; LUO, L., 2003 - Splice site prediction with quadratic discriminant analysis

using diversity measure - Nucleic Acids Research, Vol. 31, No. 21

WANG, Y.; ZHANG, C.T; DONG, P., 2002 - Recognizing shorter coding regions of

human genes based on the statistics of stop codons, Biopolymers, 63:207-216.

WHITE, O.; SODERLUND, C.; SHANMUGAN, P.; FIELDS, C., 1992 – Plant Mol.

Biol., 19, 1057-1064

144

WU, T., 1996 – A segment-based dynamic programming algorithm for predicting gene

structure. Journal Computational Biology 3(3), 375-394.

WU, C.H., APWEILER, R., BAIROCH, A.,

et al

. ,.2006, "The Universal Protein

Resource (UniProt): an expanding universe of protein information". In:

Nucl. Acids.

Res,

. 34: pp. D187-D191.

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo