Download PDF
ads:
FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES
CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR
Vincenzo De Roberto Junior
TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS
PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE
FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS
NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS
EM ENGENHARIA CIVIL.
Aprovada por:
____________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
____________________________________________
Prof. Alexandre Gonçalves Evsukoff, Dr.
____________________________________________
Prof. Orlando Bonifacio Martins, D. Sc.
____________________________________________
Prof. Emmanuel Piseces Lopes Passos, D. Sc.
____________________________________________
Prof. Luiz Biondi Neto, D. Sc.
RIO DE JANEIRO, RJ – BRASIL
OUTUBRO DE 2007
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
ROBERTO JUNIOR, VINCENZO DE
Ferramenta Auxiliar para Identificação de
Regiões Codificadoras em Organismos
Eucariotos – EXONBR [Rio de Janeiro] 2007
XVI, 144 p. 29,7 cm (COPPE/UFRJ, D.Sc.,
Engenharia Civil, 2007)
Tese - Universidade Federal do Rio de
Janeiro, COPPE
1. Bioinformática
2. Redes Neurais
3. Interface
I. COPPE/UFRJ II. Título ( série )
ads:
iii
A Deus,
ao meu pai,
à minha mãe e
à minha querida Danielle
iv
AGRADECIMENTOS
A Deus, por me confortar e me orientar em todos os instantes da vida, me dando
ainda a saúde e a determinação necessárias ao desenvolvimento desse trabalho.
A minha querida Danielle pelo apoio, ajuda e paciência em todos os instantes.
Aos meus pais e minha tia Carmela, pelo incentivo e contribuição na minha
formação como pessoa e como profissional.
Ao professor Nelson, por todo o conhecimento e incentivo transmitidos, bem
como pela confiança em mim depositada.
Ao meu amigo Elias pela ajuda e incentivo.
A todos os professores, colegas e funcionários que, de alguma forma ajudaram
no desenvolvimento desse trabalho.
v
Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários
para a obtenção do grau de Doutor em Ciências (DSc.)
FERRAMENTA AUXILIAR PARA IDENTIFICAÇÃO DE REGIÕES
CODIFICADORAS EM ORGANISMOS EUCARIOTOS - EXONBR
Vincenzo De Roberto Junior
Outubro/2007
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
A conclusão de vários projetos de seqüenciamento proporciona um volume
considerável de dados, que precisa ser processado adequadamente de forma a se obter
informações genéticas úteis. Uma das regiões mais importantes para neste processo são
conhecidas como genes. A identificação de genes em organismos eucariotos é um
problema que ainda hoje não teve uma completa solução.
Esta tese investiga a aplicação de técnicas de inteligência computacional para a
solução deste problema. Os principais objetivos deste trabalho são melhorar a predição
das regiões codificadoras e a criação de uma ferramenta auxiliar para detecção destas
regiões em genes eucariotos, denominada ExonBR.
As principais inovações propostas são a utilização da técnica de redes neurais
com entradas baseadas nas probabilidades dos hexâmeros (matriz peso-posição
modificada) para detecção de regiões codificadoras e a disponibilização, para o biólogo,
de uma ferramenta adaptável a qualquer organismo.
Os objetivos deste trabalho foram alcançados, criando uma ferramenta amigável
e adaptável a qualquer organismo. De acordo com os resultados encontrados, este
programa pode ser comparado aos melhores existentes atualmente, com taxas de acerto
variando entre 80% e 95% para o organismo para o qual foi treinado e aqueles
próximos, evolutivamente, dele.
vi
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (DSc.)
AUXILIARY TOOL FOR THE IDENTIFICATION OF GENETIC CODING
SEQUENCES IN EUKARYOTIC ORGANISMS - EXONBR
Vincenzo De Roberto junior
October/2007
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
The conclusion of several sequencing projects provides a considerable amount
of data that needs to be processed appropriately in order to obtain useful genetic
information. Among these areas, the most important in that process are known as genes.
The gene finding in eukaryotic organisms is an unsolved problem yet.
The thesis analyses the use of computational intelligence techniques to solve that
problem. The main objective of this work is improving the performance of the
prediction of coding regions and creating an auxiliary tool for the identification of
coding areas in eukaryotic genes, called ExonBR.
The main innovation proposed in this work is the use of neural networks with
inputs based on the probabilities of hexamers (modified weight-position matrix) for
detection of coding areas and to make available to biologists a tool suitable to any
organism.
The target of this work was reached by creating a friendly and suitable tool for
any organism. In accordance with the obtained results, this program can be compared to
the best ones that exist nowadays. The program ExonBR shows prediction rates about
80% and 95% for the organism that was trained and those ones evolutionary near to it.
vii
INDICE
1 INTRODUÇÃO .................................................................................1
1.1 O
BJETIVOS
......................................................................................................... 1
1.2 C
ONCEITOS
B
ÁSICOS DE
B
IOQUÍMICA
............................................................... 2
1.3 C
OMPOSIÇÃO DO
T
RABALHO
............................................................................. 4
2 BANCO DE DADOS EM BIOLOGIA MOLECULAR (BDBM)............................6
2.1 I
NTRODUÇÃO
..................................................................................................... 6
2.2 O
S
P
RINCIPAIS
B
ANCOS DE
D
ADOS DE
B
IOLOGIA
M
OLECULAR
......................... 7
2.3 C
ARACTERÍSTICAS DE
BDBM
S
....................................................................... 10
2.3.1 Volume de Dados.................................................................................................... 10
2.3.2 Consistência da Informação.................................................................................... 10
2.3.3 Informações Armazenadas...................................................................................... 11
2.3.4 Formatos dos Bancos de Dados .............................................................................. 14
2.4 G
EN
B
ANK
........................................................................................................ 18
2.4.1 Esquema.................................................................................................................. 19
2.4.2 Outras informações armazenadas............................................................................ 24
2.4.3 A construção do Banco de Dados ........................................................................... 25
2.4.4 Informações adicionais............................................................................................ 26
3 AS PRINCIPAIS FERRAMENTAS PARA BUSCA DE GENES.........................27
3.1 I
NTRODUÇÃO
................................................................................................... 27
3.2 GRAIL
(G
ENE
R
ECONIGNITION AND
A
NALYSIS
I
NTERNET
L
INK
)........................ 29
3.3 G
ENE
ID........................................................................................................... 32
3.4 FGENEH/FGENES........................................................................................ 32
3.5 N
ETPLANT
G
ENE
.............................................................................................. 33
3.6 PROCRUSTES............................................................................................... 36
3.7 MZEF
(M
ICHEAL
Z
HANG
S
É
XON
F
INDER
)....................................................... 37
3.8 G
ENIE
.............................................................................................................. 40
3.9 GENSCAN..................................................................................................... 42
3.10 G
ENE
P
ARSER
................................................................................................... 46
3.11 HMM
GENE
...................................................................................................... 50
3.12 M
ORGAN
......................................................................................................... 51
3.13 G
ENE
M
ARK
.
HMM
............................................................................................ 54
3.14 T
ÉCNICAS DE COMBINAÇÃO DE PROGRAMAS
................................................... 56
viii
3.14.1 Método baseado em AND....................................................................................... 56
3.14.2 Método baseado em OR.......................................................................................... 57
3.14.3 Método HIGHEST.................................................................................................. 58
3.14.4 Método RULE......................................................................................................... 59
3.14.5 Método BOUNDARY............................................................................................. 60
3.14.6 Algoritmo EUI (Éxon Union-Intersection)............................................................. 61
3.14.7 Algoritmo GI (Gene Intersection)........................................................................... 61
3.14.8 Algoritmo EUI_frame (Éxon Union-Intersection with Reading Frame
Consistency)............................................................................................................................. 61
3.14.9 Algoritmo SNB (Static Naive Bayes)..................................................................... 62
3.14.10 Algoritmo SFB (Static Full Bayes)......................................................................... 62
3.15 O
UTRAS TÉCNICAS E FERRAMENTAS
................................................................ 63
3.15.1 GeneSeqer............................................................................................................... 63
3.15.2 GeneSplicer............................................................................................................. 64
3.15.3 Reconhecimento de pequenas regiões codificadoras baseadas no códon terminal. 64
3.15.4 Twinscan................................................................................................................. 65
3.15.5 GeneMachine.......................................................................................................... 65
3.15.6 SGP2 ..................................................................................................................... 65
3.15.7 AGenDA ................................................................................................................. 66
3.15.8 DGSplicer................................................................................................................ 66
3.15.9 SpliceMachine......................................................................................................... 66
3.15.10 GeneZilla................................................................................................................. 67
3.15.11 JIGSAW ................................................................................................................. 67
3.15.12 SpliceScan............................................................................................................... 67
4 MEDIDAS DE EXATIDÃO DA PREDIÇÃO.........................................................68
4.1 I
NTRODUÇÃO
................................................................................................... 68
4.2 N
ÍVEL DE
N
UCLEOTÍDEOS
................................................................................ 68
4.3 N
ÍVEL DE
É
XONS
............................................................................................. 71
5 METODOLOGIA ...............................................................................74
5.1 I
NTRODUÇÃO
................................................................................................... 74
5.2 O
M
ODELO PARA
G
ENE
................................................................................... 75
5.3 S
ELEÇÃO DE
D
ADOS
........................................................................................ 77
5.4 O
MODELO PARA A DESCOBERTA DE REGIÕES CODIFICADORAS
....................... 78
5.5 A
PROBABILIDADE DA REGIÃO CODIFICADORA
................................................ 84
5.6 P
REDIÇÃO DE REGIÕES CODIFICADORAS A PARTIR DA BASE DE DADOS
............ 85
ix
6 RESULTADOS E DISCUSSÃO 86
6.1 A
VALIAÇÃO DO MODELO PARA ÉXONS
(
REGIÕES CODIFICADORAS
)................. 87
6.1.1 Seleção de dados..................................................................................................... 87
6.1.2 Testes com a rede neural......................................................................................... 88
6.2 T
ESTES EM NÍVEL DE SEQÜÊNCIA
................................................................... 115
6.2.1 Seleção de dados................................................................................................... 115
6.2.2 Testes da técnica ................................................................................................... 115
6.2.3 Testes com outras espécies.................................................................................... 117
7 A FERRAMENTA .............................................................................125
7.1 D
IAGRAMA DO CONTEXTO DO SISTEMA
E
XON
BR.......................................... 127
7.2 D
IAGRAMA DE
F
LUXO DE
D
ADOS DO SISTEMA
E
XON
BR............................... 127
7.3 D
IAGRAMA DE
T
RANSIÇÃO DE
E
STADOS DO SISTEMA
E
XON
BR.................... 128
7.4 F
UNCIONAMENTO DO SISTEMA
E
XON
BR....................................................... 130
8 CONCLUSÃO .............................................................................133
REFERÊNCIAS BIBLIOGRÁFICAS ...........................................................................136
x
Lista de Abreviações
A Adenina
AC Correlação aproximada (approximate correlation)
B G T C
BAC Bacterial Artificial Chromosome
BDBM Banco de Dados em Biologia Molecular
bp Pares de bases (bases pairs)
C Citosina
CC Coeficiente de correlação
cDNA clone de DNA
D G A T
DNA Ácido Desoxirribonucléico
ESn Sensibilidade em nível de éxon
ESp Especificidade em nível de éxon
EST Expressed Sequence Tags
EUI Exon Union-Intersection
FN falsos negativos (false negatives)
FP falsos positivos (false positives)
G Guanina
GHMM Modelo Oculto de Markov Generalizado
GSS Genome Survey Sequences
H A C T
HMM Modelo Oculto de Markov
HTC High Throughput cDNA Sequences
HTGS High Throughput Genomic Sequences
INSDC International Nucleotide Sequence Database Colaboration
K G T (keto)
M A C (amino)
MDD Maximal Dependence Decomposition
ME Éxons perdidos (Missing éxons)
mRNA RNA mensageiro
N A G C T (qualquer)
NCBI National Center for Biotechnology Information
NIH National Institute of Health
ORF Quadros de leitura abertos (Open Reading Frame)
pré-mRNA pré RNA mensageiro (não maduro)
R G A (purinas)
RNA Ácido Ribonucléico
S G C
Sn Sensibilidade
Sp Especificidade
STS Sequence Tagged Sites
T Timina
TN verdadeiros negativos (true negatives)
TP verdadeiros positivos (true positives)
tRNA RNA transportador
U Uracil
V G C A
W A T
xi
WAM Weight Array Model
WE Éxons errados (Wrong éxons)
WMM Método de matriz de pesos (Weight Matrix Model)
WWAM Windowed second order Weight Array Model
Y T C (pirimidinas)
xii
Índice de Figuras
Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001).........................................4
Figura 2.1 - Crescimento do GenBank................................................................................19
Figura 3.1 Exemplo de duas variáveis a qual uma função quadrática separa os dois
grupos ..........................................................................................................................38
Figura 3.2 – Modelo do Genie.............................................................................................40
Figura 3.3 – Modelo do GenScan........................................................................................43
Figura 3.4 – Rede Neural do GeneParser............................................................................50
Figura 3.5 – Árvore de decisão para classificação de seqüências como éxons internos.....53
Figura 3.6 – Modelo Oculto de Markov do GeneMark.hmm..............................................56
Figura 3.7 – Técnica de Combinação de programas utilizando o método AND.................57
Figura 3.8 – Técnica de Combinação de programas utilizando o método OR....................58
Figura 3.9 – Técnica de Combinação de programas utilizando o método HIGHEST ........59
Figura 3.10 – Técnica de Combinação de programas utilizando o método RULE.............60
Figura 3.11 – Static Naive Bayes.........................................................................................62
Figura 3.12 – Static Full Bayes ...........................................................................................63
Figura 4.1 Tabela de contigência que representa o relacionamento entre os
nucleotídeos codificados preditos e reais ....................................................................68
Figura 4.2 – Exemplo das medidas em nível de nucleotídeos.............................................69
Figura 4.3 – Exemplo das medidas em nível de éxons........................................................71
Figura 5.1 – Funcionamento da ferramenta auxiliar para predição de genes ExonBR .......75
Figura 5.2 – Modelo de gene...............................................................................................76
Figura 5.3 – Exemplo da criação das janelas ......................................................................78
Figura 5.4 – Seleção dos hexâmeros numa seqüência.........................................................80
Figura 5.5 – Exemplo de codificação de entrada na rede neural.........................................82
Figura 5.6 – Exemplo de redes backpropagation testadas para regiões codificadoras.......83
Figura 5.7 Exemplo de redes backpropagation testadas para regiões codificadoras
com informação de G+C .............................................................................................84
Figura 6.1 Variação da taxa de erro em relação a quantidade de seqüências na entrada
em redes neurais para éxons internos..........................................................................91
Figura 6.2 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation para 48 bp e 21 neurônios na camada escondida.................91
xiii
Figura 6.3 Gráfico comparativo da taxa de erro em nível de éxons em relação a rede
com e sem informação de G+C ...................................................................................93
Figura 6.4 – Gráfico comparativo das taxa de erro em relação a quantidade de neurônios
na camada escondida para rede neural de éxons internos ...........................................94
Figura 6.5 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation de 48 bp com 17 neurônios na camada escondida para
éxons internos..............................................................................................................95
Figura 6.6 Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons internos...........................................................................................97
Figura 6.7 Variação da taxa de erro em relação a quantidade de seqüências na entrada
para as redes neurais de éxons iniciais......................................................................100
Figura 6.8 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation de 40 bp para éxons iniciais...............................................100
Figura 6.9 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas das
redes neurais para éxon iniciais com e sem informação de G+C..............................101
Figura 6.10 Gráfico comparativo das taxa de erro em relação a quantidade de
neurônios na camada escondida da rede neural para éxons iniciais..........................103
Figura 6.11 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation de 40 bp com 3 neurônios na camada escondida para
éxons iniciais .............................................................................................................103
Figura 6.12 Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons iniciais ..........................................................................................105
Figura 6.13 – Variação da taxa de erro em relação à quantidade de seqüências na
entrada da rede neural para éxons terminais..............................................................107
Figura 6.14 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation para éxons terminais com 37 bp e 15 neurônios na camada
escondida...................................................................................................................108
Figura 6.15 Gráfico comparativo da taxa de erro em relação a quantidade de épocas
das redes neurais para éxon terminais com e sem informação de G+C ....................109
Figura 6.16 Gráfico comparativo das taxa de erro em relação à quantidade de
neurônios na camada escondida da rede neural para éxons terminais.......................111
Figura 6.17 Variação da taxa de erro em relação à quantidade de épocas para rede
neural Backpropagation de 37 bp com 2 neurônios na camada escondida para
éxons terminais..........................................................................................................111
xiv
Figura 6.18 Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons terminais.......................................................................................113
Figura 6.19 – Gráfico comparativo de desempenho para Drosophila melanogaster........117
Figura 6.20 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation de 55 bp com 12 neurônios na camada escondida para
HMR 195...................................................................................................................119
Figura 6.21 – Gráfico comparativo de desempenho para o HMR195...............................119
Figura 6.22 Variação da taxa de erro em relação à quantidade de épocas para rede
neural Backpropagation de 54 bp com 9 neurônios na camada escondida para
Arabidopsis thaliana .................................................................................................121
Figura 6.23 – Gráfico comparativo de desempenho para a Arabidopsis thaliana ............121
Figura 6.24 Variação da taxa de erro em relação a quantidade de épocas para rede
neural Backpropagation de 54 bp com 20 neurônios na camada escondida para
Oryza sativa...............................................................................................................123
Figura 6.25 – Gráfico comparativo de desempenho para Oryza sativa (arroz).................123
Figura 7.1 – Tela principal da ferramenta ExonBR...........................................................125
Figura 7.2 – Tela do modo teste da ferramenta ExonBR ..................................................126
Figura 7.3 – Tela do treinamento da rede neural da ferramenta ExonBR.........................126
Figura 7.4 – Diagrama do contexto do sistema ExonBR ..................................................127
Figura 7.5 – Diagrama de Fluxo de Dados (DFD) do sistema ExonBR ...........................128
Figura 7.6 – Diagrama de Transição de Estados (DTE) do sistema ExonBR...................129
xv
Índice de Tabelas
Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados ... 11
Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniPro .. 13
Tabela 2.3 Caracteres definidos pela International Union of Pure and Applied
Chemistry (IUPAC)................................................................................................ 15
Tabela 2.4 – Divisões do GenBank................................................................................ 22
Tabela 5.1 – Exemplo de quantidade de hexâmeros por posição normalizada.............. 80
Tabela 6.1 – Resultados dos testes com a quantidade de hexâmeros para a rede neural de
éxon interno............................................................................................................ 90
Tabela 6.2 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon interno ....................................................................................................... 92
Tabela 6.3 - Resultados dos testes com tamanho da camada escondida da rede neural de
éxon interno............................................................................................................ 94
Tabela 6.4 - Resultados dos testes da influência do valor de saída na rede neural de éxon
interno..................................................................................................................... 96
Tabela 6.5 Importância da rede neural na descoberta de regiões codificadora para
éxons internos......................................................................................................... 98
Tabela 6.6 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de
éxon iniciais............................................................................................................ 99
Tabela 6.7 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon iniciais..................................................................................................... 101
Tabela 6.8 - Resultados dos testes com tamanho da camada escondida da rede neural de
éxon iniciais.......................................................................................................... 102
Tabela 6.9 - Resultados dos testes da influência do valor de saída na rede neural de éxon
iniciais................................................................................................................... 104
Tabela 6.10 Importância da rede neural na descoberta de regiões codificadora para
éxons iniciais ........................................................................................................ 106
Tabela 6.11 - Resultados dos testes com a quantidade de hexâmeros para a rede neural
de éxon terminal ................................................................................................... 107
Tabela 6.12 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon terminais.................................................................................................. 109
Tabela 6.13 - Resultados dos testes com tamanho da camada escondida da rede neural
de éxon terminais.................................................................................................. 110
xvi
Tabela 6.14 - Resultados dos testes da influência do valor de saída na rede neural de
éxon terminais ...................................................................................................... 112
Tabela 6.15 Importância da rede neural na descoberta de regiões codificadora para
éxons terminais..................................................................................................... 114
Tabela 6.16 Resultados da combinação dos modelos de éxons para Drosophila
melanogaster ........................................................................................................ 115
Tabela 6.17 Tabela com os resultados comparativos dos testes realizados com outras
ferramentas ........................................................................................................... 116
Tabela 6.18 Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para o HMR 195.............................................................................. 118
Tabela 6.19 Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para Arabidopsis thaliana ............................................................... 120
Tabela 6.20 Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para Oryza sativa............................................................................. 122
1
1 Introdução
1.1 Objetivos
A conclusão de vários projetos de seqüenciamento, principalmente o do genoma
humano no início de 2003, proporciona um volume considerável de dados,
aparentemente sem sentido algum, que precisa ser processado adequadamente de forma
a se obter informações genéticas úteis a seu respeito. Este processamento inclui várias
fases. A primeira delas corresponde a uma análise das seqüências de DNA (ácido
desoxirribonucléico) no intuito de reconhecer as diversas regiões componentes desta
molécula. Dentre estas regiões, as mais importantes para o processo de síntese de
proteínas pelas células são conhecidas como genes, surgindo, então, o problema de
identificação de genes.
Segundo Fickett e Tung (1992), o processo de identificação de genes consiste no
desenvolvimento de um algoritmo que receba como entrada uma seqüência de DNA e
produza como saída uma tabela contendo a localização e a estrutura de todos os genes
presentes nessa seqüência. Hoje, as estruturas mais estudadas deste processo são as
regiões codificadoras, conhecidas como éxons, e as não codificadoras, conhecidas como
íntrons.
A primeira ferramenta, realmente utilizada pelos biólogos, que propôs esta
predição para genes eucariotos
1
foi o GRAIL (UBERBACHER & MURAL, 1991;
MURAL et al., 1992). A partir deste estudo diversos sistemas e problemas foram
identificados. Devido à complexidade deste problema, várias técnicas (descritas no
Capítulo 3) são empregadas para solucioná-lo.
Alguns problemas persistem, ainda hoje, para a completa solução da predição de
genes de eucariotos:
Dificuldade na predição das estruturas em genes muito pequenos ou
muito grandes;
Taxa de erro elevada na descoberta de estruturas em seqüências que
envolvam múltiplos genes;
Problemas para detecção de regiões diferentes das codificadoras (por
exemplo: poli A, promotor e sítios de splice);
1
Existem fundamentalmente duas classes de células: as procarióticas, cujo material genético apresenta-se
disperso no citoplasma e as eucarióticas, com um núcleo bem individualizado e delimitado pelo
envoltório nuclear.
2
Os métodos são específicos para um organismo;
Taxa de acerto baixa para a localização exata das estruturas.
Este trabalho visa melhorar o desempenho da predição para alguns destes
problemas, sendo seu principal objetivo criar uma ferramenta auxiliar para identificação
das regiões codificadoras em organismos eucariotos. Foi confeccionado para tal um
sistema amigável que permitirá a busca destas regiões.
As principais inovações propostas neste trabalho são a utilização da técnica de
redes neurais com entradas baseadas nas probabilidades dos hexâmeros
2
(matriz peso-
posição modificada) para detecção de regiões codificadoras e a disponibilização,para o
biólogo, de uma ferramenta adaptável a qualquer organismo.
Esta ferramenta, denominada ExonBR, traz como contribuição a possibilidade
do usuário criar bases de dados para qualquer organismo, além da técnica citada
anteriormente.
1.2 Conceitos Básicos de Bioquímica
Existem fundamentalmente duas classes de células: as procarióticas, cujo material
genético não está separado do citoplasma por uma membrana e as eucarióticas, com um
núcleo bem individualizado e delimitado pelo envoltório nuclear. Este trabalho tem
como objetivo descobrir regiões codificadoras em genes eucariotos.
O gene é uma unidade hereditária que consiste numa seqüência particular de bases
no DNA e que especifica a produção de certa proteína (por exemplo, uma enzima), uma
cadeia polipeptídica, um tRNA ou um rRNA. Eles têm diferentes tamanhos e estão
situados numa determinada região, denominada lócus.
O DNA (ácido desoxirribonucléico) é o principal armazenador da mensagem
genética. Em 1953, Watson e Crick, idealizaram um modelo capaz de explicar as
propriedades do DNA. Este modelo representa a molécula de DNA por um filamento
duplo formado por muitos nucleotídeos. No DNA as bases nitrogenadas
3
são a timina
(T), a citosina (C); a adenina (A) e a guanina(G).
Para se entender a estrutura dos genes eucarióticos, é importante descrever como
ocorre o processo de síntese de proteínas pelas células destes organismos.
2
Conjunto de 6 nucleotídeos.
3
Os ácidos nucléicos são moléculas formadas pelo encadeamento de um grande número de unidades
chamadas nucleotídeos. Cada nucleotídeo é formado por três tipos de substâncias químicas: um composto
cíclico de nitrogênio (base nitrogenada), um açúcar de cinco carbonos (pentose) e um radical de ácido
fosfórico(fosfato).
3
A síntese de uma proteína se inicia com um processo chamado de transcrição. A
transcrição é a transferência da mensagem genética do DNA para o ácido ribonucléico
mensageiro (mRNA). Esta transferência ocorre quando um filamento de DNA se afasta
de seu complementar, expondo suas bases, onde se encaixam os nucleotídeos de RNA.
Denomina-se promotor a seqüência de nucleotídeos no DNA que interage com a RNA
polimerase
4
, iniciando a transcrição.
O próximo passo da síntese da proteína é denominado tradução. Traduzir a
mensagem genética consiste em passar o código, que está na forma de uma seqüência de
bases de RNA, para uma seqüência de aminoácidos de uma proteína. O mecanismo de
tradução é o seguinte: Um grupo de três bases consecutivas do mRNA é o código
correspondente a um aminoácido. Essas trincas de bases são chamadas códons
5
.
A tradução da seqüência de bases do mRNA para a proteína é feita no
ribossomo
6
. A seqüência de códons do mensageiro determina a seqüência de
aminoácidos que formarão a proteína. À medida que os ribossomos deslizam pelo RNA
mensageiro, os aminoácidos vão-se unindo e formando uma molécula de proteína.
Observou-se que os genes são interrompidos por inserções de regiões de DNA
não codificadoras. Estas seqüências de DNA, que não são encontradas no mRNA
maduro, são denominadas seqüências intercaladas ou íntrons, entretanto, nem todos
os genes eucarióticos possuem íntrons
7
. As partes da seqüência de DNA que codificam
uma proteína são chamadas de éxons. Existem quatro (4) tipos de éxons:
Éxons iniciais
Primeiro éxon que aparece num gene.
Éxons terminais
Último éxon que aparece num gene.
Éxons internos
Éxons que ficam entre o éxons iniciais e terminais.
Éxons simples
Gene composto somente de um éxon.
4
Enzima que sintetiza uma molécula de RNA a partir do DNA
5
Existem 64 possíveis códons. Sessenta e um códons correspondem a aminoácidos e três representam
sinais para a terminação das cadeias polipeptídicas (códons STOP).
6
O ribossomo é uma organela presente na célula cujos principais constituintes são o ácido ribonucléico
(RNA) e as proteínas
7
Organismos procariotos não possuem íntrons
4
A modificação do pré-mRNA com íntrons para o mRNA maduro é denominado
splicing e ocorre dentro do núcleo. Todo o processo de transformação é ilustrado na
Figura 1.1.
Portanto, dentro dos genes estão codificadas todas as informações genéticas de
um dado indivíduo, tornando o reconhecimento destas estruturas um passo importante
para a compreensão de todo o maquinário envolvido com o processo de síntese de
proteínas pelas células, entendimento este de inquestionável importância prática.
DNA
Éxon 1 Íntron 1 Éxon 2 Íntron 2 Éxon 3 Éxon 4Íntron 3
Promotor
Transcrição
RNA
5'
3'
Cap 5' Poli-A
GU AG GU AG GU AG
Sítio de
Splice
Doador
Sítio de
Splice
Aceptor
Splicing
mRNA
Códon
Terminal
Códon
Inicial
Cap 5' Poli-A
Tradução
Proteína
Figura 1.1 – Síntese de proteínas (Baxevanis & Ouellette, 2001)
1.3 Composição do Trabalho
Além do capítulo introdutório com os objetivos da pesquisa e conceitos básicos de
bioquímica, esta proposta conta com outros oito (8) capítulos, divididos conforme se
segue:
Capítulo 2 Este capítulo visa apresentar os principais bancos de dados em
biologia molecular (BDBM), as características destes e o formato do GenBank, o
principal BDBM existente.
Capítulo 3 –Descreve as principais ferramentas de predição de genes, além das
técnicas de combinação de ferramentas, que estão sendo utilizadas atualmente para
genes eucariotos.
5
Capítulo 4 –Descreve as medidas de exatidão utilizadas para verificar a eficácia
das ferramentas de busca de genes.
Capítulo 5 Apresenta a metodologia que será empregada para o
desenvolvimento da ferramenta auxiliar para busca de genes.
Capítulo 6 – Descreve os testes e as discussões sobre a técnica proposta.
Capítulo 7 – Apresenta a ferramenta desenvolvida no trabalho.
Capítulo 8 – Apresenta a conclusão e sugestões de trabalhos futuros.
6
2 Banco de Dados em Biologia Molecular (BDBM)
2.1 Introdução
Os bancos de dados em biologia molecular (BDBM) são importantes,
principalmente, para proporcionar uma forma de tornar os dados produzidos em todo o
mundo acessíveis de maneira mais fácil, rápida e inteligente.
A primeira base de dados de biologia molecular surgiu por volta de 1960, quando
Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de
proteínas conhecidas até então. Essas seqüências foram publicadas num livro chamado
“Atlas of Protein Sequences and Structure”, de 1965. O conteúdo dessa base de dados
não ultrapassaria 1 Mb, se transferido para computadores modernos.
Com o advento do seqüenciamento do DNA e, principalmente, a partir do
seqüenciamento em larga escala (década de 90), foi necessária a construção de bancos
de dados mais robustos para abrigar a explosão no número de seqüências obtidas pelos
pesquisadores. O National Center for Biotechnology Information (NCBI), que controla
o maior banco de dados de biologia molecular, foi criado pelo National Institute of
Health (NIH) em 1988 para abrigar esse tipo de informação.
Dessa forma, foi criada uma colaboração internacional para montar um banco de
dados de seqüências de nucleotídeos, a International Nucleotide Sequence Database
Colaboration (INSDC). Essa instituição contém o NCBI, o European Molecular Biology
Laboratory (EMBL) e o DNA Data Bank of Japan (DDJB). Cada um desses centros
possibilita a submissão individual de seqüências de DNA e trocam informações entre si
diariamente, sendo que os três possuem informações atualizadas de todas as seqüências
disponíveis para os pesquisadores. Apesar disso, cada centro apresenta os dados num
formato particular.
Existem muitas outras bases além das que participam do INSDC e, hoje, é difícil
estimar o número de BDBM’s existentes. Atualmente, não existem os bancos de
dados de seqüências de nucleotídeos (DNA) e de aminoácidos (proteínas), mas também
inúmeros outros com informações bem específicas, como organismos especiais,
biosseqüências específicas (ex.: tRNA e rRNA), enzimas, mutações, famílias de
biosseqüências (filogenia), entre outros. Além disso, existem bancos que guardam
estruturas tridimensionais das biosseqüências.
É possível destacar os seguintes BDBM’s como os maiores atualmente:
GenBank Sequence Database
7
EMBL Nucleotide Sequence Database
Genome Sequence Database (GSDB)
Genome Database (GDB)
UniProt – Universal Protein Resource
A. Caenorhabditis elegans DataBase (ACeDB).
Nestes bancos de dados estão armazenadas anotações relevantes, além das
próprias biosseqüências.
Este capítulo visa apresentar os principais BDBM’s, as características destes
bancos e o formato do GenBank.
2.2 Os Principais Bancos de Dados de Biologia Molecular
Existem diversas organizações que armazenam BDBM na Internet. A seguir,
estão listadas algumas das mais importantes:
GenBank Sequence Database (BENSON et al., 2006)
Organização responsável: National Center for Biotechnology Information (NCBI)
at the National Library of Medicine (NLM), National Institutes of Health (NIH)
Informações principais: Seqüências de nucleotídeos
URL: http://www.ncbi.nlm.nih.gov/
EMBL Nucleotide Sequence Database (COCHRANE et al., 2006)
Organização responsável: EMBL OutStation - The European Bioinformatics
Institute
Informações principais: Seqüências de nucleotídeos
URL: http://www.ebi.ac.uk/
Genome Database (GDB) (LETOVSKY et al., 1998)
Organização responsável: U.S Department of Energy, com apoio adicional de U.S.
National Institutes of Health, Japanese Science and Technology Agency, the British
Medical Research Council, INSERM of France, e European Union.
Informações principais: Seqüências de nucleotídeos
URL: http://www.gdb.org/
8
UniProt - Universal Protein Resource (WU et al.,2006)
Organização responsável: The European Bioinformatics Institute (EBI), Swiss
Institute of Bioinformatics (SIB) e Georgetown University
Informações principais: Seqüências de aminoácidos
URL: http://www.uniprot.org
Protein Data Bank (PDB) (BERMAN et al., 2002)
Organização responsável: Federal Government Agency
Informações principais: Estruturas das proteínas
URL: http://www.rcsb.org/pdb
WormBase (CHEN et al., 2005)
Organização responsável: NIH National Center for Research Resources
Informações principais: C. elegans, Human Chromosome 21, Human
Chromosome X, Drosophila melanogaster, Mycobacteria, Arabidopsis, soybeans,
rice, maize, grains, forest trees, Solanaceae, Aspergillus nidulans, Bos taurus,
Gossypium hirsutum, Neurospora crassa, Saccharomyces cerevisiae,
Schizosaccharomyces pombe, and Sorghum bicolor.
URL: http://www.wormbase.org/
TIGR (LEE et al., 2005)
Organização responsável: The Institute for Genomic Research (TIGR)
Informações principais: Seqüências de nucleotídeos
URL: http://www.tigr.org
FlyBase (GRUMBLING et al., 2006)
Organização responsável: U.S. National Institutes of Health e British Medical
Research Council.
Informações principais: Drosophila
URL: http://flybase.bio.indiana.edu/
Eukariotic Promoter Database (EPD) (SCHMID et al., 2006)
Organização responsável: ISREC em Epalinges s/Lausanne (Switzerland)
Informações principais: Eukariotic promoter
URL: http://www.epd.isb-sib.ch
9
DNA Data Bank of Japan (DDBJ) (OKUBO et al., 2006)
Organização responsável: Center for Information Biology, National Institute of
Genetics, Yata, Mishima, Japan
Informações principais: Seqüências de Nucleotídeos.
URL: http://www.ddbj.nig.ac.jp
PROSITE (HULO et al., 2006)
Organização responsável: Swiss Institute of Bioinformatics (SIB)
Informações principais: Sítios funcionais de proteínas
URL: http://ca.expasy.org/prosite/
Mitomap (BRANDON et al., 1998)
Organização responsável: Emory University, Atlanta
Informações principais: Genoma da mitocôndria humana
URL: http://www.mitomap.org
ENZYME (BAIROCH, 2000a)
Organização responsável: Swiss Institute of Bioinformatics (SIB)
Informações principais: Nomenclatura de enzimas
URL: http://www.expasy.ch/enzyme/
BLOCKS (HENIKOFF et al., 1999)
Organização responsável: Fred Hutchinson Cancer Research Center in Seattle,
Washington, USA
Informações principais: Sistema para classificação de proteínas
URL: http://blocks.fhcrc.org/
HIV Sequence Database, Los Alamos
Organização responsável: University of California
Informações principais: Banco de dados de seqüências do HIV
URL: http://hiv-web.lanl.gov/
Mouse Genome Database (BLAKE et al., 2006)
Organização responsável: National Human Genome Research Institute
Informações principais: Genoma do Rato
URL: http://www.informatics.jax.org
10
Stanford Microarray Database (SHERLOCK et al., 2001)
Organização responsável: Stanford University
Informações principais: Banco de dados de Microarray
8
URL: http://genome-www5.stanford.edu/
2.3 Características de BDBMs
2.3.1 Volume de Dados
O volume de dados é um ponto importante na análise de BDBM. Este vem
aumentando rapidamente com o passar do tempo devido ao avanço tecnológico e do
grande interesse no genoma. Hoje o GenBank armazena algo em torno de 77 bilhões de
bases, sendo a espécie humana a mais seqüenciada (Tabela 2.1).
Esta quantidade de dados se origina do comprimento do genoma de uma espécie,
que é consideravelmente grande e, ainda, da necessidade de armazenar genomas de
vários seres e muitas informações relacionadas a eles.
2.3.2 Consistência da Informação
Quanto à consistência das informações armazenadas, pode-se dividir os BDBM’s
em dois tipos:
Os bancos de dados primários: Apresentam resultados de dados experimentais
que são publicados com alguma interpretação, nos quais não uma análise
cuidadosa desses dados com relação aos outros publicados anteriormente.
Esse é o caso, por exemplo, do GenBank, EMBL e PDB.
Os bancos de dados secundários: São aqueles nos quais uma compilação e
interpretação dos dados de entrada de forma que podem ser obtidos dados
mais representativos e interessantes. Esses são os bancos de dados curados,
como o UniProt.
Normalmente, as bases de dados secundárias são menores que as primárias
devido a demora na compilação e interpretação dos dados, porém seus dados são menos
sujeitos a erros (a taxa de erro de um banco de dados primário é estimada em 1 a cada
10.000 bases (BAXEVANIS & OUELLETTE, 2001)).
8
DNA que foi colocado num chip com uma ordem de pontos microscópicos, cada um representa um
gene. mRNA que codifica para proteínas conhecidas é adicionado e cruzará com o DNA complementar
no chip. O resultado será um sinal fluorescente que indica que o gene específico foi ativado.
11
Espécie Tamanho genoma
haplóide
Bases Entradas
Homo sapiens 3.310.000.000
12.649.896.894
11.103.627
Mus musculus (rato) 3.300.000.000
8.191.906.517
6.900.531
Rattus norvegicus (ratazana) 2.900.000.000
5.748.815.391
1.268.979
Bos taurus (boi) 3.600.000.000
3.693.385.829
1.856.645
Zea mays (milho) 5.000.000.000
3.315.419.379
2.837.151
Danio rerio (peixe zebra) 1.900.000.000
2.746.510.155
1.550.369
Oryza sativa (arroz) 400.000.000
1.514.103.647
1.170.719
Sus scrofa ND
1.424.141.849
1.286.174
Strongylocentrotus purpuratus ND
1.352.195.825
1.401.024
Xenopus tropicalis ND
1.125.373.076
1.174.272
Pan troglodytes (chimpanzé) ND
934.298.402
211.999
Drosophila melanogaster
(mosca de fruta)
180.000.000
889.539.202
719.188
Arabidopsis thaliana (um
vegetal)
125.000.000
879.228.118
1.949.245
Gallus gallus (galinha) ND
855.887.010
802.323
Vitis vinifera ND
810.255.328
497.528
Macaca mulatta (macaco
Rhesus)
ND
688.075.766
75.710
Canislupus familiaris ND
685.124.541
1.220.121
Sorghum bicolor ND
657.600.968
1.006.205
Triticum aestivum (trigo) ND
647.624.511
1.101.600
Medicago truncatula (um tipo
de leguminosa)
ND
514.485.883
401.462
Tabela 2.1- O número de bases no GenBank dos 20 organismos mais seqüenciados
(Junho/2007)
2.3.3 Informações Armazenadas
Os bancos de dados aplicados à biologia molecular podem ser classificados de
acordo com as informações biológicas que armazenam (ASHBURNER et al., 1997),
que são, principalmente, de:
seqüências de nucleotídeos e suas anotações;
seqüências de proteínas e suas anotações;
proteínas e informações sobre as respectivas funções;
estruturas secundárias ou terciárias das moléculas de proteínas;
taxonomia (classificações dos organismos vivos);
bibliografia na área de biologia molecular (artigos, jornais, periódicos, etc.).
12
Seqüências de nucleotídeos (SEIBEL et al., 2000)
Os bancos de seqüências de nucleotídeos armazenam a seqüência de
nucleotídeos e anotações contendo dados de características biológicas relevantes sobre
elas, que são, normalmente:
organismo a que pertence;
sítios das seqüências que codificam moléculas de proteínas;
função;
fenótipo (características aparentes);
links para outros bancos de dados contendo informações biológicas sobre a
seqüência.
Embora exista um controle sobre erros comuns detectados na submissão de
seqüências ao banco, a qualidade da informação é do pesquisador que submeteu a
seqüência. Os laboratórios que submetem seqüências ao banco têm diferentes critérios
sobre a qualidade da seqüência que está sendo enviada. Assim, redundâncias e
inconsistências são inevitáveis. Os bancos de dados de nucleotídeos são, portanto,
considerados primários, apresentando diversos erros.
As seqüências existentes nestes bancos podem estar incompletas, contaminadas
e com erros oriundos do próprio seqüenciamento. Alguns administradores destes bancos
estão tentando resolver o problema de redundância, apesar da dificuldade de inferir que
uma seqüência é origem de outra.
Os principais bancos de dados genéricos que armazenam seqüências de
nucleotídeos são aqueles que compõem o INSDC. Estes bancos armazenam também
informações sobre partes das seqüências que codificam moléculas de proteínas ou de
RNA, além de anotações que contêm outras informações biológicas relevantes.
Além destes, outros bancos de dados específicos de um certo organismo também
armazenam informações sobre seqüências, como por exemplo o ACeDB e toda a
família de bancos de dados que é baseada na sua arquitetura.
Outros bancos de dados especializados (em determinadas células ou
componentes, em mutações, em funções gênicas, entre outros) também armazenam
informações de seqüências, como por exemplo o Mitomap.
13
Seqüências de proteínas
Os bancos de dados de seqüências de proteínas armazenam a seqüência e
informações sobre a função da proteína no organismo. Estes bancos de dados têm
também como característica a redundância e inconsistência das informações sobre as
seqüências armazenadas.
O principal banco de seqüências de proteínas é o UniProt . Existe maior cuidado
com a qualidade da informação que é incluída neste banco, seu conteúdo é não
redundante e inclui extensas anotações sobre as seqüências (banco de dados
secundário). No entanto, este cuidado exige um intervalo de tempo entre a inclusão de
uma seqüência nos bancos de nucleotídeos e sua correspondente tradução para o
UniProt. Alguns bancos de nucleotídeos também armazenam seqüências de proteínas,
como o Genbank.
Espécie Seqüências
Homo sapiens 16.602
Mus musculus 13.316
Saccharomyces cerevisiae 6.163
Rattus norvegicus 6.199
Arabidopsis thaliana 5.706
Escherichia coli 4.930
Bos taurus 4.025
Schizosaccharomyces pombe 3.188
Caenorhabditis elegans 3.032
Bacillus subtilis 2.835
Tabela 2.2 - Número de seqüências dos 10 mais abundantes organismos no UniProt
(Maio/2007)
Proteínas
Os bancos de dados de proteínas são especializados. O banco ENZYME, por
exemplo, armazena informações sobre a nomenclatura das enzimas. O banco PROSITE,
por sua vez, armazena tios funcionais das proteínas. Existem outros bancos de dados
de grupamentos de proteínas segundo diferentes critérios/algoritmos, como por exemplo
o banco BLOCKS.
Os bancos de dados de seqüências de proteínas contêm links para as bases de
dados de proteínas, que têm anotações mais completas sobre cada uma.
14
Estruturas de proteínas
Estes bancos de dados armazenam as estruturas secundárias e/ou terciárias das
proteínas. O principal banco de estruturas é o PDB, que armazena informações
estruturais das moléculas de proteínas. Não existe uma grande quantidade de
informações de estruturas armazenadas nesses bancos de dados, devido ao difícil
processo de obtenção de dados, feito via cristalografia ou ressonância magnética
nuclear.
Taxonomia (SEIBEL et al., 2000)
Os bancos de dados de taxonomia são bastante discutidos, uma vez que não
existe consenso entre os especialistas sobre as classificações ali contidas. Os exemplos
destes bancos de dados são: Species 2000, International Organization for Plant
Information, Integrated Taxonomic Information System, The Tree of Life Project, entre
outros. Cabe ressaltar que o GenBank mantém informações de taxonomia, que são
definidas e mantidas por um grupo de especialistas independente.
Publicações (SEIBEL et al., 2000)
Os bancos de dados de publicações armazenam informações sobre a literatura
científica de diversas áreas. Na área da biologia molecular, o mais importante
repositório de tais informações é o MEDLINE, agora denominado PUBMED, que pode
ser acessado via NCBI, através de uma interface denominada Entrez. O correspondente
ao MEDLINE para a área agrícola é o AGRICOLA.
2.3.4 Formatos dos Bancos de Dados
Outra característica dos BDBM’s é a variedade de formatos de armazenamento
das informações. Não existe ainda um formato padrão para estas bases de dados,
portanto, cada centro segue seu próprio formato ou em alguns casos utilizam banco de
dados comerciais para este fim, por exemplo, o GSDB (Sybase).
Além do formato de armazenamento dos dados nas bases públicas, muitos dos
aplicativos utilizados em biologia molecular têm formato próprio.
15
Os principais formatos encontrados são:
Seqüências em formato plano
As seqüências armazenadas neste formato contém apenas caracteres IUPAC
(Tabela 2.3) e espaços. Um arquivo no formato plano pode conter apenas
uma seqüência.
Um exemplo de uma seqüência armazenada no formato plano é demonstrada
a seguir:
AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC
TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC
CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT
TTCAACAATGGATCTCTTGGTTCCGGC
Caractere Descrição
A Adenina
C Citosina
G Guanina
T Timina
U Uracil
R G A (purinas)
Y T C (pirimidinas)
K G T (keto)
M A C (amino)
S G C
W A T
B G T C
D G A T
H A C T
V G C A
N A G C T (qualquer)
Tabela 2.3 – Caracteres definidos pela International Union of Pure and Applied
Chemistry (IUPAC)
EMBL
Um arquivo de seqüências no formato EMBL (utilizado no banco de dados
EMBL) pode armazenar várias seqüências.
16
A entrada de uma seqüência começa com um identificador de linha (“ID”),
seguido por anotações sobre esta seqüência. O início de uma seqüência é
delimitado pelo marcador “SQ” e o final por duas barras (“//”). A seguir,
observa-se um exemplo deste formato:
ID AA03518 standard; DNA; FUN; 237 BP.
XX
AC U03518;
XX
DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
DE rRNA and 5.8S rRNA genes, partial sequence.
XX
SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;
aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 60
tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 120
ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 180
tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc 237
//
FASTA
Um arquivo de seqüências no formato FASTA pode conter mais de uma
seqüência.
Uma seqüência neste formato começa com uma linha com a descrição,
seguida por rias linhas com seqüência de dados. A linha de descrição deve
começar com o caractere maior que (“>”) na primeira coluna. Normalmente,
o número de seqüências por linha neste arquivo é de 60 (sessenta). Exemplo
do formato FASTA:
> seq1 This is the description of my first sequence.
AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA
CGACGTAGATGCTAGCTGACTCGATGC
> seq2 This is the description of my second sequence.
AGTACGTAGTAGCTGCTGCTACGTGCGCTAGCTAGTACGTCA
CGACGTAGATGCTAGCTGACTCGATGC
Este formato é utilizado pelos aplicativos da família FAST.
Genetics Computer Group (GCG)
Um arquivo de seqüências no formato GCG (utilizado pelo pacote de
anotação GCG) contém apenas uma seqüência, começando com linhas de
anotações. O início da seqüência é marcado por uma linha terminada com
dois pontos (“..”). Esta linha também contém um identificador da seqüência,
o tamanho da seqüência e um checksum.
17
Exemplo de formato GCG:
ID AA03518 standard; DNA; FUN; 237 BP.
XX
AC U03518;
XX
DE Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
DE rRNA and 5.8S rRNA genes, partial sequence.
XX
SQ Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other;
AA03518 Length: 237 Check: 4514 ..
1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc
61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg
121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc
181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
GenBank
Um arquivo no formato GenBank pode conter várias seqüências. Uma
seqüência no formato GenBank começa com uma linha contendo a palavra
“LOCUS” e um número para a anotação. O começo da seqüência é marcado
por uma linha contendo a palavra “ORIGIN” e o fim é marcado por duas
barras (“//”). Os outros campos deste formato serão explicados na seção 2.4.
Exemplo de formato GenBank:
LOCUS AAU03518 237 bp DNA PLN 04-FEB-1995
DEFINITION Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S
rRNA and 5.8S rRNA genes, partial sequence.
ACCESSION U03518
BASE COUNT 41 a 77 c 67 g 52 t
ORIGIN
1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc
61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg
121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc
181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc
//
IntelliGenetics (IG)
Um arquivo de seqüências no formato IG (utilizado pelo pacote
multifuncional IG Suite) pode conter rias seqüências, cada uma contendo
um conjunto de linhas de comentários começando com ponto e vírgula (“;”),
uma linha com o nome da seqüência (que não pode conter espaços) e a
18
seqüência que é terminada com os caracteres 1”(linear) e “2” (seqüências
circulares). Exemplo do formato IG:
; comment
; comment
U03518
AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC
TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC
CGGAGACCCCAACACGAACACTGTCTGAAAGCGTGCAGTCTGAGTTGATTGAATGCAATCAGTTAAAACT
TTCAACAATGGATCTCTTGGTTCCGGC1
Clustal
O formato de arquivo Clustal contém a palavra “CLUSTAL” no início. Este
formato aceita a apresentação das seqüências de forma intercalada ou
seqüencial. Exemplo do formato Clustal (intercalado):
CLUSTAL W (1.74) multiple sequence alignment
seq1 -----------------------KSKERYKDENGGNYFQLREDWWDANRETVWKAITCNA
seq2 ---------------YEGLTTANGXKEYYQDKNGGNFFKLREDWWTANRETVWKAITCGA
seq3 ----KRIYKKIFKEIHSGLSTKNGVKDRYQN-DGDNYFQLREDWWTANRSTVWKALTCSD
seq4 ------------------------SQRHYKD-DGGNYFQLREDWWTANRHTVWEAITCSA
seq5 --------------------NVAALKTRYEK-DGQNFYQLREDWWTANRATIWEAITCSA
seq6 ------FSKNIX--QIEELQDEWLLEARYKD--TDNYYELREHWWTENRHTVWEALTCEA
seq7 -------------------------------------------------KELWEALTCSR
seq1 --GGGKYFRNTCDG--GQNPTETQNNCRCIG----------ATVPTYFDYVPQYLRWSDE
seq2 P-GDASYFHATCDSGDGRGGAQAPHKCRCDG---------ANVVPTYFDYVPQFLRWPEE
seq3 KLSNASYFRATC--SDGQSGAQANNYCRCNGDKPDDDKP-
NTDPPTYFDYVPQYLRWSEE
seq4 DKGNA-YFRRTCNSADGKSQSQARNQCRC---KDENGKN-ADQVPTYFDYVPQYLRWSEE
seq5 DKGNA-YFRATCNSADGKSQSQARNQCRC---KDENGXN-ADQVPTYFDYVPQYLRWSEE
seq6 P-GNAQYFRNACS----EGKTATKGKCRCISGDP----------PTYFDYVPQYLRWSEE
seq7 P-KGANYFVYKLD-----RPKFSSDRCGHNYNGDP---------LTNLDYVPQYLRWSDE
Este formato é utilizado pelos programas da família Clustal de alinhamento
múltiplo.
2.4 GenBank
O GenBank é, hoje, o maior e mais importante repositório de seqüências de
nucleotídeos, representando mais de 105.000 espécies. É usado como referência no
sentido de verificar se uma dada seqüência já está catalogada.
O histórico do volume de seqüências no GenBank demonstra que o número de
seqüências e bases armazenadas, cresce exponencialmente (Figura 2.1). Historicamente,
o GenBank dobra de tamanho a cada 18 meses, mas esta taxa vem acelerando para cada
19
14 meses, isto ocorre, principalmente, devido à grande quantidade de dados vindos de
Expressed Sequence Tags (EST’s).
Crescimento do GenBank
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
1982
1991
1994
1998
1999
2000
2002
2003
2005
2006
Pares de Bases (em milhões)
Figura 2.1 - Crescimento do GenBank
O NCBI utiliza estruturas ASN.1 (INTERNATIONAL ORGANIZATION FOR
STANDARDIZATION, 1987) para armazenar as informações no GenBank. Tais
estruturas implementam um tipo de modelo de dados semi-estruturado, bastante útil
para troca de informações com a comunidade científica. O GenBank, também, distribui
suas informações em arquivos flat-file num formato próprio (GenBank flat-file - GBFF)
e no formato FASTA. O XML, atualmente, é outro formato disponível para acesso dos
dados do GenBank (através de um aplicativo que faz a conversão ASN.1 XML).
2.4.1 Esquema
O Genbank armazena seqüências de nucleotídeos e proteínas, além de
informações biológicas importantes sobre cada seqüência, por exemplo: o nome
científico, a taxonomia do organismo de origem, e um conjunto de anotações de
relevância biológica. Um registro do GenBank é identificado pelo atributo número de
acesso. A seguir é apresentado um exemplo de registro do GenBank no formato GBFF.
Cada registro possui campos que definem a informação que está armazenada.
LOCUS AF458979 32057 bp DNA PLN 02-APR-2002
DEFINITION Saccharomyces cerevisiae strain YJM269, partial genome.
ACCESSION AF458979
VERSION AF458979.1 GI:19880933
KEYWORDS .
20
SOURCE baker's yeast.
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 32057)
AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I.,
Oefner,P.J., McCusker,J.H. and Davis,R.W.
TITLE Dissecting the architecture of a quantitative trait locus in yeast
JOURNAL Nature 416 (6878), 326-330 (2002)
MEDLINE 21904897
PUBMED 11907579
REFERENCE 2 (bases 1 to 32057)
AUTHORS Steinmetz,L.M., Sinha,H., Richards,D.R., Spiegelman,J.I.,
Oefner,P.J., McCusker,J.H. and Davis,R.W.
TITLE Direct Submission
JOURNAL Submitted (14-DEC-2001) Biochemistry, Stanford University, 789
Campus Drive West, Stanford, CA 94305, USA
FEATURES Location/Qualifiers
source 1..32057
/organism="Saccharomyces cerevisiae"
/strain="YJM269"
/db_xref="taxon:4932"
gene complement(<1..1836)
/gene="YNL095C"
/note="compared to Saccharomyces cerevisiae S288c genome"
/evidence=not_experimental
ORIGIN
1 cactccattt ggattggcgc agttgtttct ggcggcgtaa aactggcggt gaaatatata
61 agggtagtca tcgttggcaa gttccagctg attgctataa caaatagtag cattctatca
121 tcttgccaat taacccatcc agctttcact aaccgatcac accataggac accaaaaatt
181 ggcatgacac attgtctcaa aatgacgagt gtcacagcgg ctttccaaaa tccaggataa
241 aggttgccaa tctttaatct tcctaaagtt gctcctaata atatcaaccc aaatggaaca
301 catgcggcac cgacataacc tgtaaaatcc atgaaaaagc ttaatggtgg tgcattgtca
361 ggagcttggc ttatgtgagg agtattagcg gtagtcacga acaaagcctt gacccatggg
421 ataaatgcaa cagttagggc gatgatcacg gccatagagc acggtctcaa acaattcttt
481 aggaaaaaca caagtaatgg agttaatgaa aattttctca tccactgtgg taatgattcg
541 ccggatgttt caatatcctt tttacttaca gtggcatctg atgttaagat cctggttagg
601 ttagcagttt ttatagtctg taaagtggaa tttgagctaa ttgaatgcac atcattcata
661 tcagcgccgc gtaaactgga attcctcctt tgatgaccat actggtcaac gttggagtac
21
721 tctctgataa gatggtgtat attttgagaa ggtaatgcac gcatatcaat ggagcggata
781 ggttccaatg ccgccataga catatttttt gggcattttt catctaaaca gttctcttct
841 aggagtgtgg tagtattgta agctctcggc tggctcgcgg ttctacgtgc tctcatagta
901 tctatgctac tctcataact ctctgacgta ttataagaat gtattgttga agcagatgat
961 tggctatcta atggatttga accacgagtt gcctgtgact cttcgctttg agtgcacgca
1021 atagtatttc ttgccttcac ctgaactggt tttgtaatct ttgaattcga agaagtgtct
1081 ggtagtgaca ggggagctat actatttgtt gatctccttg aaattggtgg tacgtctgcg
1141 ttttcaccct ttgtacctat agcttcagtg agactatcgc gagcggtgta cttattgttg
1201 aaaagctgtt gttcgtttga gaagaaacgc tcgctagtat ctgtattagt tgtgtttgca
1261 cttactgcgg gctgtgtctt tgtcgtttct gaaaccctaa cggcgctttc atcgtcgttg
1321 tactcgaaat cgctttcaat cagtcgaaac cccccccaaa ttgaaaatgc aaattagaaa
1381 cattgtcaga aatataatga cgttagccac acctttgtta ccttcttctt ccgaaaatac
1441 aagcccttgg tccatagatt gtaaatatgc aattggtaaa tcacttatat ttggaaacat
1501 accaccggca agaataccac cgtaccattg tttaggaaca ggcaggaata gcctaacaac
1561 gtatgcaaaa aagaacccag aaccaaatat taggagggca gacagacaga taattcccac
1621 agatttgatg tctttatctt caatattagc gacaatcttg ttgaatgaca gacagggtag
1681 taaaactgtt agcacgatat cagaaataat tcttgttgct tcaaccgtaa gaattcccat
1741 tttagccatc agaaagccga ctcctataat caaataaatc ttgattatcg gcttaactga
1801 cacccatatc gcttgaccca gagtaatgtg caccatctga tgaaaatttg aggtttcaat
//
Os campos referem-se às seguintes informações biológicas: (GENBANK, 2006)
Cabeçalho
O cabeçalho é a primeira linha de um arquivo GBFF (Locus line) e contém as
seguintes informações:
Locus Name: nome curto escolhido para sugerir a definição da seqüência (só
aceita letras maiúsculas ou números e não pode ultrapassar 10 caracteres)
Tamanho da seqüência, expresso em pares de bases (bp)
Tipo da molécula. Os tipos aceitos são: DNA, RNA, tRNA, rRNA, mRNA e
uRNA.
Código da divisão: Três letras que colocam esta a seqüência num dos grupos
(divisões) do GenBank. As divisões existentes estão descritas na
Tabela 2.4.
Data que o registro se tornou público.
No exemplo anterior temos as seguintes informações:
LOCUS AF458979 32057 bp DNA PLN 02-APR-2002
Locus Name: AF458979
Tamanho da seqüência: 32057 bp
Tipo de molécula: DNA
Divisão: PLN (Seqüências de plantas, fungos ou algas)
Data do Registro: 02/04/2002
22
Tabela 2.4 – Divisões do GenBank (GENBANK, 2007)
Abreviação Divisão
PRI Seqüências de primatas
ROD Seqüências de roedores
MAM Seqüências de outros mamíferos
VRT Seqüências de outros vertebrados
INV Seqüências de invertebrados
PLN Seqüências de plantas, fungos ou algas
BCT Seqüências de bactérias
VRL Seqüências de vírus
PHG Seqüências de bacteriófagos
SYN Seqüências sintéticas
UNA Seqüências não anotadas
EST Seqüências EST
PAT Seqüências patenteadas
STS Seqüências STS (Sequence Tagged Sites)
GSS Seqüências GSS (Genome Survey Sequences)
HTG Seqüências HTGS (High Throughput Genomic
Sequences)
HTC Seqüências HTC (High Throughput cDNA
Sequences)
Definition
Nesta linha temos uma descrição concisa da informação. No caso anterior temos
o genoma parcial da Saccharomyces cerevisiae.
Accession
Número de acesso primário, um valor único e imutável atribuído para cada
seqüência.
Version line
A version line contém:
Accession.version Indica a versão do registro. Toda a vez que um registro é
modificado a versão é incrementada.
23
GI (geninfo identifier): Identificador da seqüência. Toda a vez que a
seqüência é modificada este número muda.
Keywords
Palavras-chave associadas ao gene ou a outras informações sobre o registro.
Segment
Informações sobre a ordem em que este registro aparece na série de seqüências
descontínuas de uma mesma molécula.
O campo Source
Este campo consiste de duas partes:
A primeira parte encontra-se depois do rótulo Source e contém o nome do
organismo onde a seqüência foi encontrada.
A segunda parte consiste de informações encontradas depois do rótulo
Organism. Ela possui o nome científico formal do organismo (gênero e
espécie, conforme catalogado) seguido por sua taxonomia.
Reference
Citações a todos os artigos que contêm dados sobre este registro. Ele é composto
pelo número da referência e o local das bases na seqüência citada e por mais
cinco partes:
Authors: lista os autores na ordem em que eles aparecem no artigo citado.
Title: título da publicação.
Journal: citação da literatura para o registro da seqüência. A palavra
´Unpublished´ aparecerá depois do rótulo secundário Journal se os dados
não aparecerem na literatura científica, mas foram diretamente depositados
no banco de dados. Para as seqüências publicadas a linha Journal contém a
tese, a revista, ou o livro, incluindo o ano de publicação.
Medline: identificador único da National Library of Medicine's Medline para
a citação (se conhecida).
Remark: comentário que especifica a relevância da citação do registro.
Comment
Referências para outras seqüências, comparações com outras coleções, anotações
de modificações no nome do Locus e outras observações.
Features
24
Tabela que contém características encontradas em determinados sítios da
seqüência. No endereço http://www.ncbi.nlm.nih.gov/collab/FT/index.html pode
ser encontrada a lista de características aceitas.
No exemplo anterior, temos as características (features) genee source”. A
característica source é a única obrigatória em todos os registros do GenBank, e
define a origem dos dados. A característica gene indica onde se encontra um
gene e como ele foi encontrado.
Base Count
Sumário do número de ocorrências de cada código base na seqüência.
Origin
O campo origin pode estar em branco ou pode especificar como a primeira base
da seqüência relatada está localizada dentro do genoma.
Após este campo são informadas as seqüências na direção 5’ 3’, tendo cada linha
60 bases, divididas em grupos de 10 bases.
2.4.2 Outras informações armazenadas
O Genbank armazena diversas informações além das seqüências de nucleotídeos,
tais como:
representação de seqüências de proteínas, a partir das de nucleotídeos que estão
armazenadas no banco.
dados de genes, observados nas seqüências, que estão armazenados na divisão
EST (Expressed Sequence Tags).
informações biológicas relevantes sobre uma seqüência (e não apenas genes),
que estão armazenados na divisão STS (Sequence Tagged Site).
informações aleatórias de seqüências genômicas, que estão armazenadas na
divisão GSS (Genome Survey Sequence).
registros genômicos que foram obtidos através de seqüenciamento em larga
escala não finalizados, que estão armazenados na divisão HTG
(HighTthroughput Genomic Sequence). A divisão HTG divide os dados em
quatro fases (0 a 3) dependendo da qualidade dos dados. Estes registros, quando
finalizados (fase 3), são transferidos para a divisão apropriada do organismo.
registros de dados não finalizados gerados por grandes processamentos de
cDNA, que estão armazenados na divisão HTC (high-throughout cDNA).
25
informações de mutações de genes, na divisão SNP
9
(Single Nucleotide
Polimorphisms).
taxonomia.
estrutura tridimensional de proteínas
links para a literatura (MEDLINE).
2.4.3 A construção do Banco de Dados
Os dados para o GenBank vêm de duas origens:
Autor individual que submete os dados diretamente para uma base de dados;
Submissões de centros de seqüenciamento nos formatos ESTs, STSs, GSSs,
HTCs ou grandes registros genômicos (normalmente seqüências de cosmídios
10
,
BACs
11
ou YACs
12
).
Virtualmente, todos os registros entram no GenBank diretamente por submissão
eletrônica, com a maioria dos autores utilizando dois programas:
BankIt
O Bankit possibilita a submissão de seqüências pela Web através do endereço
http://www.ncbi.nlm.nih.gov/BankIt. Esta ferramenta é responsável por
aproximadamente 35% de todos os dados recebidos pelo GenBank.
Com o BankIt o autor entra a seqüência diretamente por um formulário Internet,
editando e adicionando anotações biológicas.
Este programa tem a capacidade de validar as submissões buscando os erros
mais comuns e contaminações dos vetores, através de uma variante do BLAST
chamada Vecscreen.
Sequin
O Sequin é um programa stand-alone multiplataforma desenvolvido pelo
NCBI, que possibilita a submissão de seqüências através de uma conexão online
com os servidores do NCBI.
Esta ferramenta manipula seqüências simples ou longas, para as quais o BankIt
não é apropriado.
9
Um ponto de mutação em alguns indivíduos de uma população.
10
Elemento genético extra-cromossomial contendo genes específicos do bacteriofágo lambda.
11
Bacterial Artificial Chromosome – Cromossomos Artificiais de Bactérias
12
Yeast Artificial Chromosome – Cromossomos Artificiais de Levedura
26
Este programa possui facilidades para edição de seqüências, colocação de
anotações complexas, além de um conjunto de funções para validação dos dados.
Esta ferramenta está disponível no endereço ftp://ftp.ncbi.nih.gov/sequin.
Além destes programas, o GenBank oferece procedimentos em batch para facilitar
a submissão de seqüências em larga escala, como o “fa2htgs” (OUELLETTE et al.,
1997).
2.4.4 Informações adicionais
O GenBank possui, aproximadamente, 800 organismos completamente
seqüenciados, seus dados e toda a base de dados podem ser obtidos no endereço
ftp://ftp.ncbi.nih.gov. No formato GBFF sem compressão estes dados estão com
aproximadamente 283 GB. (GENBANK, 2007)
27
3 As principais ferramentas para busca de genes
3.1 Introdução
Nos últimos vinte anos, um grande esforço tem sido dispendido na solução do
problema da identificação de genes, esforço este que resultou em um grande número de
métodos que permitem a identificação dos genes em uma dada seqüência de DNA.
Baxevanis e Ouellette (2001) agrupam estas estratégias de busca de genes em três
grandes categorias. São elas:
Métodos baseados em similaridade
Este método é um dos mais antigos para identificação de genes. Seu
princípio consiste na tendência das bases componentes de regiões codificadoras
conservarem-se ao longo da evolução genética, tendência esta sustentada pela
grande relação existente entre a funcionalidade de um gene e a seqüência de
bases que o constitui. Neste método, procura-se regiões similares entre as
seqüências em estudo e as seqüências de um banco de dados conhecido. Com o
crescimento dos bancos de dados de genes e proteínas o uso desta abordagem
tornou-se interessante.
A maior vantagem deste método é que ao encontrar uma grande
similaridade entre as seqüências produz pistas para a função da seqüência e do
novo gene. Se a busca é realizada no nível de aminoácidos, ao invés de
nucleotídeos, uma vantagem adicional é a sensibilidade ao “ruído” causado por
mutações neutras
13
.
Quando não existem seqüências homólogas no banco de dados utilizado,
este método apresenta a desvantagem de produzir uma pequena quantidade,
normalmente inútil, de informações. Outro problema ocorre quando se utilizam
bancos de dados primários, pois estes podem conter erros, acarretando assim,
numa pista errada.
Métodos baseados em conteúdo (estatísticos)
Os núcleos de muitos algoritmos de reconhecimento de genes são as
medidas de codificação (estatísticas). A agregação das medidas de uma região
podem formar uma máscara para encontrar éxons, íntrons e outras regiões
13
Mutações que modificam o nucleotídeo mas não modificam o aminoácido
28
genéticas. Estas métricas têm uma longa e rica história, no trabalho de Fickett &
Tung (1992) elas são sintetizadas e avaliadas.
Estas métricas correspondem, basicamente, a funções que calculam um
número ou vetor (de acordo com algum critério estatístico) que permitem
determinar a probabilidade da subseqüência dentro de uma janela pertencer a
uma estrutura genética. Apesar de serem amplamente utilizados, os métodos
estatísticos apresentam uma série de desvantagens. Dentre elas, pode-se citar o
fato de que a exatidão de seus resultados diminui à medida que o tamanho da
janela fica menor e, para a maioria das métricas, o tamanho ótimo de suas
janelas é maior que o tamanho médio dos éxons presentes em genes de seres
vertebrados.
Alguns exemplos destas medidas de codificação são:
Códons utilizados
Um vetor com 64 elementos dando as freqüências dos 64
possíveis códons.
Hexâmero
Freqüência numa janela de todos os hexâmeros (6 nucleotídeos).
Aminoácidos utilizados
Um vetor com 21 elementos dando as freqüências dos 20
possíveis aminoácidos e o códon terminal
14
.
Diaminoácidos utilizados
Um vetor com 441 elementos dando a freqüências de todos os
possíveis dipeptídios (incluindo aminoácidos e códon terminal).
Composição [f(b,i)]
Para cada base b= {A,C,G,T} e posição do códon testado
i={1,2,3}, f(b,i) é a freqüência de b na posição i.
Métodos baseados em sinais
O foco desta estratégia é a verificação da presença ou ausência de seqüências
específicas, padrões ou consensos. Normalmente, as seqüências dos sinais
envolvidos na determinação dos genes estão degeneradas ou mal definidas,
impedindo uma distinção clara entre as porções da seqüência que realmente
14
Combinações dos nucleotídeos TAA,TAG e TGA
29
participam do processo de síntese de proteínas daquelas, aparentemente, não
funcionais. Alguns exemplos destes sinais são:
TATA-box
O TATA box é uma seqüência de consenso na região promotora de
vários genes eucarióticos (aproximadamente 70% deles possuem esta
seqüência). O promotor especifica a posição de início da transcrição.
GC Box e CCAAT Box
Além do TATA box, outras seqüências de consenso são necessárias
para a correta e eficiente transcrição de um gene, como os chamados
CAAT box e GC box. Esses elementos são, freqüentemente,
encontrados em regiões cerca de 40 a 100 nucleotídeos acima do sítio
de início da transcrição nos eucariotos.
Os GC boxes são formados por seqüências GGGCGG e estão
relacionados a grande parte dos genes constitutivos (aqueles que são
expressos sempre, não necessitando de regulação). Já os CAAT boxes
são formados por seqüências GGNCAATCT.
Poli A
A maioria dos RNAs eucariotos são alterados de forma a conter uma
cauda de poliadenilato na sua extremidade 3’. Nessa cauda estão
presentes cerca de 200 adeninas (A).
O advento dos métodos acima deu origem a uma série de sistemas computacionais,
conhecidos como ferramentas de predição de genes, cujo principal objetivo é descobrir
as possíveis localizações dos genes presentes numa seqüência, além de outras
informações relacionadas a eles (por exemplo, a fita na qual o gene se encontra, os
éxons que os compõem, etc.).
Este capítulo descreve as principais ferramentas de predição de genes, além das
técnicas de combinações desses sistemas, que estão sendo utilizadas atualmente para
genes eucariotos.
3.2 GRAIL (Gene Reconignition and Analysis Internet Link)
O GRAIL (UBERBACHER & MURAL, 1991; MURAL et al., 1992) é a mais
antiga técnica utilizada para predição de genes, foi o primeiro método desenvolvido na
área realmente utilizado.
30
Esta ferramenta, hoje, possui três versões: GRAIL 1, GRAIL 1a e GRAIL 2. O
GRAIL 1 utiliza uma rede neural para reconhecer uma potencial região codificadora de
tamanho fixo (99 bases) sem utilizar informações adicionais como códon inicial e final.
A rede neural desta ferramenta é formada por sete entradas que consistem de sete
sensores, duas camadas escondidas com 14 e 5 nós, respectivamente, e uma saída. Os
sete sensores utilizados, conforme descrito em Uberbacher & Mural (1991), foram:
Matriz de tendências de estruturas
A base deste método é a freqüência não randômica com a qual as 4 bases
ocupam cada uma das 3 posições de um códon.
Esta influência, expressa por uma matriz, é usada como a probabilidade de
identificar uma potencial região codificadora.
O coeficiente de correlação entre esta matriz e cada estrutura lida é calculado
e a diferença entre o melhor e o pior coeficiente é utilizada como indicador de
região codificadora.
Fickett
É uma implementação do algoritmo desenvolvido por Fickett (1982) que
considera várias propriedades das seqüências codificadoras. Numa janela
qualquer, são examinados, de forma independente, a triperiodicidade de cada
uma das 4 bases e comparadas com a propriedades periódicas de um DNA
codificador. Além disso, todas as composições de base do DNA testado são
comparadas com a composição conhecida para DNA codificador e não
codificador.
Dimensão fractal dos dinucleotídeos
Esta medida baseia-se na ocorrência não randômica dos dinucleotídeos.
Examinando as transições seqüenciais dos dinucleotídeos, é possível ver a
seqüência de DNA como uma função randômica. Estas flutuações podem ser
caracterizadas como uma dimensão fractal (HSU & HSU, 1990). Mural et al.
(1991) observaram que uma região codificadora de DNA tem uma dimensão
menor que uma região não codificadora. Este sensor foi criado representando
a diferença de dimensão fractal entre um valor de referência derivado dos
íntrons e da janela examinada.
31
Codificação Sêxtupla das Preferências da palavra
Uma forma de caracterizar seqüências é pelo exame das freqüências de
ocorrência das “palavras” dos nucleotídeos de um dado tamanho na seqüência.
Os diversos tipos de seqüências de DNA (íntrons, éxons, etc.) têm diferentes
distribuições das palavras (CLAVERIE et al., 1990). Cada valor ideal da
palavra é calculado como sendo a relação logarítmica das freqüências
normalizadas de ocorrências no DNA humano das regiões codificadoras
versus regiões não codificadoras no DNA humano. As freqüências sêxtuplas
para as regiões codificadoras de proteínas e não codificadoras são compiladas.
No caso do GRAIL 1 estas informações foram obtidas de cDNA e íntrons
humanos extraídos do GenBank.
Codificação Sêxtupla das Preferências na estrutura
Similar ao caso anterior, sendo que as observações sêxtuplas no DNA testado
são comparadas com os valores ideais para sêxtuplas no quadro compiladas
para DNA codificador.
Associação K-tuplas
Este sensor é definido como a relação logarítmica da freqüência normalizada
das ocorrências sêxtuplas dividida pela freqüência randômica esperada. A
pontuação de cada posição para a associação sêxtupla é calculada pela soma
de todas as associações sêxtuplas contidas na janela analisada.
Palavras repetidas em sêxtuplas
Neste sensor a seqüência testada é comparada com as estatísticas sêxtuplas
para as várias classes dos DNA repetitivos de forma similar ao usado nos três
algoritmos anteriores, sendo a maior preferência total da janela utilizada como
sensor.
Uma adição nesta versão (GRAIL 1a) expandiu este método para levar em
consideração regiões imediatamente adjacentes à região julgada. Com isto houve uma
melhora no desempenho (diminuiu-se os falsos positivos
15
). O GRAIL 1 ou GRAIL 1a
(Mural et al., 1992) é uma ferramenta desenvolvida para a busca de éxons.
Um refinamento conduziu a uma segunda versão desta ferramenta, chamada
GRAIL 2 (XU et al.,1994). O GRAIL 2 aceita regiões de tamanhos variáveis e usa
15
Falsos positivos são regiões apontadas erroneamente pelos programas preditores como éxons ou genes.
32
informações do contexto (sinal de poli A, códons iniciais e finais e junções de splice). O
GRAIL 2 é apropriado para determinar o modelo da estrutura genética.
Mais recentemente, os autores do GRAIL lançaram o GRAIL-EXP (GRAIL
Experimental), que é baseado no GRAIL, acrescentando a busca numa base de dados
com o conhecimento de informações completas e parciais dos genes. Segundo os
autores esta inclusão aumentou significativamente o seu desempenho.
A ferramenta GRAIL pode ser encontrada no endereço
http://compbio.ornl.gov/Grail-1.3/ e o GRAIL-EXP em
http://compbio.ornl.gov/grailexp/.
3.3 GeneID
A versão atual do GeneID (GUIGÓ et al., 1992) procura éxons baseado em
medidas de potencial de codificação. A versão original deste programa usa um sistema
fundamentado em regras para examinar supostos éxons e agrupar o “gene mais
provável” para a seqüência.
O GeneID usa uma matriz de peso-posição para avaliar se uma extensão da
seqüência representa ou não um sítio de splice (aceptor ou doador), um códon de
inicialização ou um códon de terminação. Uma vez feita esta avaliação, são construídos
modelos de supostos éxons. Com base neste conjunto de éxons preditos, o GeneID faz
uma rodada de refinamento final produzindo a estrutura genética mais provável da
seqüência de entrada. A descoberta das regras foi realizada utilizando um conjunto de
169 genes de vertebrados e os resultados encontrados nos testes mostraram que esta
técnica é eficaz para a descoberta de genes.
Um trabalho mais recente com esta ferramenta foi realizado por Parra et al.
(2000) para a predição da estrutura da Drosophila, a principal mudança implementada
neste artigo foi no conjunto de treinamento, que agora é formado basicamente por genes
da Drosophila e esta modificação melhorou sensivelmente o resultado da predição deste
organismo.
O endereço desta ferramenta na Internet é http://www1.imim.es/geneid.html.
3.4 FGENEH/FGENES
FGENEH (SOLOVYEV et al., 1994; SOLOVYEV et al., 1995) é um método
para predizer éxons internos observando características estruturais como sítios de splice
aceptores e doadores, supostas regiões codificadoras, e regiões de íntrons na direção 5’
33
e 3’para um suposto éxon. Este método utiliza análise linear discriminante, uma técnica
matemática que permite a análise de dados de vários experimentos combinados. Uma
vez que os dados foram combinados, uma função linear é utilizada para discriminar
entre duas classes de eventos (real e pseudo-sítio).
No FGENEH, os resultados do discriminante linear são transferidos para um
algoritmo de programação dinâmica que determina a melhor combinação destes éxons
preditos num modelo de gene coerente. De forma simplificada, esse programa realiza a
predição de genes em uma dada seqüência de DNA seguindo os passos abaixo:
1. Todos os possíveis éxons internos, assim como possíveis éxons iniciais e finais
são encontrados utilizando-se funções lineares discriminantes que combinam
várias características relacionadas aos éxons encontrados nos genes.
2. Uma vez encontrados, os éxons são ordenados de acordo com as posições (na
seqüência original) dos seus nucleotídeos da extremidade.
3. Finalmente, por meio de um algoritmo que utiliza a técnica de programação
dinâmica, encontra-se uma “montagem” ótima destes éxons e constrói-se o gene
relacionado a ela.
Uma extensão do FGENEH, chamada FGENES, pode ser utilizada em casos, nos
quais múltiplos genes são esperados numa dada extensão de DNA.
O grupo que desenvolveu estas ferramentas também criou o programa Fgenesh
que é baseado no modelo oculto de Markov (HMM) tendo um algoritmo similar ao do
Genie (KULP et al., 1996) e GenScan (BURGE & KARLIN, 1997), diferindo apenas na
utilização de um termo de sinal (como de sítios de splice) no lugar do termo de
conteúdo (potencial de região codificadora). Este programa foi treinado com as
informações da Drosophila mostrando resultados melhores que seus concorrentes
(SALAMOV & SOLOVYEV, 2000).
O FGENEH pode ser encontrado no endereço http://genomic.sanger.ac.uk/.
3.5 NetplantGene
A ferramenta NetplantGene (HEBSGAARD et al., 1996) foi desenvolvida para
predição de genes da Arabidopsis thaliana
16
. Esta ferramenta combina técnicas de redes
neurais e um sistema baseado em regras para encontrar os sítios de splice.
16
Espécie de planta totalmente seqüenciada pertencente a família das Brassica (família do repolho e do
rabanete)
34
Este programa utilizou para o treinamento da sua rede neural, 109 genes com 539
sítios doadores e aceptores. Para o teste foram empregados 37 genes com 225 sítios
doadores e 227 sítios aceptores.
A rede neural usada foi uma backpropagation totalmente conectada, com três
camadas (entrada, escondida e saída). A codificação escolhida para entrada dos
nucleotídeos na rede não possuía dependência algébrica (A como (1000), C como
(0100), G como (0010) e T como (0001)), e os valores de saídas utilizados foram 0 ou 1.
As redes neurais deste sistema foram treinadas em duas tarefas:
Detecção de região codificadora
Predição de sítios splice
O coeficiente de correlação, representado pela equação 3.1, define o critério de
parada e verificação do desempenho da rede.
))()()((
)()(
ffff
ff
PPNPPNNN
PNPN
C
++++
= (Equação 3.1)
Onde:
P Número de nucleotídeos codificadores preditos corretamente.
N Número de nucleotídeos não codificadores preditos corretamente.
P
-f
Número de nucleotídeos codificadores preditos erroneamente.
N
-f
Número de nucleotídeos não codificadores preditos erroneamente.
Duas outras medidas também foram utilizadas como critério de parada da rede
neural no treinamento dos sítios de splice:
a taxa de falsos positivos, dada pela equação 3.2.
f
f
PN
P
F
+
=
(Equação 3.2)
Onde:
P
f
Número de sítios de
splice
preditos incorretos.
N+P
f
Número total de sítios não-
splice
.
35
a taxa de verdadeiros positivos, dada pela equação 3.3.
f
NP
P
S
+
= (Equação 3.3)
Onde:
P Número de sítios de splice preditos corretamente.
P+N
f
Número total de sítios de splice.
Alguns testes de freqüência foram realizados para encontrar algumas
características da planta. As características encontradas foram:
Os éxons têm tamanhos parecidos com os dos humanos
Os íntrons são menores que os dos humanos
A seqüência de consenso para tios aceptores sugerida por White et al
(1992) (TGYAG|GT
17
) foi encontrada.
De posse destas informações foram treinadas várias configurações de redes
neurais para os sítios de splice, o melhor resultado encontrado para o sítio doador tinha
27 nucleotídeos na entrada e 10 neurônios na camada escondida. A forma encontrada
para minimizar o erro foi treinar 10 redes inicializadas de forma diferente, sendo a
média de suas saídas utilizada como resultado. O coeficiente de correlação encontrado
para este sítio foi de 0,65.
Para o sítio aceptor, a rede neural com melhor desempenho tinha 61 nucleotídeos
na entrada e 15 neurônios na camada escondida. A mesma quantidade de redes do sítio
doador foram utilizadas como forma de minimizar o erro e o coeficiente de correlação
para este sítio foi similar ao do caso anterior.
Para predição da região codificadora foi utilizado um sistema com seis redes
neurais:
Uma rede com 101 nucleotídeos na entrada.
Quatro redes com 201 nucleotídeos na entrada e 15 neurônios na camada
escondida.
Uma rede com 251 nucleotídeos na entrada.
O coeficiente de correlação, para este caso, foi de 0,76.
17
A letra “Y” indica qualquer piridimina. Portanto, esta seqüência de consenso indica que o sítio deve
começar com TGYAG e terminar com GT.
36
A combinação destes sistemas de redes neurais tem como principal dificuldade à
sobreposição de regiões, esta distinção foi feita utilizando o critério:
O
local
> a +t,
Onde:
Valor calculado pelo sistema de redes neurais para predição de
regiões codificadoras
a e t Constantes
O
local
saída do sistema de redes neurais dos sítios de splice.
Com os valores ótimos de a e t, o coeficiente de correlação dos sítios doadores
aumentou para 0,86 e dos sítios aceptores foi para 0,76.
O próximo passo deste sistema foi utilizar regras para o refinamento do
resultado. Este refinamento foi realizado em três passos:
1. Descartou-se predições erradas de sítios de splice;
2. Escolheu-se entre duas ou mais predições próximas;
3. Melhorou-se predições fracas (ou perdidas);
As regras foram criadas utilizando mecanismos biológicos previamente sugeridos na
literatura sobre splice, foram utilizadas três regras, são elas:
descarte de sítios de splice em regiões preditas de forma uniforme.
procedimento de busca por pares de sítios aceptores em áreas de
prolongamento T em éxons 5’.
remoção dos sítios doadores com predição fraca e até 15 nucleotídeos.
Os resultados encontrados foram satisfatórios para a predição de genes na
Arabidopsis thaliana. O servidor NetPlantGene pode ser encontrado no endereço
http://www.cbs.dtu.dk/services/NetPGene/. O programa NetGene2 (Brunak et al.,1991;
Hebsgaard et al., 1996), que utiliza as mesmas técnicas do NetPlantGene para a
predição de genes humanos pode ser encontrado no endereço
http://www.cbs.dtu.dk/services/NetGene2/
3.6 PROCRUSTES
O PROCRUSTES (GELFAND et al.,1996) recebe uma seqüência genômica de
DNA e “força” a se ajustar aos padrões definidos por uma proteína alvo. Ao contrário
dos outros métodos de predição de genes (que precisam de uma seqüência de DNA)
este algoritmo requer que o usuário identifique supostos produtos do gene antes de fazer
37
a predição, assim, esta representa o melhor ajuste de uma dada seqüência de DNA em
relação à suposta transcrição. Este método faz uso de um algoritmo de alinhamento
18
entrelaçado para explorar seqüencialmente todas as possibilidades de blocos de éxons,
buscando o melhor ajuste para predizer a estrutura genética de uma proteína candidata.
Se uma proteína candidata conhecida “surgir” na seqüência consultada do DNA,
estruturas corretas dos genes serão preditas com grande precisão. O PROCRUSTES
pode manusear casos onde existam parciais ou múltiplos genes numa seqüência.
Este programa foi testado com um conjunto de fragmentos genômicos consistindo
de 47 genes completos com multi-éxon (cada gene com 10 ou mais éxons). Como alvo
foi utilizada uma lista de proteínas construídas através do banco de dados ENTREZ com
a pontuação de similaridade do BLAST
19
(ALTSCHUL et al.; 1990).
O PROCRUSTES pode ser encontrado no endereço http://hto-
13.usc.edu/software/procrustes/index.html.
3.7 MZEF (Micheal Zhang’s Éxon Finder)
Este método de predição baseia-se na técnica de análise discriminante quadrática
(QDA) (ZHANG, 1997). Um exemplo desta técnica consiste em imaginar um caso, no
qual dois tipos de predições são plotados num gráfico XY, se o relacionamento entre
estes dois conjuntos de dados for não linear, o gráfico resultante será visto como um
aglomerado de pontos. A predição correta caracteriza-se pela aglomeração dos pontos
numa determinada região do gráfico, sendo utilizada uma função quadrática para
separar os pontos, conforme demonstrado na Figura 3.1.
18
Alinhamento é definido como sendo a melhor combinação existente entre duas seqüências. Os
algoritmos de alinhamento permitem a busca desta combinação de forma automática. As mais famosas
ferramentas para este fim são o BLAST e o FAST.
19
Programa para alinhamento de seqüências.
38
Figura 3.1 – Exemplo de duas variáveis a qual uma função quadrática separa os dois
grupos
No caso do MZEF, são utilizadas nove medidas para a análise discriminante,
descritas abaixo:
comprimento do éxon = log
10
(tamanho do éxon em bp)
transições éxon-íntron = (freqüência dos hexâmeros nos íntrons numa janela
de 54 bp à esquerda do sítio de splice 3’) (freqüência dos hexâmeros nos
éxons numa janela de 54 bp à esquerda do sítio de splice 3’)
Pontuação do sítio de ramificação (branch) =pontuação do log-verosimilhança
na janela (-54, -3)
Pontuação do sítio de splice 3’ = freqüência tripla dependente de posição dos
verdadeiros sítios de splice 3’ versus pseudos sítios de splice 3’ na janela (-
24,3)
Pontuação éxon = (freqüência dos hexâmeros dos éxons versus íntrons)
Pontuação do filamento (strand score) = (freqüência dos hexâmeros para o
forward strand versus reverse strand)
Pontuação da estrutura (frame score) = Max
i=1,2,3
(freqüência específica da
estrutura dos hexâmero para os éxons versus íntrons na estrutura i)
39
Pontuação do sítio de splice 5’ = freqüência tripla dependente de posição dos
verdadeiros sítios de splice 5’ versus pseudo-sítios de splice 5’ na janela (-3,8)
transições íntron-éxon = (freqüência dos hexâmeros nos éxons numa janela de
54 bp à esquerda do sítio de splice 5’) – (freqüência dos hexâmeros nos
íntrons numa janela de 54 bp à esquerda do sítio de splice 5’)
Nesta ferramenta, A versus B representa a proporção da
B) de freqüênciaA de a(freqüênci
A de freqüência
+
.
O MZEF busca somente a predição dos éxons internos sem nenhuma outra
informação sobre a estrutura genética.
Este programa utilizou como conjunto de treinamento 1879 éxons verdadeiros
retirados do GenBank e 184217 pseudo éxons. A técnica QDA foi aplicada para separar
os dois grupos: éxons e pseudo éxons.
Um módulo adicional para esta ferramenta, o JTEF (Jack’s Terminal Éxon
Finder), foi desenvolvido por Tabaska et al. (2001) para encontrar éxons terminais 3’.
Esta ferramenta aplica a técnica do MZEF para marcar possíveis sítios aceptores,
através de quatro funções quadráticas discriminantes aceptor, doador, poli A e
terminal; e num segundo momento utiliza uma função de pontuação bayesiana para
encontrar o melhor códon final para este sítio aceptor. A forma básica da função de
pontuação bayesiana é:
P(Fragmento Codificador Terminal|seqüência) =
a)P(Seqüênci
Terminal))r Codificado oP(Fragment x Terminal)r Codificado Fragmento |ia(P(seqüênc
Nos testes realizados com esta ferramenta foram encontrados melhores resultados
para sensibilidade
20
em relação ao GenScan e HMMgene, e piores resultados de
especificidade
21
em relação aos mesmos programas.
Num trabalho mais recente Zhang e Luo (2003) sugerem a colocação de diversas
medidas (informações como medida de GT e AG) para aumentar o desempenho da
técnica de análise de discriminante quadrática para descoberta de sítios de splice, esta
técnica é conhecida como IDQD (increment of diversity combined with quadratic
discriminant analysis).
O MZEF pode ser encontrado no endereço http://argon.cshl.org/genefinder/.
20
Sensibilidade. Definida na seção 4
21
Especificidade. Definida na seção 4
40
3.8 Genie
O Genie (KULP et al., 1996) utiliza um HMM generalizado (GHMM) com
distribuições de tamanho arbitrário associadas a alguns estados do modelo. Este sistema
é descrito como modular, no qual cada estado é treinado separadamente e novos estados
podem ser facilmente adicionados. A Figura 3.2 mostra o modelo do Genie, onde os
arcos correspondem aos estados numa máquina de estados e os nós representam as
transições entre eles. Esta ferramenta conceitua uma GHMM como uma máquina, na
qual cada estado gera um ou mais símbolos.
Legenda:
J5’- Região não traduzida 5’ D – Sítio Doador
J3’ – Região não codificante 3’ A – Sítio Aceptor
EI – Éxon Inicial S – Início da Tradução
E – Éxon Interno T- Término da Tradução
EF – Éxon Final B – Início (Begin)
ES – Éxon Simples F – Fim (Finish)
Figura 3.2 – Modelo do Genie
Dada uma seqüência X candidata a DNA, este algoritmo define:
M = Modelo
X = {X[1], X[2], ..., X[N]}
φ = { (q
1
, x
1
), (q
2
, x
2
), ..., (q
n
, x
n
)}
Onde X[i] é a i-ésima base da seqüência X de tamanho N, q
i
é o i-ésimo estado
da análise φ e x
i
é a i-ésima subseqüência de X. O objetivo deste modelo é encontrar a
41
análise ótima que é dada por P(X, φ). Para a otimização da análise foi utilizada
programação dinâmica.
Este modelo foi dividido em módulos, sendo os principais:
Modelo para sítio de splice
Na primeira versão do Genie foram utilizadas duas redes neurais feedfoward
com treinamento backpropagtion e uma camada escondida para o
reconhecimento dos sítios doadores e aceptores. Cada seqüência foi
codificada utilizando 4 entradas para cada nucleotídeo, ou seja, uma
codificação sem dependência algébrica.
Uma janela de 15 bp (-7,+8) foi utilizada para os sítios doadores e uma de
41bp para os sítios aceptores (-21,+20), tamanhos esses considerados ótimos
em Brunak et al. (1991). O melhor resultado foi encontrado empregando 50
neurônios na camada escondida para sítios doadores e 40 unidades
escondidas para sítios aceptores. As saídas das duas redes neurais são
interpretadas como a probabilidade posteriori para um sítio doador ou
aceptor numa dada posição da seqüência.
Na segunda versão, a codificação de entrada da rede neural foi modificada,
devido à descoberta da forte correlação existente entre os nucleotídeos
vizinhos no sítio de splice (HERDENSON et al., 1996). Baseado nestes
resultados, a codificação foi alterada para a entrada de dinucleotídeos. Com
isto, uma janela de 15 nucleotídeos é codificada com 14 pares de
nucleotídeos adjacentes, e cada par é representado por 16 entradas. Porém, o
número de neurônios na camada escondida foi diminuído para 2 na rede de
sítio doador e 10 na de sítio aceptor.
Modelo para Íntron
O modelo para Íntrons é um modelo sem janela. Para cada base b na posição
i, a freqüência de nucleotídeos numa janela de 300 bases, para i-150 e i+150
excluindo a posição i, é calculada. A probabilidade de b é dada de acordo
com a freqüência calculada. O Genie não inclui conhecimento sofisticado
para encontrar íntrons.
Modelo para Éxon
Neste modelo são utilizadas duas estatísticas para determinar uma região
com potencial codificante. Na primeira, o conteúdo GC e uma freqüência
42
local são consideradas para o cálculo da freqüência de 4 nucleotídeos com
uma janela de 300 bases (janela similar ao modelo do íntron). A segunda é
uma cadeia de Markov de primeira ordem com a distribuição dos 61
possíveis códons. Estes critérios são combinados através de uma rede neural
com 2 camadas escondidas com 17 neurônios cada uma, treinada usando o
algoritmo backpropagation.
O treinamento do Genie foi feito com 304 genes humanos divididos em 7 grupos
para a utilização de validação cruzada. Os resultados dos testes na primeira versão desta
ferramenta (sem o modelo de dinucleotídeos para os sítios de splice) mostraram que, na
época, poderia ser considerado o “segundo melhor” programa de busca de genes,
perdendo apenas para o FGENEH. Com a mudança na busca dos sítios de splice, o
Genie, em seus testes, conseguiu melhores resultados que os outros programas do
gênero.
Esta ferramenta se encontra no endereço http://www.cse.ucsc.edu/~dkulp/cgi-
bin/genie.
3.9 GENSCAN
O GENSCAN (BURGE, 1997; BURGE & KARLIN, 1997; BURGE & KARLIN,
1998) foi desenvolvido para encontrar a estrutura completa de um gene. Esta ferramenta
pode identificar íntrons, éxons, sítios promotores e sinais poli A. O GENSCAN não
espera que a seqüência de entrada represente apenas um gene (a seqüência pode conter
vários genes). Sua habilidade de fazer previsões precisas de uma seqüência em diversos
contextos o faz um método particularmente útil para a predição genética.
Empregando os descritores da estrutura genética que correspondem à seqüência
consultada, o algoritmo pode fixar uma probabilidade da chance de uma extensão da
seqüência representar um éxon, promotor e assim por diante. O “éxon ótimo” será
aquele com maior probabilidade de representar a parte da seqüência que tiver a melhor
chance de ser um verdadeiro éxon. Este método pode predizer “éxons sub-ótimos” com
valores de probabilidades aceitáveis.
Este programa utiliza o modelo de estrutura genética mostrada no Figura 3.3.
Neste modelo os estados (representados por círculos e diamantes na figura)
correspondem as unidades funcionais fundamentais de um gene eucarioto, isto é, éxons,
íntrons, regiões intergênicas, entre outras, que podem ocorrer em qualquer ordem
43
biologicamente consistente. Os íntrons e éxons internos são divididos de acordo com a
“fase”. Portanto, a fase 0 consiste nos íntrons que estão entre códons, a fase 1 é formada
pelos que estão depois da primeira base de um códon,e a fase 2 representa aqueles que
ficam depois da segunda base de um códon, neste modelo são denominadas I
0
, I
1
e I
2
,
respectivamente. Os éxons internos são, similarmente, divididos de acordo com a fase,
sendo denominados de E
0
, E
1
e E
2.
Por conveniência, sítios de splice doadores,
aceptores, inicialização da tradução e sinais de terminação são considerados como parte
associada a um éxon.
Figura 3.3 – Modelo do GenScan
44
O modelo, essencialmente, um tipo semi-Markov, é formulado como um estado
de duração explicita de um HMM do tipo descrito por Rabiner (1989). Resumidamente,
o modelo funciona como gerador de “análise gramatical” φ, consistindo de um conjunto
de estados ordenados, q = {q
1
, q
2
, ..., q
n
}, associado a um conjunto de comprimentos
(duração), d = {d
1
, d
2
, ..., d
n
}, o qual, usando um modelo probabilístico para cada tipo
de estado, gera uma seqüência de DNA S, de comprimento
=
=
n
i
i
d
L
1
. A geração de
uma análise gramatical correspondente a uma seqüência de tamanho L é a seguinte:
1. Um estado inicial q
1
é escolhido de acordo com uma distribuição inicial de
estados, π, isto é, π
i
= P[q
1
=Q
(0)
], onde Q
(j)
(j=1,...,27) é o índice dos tipos
de estados (Figura 3.3)
2. Um tamanho (duração do estado), d
1
, correspondendo a um estado q
1
é
gerado condicionado a um valor de q
1
=Q
(i)
para a distribuição de tamanho
f
Q(i)
.
3. Um segmento da seqüência s
1
de tamanho d
1
é gerado, condicionado a um
d
1
e q
1
, conforme uma seqüência apropriada gerando modelo para o tipo de
estado q
1
.
4. O subseqüente estado q
2
é gerado, condicionado ao valor de q
1
, para a
matriz de estado de transição T, isto é, T
i,j
= P[q
k+1
=Q
(j)
| q
k
= Q
(i)
].
Este processo é repetido até a soma,
=
n
i
i
d
1
, das durações dos estados exceder ou
ser igual a L no ponto em que a última duração do estado d
n
é adequadamente truncada,
a extensão final da seqüência é gerada, e o processo pára (a seqüência gerada é a
concatenação dos segmentos, S=s
1
, s
2
,..., s
n
).
Portanto, este modelo tem quatro(4) componentes principais:
O vetor inicial de probabilidades, π
A matriz de probabilidades de transição de estados T
Um conjunto de distribuições de tamanho f
O conjunto de seqüências geradas pelo modelo, P
Para uma seqüência de tamanho fixo, L, considera-se o espaço = Φ
L
x
L
,
onde Φ
L
é o conjunto de todas as possíveis análises de tamanho L e
L
é o conjunto de
todas as possíveis seqüências de DNA de tamanho L. O modelo M pode ser obtido
como a probabilidade das medidas deste espaço, isto é, a função que atribui a densidade
45
de probabilidade para cada par análise/seqüência. Assim, para o caso particular de
seqüência S
L
, pode-se calcular a probabilidade condicional de uma análise
particular φ
i
Φ
L
usando a regra de Bayes:
S),P(
S),P(
P(S)
S),P(
S) | P(
φφ
φφ
φ
j
L
i
ii
Φ
==
(Equação 3.4)
A probabilidade da junção P(φ
i
,S) é dada por:
P(φ
i
,S) = π
q1
f
q1
(d
1
)P[s
i
| q
1
,d
1
] x
=
n
k
2
T
qk-1.qk
(d
k
)P{s
k
|q
k
,d
k
} (Equação 3.5)
Onde os estados de φ
i
são q
1,
q
2
, ..., q
n
associados aos estados de tamanho
d
1
,d
2
,..., d
n
, de uma seqüência quebrada nos segmentos s
1,
s
2
,..., s
n
.
Um algoritmo recursivo de ordenação de Viterbi (FORNEY, 1973) pode ser
usado para calcular φ
ótimo
, ou seja, a análise que tem a maior probabilidade de junção
(sobre M).
Além disso, neste modelo cada informação é modelada de uma forma diferente.
Os sinais de transcrição e tradução são modelados pelo método de matriz de pesos
(WMM) (STADEN, 1984) de 6 bp (consenso: AATAAA). Um modelo de WMM de 12
bp é usado para o sinal de tradução inicial. A WMM é definida pela equação 3.6.
r
WMM
=
)(
)(
XP
XP
WMM
WMM
+
(Equação 3.6)
)(XP
WMM
+
=
=
λ
1
)(
i
i
x
i
p
, onde p
j
(i)
é a probabilidade de geração do nucleotídeo j na
posição i num sinal, normalmente estimado como sendo a freqüência posicional num
conjunto de seqüências e λ é o tamanho da seqüência. )(XP
WMM
corresponde a regiões
que não são sítios derivados de um conjunto de pseudo-sítios.
Para os promotores foi criado um modelo baseado em ter ou não o sinal TATA
(70% dos promotores eucariotos possuem este sinal). Para quem tem o sinal TATA foi
utilizado um WMM 15 bp TATA-box e 8 bp WMM sítio cap obtidos por Bucher
(1990). Nos casos sem o sinal TATA foram modelados como uma região intergênica de
tamanho 40 bp.
Os sítios de splice doador e aceptor são os mais importantes para a exatidão da
predição de um éxon. Para o doador foi criado o procedimento MDD (Maximal
Dependence Decomposition) cujo objetivo é capturar as mais significantes
46
dependências entre as posições. Essencialmente, substitui as probabilidades
incondicionais de um WMM por probabilidades condicionais. A janela utilizada para
este sítio foi de 9 bp, começando na posição –3 e terminando na +6. Para o aceptor foi
introduzido o conceito de windowed second-order WAM (Weight Array Model
definido por Zhang & Marr (1993)) model (WWAM) no qual os nucleotídeos são
gerados condicionados aos nucleotídeos de duas posições anteriores com uma janela de
23 bp da posição –20 até +3. A WWAM é definida como:
),1(
,
)1,2(
,
)1(),1,2(
,,
)(
,,
ii
zy
ii
yx
i
y
iii
zyx
i
zyx
ff
ff
r
=
(Equação 3.7)
Onde:
),1,2(
,,
iii
zyx
f
freqüência do trinucleotídeo x,y,z nas posições i-2,i-1 e i do
sinal.
)1,2(
,
ii
yx
f
freqüência do dinucleotídeo x,y nas posições i-2 e i-1.
),1(
,
ii
zy
f
freqüência do dinucleotídeo y,z nas posições i-1 e i.
)1( i
y
f
freqüência do nucleotídeo y na posição i-1.
As porções codificadoras dos éxons são preditas usando um modelo de Markov
não homogêneo tri-periódico de quinta ordem como o de Borodovsky & McIninch
(1993). Os estados não codificadores F, T, N e I
k
são preditos usando um modelo de
Markov de quinta ordem homogêneo.
O conjunto de treinamento utilizado foi criado com humanos totalizando 142
genes com éxons simples e 238 genes com multi-éxons (1492 éxons e 1254 íntrons). O
tamanho do conjunto utilizado era de 2580965 bp. Para testes foi utilizada a base de
dados de Burset & Guigó (1996) com ótimos resultados.
Esta ferramenta pode ser encontrada no endereço
http://genes.mit.edu/GENSCAN.html.
3.10 GeneParser
O GeneParser (SNYDER & STORMO, 1993; SNYDER & STORMO, 1997)
emprega uma cnica diferente para identificar supostos íntrons e éxons. Ao invés de
predeterminar regiões candidatas de interesse, este programa computa a pontuação de
todos os “subintervalos” das seqüências submetidas. Uma vez que cada subintervalo é
pontuado, uma rede neural é utilizada para determinar se cada subintervalo contém um
47
éxon inicial, éxon interno, éxon final ou íntron. As predições individuais são, assim,
analisadas para que a combinação represente o gene mais provável, através de
programação dinâmica.
Este sistema utiliza um conjunto de métricas (estatísticas) na rede neural. As
medidas utilizadas foram:
Hexâmeros na estrutura (
in-frame hexamers
) definida para uma subseqüência
entre i e j, como:
)/log(
6,...,6,3,0
= jk
k
k
F
f
In-frame hexamer
(i,j) =max
)/log(
6,...,7,4,1
= jk
k
k
F
f
)/log(
6,...,8,5,2
= jk
k
k
F
f
, onde f
k
é a freqüência dos hexâmeros de uma tabela de hexâmeros na
estrutura das seqüências codificadoras humanas na posição k do intervalo, e
F
k
é a freqüência do mesmo hexâmero numa população randômica baseada
na composição de bases de uma seqüência:
F
k
=
=
6
1b
b
v
.
Onde v
b
é a freqüência do nucleotídeo b no lócus
22
em consideração.
Complexidade Composicional Local
Esta medida baseia-se na repetição das seqüências em regiões não
codificadora. Nesta ferramenta, foram utilizados oligonucleotídeos de
tamanho L=8, sendo esta métrica calculada como:
H = -
L
N
L
N
k
GTCAk
k
2
},,,{
log (KONOPKA & OWENS, 1990),
Onde N
k
é o número de vezes que a base k ocorre no oligonucleotídeo.
Distribuição dos tamanhos dos íntrons e éxons
O tamanho dos íntrons e éxons pode ser utilizado para evidenciar que um
intervalo é membro de um tipo particular de seqüência. Uma pontuação
baseada no tamanho pode ser utilizada como evidência que um intervalo é
parte ou não da solução. (HAWKINS, 1988)
22
Posição do nucleotídeo
48
Bulk Hexamers
Vários autores (BOUGUELERT
et al.
, 1988; CLAVERIE &
BOUGUERLERT, 1986; CLAVERIE
et al.
, 1990) mostraram que as
freqüências dos hexâmeros podem ser bastante diferentes entre os diversos
tipos de classes, podendo assim, serem utilizadas para discrimina-las. A
pontuação
bulk hexamers
do intervalo de i a j numa seqüência de classe X, é
dado por:
BH
x
(i,j) =
=
6
1
ln
j
k
k
X
k
F
f
,
Onde
X
k
f
é a freqüência do hexâmero k na seqüência classe X e F
k
é a
freqüência do hexâmero k numa população caracterizada pela composição de
base do lócus em questão.
Pontuação de similaridade BLAST
O programa BLAST (ALTSCHUL
et al.
, 1990) é uma ferramenta para
identificar regiões de similaridade entre uma seqüência consultada e
seqüências de proteínas ou nucleotídeos num banco de dados. O GenParser
utilizou uma busca BLASTX
23
para calcular a pontuação de similaridade, que
pega uma seqüência de DNA e traduz todas as ORFs para uso na busca num
banco de dados de seqüências de peptídeos (GISH & STATES, 1993). Uma
seqüência de DNA genômico gerará uma lista de proteínas na qual a
seqüência consultada tem similaridade (assumindo que esta seqüência existe)
com uma pontuação MSP (M
aximal-Segment Pair
) que avalia a significância
do alinhamento. Esta informação pode ser utilizada como evidência para um
intervalo ser classificado como éxon. Supondo que (i,j) seja um intervalo
consultado e (x,y) seja um segmento no banco de dados com pontuação MSP
igual a
µ
, a pontuação éxon BLAST para este intervalo é dada por:
B
E
(i,j) =
δ
δ
δ
δ
µ
jyix
(Equação 3.8)
Onde
δ
é o valor do alinhamento BLAST no intervalo (x,y).
A programação dinâmica (DP), nesta ferramenta, foi utilizada para encontrar a
estrutura ótima que tenha maior pontuação na combinação éxon e íntrons. Cada
23
BLASTX é um programa de família BLAST
49
intervalo (i,j) de uma seqüência de classe k tem uma pontuação L
k
(i,j), que é calculada
como sendo a soma ponderada dos classificadores estatísticos escolhidos (acima
descritos). A pontuação para uma análise é definida como a soma dos valores da matriz-
L para cada componente do intervalo. Com esta definição, a pontuação DP, D, para uma
análise válida é dada por:
D = L
f
(i,j) + L
i
(j+1,k) + L
e
(k+1,l)+ L
i
(l+1,m) + L
l
(m+1,n)
Onde L
f
, L
i
, L
e
, L
l
são as pontuações para éxons iniciais, íntrons, éxons internos
e éxons finais, respectivamente.
As informações precisam ser combinadas para serem utilizadas como
classificadores do intervalo (escolher se aquele intervalo é membro ou não de uma
classe particular) e para tal foi aplicada uma rede neural adaptando-se a DP. Essa rede
neural procura os pesos que satisfazem a seguinte equação:
D
T,u
– D
F,u
=
( )
= ==
+
},,,{ 1
,,
1
,
,,
1
,
,,,
liefc
P
k
c
F
c
T
c
N
j
F
kjc
N
j
T
kjckc
c
F
c
T
c
BNNTTw
µµµµ
(Equação 3.9)
Onde:
D
T,u
Pontuação da solução correta para uma seqüência
µ
D
F,u
Pontuação da solução incorreta para uma seqüência
µ
T
c,j,k
Pontuação do classificador estatístico k para o j-ésimo intervalo do tipo c
N
c
Número de intervalos do tipo c na solução
P
c
número de classificadores estatísticos utilizados para seqüência do tipo c.
B
c
termo bias
w
c,k
peso para uma estatística.
A rede neural proposta tem como entradas os valores T
T
- T
F
para cada
estatística para cada tipo de seqüência (
T), e a diferença entre o número de seqüência
de cada tipo na solução atual e na predita (
N). Este tipo de rede é conhecido como
rede Delta porque é treinada com a diferença entre a solução correta e a incorreta de
uma seqüência em particular. A rede neural utilizada segue a arquitetura da Figura 3.4.
Neste sistema a utilização de múltiplas camadas não melhorou o seu desempenho. A
rede neural foi treinada com 59 genes humanos e testada com um conjunto de genes
humanos não utilizados no seu treinamento.
T
N
50
Figura 3.4 – Rede Neural do GeneParser
Esta ferramenta foi desenvolvida em três versões:
GeneParser 1 – Treinado com todo o conjunto de treinamento
GeneParser 2 – Treinado com redes separadas de acordo com o conteúdo G+C
GeneParser 3 – Igual ao GeneParser2, mas incluindo a estatística BLAST.
O melhor resultado encontrado foi o do GeneParser 3 (acerto de 10% superior que
o GeneParser 2).
O endereço deste programa na Internet é
http://beagle.colorado.edu/~eesnyder/GeneParser.html.
3.11 HMMgene
O HMMgene (KROGH, 1997) prediz o gene inteiro de uma dada seqüência de
DNA a partir de um modelo oculto de Markov (HMM), gerado para maximizar a
probabilidade de acerto de uma predição. O uso de HMMs neste método ajuda a avaliar
a confiança de uma predição, habilitando, assim, o HMMgene a não somente, dizer a
“melhor” predição, mas também, fornecer predições alternativas para uma dada
seqüência. Um dos pontos fortes do método é que retornando múltiplas predições para
uma mesma região, o usuário pode ser capaz de aproveitar este discernimento em
possíveis alternativas de
splicing
que podem ocorrer na região de um gene.
51
O HMMgene utiliza a técnica de CHMM (
Class Hidden Markov Model)
. Este
programa utiliza um modelo com três estados de quarta ordem para modelar regiões
codificadoras, que são essencialmente uma cadeia de Markov não homogênea como
utilizado no GeneMark (BORODOVSKY & MCININCH ,1993). Os outros estados do
modelo são de primeira ordem, isto é, capturando a estatística de um dinucleotídeo,
exceto para os estados que modelam íntrons internos e o primeiro para regiões
intergênicas que são de terceira ordem. Para incorporar regras de
splicing
, são
necessárias três cópias do modelo de íntrons, sendo os estados destes três modelos
ligados, isto , também é utilizado nos éxons.
Uma segunda característica deste programa é o chamado
tying
, muito utilizado na
área de reconhecimento de voz (para redes neurais esta cnica é conhecida como
weight-sharing
).
Tying
de dois estados significa que a probabilidade da emissão e/ou a
probabilidade da transição são sempre idênticas em dois estados. Durante a estimação
de um grupo de estados ligados, estes são atualizados pela soma das modificações
calculadas para cada estado do grupo individualmente, assim é como ter o mesmo
estado aparecendo em diversos locais do modelo, o que é utilizado na modelagem dos
íntrons.
Para aumentar a velocidade do treinamento, a técnica de máxima verossimilhança
é usada como técnica inicial, seguida pela posterior aplicação da técnica de máxima
verossimilhança condicional. Durante a interação do algoritmo de Bauch-Welch
estendido o acerto do modelo no conjunto de treinamento foi monitorado e depois de
um número máximo de iterações, o modelo com maior taxa de acerto é escolhido. O
máximo número de iterações utilizado foi de 20.
Esta ferramenta foi criada com 353 genes humanos contendo, no mínimo, um
íntron. Estes genes foram divididos em 10 grupos para validação cruzada, 9 grupos são
utilizados para a estimação e um para o teste. Os resultados dos testes com este
programa mostraram ótimos resultados.
O servidor HMMgene pode ser encontrado no endereço
http://www.cbs.dtu.dk/services/HMMgene.
3.12 Morgan
O Morgan (SALZBERG
et al.
, 1998) é um sistema para predição de genes em
seqüências de DNA de vertebrados. Este sistema combina as técnicas de árvore de
decisão, programação dinâmica e cadeias de Markov para este fim. A técnica que chama
52
mais atenção neste programa é a de árvore de decisão, utilizada para classificar as
subseqüências em diferentes classes: éxon inicial, interno ou final.
Para identificar os sítios de inicialização, doador, aceptor e de terminação, este
programa utiliza duas cadeias de Markov de ordem fixa. O tio de inicialização é
definido como uma região de tamanho fixo, na qual é computada a probabilidade de
cada quatro nucleotídeos estarem em cada posição da janela. A matriz resultante
caracteriza o sítio e é similar à utilizada no GeneID. A pontuação desta matriz
posicional é definida por:
M
b,i
= log (P(b,i)/P(b)), onde b é uma base e i a sua posição.
A pontuação do novo sítio é definida por:
S(i,j) = M
Si,0
+
=
1
1
j
k
M
Si+k, k | Si+k-1, k-1
– log P(S
i
, ..., S
j
) (Equação 3.10)
Esta equação equivale a uma cadeia de Markov de primeira ordem.
Para a detecção dos sítios doadores e aceptores, este sistema utiliza uma cadeia de
Markov de segunda ordem com 64 trímeros.
A árvore de decisão tem como principal objetivo retornar a probabilidade
(pontuação) de uma seqüência ser um éxon inicial, um éxon interno, um éxon final ou
um íntron. A árvore utilizada baseia-se no sistema OC1 (MURTHY
et al.
, 1994), que é
um sistema de árvore de decisão randômico capaz de produzir diferentes resultados cada
vez que for treinado, mesmo sem mudanças no conjunto de treinamento. As métricas
utilizadas pela árvore de decisão Morgan foram:
Pontuação do sítio de inicialização
Pontuação do sítio aceptor e doador
Estatística de hexâmeros na estrutura (
in-frame hexamer
) (SNYDER &
STORMO, 1995), definida, para uma subseqüência entre i e j, como:
)/log(
6,...,6,3,0
= jk
k
k
F
f
In-frame hexame
r(i,j) =max
)/log(
6,...,7,4,1
= jk
k
k
F
f
)/log(
6,...,8,5,2
= jk
k
k
F
f
(Equação 3.11)
53
Legenda:
d, donor Pontuação do Sítio doador
a Pontuação do Sítio aceptor
hex Hexâmeros na estrutura
asym Estatística posicional assimétrica
, onde f
k
é a freqüência dos hexâmeros de uma tabela de hexâmeros na
estrutura computada para as regiões codificadoras do conjunto de
treinamento, e F
k
é a freqüência de hexâmeros de todos os hexâmeros no
conjunto de treinamento.
Estatística posicional assimétrica (FICKETT & TUNG, 1992). Esta
estatística conta a freqüência de cada base em cada uma das três posições do
códon. Se existe um determinado f(b,i) sendo a freqüência da base b na
posição i, onde i
(1,2,3), então
µ
(b) =
i
ibf
3/),( , e a estatística
posicional assimétrica A é dada por:
A(b) =
i
bibf
2
))(),((
µ
(Equação 3.12)
A pontuação (probabilidade) de cada nó folha é dada por :
folha na presentes íntrons de Número
folha na presentes éxons de Número
(Equação 3.13)
O processo de treinamento encontrou um total de 40 árvores de decisão. A Figura
3.5 mostra uma árvore encontrada para classificar seqüências como éxons internos.
d+a<3.4 ?
d+a<1.3 ?
Sim
hex<16.3?
donor<0 ?
d+a<5.3 ?
hex<-5.6 ?
asym<4.6 ?
Não
hex<0.1?
(6,560)
(18,160) (9,49)
(142,73)
(23,16)
(5,21)
(24,13) (1,5)
(737,50)
Figura 3.5 – Árvore de decisão para classificação de seqüências como éxons internos
A programação dinâmica, neste processo, tem o papel de encontrar o segmento
ótimo para ser uma determinada região numa seqüência de DNA. A forma utilizada
54
neste programa é semelhante a descrita por Wu (1996). A formulação básica desta
programação dinâmica é expressa pela matriz D[t,n], que armazena a pontuação da
melhor análise de uma subseqüência S ser do tipo t na localização n. Os tipos tratados
são:
1. Região não codificadora inicial
2. Éxon inicial
3. Éxon interno
4. Íntron
5. Éxon final
6. Região não codificadora final
Algumas regras também foram utilizadas, são elas:
1. A primeira região codificadora começa com o códon de inicialização ATG
2. Deve existir um códon de terminação no éxon final
3. Cada éxon deve ter o mesmo quadro de leitura (
reading frame
) que o éxon
anterior.
4. Cada seqüência de DNA apresentada deve conter um único gene,
começando e terminando com uma região não codificadora.
5. Todo o íntron deve começar com o dinucleotídeo de consenso GT e
terminar com o dinucleotídeo de consenso AG.
Este sistema tem como saída padrão a localização e a probabilidade do éxon.
O Morgan foi treinado com todas as seqüências de multi-éxon da base de dados
de Burset & Guigó (1996), sendo assim, sua predição é limitada a este tipo de
informação. Os resultados de seus testes mostraram um desempenho superior aos outros
programas do gênero na determinação de bases codificadoras, quanto a exatidão na
descoberta de éxons, seus resultados foram piores que o Genie e o FGENEH.
Este sistema pode ser obtido no endereço
http://www.tigr.org/~salzberg/morgan.html.
3.13 GeneMark.hmm
O GeneMark.hmm (LUKASHIN
et al.
, 1998) foi, inicialmente, desenvolvido para a
busca de genes em bactérias, sendo, posteriormente, modificado para a detecção de
genes em organismos eucariotos. Este programa utiliza uma HMM de duração explícita
como o Genie e o GenScan. O candidato a gene ótimo é selecionado pela combinação
55
das técnicas de HMM e programação dinâmica, além de um algoritmo de
reconhecimento de sítios de ligação ribossômica.
O HMM utilizado segue o modelo da Figura 3.6. Os modelos de genes típicos e
atípicos foram derivados de um conjunto de seqüências de DNA codificadoras de
proteínas obtidas pela clusterização de um conjunto de genes pertence ao genoma de
uma determinada espécie. A seqüência ótima é encontrada pelo algoritmo de Viterbi
para um posterior processamento através da busca dos sítios de ligações ribossomiais
que buscam minimizar a sobreposição entre os genes preditos.
Os sítios de ligações ribossomiais são encontrados pela equação:
R=
=
w
k
b
kn
1
2
)(
, (Equação 3.14)
onde )(kn
b
é o número de símbolos b (b= T,C,A,G) na posição k de uma janela de
alinhamento. No caso da E.Coli
24
, a seqüência de consenso encontrada foi AGGAG.
O conjunto de treinamento utilizado não é descrito e sua saída não mostra nenhum
tipo de probabilidade de acerto.
Para utilização desta ferramenta, a seqüência deve ser enviada para o endereço
[email protected]. A documentação que explica a utilização desta ferramenta
se encontra no endereço http://www.microbiology.adelaide.edu.au/links/genemark.htm.
24
Tipo de bactéria.
56
Estado não
codificador com n
nucleotídeos
Estado codificante em
leitura direta de gene típico
com i nucleotídeos
Códon inicial em
leitura direta
Estado codificante em
leitura direta de gene
atípico com j nucleotídeos
Códon final em
leitura direta
Estado codificante em
leitura reversa de gene
típico com i nucleotídeos
Códon final em
leitura reversa
Estado codificante em
leitura reversa de gene
atípico com j nucleotídeos
Códon inicial em
leitura reversa
Figura 3.6 – Modelo Oculto de Markov do GeneMark.hmm
3.14 Técnicas de combinação de programas
Hoje, muitos biólogos utilizam a combinação dos resultados de diversos
programas de busca de genes para chegar a alguma conclusão sobre os sítios existentes
em uma seqüência de DNA. Alguns autores percebendo esta disposição criaram
metodologias para este fim. Nesta seção serão explicadas as principais metodologias de
combinação de programas existentes.
3.14.1 Método baseado em AND (MURAKAMI & TAKAGI, 1998)
Este método, proposto por Murakami e Takagi (1998), seleciona os éxons
candidatos como as regiões preditas por todos os programas envolvidos, conforme
demonstrado na Figura 3.7. Este método pressupõe que o resultado tem uma taxa menor
de éxons errados.
57
Programa 1
Programa 2
Programa 3
Programa 4
Seqüência de DNA
Método AND
Região predita como éxon por um programa de predição
Região predita como éxon, utilizando o método de combinação de programas
Figura 3.7 – Técnica de Combinação de programas utilizando o método AND
3.14.2 Método baseado em OR (MURAKAMI & TAKAGI, 1998)
Para este método os éxons candidatos serão as regiões preditas por pelo menos
um dos programas envolvidos. Este método consegue uma maior sensibilidade em nível
de éxon. A Figura 3.8 mostra um exemplo de funcionamento deste método
58
Programa 1
Programa 2
Programa 3
Programa 4
Seqüência de DNA
Método OR
Região predita como éxon por um programa de predição
Região predita como éxon, utilizando o método de combinação de programas
Figura 3.8 – Técnica de Combinação de programas utilizando o método OR
3.14.3 Método HIGHEST (MURAKAMI & TAKAGI, 1998)
O método HIGHEST utiliza a pontuação dos programas de busca de genes. Os
éxons candidatos, para esta metodologia, serão as regiões que possuírem maior
pontuação entre os programas. A Figura 3.9 mostra um exemplo do funcionamento
desta metodologia.
59
Programa 1 P = 0,8
Programa 2 P = 0,4
Programa 3 P = 0,8
Programa 4 P = 0,9
Seqüência de DNA
Método HIGHEST
Região predita como éxon por um programa de predição
Região predita como éxon, utilizando o método de combinação de programas
Figura 3.9 – Técnica de Combinação de programas utilizando o método HIGHEST
3.14.4 Método RULE (MURAKAMI & TAKAGI, 1998)
Este método foi baseado nos teste feitos por Burset e Guigó (1996) e por Burge e
Karlin (1997). A região codificadora é determinada por ordem de prioridades entre
programas (no artigo de Murakami e Takagi (1998) a ordem foi: GenScan, FEXH,
GeneParser e GRAIL). Então, para cada cluster de um éxon predito, é selecionado o
programa com a maior prioridade. Portanto, o éxon candidato é a região predita por um
determinado programa. A Figura 3.10 mostra o resultado deste método supondo o
“Programa 3” com maior prioridade em todos os clusters dos éxons preditos.
60
Programa 1
Programa 2
Programa 3
Programa 4
Seqüência de DNA
Método HIGHEST
Região predita como éxon por um programa de predição
Região predita como éxon utilizando o método de combinação de programas
Figura 3.10 – Técnica de Combinação de programas utilizando o método RULE
3.14.5 Método BOUNDARY (MURAKAMI & TAKAGI, 1998)
Nesta metodologia existe a necessidade da definição da probabilidade do limite das
regiões codificadoras e não codificadoras serem corretos, dada por Pb(bt,P), onde P é a
pontuação e bt o tipo de limite. Os tipos de limites são: códon de inicialização (i), sítio
doador (d), sítio aceptor (a) e códon de finalização (t). Pb é estimado para cada
programa a partir de um conjunto de treinamento. Se existir um éxon com dois limites,
cujos tipos são l e r (l={i,a} e r={d,t}), com uma pontuação (P), é calculada uma nova
pontuação definida como:
E(l,r,P)=
P)Pb(r, x P)Pb(l,
(Equação 3.15)
Neste método o éxon selecionado é o que possui o melhor E.
61
3.14.6 Algoritmo EUI (Éxon Union-Intersection) (ROGIC et al.,2002)
Rogic et al.(2002) criaram este algoritmo para integrar os programas GenScan e
HMMGene. Este algoritmo funciona da seguinte forma:
1)
Considere todos os éxons do GenScan e HMMgene que têm uma pontuação
maior ou igual a um limite p
th
(o valor considerado ótimo para o p
th
é 0,775). As
regiões preditas por, ao menos um, dos programas são denominadas éxons EUI.
2)
Considere todos os éxons do GenScan e HMMgene que possuem uma pontuação
menor que p
th
. As regiões preditas por ambos os programas são denominadas
éxons EUI.
Existe uma exceção para o passo 1: Se um éxon interno predito pelo GenScan tem o
mesmo limite à direita (sítio doador) que um éxon inicial do HMMgene e ambos os
éxons têm pontuação maior que p
th
, é escolhido o éxon do HMMgene como um éxon
EUI, pois o HMMgene prediz o éxon inicial com melhor acerto que o GenScan,
conforme descrito em Rogic et al.(2001).
3.14.7 Algoritmo GI (Gene Intersection) (ROGIC et al.,2002)
Como no caso anterior, este método visa integrar os resultados do HMMgene e do
GenScan. Este algoritmo apresenta o seguinte mecanismo de funcionamento:
1)
Para cada programa de predição selecionam-se todas as regiões preditas como
gene (genes são tratados como seqüências contínuas com o começo no primeiro
éxon predito e final no último). As regiões preditas por ambos os programas são
denominadas de genes GI (gene intersection).
2)
Aplica-se o método EUI para todos os éxons que estão completamente inseridos
nos genes GI.
3.14.8 Algoritmo EUI_frame (Éxon Union-Intersection with Reading Frame
Consistency) (ROGIC et al.,2002)
Este algoritmo, criado para GenScan e HMMGene, funciona conforme descrito
abaixo:
1)
Para cada programa de predição determina-se os limites entre os genes e para
cada um associa-se uma probabilidade calculada com a média da pontuação de
cada éxon contido no gene. Para cada éxon predito determinam-se as posições
dos sítios doadores e aceptores.
62
2)
Se o gene predito pelo GenScan se sobrepuser ao do HMMgene, escolhe-se
aquele com maior probabilidade. Aplica-se o método EUI para determinar os
éxons ao longo dos genes selecionados.
3.14.9 Algoritmo SNB (Static Naive Bayes) (PAVLOVIC et al., 2002)
Pavlovic et al. (2002) sugeriram a utilização de redes bayesianas simples para a
combinação de ltiplos preditores de genes, como o da Figura 3.11. Nesta figura, os
três programas preditores são representados por E1, E2 e E3, e Y representa a
combinação dos sistemas.
Y
E3E2E1
Figura 3.11 – Static Naive Bayes
Para este modelo uma “predição verdadeira” é dada como:
P(Y,E1,E2,E3) = P(E1|Y)P(E2|Y)P(E3|Y)P(Y) (Equação 3.16)
O caminho mais comum para selecionar os parâmetros é a utilização da máxima
verossimilhança dos dados de um conjunto de treinamento. Este esquema assume a
independência dos sistemas.
3.14.10 Algoritmo SFB (Static Full Bayes) (PAVLOVIC et al., 2002)
Outra sugestão de Pavlovic et al. (2002) foi a utilização de um esquema de
correlação entre os sistemas especializados usando o modelo de Bayes da Figura 3.12.
A distribuição definida nesta rede é P(Y|E1,E2,E3)P(E1)P(E2)P(E3). Os parâmetros
podem ser estimados de forma similar ao algoritmo SNB.
63
Y
E3E2E1
Figura 3.12 – Static Full Bayes
3.15 Outras técnicas e ferramentas
Diversas técnicas e programas foram desenvolvidos e testados para melhorar o
desempenho da predição de genes, os mais recentes estudos são descritos nesta seção.
3.15.1 GeneSeqer (USAKA & BRENDEL, 2000; USAKA et al., 2000)
O GeneSeqer é uma ferramenta que busca predizer a estrutura de um gene
através do alinhamento do DNA genômico com seqüências protéicas. O seu algoritmo
procura o alinhamento ótimo de uma seqüência de tamanho N com uma seqüência de
proteínas de tamanho M. Os alinhamentos ótimos são como a seqüência de estados Q
com a saída associada
N
M
S ( representa uma seqüência de alinhamento entre a seqüência
genômica e a seqüência de proteínas como a probabilidade P(Q,
N
M
S )). Esta
probabilidade é calculada como:
P = max {
N
M
E ,
(
)
N
M
I
0
,
(
)
N
M
I
1
,
(
)
N
M
I
2
},
Onde
N
M
E = max P(Q=éxon,
n
m
S ),
e
(
)
N
M
x
I
= max P(Q=íntron
x
,
n
m
S )
para x=0,1,2; n=1,2,...,N e m = 1,2,...,M.
O GeneSeqer, em seus testes, conseguiu, na média, melhores resultados que
outros métodos baseados em alinhamento. Este programa pode ser encontrado no
endereço http://bioinformatics.iastate.edu/cgi-bin/gs.cgi .
64
3.15.2 GeneSplicer (PERTEA et al., 2001)
Esta ferramenta utiliza a técnica MDD (BURGE & KARLIN, 1998) combinada
com o modelo de Markov descrito em Salzberg et al.(1998,1999) para a detecção de
sítios de splice. Usando o DNA de dois organismos de referência (Arabidopsis thaliana
e humano) encontrou bons resultados quando comparados a outras ferramentas. Este
programa pode ser encontrado em http://www.tigr.org/tdb/GeneSplicer/gene_spl.html.
3.15.3 Reconhecimento de pequenas regiões codificadoras baseadas no códon
terminal (WANG et al.,2002)
Um dos grandes problemas nas ferramentas de predição existentes é o
reconhecimento de genes pequenos na estrutura genética. Wang et al. (2002)
propuseram uma solução para este problema fundamentada na distribuição dos códons
terminais (TAA, TAG e TGA).
A solução proposta baseia-se na análise discriminante linear de Fisher com quatro
variáveis, que são:
Variável assimétrica
X
1
= min (R
1
, R
2
, R
3
),
Onde:
R
1
= y
1
(1)x y
2
(1)x y
3
(1)
y
1
(1)
Conteúdo de T na primeira posição de um códon
y
2
(1)
Conteúdo de G na primeira posição de um códon
y
3
(1)
Conteúdo de A na primeira posição de um códon
R
2
= y
1
(2)x y
2
(2)x y
3
(2)
y
1
(2)
Conteúdo de T na segunda posição de um códon
y
2
(2)
Conteúdo de G na segunda posição de um códon
y
3
(2)
Conteúdo de A na segunda posição de um códon
R
3
= y
1
(3)x y
2
(3)x y
3
(3)
y
1
(3)
Conteúdo de T na terceira posição de um códon
y
2
(3)
Conteúdo de G na terceira posição de um códon
y
3
(3)
Conteúdo de A na terceira posição de um códon
Variável de 3-Periodicidade
X
2
= ln P, onde P é o power spectrum calculado por uma FFT na posição
N/3, onde N é o tamanho da seqüência
lenghten-shuffling.
65
Variável Purina
X
3
= max (P
1
, P
2
, P
3
),
Onde P
1
, P
2
, P
3
são as freqüências das purinas em regiões codificantes, não
codificantes e intergências.
Variável do Códon Terminal
X
4
= (1+K
2
)x n, onde
K é o número de frames (regiões codificante, não codificante e
intergênica) que contêm os três triplets (TAA,TAG e TGA) numa seqüência
e pode variar de 0 a 3.
n é o número de triplets contidos nos três frames
Este sistema foi testado com genes humanos com o processo de validação
cruzada encontrando bons resultados com genes de 42 bp até 192 bp.
3.15.4 Twinscan (KORF et al., 2001)
O Twinscan é uma extensão direta de um programa de predição GenScan. O que
esta ferramenta faz de diferente é estender o GenScan permitindo a exploração de
semelhanças encontradas entre duas seqüências homólogas. Esta ferramenta pode ser
encontrada no endereço http://genes.cs.wustl.edu/query.html.
3.15.5 GeneMachine (MAKALOWSKA et al., 2001)
GeneMachine é uma ferramenta que permite a predição de éxons e genes através
da consulta de diversos programas de descoberta de genes (MZEF, GenScan, GRAIL 2,
Fgenes, BLAST, RepeatMasker).
Este sistema foi desenvolvido em Perl, sendo dividido em vários módulos, os
quais correspondem a um programa de descoberta de genes ou de busca por
semelhança. Neste sistema é possível a inclusão de novas ferramentas de forma rápida.
Este programa pode ser encontrado no endereço
http://genome.nhgri.nih.gov/genemachine e sua interface web se encontra em
http://genemachine.nhgri.nih.gov.
3.15.6 SGP2 (PARRA et al., 2003; GUIGÓ et al., 2003)
O SGP2 é uma extensão direta do programa de predição GeneID. Esta ferramenta
combina os resultados do TBlastX (W.Gish, 1996-2002, http://blast.wustl.edu) para
modificar a pontuação dos potenciais predições do GeneID. Neste sistema a
66
similaridade entre as seqüências consultadas e as seqüências codificadoras conhecidas
aumenta o desempenho da predição de genes. Esta ferramenta pode ser encontrada em
http://www1.imim.es/software/sgp2/.
3.15.7 AGenDA (RINNER & MORGENSTERN,2002 ; TAHER et al., 2003)
O AGenDA é um programa de descoberta de genes baseado em busca de
seqüências homólogas. Este programa pega a pontuação de alinhamento dos programas
CHAOS (BRUDNO & MORGENSTERN, 2002) e DIALIGN (MORGENSTERN,
1999). Numa próxima etapa este programa constrói um modelo de gene baseado na
similaridade encontrada pelo DIALIGN
25
. Este resultado é retornado para o usuário por
e-mail. Nesta metodologia, bons resultados o encontrados desde que a distância
evolucionária entre as espécies seja pequena. Este programa é otimizado para
seqüências humanas e de rato.
3.15.8 DGSplicer (CHEN et al., 2005)
Esta técnica utiliza um modelo gráfico para capturar a interdependência entre as
posições das bases num sítio de splice. Para facilitar a inferência estatística foi
expandida a dependência gráfica numa rede bayesiana, denominada rede bayesiana
estendida.
Neste artigo, esta técnica foi comparada com os modelos existentes encontrando
um melhor desempenho em todos os casos estudados.
3.15.9 SpliceMachine (DEGROEVE et al., 2005)
O SpliceMachine reconhece sítios de splice se baseando em informações
posicionais, de composição e de códons extraídos dos candidatos a sítios de splice. A
chave desta técnica é o modelo LSVM
26
(linear support vector machines), que é
considerado um classificador rápido de sítios candidatos.
Este artigo demonstra uma melhora na detecção de sítios de splice utilizando
esta técnica. Seus criadores, destacam que esta metodologia possibilita ainda a
incorporação de outros tipos de características de forma cil, como a existência ou não
de uma característica estrutural (Patterson et al., 2002).
25
Método baseado numa função de pesos para todas as possíveis diagonais, não possuindo penalidades
por gaps.
26
O LSVM separa duas classes com um hiperplano. A característica deste hiperplano é manter a distância
entre as classes máxima e a grande possibilidade de fracionamento das instâncias da mesma classe. Esta
técnica foi baseada na técnica de SVM (Boser et al., 1992; Vapnik, 1995)
67
3.15.10GeneZilla (MAJOROS et al. 2004; MAJOROS et al. 2005)
O GeneZilla é um programa baseado em HMM generalizado (GHMM) como
GenScan e o Genie. O algoritmo de codificação do GeneZilla possibilita uma utilização
linear do tempo e da memória de acordo com o tamanho da seqüência. Modelos sub-
ótimos de genes podem ser explorados devido a representação baseada em teoria de
grafos. Esta ferramenta utiliza modelo interpolado de Markov (IMM), MDD (Maximal
Dependence Decomposition) e inclui estados para sinais de peptídeos, TATA boxes e
sítios CAP.
Esta ferramenta pode ser encontrada em http://www.genezilla.org.
3.15.11JIGSAW (ALLEN & SALZBERG, 2005)
Este programa prediz o modelo de gene utilizando a saída de outro software de
anotação. Ele usa um algoritmo estatístico para identificar evidências de padrões
correspondentes ao modelo de gene.
O JIGSAW calcula o peso relativo das evidências (baseado em outro software de
anotação) para ser um gene usando estatística baseada no conjunto de treinamento e
combina estas evidências utilizando programação dinâmica.
Esta ferramenta pode ser encontrada em
http://www.cbcb.umd.edu/software/jigsaw/.
3.15.12SpliceScan (CHURBANOV et al., 2006)
Esta ferramenta utiliza redes bayesianas simples para realizar a combinação linear
de um conjunto de componentes relatados de splicing para aumentar a predição dos
sítios de splice.
O sensor Bayesiano 5’ demonstrou um desempenho superior as técnicas existentes,
já o sensor Bayesiano 3’ demonstrou desempenho comparável as técnicas existentes.
Nos experimentos está técnica teve melhor desempenho que o Genie, porém, pior
que o GenScan, HMMGene, MZEF e GeneID.
68
4 Medidas de exatidão da predição
4.1 Introdução
As medidas de exatidão são utilizadas para avaliar os resultados de uma predição, e
portanto, são de extrema importância na verificação do desempenho das ferramentas de
busca de genes.
O conjunto de medidas de exatidão proposto por Burset e Gui(1996), hoje, é
utilizado como “padrão” na área de predição de genes. Estas métricas são divididas em
dois níveis: nucleotídeo e éxon. Este capítulo tem como objetivo descrever estas
medidas.
4.2 Nível de Nucleotídeos
Neste vel, a exatidão da predição de uma seqüência é medida comparando o
valor predito com o verdadeiro valor codificado para cada nucleotídeo ao longo da
seqüência testada. Esta abordagem é a mais amplamente utilizada na avaliação das
regiões codificadoras e nos métodos de predição da estrutura dos genes.
Costuma-se representar a junção da distribuição de duas variáveis binárias através
de uma tabela de contingência 2x2 (Figura 4.1), que neste caso representa os
relacionamentos entre os nucleotídeos codificados reais e os preditos na seqüência
testada.
TP FP
FN TN
codificado
Não
codificado
codificado
Realidade
Não
codificado
Predição
Figura 4.1 – Tabela de contigência que representa o relacionamento entre os
nucleotídeos codificados preditos e reais
Na célula superior esquerda da Figura 4.1 foi colocado o número de nucleotídeos
codificadores corretamente preditos como codificadores (os verdadeiros positivos (
true
69
positives), TP), enquanto na célula inferior direita colocou-se o número de nucleotídeos
não codificadores corretamente preditos como não codificadores (os verdadeiros
negativos (true negatives), TN). As outras duas células desta tabela mostram o número
de nucleotídeos codificadores preditos como não codificadores (os falsos negativos
(falses negatives), FN) e o número de nucleotídeos não codificadores preditos como
codificadores (os falsos positivos (false positives), FP), portanto, estas células
correspondem à discordância entre a predição e a realidade. A Figura 4.2 mostra um
exemplo destas medidas.
TN FN TP FP TN FN TP FN TN
Real
Predito
Figura 4.2 – Exemplo das medidas em nível de nucleotídeos
As medidas de sensibilidade (Sn) e especificidade (Sp) são as duas mais utilizadas
e podem ser derivadas da Figura 4.1. Usualmente, a sensibilidade e a especificidade são
definidas como:
FN
TP
TP
Sn
+
=
(Equação 4.1)
FP
TN
TN
Sp
+
=
(Equação 4.2)
Sn é a proporção de nucleotídeos codificadores que são corretamente preditos, e
Sp é a proporção de nucleotídeos não codificadores que são corretamente preditos.
Contudo, a freqüência de nucleotídeos não codificadores numa seqüência genômica de
DNA é muito maior que a freqüência de nucleotídeos codificadores, TN tende a ser
muito maior que FP, e assim, Sp, sistematicamente, produz um grande número de
valores sem informação. Portanto, para a predição da estrutura de um gene, a
especificidade é, tradicionalmente, (BURSET & GUIGÓ, 1996) calculada por:
70
FP
TP
TP
Sp
+
=
(Equação 4.3)
Sendo Sp, agora, a proporção de nucleotídeos codificadores preditos que são
realmente codificadores. Estas métricas podem ser reescritas como:
Sn= P(F(x)=c|x=c)
Sp=P(x=c|F(x)=c)
Onde x denota o atual estado de um dado nucleotídeo (c para codificador e n
para não codificador), e F(x) é o estado predito para este nucleotídeo.
Portanto, pode-se ter uma sensibilidade (Sn) muito grande com uma
especificidade (Sp) muito pequena e , reciprocamente, uma especificidade grande com
uma pequena sensibilidade. Assim, Sp e Sn isolados não constituem uma boa medida
global de exatidão, surgindo a necessidade de se utilizar um valor único para sumarizar
ambas as medidas globais de exatidão. Na literatura de predição da estrutura genética, a
medida preferida tem sido o Coeficiente de Correlação (CC). A partir de Figura 4.1 é
definida como:
)()()()(
)()(
FNTNFPTPFPTNFNTP
FPFNTNTP
CC
+×+×+×+
×
×
=
(Equação 4.4)
A equação 4.4 é, somente, uma fórmula especial para o coeficiente de correlação
produto-momento de Pearson, neste caso particular, para duas variáveis. CC não
depende somente de P(F(x)=c|x=c) e P(x=c|F(x)=c), mas também de P(F(x)=n|x=n) e
P(x=n|F(x)=n). Enquanto as duas primeiras probabilidades correspondem à
sensibilidade e à especificidade na predição dos nucleotídeos codificadores, as outras
duas pode ser vistas como a sensibilidade e a especificidade da predição dos
nucleotídeos não codificadores. Portanto, CC parece ser apropriado para medida geral
da exatidão da predição. Contudo, CC tem uma propriedade indesejável: não é definido
quando TP+FN, FP+TN, TP+FP ou FN+TN o iguais a zero, significando que não
existe região codificadora na seqüência testada, ou se esta seqüência pode ser predita
totalmente como não codificante. Uma medida com características similares, porém
definida nestas circunstâncias, é a correlação aproximada (AC
approximate
correlation
) definida como:
AC = (ACP – 0.5) * 2 (Equação 4.5)
71
onde ACP é a probabilidade condicional média (ACP –
Average condicional
probability
) definida como:
+
+
+
+
+
+
+
=
FNTN
TN
FPTN
TN
FPTP
TP
FNTP
TP
ACP
4
1
(Equação 4.6)
ACP apareceu, inicialmente, em Anderberg (1973) e pode ser entendido como a
média das probabilidades condicionais que compõem CC, sendo AC esta medida com
variação no intervalo de [-1,1] como CC.
4.3 Nível de Éxons
Neste nível, as medidas de exatidão da predição comparam os éxons preditos e os
éxons verdadeiros ao longo da seqüência testada (Figura 4.3).
O critério normalmente utilizado é considerar um éxon predito corretamente
quando ocorrer a combinação exata do predito com o real. Mas pode ser igualmente
legítimo considerar um éxon correto quando a sobreposição entre o éxon predito e o real
for maior que um limite ou quando pelo menos um dos sítios de
splice
forem
identificados corretamente.
Éxon
Errado
Éxon
Correto
Éxon
Perdido
Real
Predito
Figura 4.3 – Exemplo das medidas em nível de éxons
A medidas de sensibilidade (ESn) e especificidade (ESp) são utilizadas pra medir a
exatidão da predição da estrutura de um éxon. As fórmulas da sensibilidade e
especificidade para éxons são:
72
Número de éxons corretos
ESn =
Número de éxons reais
(Equação 4.7)
Número de éxons corretos
ESp =
Número de éxons preditos
(Equação 4.8)
Assim, a sensibilidade é a proporção de éxons reais numa seqüência testada que
são corretamente preditos e a especificidade é a proporção de éxons preditos que estão
corretos.
Neste nível são importantes, também, duas outras medidas: éxons perdidos (ME
Missing Éxons
) e éxons errados (WE
Wrong Éxons
). As fórmulas para ME e WE
são:
Número de éxons perdidos
ME =
Número de éxons reais
(Equação 4.9)
Número de éxons errados
WE =
Número de éxons preditos
(Equação 4.10)
Assim, ME é a proporção de éxons reais sem sobreposição com os éxons
preditos e WE é a proporção dos éxons preditos sem sobreposição com os éxons reais.
Outras medidas neste nível também são utilizadas, as principais são:
Número de éxons preditos parcialmente
PCa =
Número de éxons reais
(Equação 4.11)
Número de éxons preditos parcialmente
Cp =
Número de éxons preditos
(Equação 4.12)
73
Número de éxons preditos sobrepostos aos reais
OL =
Número de éxons reais
(Equação 4.13)
É importante ressaltar que uma grande exatidão em nível de nucleotídeo não
implica numa boa exatidão em nível de éxons.
74
5 Metodologia
5.1 Introdução
Este capítulo tem como objetivo descrever a metodologia que foi empregada no
desenvolvimento de uma ferramenta auxiliar para a predição de regiões codificadoras,
denominada ExonBR. Os propósitos desta ferramenta são:
Predizer as regiões codificadoras a partir de uma seqüência;
Não ter limitação no tamanho das seqüências;
Encontrar éxons em conjuntos de nucleotídeos com éxons simples ou
multi-éxons;
Permitir ao usuário a criação de sua base de dados de conhecimento. Este
banco de dados permite a adaptação da ferramenta a um organismo.
Fornecer ao usuário uma interface bastante amigável.
A Figura 5.1 mostra, de forma simplificada, o funcionamento desta ferramenta.
Para a criação deste sistema, foi necessário o desenvolvimento de uma técnica de
predição de regiões codificadoras. Primeiramente, deve-se esclarecer o que foi
interpretado como uma região codificadora pela ferramenta ExonBR, como pode ser
visto na seção 5.2, na qual é explicado o modelo de gene proposto.
O próximo passo para solucionar este problema é a definição da seleção de dados
e do método a ser utilizado em cada etapa do modelo. Na seleção de dados, apresentada
na seção 5.3, são escolhidas as seqüências que serão utilizadas pelo programa ExonBR.
Os métodos testados, que são a principal contribuição deste trabalho, utilizam a
combinação da técnica de matriz peso-posição e redes neurais, apresentados na seção
5.4.
Um outro aspecto importante neste algoritmo é a probabilidade da região
codificadora
27
, ou seja, a medida da chance da seqüência (ou subseqüência) testada ser
uma região codificadora, este cálculo é apresentado na seção 5.5.
A seção 5.6 apresenta como é descoberta uma região codificadora à partir de uma
base de dados construída no módulo de treinamento.
Foi utilizada a ferramenta Borland Delphi para o desenvolvimento deste sistema.
27
A probabilidade da região codificadora pode ser utilizada para encontrar uma gama maior de
possibilidades de éxons. Isto é importante para o usuário quando ele faz comparações com organismos
não tão próximos evolutivamente do treinado.
75
Figura 5.1 – Funcionamento da ferramenta auxiliar para predição de genes ExonBR
5.2 O Modelo para Gene
A criação de uma ferramenta para predição de região codificadora necessita da
definição do que é entendido como uma região codificadora e, para tal, foi criado um
modelo, descrito na Figura 5.2, na qual estão identificadas as estruturas e as suas
possíveis ordens no gene.
76
Sítio
Aceptor
Sítio
Doador
Sítio
Aceptor
Sítio
Doador
Início
Éxon
Inicial
Éxon
Interno
Íntron
Éxon
Terminal
Fim
Exon
Simples
Região
Intergênica
5'
3'
Figura 5.2 – Modelo de gene
As estruturas genéticas definidas no modelo proposto são:
Início (códon de inicialização)
Sítio de inicio da tradução do gene.
Éxon simples
Modela a situação, na qual o gene não possui íntrons.
Éxon inicial
Éxon após o sítio de inicialização.
Éxon interno
Éxon entre íntrons.
Éxon terminal
Éxon antes do sítio terminal.
Íntron
Região não codificadora entre éxons.
Região Intergênica
Região não codificadora entre genes. Para simplificar, neste modelo,
qualquer região não traduzida antes do éxon inicial e depois do éxon
terminal será considerada como região intergênica.
Sítio de
splice
doador
Região localizada entre o final de um éxon e o início de um íntron. Este
sítio não existe em éxons simples e em éxons terminais.
77
Sítio de
splice
aceptor
Região localizada entre o início de um éxon e o final de um íntron. Este
sítio não existe em éxons simples e em éxons iniciais.
Fim (códon terminal)
Sítio onde termina a tradução de um gene.
Com o objetivo de solucionar o problema de predição de região codificadora foi
utilizado um modelo para cada estrutura codificadora definida. Esta decisão foi tomada
devido à adaptabilidade da ferramenta ExonBR, a base de treinamento apresentada.
Com esta separação, a ferramenta diferencia cada tipo de éxon. Caso os dados não
possuam a informação para a separação de cada tipo de éxon é utilizado um único
modelo para a identificação de regiões codificadoras, e, portanto, neste caso, a
ferramenta não faz distinção de tipos de éxons. Esta ferramenta não faz a distinção de
íntrons e regiões intergênicas, e não identifica sítios de
splice
.
5.3 Seleção de Dados
A seleção de dados é uma etapa de extrema importância na descoberta de genes.
Nesta etapa, seleciona-se os dados que serão utilizados pelo programa para o
aprendizado sobre o organismo. Como foi demonstrado por Claverie (1997), uma
ferramenta de busca de genes prediz com bom grau de exatidão apenas os organismos
para os quais foi treinada e aqueles que são próximos, evolutivamente, dos primeiros.
Devido a essas características, neste trabalho foi escolhido um organismo
(extraído do GenBank) para a construção de uma base de dados de treinamento e
validação. foram utilizadas as seqüências contendo informações relevantes ao
problema, nos arquivos GenBank esta informação foi buscada no campo CDS e nos
arquivos FASTA
28
, todas as informações foram consideradas de regiões codificadoras.
O organismo escolhido para treinamento e validação da técnica foi a
Drosophila
melanogaster
(mosca da fruta). Este organismo é bastante utilizado pelas técnicas de
predição de genes para validar seus resultados. Foram realizados testes, também, com a
base HMR195
29
criada por Rogic
et al.
(2001) ,
Arabidopsis thaliana
30
e
Oryza sativa
(arroz).
28
Formato descrito na seção 2.3.4.
29
Combinação de Homo sapiens, Mus musculus e Rattus norvegicus, amplamente utilizada como teste.
30
Pequena planta florida muito utilizada como o organismo modelo de plantas na área de descoberta de
genes.
78
5.4 O modelo para a descoberta de regiões codificadoras
O modelo proposto para identificar regiões codificadoras (éxon simples, éxon
inicial, éxon interno e éxon terminal), que é uma das contribuições deste trabalho, foi
fundamentado na combinação da técnica de matriz peso-posição modificada e redes
neurais. Esta escolha se deve ao fato da técnica de matriz peso-posição ter se mostrado
eficaz para solução do problema de descoberta de genes (GUIGÓ
et al
., 1992) e ao fato
das redes neurais serem amplamente utilizadas como técnica de classificação, além de
ter mostrado bons resultados na predição de genes (UBERBACHER & MURAL, 1991;
MURAL
et al
., 1992).
O primeiro passo para este modelo foi criar o banco de dados para o seu
treinamento e a sua validação. Esta base de dados foi desenvolvida com combinações de
regiões codificadoras e não codificadoras com o tamanho da janela escolhida.
Neste modelo, define-se como janela um bloco de N bases codificadoras ou não
codificadoras. O tamanho ideal deste bloco pode variar de acordo com o organismo,
portanto, deve-se testar várias janelas até encontrar a ideal para a base de dados de
treinamento apresentada. A ferramenta ExonBR faz vários testes de tamanho de janela
até encontrar a que permite melhor desempenho, a janela inicial sugerida é de 42 bp.
Esta escolha deve-se ao fato de que este tamanho corresponde ao menor éxon predito
corretamente pela maioria das ferramentas existentes. Este valor é configurável no
programa. A Figura 5.3 mostra como esta separação é realizada para uma janela de 8 bp.
Percebe-se que uma janela, denominada janela final, é criada para a detecção do final da
região codificadora. Vale ressaltar que esta separação é diferente das tradicionais,
trazendo uma melhora de desempenho da ferramenta ExonBR.
Figura 5.3 – Exemplo da criação das janelas
79
A Equação 5.1 mostra o total de janelas (
θ
) de tamanho N geradas a partir de
uma base de dados com M bp, portanto com uma base de dados de 200.000 bp e em
uma janela de 42 bp têm-se 4.762 blocos codificadores.
θ
=
N
M
entoArredondam
(Equação 5.1)
Onde M é o tamanho da base de dados em bp e N é o tamanho da janela em bp
Outro ponto importante para definição deste modelo é a determinação das
entradas da rede neural. As entradas foram baseadas em hexâmeros, esta escolha se
deve ao fato de que em muitos sistemas para predição de genes utilizam-se informações
destes polímeros como ponto principal de seu algoritmo. Testes realizados por Burge
(1997) em sua tese mostraram que o hexâmero é a principal fonte de informações para a
descoberta de regiões codificadoras.
Com a escolha do hexâmero como entrada, a próxima etapa consiste em decidir
uma forma de codificá-lo. Existem 4096 (4
6
) hexâmeros e isto torna impraticável a
utilização de uma codificação sem dependência algébrica, pois cada hexâmero
precisaria de 4.096 entradas na rede neural. Como exemplo pode-se citar uma rede
neural com janela de 96 bp, que teria 65536 entradas. A solução encontrada, neste
trabalho, foi tratar cada hexâmero como uma única entrada na rede neural, sendo,
portanto, necessário um cálculo para sua codificação.
No cálculo utilizado, cada hexâmero foi representado como a quantidade
normalizada de sua existência na região desejada. Esta técnica assemelha-se com a
matriz peso-posição utilizada por Guigó
et al.
(1991), portanto denominada matriz peso-
posição modificada, sendo uma inovação apresentada neste trabalho. A modificação
implementada é a utilização de hexâmeros e a normalização dos valores (em seu
trabalho Guigó
et al.
(1991) utilizavam diretamente os nucleotídeos para a criação desta
matriz). Esta pontuação foi calculada a partir do conjunto de treinamento e fixada para
qualquer seqüência de entrada na rede neural. A matriz terá sempre 4096 linha por C
colunas (matriz 4096 x C), onde C é dado pela equação 5.2, portanto, para uma janela
de 42 bp está matriz terá 37 colunas por 4096 linhas, ou seja, 151.552 células.
C = N – 5
(Equação 5.2)
Onde N é o tamanho da janela escolhida e C é a quantidade de colunas na matriz
peso-posição.
80
A seguir, tem-se um exemplo com seqüências de até 8 bp para a criação da
matriz peso-posição:
Seqüência 1 – AAGCCTAG
Seqüência 2 – CAGCCTAG
Seqüência 3 – AGCCTA
Seqüência 4 – CCGCCTAG
Seqüência 5 – CAGCGGT
Seqüência 6 – AAGCCTTA
A Tabela 5.1 mostra a quantidade de hexâmeros por posição normalizada. Para
melhorar a visualização as linhas sem valores
31
foram omitidas. A Figura 5.4 mostra
como os hexâmeros são selecionados e suas posições.
Figura 5.4 – Seleção dos hexâmeros numa seqüência.
Tabela 5.1 – Exemplo de quantidade de hexâmeros por posição normalizada – Matriz
peso-posição modificada
Hexâmero Posição 1 Posição 2 Posição 3
AAGCCT 1 0 0
AGCCTA 1 1 0
GCCTAG 0 0 1
CAGCCT 1 0 0
GCCTAG 0 0 0.5
CCGCCT 1 0 0
CGCCTA 0 0.5 0
CAGCGG 1 0 0
AGCGGT 0 0.5 0
AAGCCT 1 0 0
AGCCTT 0 0.5 0
GCCTTA 0 0 0.5
31
Linhas onde todas as posições possuem valor zero.
81
Nesta matriz, cada hexâmero tem um número que varia de 0 a 4095
32
, definido
como
φ
(hexâmero)
. A Equação 5.3 mostra como calcular
φ
(hexâmero)
.
φ
(hexâmero)
=
4
1
6
1
*
=
i
i
i
Nu
Equação 5.3
Onde:
Nu
i
Valor do nucleotídeo na posição i do hexâmero. Os nucleotídeos
são convertidos para os seguintes valores:
A
0; T
1; G
2 ; C
3
O valor de cada célula da matriz peso-posição, P(k,j), é dado pela Equação 5.5.
Q (k,j) =
=
S
i
t
kj
i
1
, Equação 5.4
P (k,j) =
j
Max
jkQ ),(
, Equação 5.5
Onde:
t
kj
Possui o valor 1 se o hexâmero k existe na posição j da i-ésima
seqüência testada, caso contrário possui o valor 0.
S
Número de seqüências codificadoras no conjunto de treinamento.
Max
j
Maior valor da matriz na posição j.
A matriz peso-posição modificada, portanto, define a probabilidade do hexâmero
existir numa posição baseado no conjunto de treinamento. Esta estatística é utilizada
como entrada da rede neural, e a quantidade de entradas desta rede é
θ
, sendo esta
combinação uma inovação neste trabalho.
A Figura 5.5 mostra como é feita a entrada na rede neural baseado no exemplo
da Figura 5.4. Nesta figura cada hexâmero é inserido na rede com a informação da
proabilidade de sua existência numa posição, definido como P(
φ
(hexâmero)
,posição). Vale
ressaltar que a rede neural possui N-5 entradas, onde N é o tamanho da janela escolhida,
portanto existem N-5 possíveis posições.
32
Existem 4096 possíveis hexâmeros.
82
Figura 5.5 – Exemplo de codificação de entrada na rede neural
Somente regiões com alguma chance de serem codificadoras são usadas na rede
neural, logo pelo menos um hexâmero deve ter sua pontuação diferente de 0 (zero) para
ter chance de ser codificador. Nas seções 6.1.2.1, 6.1.2.2 e 6.1.2.3 são mostrados testes
com e sem este filtro.
As seqüências repetidas e menores que a janela escolhida são retiradas para o
treinamento da rede neural. Vale ressaltar que elas foram utilizadas na criação da matriz
peso-posição modificada.
Outro teste realizado foi a colocação da taxa de G+C na seqüência, o que se deve
ao fato de Guigó
et al.
(1992) demonstrarem a influência destes nucleotídeos para a
predição correta de regiões codificadoras. Esta entrada foi calculada como sendo a
porcentagem de G+C na janela testada. Os resultados destes testes estão descritos nas
seções 6.1.2.1, 6.1.2.2 e 6.1.2.3
Feito isto, foi definida a quantidade de neurônios e a codificação de saída da rede
neural. Foi utilizado um neurônio nesta camada, tendo como saída a informação de ser
uma região codificadora ou não.
A seguir, foi escolhido o tipo de rede neural a ser utilizado. Como este problema
é de classificação, foi utilizada uma rede neural totalmente interligada, empregando o
83
algoritmo de aprendizado
backpropagation
baseado no método de gradiente
decrescente, sendo a tangente hiperbólica utilizada como função de ativação. Nesta rede
foi utilizada a validação tradicional, não sendo utilizada a validação cruzada para
melhorar de desempenho da ferramenta. Foram realizados testes com redes neurais de
função de base radial (RBF
Radial Basis Function
) (POWELL, 1985) não sendo
encontrados resultados satisfatórios devido à dificuldade nos ajustes dos parâmetros.
Todas as redes neurais foram desenvolvidas na ferramenta, não sendo utilizadas
ferramentas prontas com esta técnica.
Foram avaliadas redes com diversas quantidades de neurônios na camada
escondida. Foi criada uma rede neural para cada tipo de região codificadora a ser predita
no caso dos arquivos no formato GenBank, e para os arquivos FASTA foi criada
somente uma rede com as informações das regiões codificadoras. O arquivo FASTA
não possui informações diferenciando éxon simples, inicial, final ou interno. Vale
ressaltar, que mesmo em arquivos do GenBank a ferramenta pode ser configurada para
não separar os tipos de éxons. A Figura 5.6 mostra exemplos das redes
backpropagation
testadas supondo entrada de 42 bp sem informação de G+C e a Figura 5.7 mostra a
mesma rede com informações de G+C.
A ferramenta ExonBR inova testando automaticamente diversas quantidades de
neurônios na camada escondida, sendo o valor inicial configurável no sistema.
Figura 5.6 – Exemplo de redes
backpropagation
testadas para regiões codificadoras
84
Figura 5.7 – Exemplo de redes
backpropagation
testadas para regiões codificadoras
com informação de G+C
No caso dos arquivos no formato GenBank, um desafio, é a combinação dos
modelos propostos, podendo ocorrer superposição de estruturas. A solução encontrada
foi aceitar apenas as estruturas que se enquadrarem no modelo de gene descrito na seção
5.2, ou aquela que possuir a maior chance de ser o éxon selecionado.
O resultado desta fase é uma base de dados com a matriz peso-posição modificada
e a estrutura da melhor rede neural com seus pesos. Estas informações permitem ao
usuário a adaptabilidade a qualquer organismo, sendo uma novidade implementada na
ferramenta ExonBR.
5.5 A probabilidade da região codificadora
A probabilidade da região codificadora pode ser definida como sendo uma medida
que denota a chance da seqüência (ou subseqüência) testada ser uma região
codificadora.
A saída da rede neural foi utilizada, neste modelo, como probabilidade do gene.
Foram testadas várias probabilidades para verificar sua influência no resultado final,
estes testes são apresentados na seção 6.1.2.
85
5.6 Predição de regiões codificadoras a partir da base de dados
A predição das regiões codificadoras na ferramenta ExonBR é baseada no banco
de dados criado na etapa de treinamento. O primeiro passo desta fase é a escolha da
base de dados a ser utilizada. Feito isto, a ferramenta carrega as informações necessárias
para o seu funcionamento (matriz peso-posição, estrutura e pesos da rede neural).
Os testes são realizados utilizando a técnica de janela deslizante
33
com o tamanho
N, onde N é o tamanho da janela descoberta na etapa de treinamento. A forma como é
testada esta janela é uma das contribuições deste trabalho.
Ao ser encontrada uma janela identificada como codificadora, todos os
nucleotídeos desta janela são classificados como possíveis codificadores. Em seguida, a
janela deslizante é incrementada em N posições, a próxima janela é testada, e, se esta
for, também, possível codificadora, a janela anterior é classificada como codificadora,
caso contrário, a janela deslizante volta N-1 posições testando posição a posição
procurando o final do éxon. Nesta técnica, pelo menos uma janela completa deve ser
considerada codificadora.
33
A técnica de janela deslizante cria para cada nucleotídeo uma janela com N bases para ser testada.
86
6 Resultados e Discussão
Os testes foram realizados utilizando a base de dados criada para validação da
metodologia. As métricas sugeridas por Burset e Guigó (1996) foram aplicadas para a
avaliação do desempenho desta ferramenta nos testes que envolviam seqüências de
tamanho variável. Isto porque estas medidas são consideradas padrões para a área de
predição de genes.
O sistema desenvolvido ao longo deste trabalho foi comparado com os principais
programas de descoberta de genes existentes no mercado para a espécie escolhida,
exceto o Grail 2, que foi escolhido por utilizar a técnica de redes neurais. São eles:
Fgenes
GeneID
Genie
HMMGene
SNB
Esta comparação foi efetuada através da medição do desempenho de cada
ferramenta em relação ao banco de dados de validação nos testes relativos as seqüências
de tamanho variável.
Outro aspecto importante para esta etapa foi a escolha dos testes realizados. Neste
trabalho, além dos testes relativos à validação da técnica utilizada foram realizados os
seguintes testes com as seqüências de dados:
Testes em nível de nucleotídeos.
Testes para avaliar a ferramenta em nível de nucleotídeos utilizando as
medidas definidas por Burset e Guigó (1996) para este fim.
Testes em nível de éxons.
Testes para avaliar a ferramenta em nível de éxons utilizando as medidas
definidas por Burset e Guigó (1996) para este fim. Diversos tamanhos de
éxons foram utilizados.
Testes para verificação da sensibilidade em nível de G+C.
Teste para avaliar a ferramenta com uma informação adicional de G+C.
Teste da importância da rede neural.
Verificação da necessidade da rede neural para a solução do problema.
87
Teste com a combinação dos modelos para cada tipo de éxon.
Verificação do desempenho da técnica combinado os modelos de éxons.
Os testes foram divididos em dois grandes grupos:
Testes para validação da técnica
Nesta etapa foram realizados testes com seqüências de tamanho fixo
definidas ou não como regiões codificadoras.
Testes com seqüências de tamanho variável
Estes testes utilizaram seqüências de tamanhos variáveis possuindo todas
as estruturas genéticas. As avaliações foram em nível de nucleotídeo e de
éxon, sendo utilizadas as métricas de Burset e Guigó (1996) para
verificação de desempenho. Neste teste foi realizada a comparação com o
desempenho de outras ferramentas.
6.1 Avaliação do modelo para éxons (regiões codificadoras)
6.1.1 Seleção de dados
Para este estudo foram criadas bases de dados para treinamento e validação. Foi
utilizado o cus AE014298 da
Drosophila melanogaster
retirado do GenBank para tal
tarefa. As informações estatísticas deste lócus são:
Éxon inicial
Número de seqüências: 57
Tamanho da menor seqüência: 12 bp
Tamanho da maior seqüência: 2163 bp
Tamanho médio das seqüências: 389 bp
Número total de bases: 22214
Éxon terminal
Número de seqüências: 58
Tamanho da menor seqüência: 24 bp
Tamanho da maior seqüência: 3147 bp
Tamanho médio das seqüências: 469 bp
Número total de bases: 27207
88
Éxon simples
Número de seqüências: 2
Tamanho da menor seqüência: 177 bp
Tamanho da maior seqüência: 297 bp
Tamanho médio das seqüências: 237 bp
Número total de bases: 474
Éxon interno
Número de seqüências: 290
Tamanho da menor seqüência: 21 bp
Tamanho da maior seqüência: 7.643 bp
Tamanho médio das seqüências: 415 bp
Número total de bases: 120.419
As bases de dados foram criadas utilizando 80% das bases codificadoras para
treinamento e 20% das bases para validação. O tamanho do conjunto de treinamento
varia de acordo com o tamanho da entrada utilizada. Por exemplo, numa rede neural
com 42 bp, no caso de éxons internos, existem, aproximadamente, (as seqüências
menores que o tamanho mínimo são descartadas) 2866 valores com 42bp, portanto,
2293 serão utilizadas para treinamento e 573 para validação. Em todas as bases foram
geradas de forma aleatória uma quantidade igual de seqüências não codificadoras. As
bases foram embaralhadas para o melhor desempenho da rede.
O banco de dados de validação foi apresentado para a rede em forma de
seqüências de bases, onde deverá ser identificado corretamente a posição da região
codificadora, além das regiões codificadoras foi colocada na base de validação uma
grande quantidade de seqüências não codificadoras (íntrons e regiões intergênicas).
6.1.2 Testes com a rede neural
Foi criada uma rede neural para cada uma das regiões codificadoras definidas no
modelo de genes. São elas:
Éxons internos
Éxons iniciais
Éxons terminais
89
As informações sobre éxons simples foram incluídas nas de éxons internos devido
à pequena quantidade de seqüências.
Em todas estas redes foram avaliados:
Quantidade de hexâmeros na entrada
Neste teste foram apresentadas à rede neural diversas janelas até encontrar
a que possibilitava o melhor desempenho com o menor número possível
de nucleotídeos. A quantidade de neurônios na camada escondida foi
fixada para esta avaliação.
Tamanho da camada escondida
Foram avaliados diversos tamanhos de camada escondida com o número
de hexâmetros encontrado no teste anterior, buscando a rede com o menor
quantidade possível de neurônios na camada escondida.
Importância do taxa de G+C na rede neural.
Verificação da importância de uma informação adicional de G+C para
melhora do desempenho da técnica.
Influência do valor de saída da rede neural
Avaliação da saída da rede neural como probabilidade da região ser
codificadora.
Importância de rede neural
Teste para verificar a necessidade da combinação matriz peso-posição
modificada e rede neural.
6.1.2.1 Rede Neural para Éxons internos
Dados sobre as base de dados
Base de dados de treinamento: 192.672 bp (96.336 bp de éxons internos e
96.336 bp de seqüências aleatórias).
Base de dados de validação: 601.984 bp (24.083 bp de éxons internos e
577.901 bp de íntrons e regiões intergênicas).
Quantidade de hexâmeros
Para a realização dos testes foi fixada a quantidade de neurônios na camada
escondida. Na rede foram utilizados 21 neurônios na camada escondida.
A taxa de aprendizado utilizada na rede
backpropagation
foi de 0,05 e o momento
foi de 0,7.
90
Os resultados encontrados estão na Tabela 6.1, que mostra na primeira coluna o
tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e
especificidade em nível de éxon na base de validação. A Figura 6.1 mostra a variação da
taxa de erro em relação a quantidade de seqüências na entradas e a Figura 6.2 mostra a
variação da taxa de erro (erro médio quadrático não normalizado) da melhor rede neural
encontrada.
A ferramenta ExonBR obteve o melhor desempenho com 48 bp, valor próximo do
mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &
KARLIN, 1998; WANG
et al.
,2002), portanto, a quantidade mínima aceitável para um
bom desempenho deste programa. A convergência desta rede foi obtida com
aproximadamente 800 épocas. Foram consideradas regiões codificadoras aquelas cujo
saída da rede neural fosse superior a 0,9.
Tabela 6.1 – Resultados dos testes com a quantidade de hexâmeros para a rede neural de
éxon interno
Base de Dados de Validação
Base de
Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
(%) Sp
Sn
ESn ESp
30 bp 91,5 0,95 0,85 0,36 0,09
35 bp 96,8 0,98 0,94 0,61 0,31
38 bp 97,3 0,99 0,96 0,71 0,50
40 bp 98,6 0,99 0,97 0,84 0,68
42 bp 98,3 0,99 0,97 0,82 0,66
45 bp 99,2 0,99 0,98 0,90 0,79
46 bp 99,1 0,99 0,99 0,91 0,83
47 bp 99,1 0,99 0,99 0,87 0,77
48 bp 99,3 0,99 0,99 0,96 0,91
49 bp 99,5 0,99 0,99 0,95 0,86
50 bp 99,6 0,99 0,99 0,91 0,83
91
Variação do Erro
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
30 bp 35 bp 38 bp 40 bp 42 bp 45 bp 46 bp 47 bp 48 bp 49 bp 50 bp
Tamanho da seqüência
Erro
Bp Sp
Bp Sn
Bp ESn
Bp ESp
Figura 6.1 – Variação da taxa de erro em relação a quantidade de seqüências na entrada
em redes neurais para éxons internos
Treinamento da Backpropagation 48bp
0
50
100
150
200
250
300
350
400
450
500
1 25 49 73 97 121 145 169 193 217 241 265 289 313 337 361 385 409 433 457 481 505 529 553 577 601 625 649 673 697 721 745 769 793
Épocas
Erro Médio
Figura 6.2 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
para 48 bp e 21 neurônios na camada escondida
92
Importância da taxa de G+C na rede neural
Para os testes da importância do G+C na rede neural foram utilizadas como
entrada redes variando de 42 bp a 48 bp que foram as de melhor desempenho nos testes
de quantidade de entradas. Foram utilizados 21 neurônios na camada escondida da rede
neural.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7. Foram testadas redes com e sem taxa de G+C.
Os resultados encontrados estão na Tabela 6.2, que descreve na primeira coluna o
tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível
de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em
nível de éxon com e sem informação de G+C na base de validação. A Figura 6.3 mostra
um gráfico comparativo da taxa de erro em nível de éxons em relação a rede com e sem
informação de G+C.
Tabela 6.2 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon interno
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
Com
G+C
(%)
Sem
G+C
(%)
Com
G+C
Sp
Sem
G+C
Sp
Com
G+C
Sn
Sem
G+C
Sn
Com
G+C
ESn
Sem
G+C
ESn
Com
G+C
ESp
Sem
G+C
ESp
42 bp 99,1 98,3 0,99 0,99 0,99 0,97 0,89 0,82 0,73 0,66
45 bp 99,2 99,2 0,99 0,99 0,99 0,98 0,87 0,90 0,74 0,79
46 bp 99,4 99,1 0,99 0,99 0,99 0,99 0,90 0,91 0,83 0,83
47 bp 99,3 99,1 0,99 0,99 0,99 0,99 0,90 0,87 0,81 0,77
48 bp 99,6 99,3 0,99 0,99 0,99 0,99 0,93 0,96 0,86 0,91
93
Taxa de Erro relativa a influência de G+C
0
0,2
0,4
0,6
0,8
1
1,2
42 bp 45 bp 46 bp 47 bp 48 bp
Tamanho da entrada
Erro
Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp
Figura 6.3 – Gráfico comparativo da taxa de erro em nível de éxons em relação a rede
com e sem informação de G+C
Pelos resultados encontrados, a informação de G+C na rede neural não gerou grande
diferença no desempenho, isto se deve ao fato da matriz peso-posição possuir esta
informação na sua estatística.
Tamanho da camada escondida
Para os testes do tamanho da camada escondida foi escolhida como entrada 48 bp
sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho
nos testes com o tamanho de entrada.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7.
Os resultados encontrados estão na Tabela 6.3, que mostra na primeira coluna o
tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base
de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a
sensibilidade e especificidade em vel de éxon na base de validação. A Figura 6.4
gráfico comparativo das taxa de erro em relação a quantidade de neurônios na camada
escondida. A Figura 6.5 mostra a variação da taxa de erro (erro médio quadrático) da
melhor rede neural encontrada.
94
Tabela 6.3 - Resultados dos testes com tamanho da camada escondida da rede neural de
éxon interno
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Camada
Escondida
(%) Sp
Sn
ESn ESp
3 99,5 0,99 0,99 0,93 0,84
5 99,7 0,99 0,99 0,94 0,86
7 99,8 0,99 0,99 0,94 0,86
10 99,8 0,99 0,99 0,94 0,86
12 99,8 0,99 0,99 0,94 0,86
15 99,8 0,99 0,99 0,94 0,87
16 99,8 0,99 0,99 0,96 0,90
17 99,8 0,99 0,99 0,97 0,91
20 99,8 0,99 0,99 0,97 0,91
25 99,8 0,99 0,99 0,97 0,91
Taxa de Erro em relação a quantidade de neurônios
0,75
0,8
0,85
0,9
0,95
1
1,05
3 5 7 10 12 15 16 17 20 25
Quantidade de Neurônios
Erro
Sp e Sn ESn ESp
Figura 6.4 – Gráfico comparativo das taxa de erro em relação a quantidade de neurônios
na camada escondida para rede neural de éxons internos
95
Variação da Taxa de Erro em relação a quantidade de épocas
0,00
500,00
1000,00
1500,00
2000,00
2500,00
1 26 51 76 101 126 151 176 201 226 251 276 301 326 351 376 401 426 451 476 501 526 551 576 601 626 651 676 701 726 751 776
Épocas
Erro
Figura 6.5 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
de 48 bp com 17 neurônios na camada escondida para éxons
internos
A melhor e mais simples rede neural encontrada possui 17 neurônios na camada
escondida. Esta rede obteve convergência com aproximadamente 700 épocas. Foram
consideradas regiões codificadoras aquelas cujo saída da rede neural fosse superior a
0,9.
Percebe-se, experimentalmente, que a variação do tamanho da camada escondida
para este problema a partir de certo ponto tem pouca influência na taxa de acerto, isto se
deve ao fato de a matriz peso-posição conter informações importantes para a descoberta
da região codificadora, e ao fato de a rede neural melhorar o desempenho desta técnica.
Baseado neste resultado a ferramenta ExonBR foi ajustada para iniciar com a
quantidade de neurônios na camada escondida igual a 35% da quantidade de neurônios
da camada de entrada.
Influência do valor de saída da rede neural
Para os testes da influência do valor de saída da rede neural nos resultados foi
escolhida como entrada 48 bp sem informação de G+C com 17 neurônios na camada
96
escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes
com o tamanho de entrada.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7.
Os resultados encontrados estão na Tabela 6.4, que na primeira coluna mostra o
valor de saída, a seguir as informações de especificidade e sensibilidade em vel de
nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A
Figura 6.6 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída
da rede neural.
Tabela 6.4 - Resultados dos testes da influência do valor de saída na rede neural de éxon
interno
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Valor de
Saída
Sp
Sn
ESn ESp
0,6 0,85 0,99 0,97 0,14
0,65 0,88 0,99 0,97 0,18
0,7 0,93 0,99 0,97 0,25
0,75 0,95 0,99 0,97 0,38
0,80 0,98 0,99 0,96 0,60
0,85 0,99 0,99 0,97 0,87
0,90 0,99 0,99 0,97 0,91
0,95 0,99 0,99 0,94 0,89
0,98 0,99 0,99 0,93 0,88
97
Taxa em relação a variação do valor de saída
0
0,2
0,4
0,6
0,8
1
1,2
0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 0,98
Valor de saída
Erro
Sp Sn ESn Esp
Figura 6.6 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons internos
De acordo com os resultados encontrados, a variação do valor de saída
influência os resultados principalmente do ESp gerando muito éxons preditos
erroneamente, isto ocorre porque foi diminuído o filtro (valor de saída da rede) para
determinação dos éxons, gerando muitos falsos éxons.
Testes da importância da rede neural
Este teste tem como objetivo verificar a necessidade da existência da rede neural e
da existência do filtro com matriz peso-posição
34
comparado com a combinação destas
técnicas.
A Tabela 6.5 mostra na primeira coluna o teste realizado, nas demais colunas os
resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade
e sensibilidade em nível de éxons para a base de dados de validação.
34
O filtro, conforme descrito na seção 5.4, consiste em aceitar somente seqüências onde existam algum
hexâmero com chance de ser codificador
98
Tabela 6.5 – Importância da rede neural na descoberta de regiões codificadora para
éxons internos
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Sp
Sn
ESn
ESp
Utilizando apenas matriz peso-
posição
0,90 0,91 0,80 0,75
Utilizando somente rede neural 0,88 0,87 0,78 0,71
Combinação das técnicas 0,99 0,99 0,97 0,91
De acordo com os resultados, a combinação das técnicas foi a que alcançou o
melhor desempenho, percebe-se que a rede neural sem o filtro da matriz peso-posição
aumenta consideravelmente a taxa de erro, portanto esta informação é bastante
importante para o desempenho da rede. O filtro da matriz peso-posição.sozinho não
consegue alcançar o desempenho das técnicas combinadas, portanto, a rede neural
aumenta o desempenho desta técnica.
6.1.2.2 Rede Neural para Éxons iniciais
Dados sobre as base de dados
Base de dados de treinamento: 35.542 bp (17.771 bp de éxons iniciais e 17.771
bp de seqüências aleatórias).
Base de dados de validação: 93.303 bp (4.443 bp de éxons iniciais e 88.860 bp
de íntrons e regiões intergênicas).
Quantidade de hexâmeros
Para a realização dos testes foi fixada a quantidade de neurônios na camada
escondida. Na rede foram utilizados 15 neurônios na camada escondida.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7.
Os resultados encontrados estão na Tabela 6.6, que mostra na primeira coluna o
tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e
especificidade em nível de éxon na base de validação. A Figura 6.7 mostra a variação da
99
taxa de erro em relação a quantidade de seqüências na entradas e a Figura 6.8 mostra a
variação da taxa de erro (erro médio quadrático não normalizado) da melhor rede neural
encontrada.
Tabela 6.6 - Resultados dos testes com a quantidade de hexâmeros para a rede neural de
éxon iniciais
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
Bp
(%)
BP
Sp
Bp
Sn
Bp
ESn
Bp
ESp
30 bp 100 0,99 0,99 0,89 0,77
35 bp 100 0,99 0,99 0,92 0,85
36 bp 100 0,99 0,99 0,93 0,85
37 bp 100 0,99 0,99 0,93 0,85
38 bp 100 0,99 0,99 0,93 0,88
39 bp 100 0,99 0,99 0,93 0,88
40 bp 100 0,99 0,99 0,93 0,93
42 bp 100 0,99 0,99 0,93 0,93
Variação do Erro
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
30 bp 35 bp 36 bp 37 bp 38 bp 39 bp 40 bp 42 bp
Tamanho da seqüência
Erro
Bp Sp
Bp Sn
Bp ESn
Bp ESp
100
Figura 6.7 – Variação da taxa de erro em relação a quantidade de seqüências na entrada
para as redes neurais de éxons iniciais
Variação da Taxa de Erro em relação a quantidade de épocas
0,00
5,00
10,00
15,00
20,00
25,00
30,00
1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976
Épocas
Erro
Figura 6.8 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
de 40 bp para éxons iniciais
A ferramenta ExonBR obteve o melhor desempenho com 40 bp, valor próximo do
mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &
KARLIN, 1998; WANG
et al.
,2002). A convergência desta rede foi obtida com
aproximadamente 800 épocas. Foram consideradas regiões codificadoras aquelas cujo
saída da rede neural fosse superior a 0,9.
Importância da taxa de G+C na rede neural
Para os testes da importância do G+C na rede neural foram utilizadas como
entrada redes variando de 36 bp a 40 bp que foram as de melhor desempenho nos testes
de quantidade de entradas.
A taxa de aprendizado utilizada na rede Backpropagation foi de 0,05 e o momento
foi de 0,7. Foram testadas redes com e sem taxa de G+C.
Os resultados encontrados estão na Tabela 6.7, que descreve na primeira coluna o
tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível
101
de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em
nível de éxon com e sem informação de G+C na base de validação. A Figura 6.9 mostra
um gráfico comparativo da taxa de erro em nível de éxons em relação a rede com e sem
informação de G+C.
Tabela 6.7 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon iniciais
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
Com
G+C
(%)
Sem
G+C
(%)
Com
G+C
Sp
Sem
G+C
Sp
Com
G+C
Sn
Sem
G+C
Sn
Com
G+C
ESn
Sem
G+C
ESn
Com
G+C
ESp
Sem
G+C
ESp
36 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,85
37 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,85
38 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,88
39 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,85 0,88
40 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,88 0,93
Taxa de Erro relativa a influência de G+C
0,8
0,82
0,84
0,86
0,88
0,9
0,92
0,94
36 bp 37 bp 38 bp 39 bp 40 bp
Tamanho da entrada
Erro
Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp
Figura 6.9 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas das
redes neurais para éxon iniciais com e sem informação de G+C
102
Pode-se observar, pelos resultados, que da mesma forma que ocorreu com os éxons
internos, a informação de G+C na rede neural não gerou grande diferença no
desempenho, isto ocorre porque a matriz peso-posição possui esta informação na sua
estatística.
Tamanho da camada escondida
Para os testes do tamanho da camada escondida foi escolhida como entrada 40 bp
sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho
nos testes com o tamanho de entrada.
A taxa de aprendizado utilizada na rede Backpropagation foi de 0,1 e o momento
foi de 0,7.
Os resultados encontrados estão na Tabela 6.8, que mostra na primeira coluna o
tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base
de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a
sensibilidade e especificidade em nível de éxon na base de validação. A Figura 6.10
mostra o gráfico comparativo das taxa de erro em relação a quantidade de neurônios na
camada escondida. A Figura 6.11 mostra a variação da taxa de erro (erro médio
quadrático) da melhor rede neural encontrada.
Tabela 6.8 - Resultados dos testes com tamanho da camada escondida da rede neural de
éxon iniciais
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Camada
Escondida
(%) Sp
Sn
ESn ESp
1 100 0,99 0,99 0,93 0,83
2 100 0,99 0,99 0,93 0,88
3 100 0,99 0,99 0,93 0,93
5 100 0,99 0,99 0,93 0,93
7 100 0,99 0,99 0,93 0,93
10 100 0,99 0,99 0,93 0,93
12 100 0,99 0,99 0,93 0,93
15 100 0,99 0,99 0,93 0,93
103
Taxa de Erro em relação a quantidade de neurônios
0,75
0,8
0,85
0,9
0,95
1
1,05
1 2 3 5 7 10 12 15
Quantidade de Neurônios
Erro
Sp e Sn ESn ESp
Figura 6.10 – Gráfico comparativo das taxa de erro em relação a quantidade de
neurônios na camada escondida da rede neural para éxons iniciais
Variação da Taxa de Erro em relação a quantidade de épocas
0,00
10,00
20,00
30,00
40,00
50,00
60,00
1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976
Épocas
Erro
Figura 6.11 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
de 40 bp com 3 neurônios na camada escondida para éxons
iniciais
Conforme os resultados a melhor e menor camada escondida encontrada para
40bp foi a com 3 neurônios.Os resultados mostram uma camada escondida com poucos
104
neurônios.Verificando a estatística sobre os éxons iniciais percebe-se que este tipo de
estrutura começa com o códon ATG ( 99,86% dos casos), isto facilita o aprendizado da
rede neural, sendo o principal motivo da pequena quantidade de neurônios. Com base
nos resultados, pode-se definir que todos os éxons iniciais devem começar com o códon
ATG
35
.
Influência do valor de saída da rede neural
Para os testes da influência do valor de saída da rede neural nos resultados foi
escolhida como entrada 40 bp sem informação de G+C com 3 neurônios na camada
escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes
com o tamanho de entrada
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,1 e o momento
foi de 0,7.
Os resultados encontrados estão na Tabela 6.9, que na primeira coluna mostra o
valor de saída, a seguir as informações de especificidade e sensibilidade em vel de
nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A
Figura 6.12 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída
da rede neural.
Tabela 6.9 - Resultados dos testes da influência do valor de saída na rede neural de éxon
iniciais
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Valor de
Saída
Sp
Sn
ESn ESp
0,6 0,99 0,99 0,93 0,75
0,65 0,99 0,99 0,93 0,80
0,7 0,99 0,99 0,93 0,83
0,75 0,99 0,99 0,93 0,83
0,80 0,99 0,99 0,93 0,87
0,85 0,99 0,99 0,93 0,93
0,90 0,99 0,99 0,93 0,93
0,95 0,99 0,99 0,93 0,93
35
Regra na área de biologia.
105
Taxa em relação a variação do valor de saída
0
0,2
0,4
0,6
0,8
1
1,2
0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95
Valor de saída
Erro
Sp e Sn ESn Esp
Figura 6.12 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons iniciais
De acordo com os resultados encontrados, a variação do valor de saída
influencia os resultados, principalmente, do ESp gerando éxons preditos erroneamente.
Isto ocorre, como no caso anterior, porque foi diminuído o filtro (valor de saída da rede)
para determinação dos éxons, gerando muitos falsos éxons.
Testes da importância da rede neural
Este teste tem como objetivo verificar a necessidade da existência da rede neural
para éxons iniciais e da existência do filtro com matriz peso-posição comparado com a
combinação destas técnicas.
A Tabela 6.10 mostra na primeira coluna o teste realizado, nas demais colunas os
resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade
e sensibilidade em nível de éxons para a base de dados de validação.
106
Tabela 6.10 – Importância da rede neural na descoberta de regiões codificadora para
éxons iniciais
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Sp
Sn
ESn
ESp
Utilizando apenas matriz peso-
posição
0,85 0,85 0,80 0,72
Utilizando somente rede neural 0,85 0,85 0,70 0,68
Combinação das técnicas 0,99 0,99 0,93 0,93
De acordo com os resultados, a combinação das técnicas foi a que alcançou o
melhor desempenho. Percebe-se que a rede neural sem o filtro da matriz peso-posição
aumenta a taxa de erro, logo, esta informação é bastante importante para o desempenho
da rede. O filtro da matriz peso-posição consegue um bom resultado, mas não consegue
alcançar o desempenho das técnicas combinadas, portanto, a rede neural aumenta o
desempenho desta técnica.
6.1.2.3 Rede Neural para Éxons terminais
Dados sobre as base de dados
Base de dados de treinamento: 43.532 bp (21.766 bp de éxons internos e
21.766 bp de seqüências aleatórias).
Base de dados de validação: 114.261 bp (5.441 bp de éxons internos e 108.820
bp de íntrons e regiões intergênicas).
Quantidade de hexâmeros
Para a realização dos testes foi fixada a quantidade de neurônios na camada
escondida. Na rede foram utilizados 15 neurônios na camada escondida.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7.
Os resultados encontrados estão na Tabela 6.11, que mostra na primeira coluna o
tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a sensibilidade e
especificidade em nível de éxon na base de validação. A Figura 6.13 mostra a variação
107
da taxa de erro em relação à quantidade de seqüências na entrada e a Figura 6.14 mostra
a variação da taxa de erro da melhor rede neural encontrada.
Tabela 6.11 - Resultados dos testes com a quantidade de hexâmeros para a rede neural
de éxon terminal
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
(%) Sp
Sn
ESn ESp
30 bp 100 0,99 0,99 0,93 0,82
35 bp 100 0,99 0,99 0,93 0,91
36 bp 100 0,99 0,99 0,93 0,91
37 bp 100 0,99 0,99 0,93 0,93
38 bp 100 0,99 0,99 0,93 0,93
39 bp 100 0,99 0,99 0,93 0,93
40 bp 100 0,99 0,99 0,93 0,93
42 bp 100 0,99 0,99 0,93 0,93
Variação do Erro
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
30 bp 35 bp 36 bp 37 bp 38 bp 39 bp 40 bp 42 bp
Tamanho da seqüência
Erro
Sp e Sn
ESn
ESp
Figura 6.13 – Variação da taxa de erro em relação à quantidade de seqüências na
entrada da rede neural para éxons terminais
108
Variação da Taxa de Erro em relação a quantidade de épocas
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
45,00
50,00
1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976
Épocas
Erro
Figura 6.14 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
para éxons terminais com 37 bp e 15 neurônios na camada
escondida
A ferramenta ExonBR obteve o melhor desempenho com 37 bp, valor próximo do
mínimo sugerido na literatura (BURGE, 1997; BURGE & KARLIN, 1997; BURGE &
KARLIN, 1998; WANG
et al.
,2002), sendo, portanto, a quantidade mínima aceitável
para um bom desempenho deste programa. A convergência desta rede foi obtida com,
aproximadamente, 800 épocas. Foram consideradas regiões codificadoras aquelas cujo
saída da rede neural fosse superior a 0,9.
Importância da taxa de G+C na rede neural
Para os testes da importância do G+C na rede neural foram utilizadas como
entrada redes variando de 30 bp a 37 bp que foram as de melhor desempenho nos testes
de quantidade de entradas.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7. Foram testadas redes com e sem taxa de G+C.
Os resultados encontrados estão na Tabela 6.12, que descreve na primeira coluna
o tamanho da entrada, a seguir as informações da taxa de acerto na base de dados de
treinamento com e sem informação de G+C, a especificidade e sensibilidade em nível
de nucleotídeo com e sem informação de G+C, e a sensibilidade e especificidade em
109
nível de éxon com e sem informação de G+C na base de validação. A Figura 6.15
mostra um gráfico comparativo da taxa de erro no nível de éxons em relação à rede com
e sem informação de G+C.
Tabela 6.12 - Resultados dos testes com importância da taxa de G+C para a rede neural
de éxon terminais
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Entrada
Com
G+C
(%)
Sem
G+C
(%)
Com
G+C
Sp
Sem
G+C
Sp
Com
G+C
Sn
Sem
G+C
Sn
Com
G+C
ESn
Sem
G+C
ESn
Com
G+C
ESp
Sem
G+C
ESp
30 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,82 0,82
33 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,82 0,82
35 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,91 0,91
36 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,91 0,91
37 bp 100 100 0,99 0,99 0,99 0,99 0,93 0,93 0,93 0,93
Taxa de Erro relativa a influência de G+C
0,76
0,78
0,8
0,82
0,84
0,86
0,88
0,9
0,92
0,94
30 bp 33 bp 35 bp 36 bp 37 bp
Tamanho da entrada
Erro
Com G+C ESn Sem G+C ESn Com G+C ESp Sem G+C ESp
Figura 6.15 – Gráfico comparativo da taxa de erro em relação a quantidade de épocas
das redes neurais para éxon terminais com e sem informação de G+C
110
Pode-se observar, pelos resultados obtidos, que da mesma forma que ocorreu com os
éxons internos e iniciais, a informação de G+C na rede neural não gerou grande
diferença no desempenho. Isto ocorre porque a matriz peso-posição já possui esta
informação na sua estatística.
Tamanho da camada escondida
Para os testes do tamanho da camada escondida, foi escolhida como entrada 37 bp
sem informação de G+C, por ter sido a rede neural que encontrou o melhor desempenho
nos testes com o tamanho de entrada.
A taxa de aprendizado utilizada na rede
Backpropagation
foi de 0,05 e o
momento foi de 0,7.
Os resultados encontrados estão na Tabela 6.13, que mostra na primeira coluna o
tamanho da camada escondida testada, a seguir as informações da taxa de acerto na base
de dados de treinamento, a especificidade e sensibilidade em nível de nucleotídeo e a
sensibilidade e especificidade em nível de éxon na base de validação. A Figura 6.16
mostra o gráfico comparativo das taxa de erro em relação à quantidade de neurônios na
camada escondida. A Figura 6.17 mostra a variação da taxa de erro da melhor rede
neural encontrada.
Tabela 6.13 - Resultados dos testes com tamanho da camada escondida da rede neural
de éxon terminais
Base de Dados de Validação
Base de Dados
Treinamento
Nível de Nucleotídeos Nível de Éxons
Camada
Escondida
(%) Sp
Sn
ESn ESp
1 100 0,99 0,99 0,93 0,88
2 100 0,99 0,99 0,93 0,93
3 100 0,99 0,99 0,93 0,93
5 100 0,99 0,99 0,93 0,93
7 100 0,99 0,99 0,93 0,93
10 100 0,99 0,99 0,93 0,93
12 100 0,99 0,99 0,93 0,93
111
Taxa de Erro em relação a quantidade de neurônios
0
0,2
0,4
0,6
0,8
1
1,2
1 2 3 5 7 10 12
Quantidade de Neurônios
Erro
Sp e Sn ESn ESp
Figura 6.16 – Gráfico comparativo das taxa de erro em relação à quantidade de
neurônios na camada escondida da rede neural para éxons terminais
Variação da Taxa de Erro em relação a quantidade de épocas
0,00
50,00
100,00
150,00
200,00
250,00
1 40 79 118 157 196 235 274 313 352 391 430 469 508 547 586 625 664 703 742 781 820 859 898 937 976
Épocas
Erro
Figura 6.17 – Variação da taxa de erro em relação à quantidade de épocas para rede
neural
Backpropagation
de 37 bp com 2 neurônios na camada escondida para éxons
terminais
Conforme os resultados, a melhor e menor camada escondida encontrada para 37 bp
foi com 2 neurônios. Este resultado mostra uma camada escondida com poucos
112
neurônios. Verificando a estatística sobre os éxons terminais, percebe-se que este tipo
de estrutura termina com poucas possibilidades de códons, denominados códons de
parada
36
, o que facilita o aprendizado da rede neural, sendo o principal motivo da
pequena quantidade de neurônios. Pelos resultados, pode-se definir que todos os éxons
terminais devem terminar com os códons de parada.
Influência do valor de saída da rede neural
Para os testes da influência do valor de saída da rede neural nos resultados foi
escolhida como entrada 37 bp sem informação de G+C com 2 neurônios na camada
escondida, por ter sido a rede neural que encontrou o melhor desempenho nos testes
com o tamanho de entrada.
A taxa de aprendizado utilizada na rede
backpropagation
foi de 0,05 e o momento
foi de 0,7.
Os resultados encontrados estão na Tabela 6.14, que na primeira coluna mostra o
valor de saída, a seguir as informações de especificidade e sensibilidade em vel de
nucleotídeo e a sensibilidade e especificidade em nível de éxon na base de validação. A
Figura 6.18 mostra um gráfico comparativo da taxa de erro em relação ao valor de saída
da rede neural.
Tabela 6.14 - Resultados dos testes da influência do valor de saída na rede neural de
éxon terminais
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Valor de
Saída
Sp
Sn
ESn ESp
0,6 0,99 0,99 0,93 0,63
0,65 0,99 0,99 0,93 0,84
0,7 0,99 0,99 0,93 0,90
0,75 0,99 0,99 0,93 0,93
0,80 0,99 0,99 0,93 0,93
0,85 0,99 0,99 0,93 0,93
0,90 0,99 0,99 0,93 0,93
0,95 0,99 0,99 0,93 0,93
36
Estes códons são: TAA, TGA e TAG.
113
Taxa em relação a variação do valor de saída
0
0,2
0,4
0,6
0,8
1
1,2
0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95
Valor de saída
Erro
Sp e Sn ESn Esp
Figura 6.18 – Gráfico comparativo da taxa de erro em relação ao valor de saída da rede
neural para éxons terminais
De acordo com os resultados encontrados, a variação do valor de saída
influencia os resultados, principalmente, do ESp gerando éxons preditos erroneamente.
Isto ocorre, como nos casos anteriores, porque foi diminuído o filtro (valor de saída da
rede) para determinação dos éxons, gerando muitos falsos éxons.
Testes da importância da rede neural
Este teste tem como objetivo verificar a necessidade da existência da rede neural
para éxons iniciais e da existência do filtro com matriz peso-posição comparado com a
combinação destas técnicas.
A Tabela 6.15 mostra na primeira coluna o teste realizado, nas demais colunas os
resultados da especificidade e sensibilidade em nível de nucleotídeos e a especificidade
e sensibilidade em nível de éxons para a base de dados de validação.
114
Tabela 6.15 – Importância da rede neural na descoberta de regiões codificadora para
éxons terminais
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Sp
Sn
ESn
ESp
Utilizando apenas matriz peso-
posição
0,87 0,86 0,82 0,75
Utilizando somente rede neural 0,86 0,85 0,77 0,71
Combinação das técnicas 0,99 0,99 0,93 0,93
De acordo com os resultados, a combinação das técnicas foi a que alcançou o
melhor desempenho. Verifica-se que a rede neural sem o filtro da matriz peso-posição
aumenta a taxa de erro, portanto esta informação é bastante importante para o
desempenho da rede. O filtro da matriz peso-posição consegue um bom resultado, mas
não alcança o desempenho das técnicas combinadas, portanto, a rede neural aumenta o
desempenho desta técnica.
6.1.2.4 Combinação dos modelos de éxons
Este teste verifica os resultados combinando os modelos de éxons (interno,
inicial e terminal). Foram realizados dois testes, o primeiro considera erro a
determinação errada do tipo de éxon e o segundo considera erro se a região não foi
classificada como codificadora. Foi utilizada a base de dados de validação com todas as
seqüências codificadoras de validação do organismo e seqüências não codificadoras
retiradas aleatoriamente do organismo estudado, totalizando 808.738 bp (33.967 bp de
regiões codificadoras e 774.771 bp de regiões não codificadoras).
O tempo de treinamento da ferramenta ExonBR foi de 1 hora e 42 minutos para
todos os tipos de éxons num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. Os
resultados encontrados estão na Tabela 6.16, onde estão as informações de
especificidade e sensibilidade em nível de nucleotídeos e a sensibilidade e
especificidade em nível de éxons para a base de dados de validação.
115
Tabela 6.16 – Resultados da combinação dos modelos de éxons para
Drosophila
melanogaster
Base de Dados de Validação
Nível de Nucleotídeos Nível de Éxons
Sp
Sn
ESn
ESp
Com a determinação correta do tipo
de éxon
0,98 0,97 0,93 0,84
Sem a determinação correta do tipo
de éxon
0,98 0,97 0,95 0,87
Pelos resultados encontrados, na combinação dos modelos predominou os valores
encontrados nos éxons internos, o que ocorre devido a esta estrutura ser a que possui
mais seqüências no organismo. Na determinação correta do tipo de éxon, ocorreu pouca
mudança no resultado, pois as estruturas possuem características bem distintas (isto
pode ser verificado pelo resultado da matriz peso-posição).
6.2 Testes em nível de seqüência
6.2.1 Seleção de dados
Para este estudo foi utilizada a base de dados de validação da
Drosophila
melanogaster
dos testes anteriores. Esta base de dados é formada por 400 seqüências de
tamanho variável retiradas em posições aleatórias do lócus estudado, totalizando
808.738 bp.
6.2.2 Testes da técnica
O sistema desenvolvido neste trabalho foi comparado com as principais
ferramentas utilizadas atualmente para a descoberta de regiões codificadoras na
Drosophila melanogaster
. São elas:
Fgenes
GeneID
Genie
HMMGene
SNB
116
Grail 2
Esta comparação mede o desempenho de cada uma das ferramentas em relação à
base de dados de validação descrita na seção de seleção de dados, esta base foi
apresentada para cada ferramenta. Foram realizados testes em níveis de nucleotídeos e
de éxons. Os resultados estão descritos na Tabela 6.17, que mostra na primeira coluna o
programa testado, a seguir as informações de especificidade e sensibilidade em nível de
nucleotídeos, sensibilidade, especificidade, éxons perdidos e éxons errados em nível de
éxon.
Tabela 6.17 – Tabela com os resultados comparativos dos testes realizados com outras
ferramentas
Nível de Nucleotídeo Nível de Éxon
Programa
Sp
Sn
ESn ESp
ME WE
ExonBR 0,98 0,97 0,95 0,87 0,03 0,08
FGenes 0,89 0,77 0,65 0,49 0,11 0,32
GenScan 0,96 0,92 0,68 0,68 0,11 0,10
GeneID 0,86 0,83 0,58 0,34 0,21 0,47
Genie 0,96 0,92 0,70 0,57 0,08 0,17
HMMGene 0,97 0,91 0,68 0,53 0,05 0,20
SNB 0,97 0,93 0,94 0,84 0,04 0,13
Grail 2 0,91 0,83 0,18 0,11 - -
117
Comparativo de desempenho na Drosophila
melanogaster
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
ExonBR FGenes GenScan GeneID Genie HMMGene SNB Grail 2
Sp Sn ESn ESp
Figura 6.19 – Gráfico comparativo de desempenho para
Drosophila melanogaster
De acordo com os resultados encontrados, a ferramenta ExonBR, e as técnicas
associadas a ela, mostraram-se bastante eficazes na busca de regiões codificadoras para
o organismo
Drosophila melanogaster
. Seu desempenho pode ser comparado com o das
melhores ferramentas existentes para esta espécie.
6.2.3 Testes com outras espécies
Para verificar o desempenho da ferramenta ExonBR foram selecionadas algumas
espécies para serem treinadas pelo sistema.
Algumas seqüências destas espécies foram escolhidas para realização de um
estudo comparativo com as principais ferramentas de predição para a espécie
selecionada. As bases estudadas foram:
HMR195
A HMR195 é uma base de dados padrão para testes de programas de busca de
regiões codificadora. Este banco é formado por 195 seqüências de humanos,
camundongos e ratos com uma taxa de 103:82:10. A média do tamanho das seqüências
é de 7.096 bp. A média do tamanho dos éxons é de 208 bp, sendo 14% das seqüências
codificadoras. O tamanho deste banco de dados é de 1.383.720 bp.
118
O banco de dados para os testes com a ferramenta ExonBR foi criado utilizando
80% das bases codificadoras para treinamento e 20% das bases para validação. O tempo
de treinamento da ferramenta ExonBR foi de 2 horas e 43 minutos para todos os tipos
de éxons num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede
encontrada possui 55 bp e 12 neurônios na camada escondida. Os resultados estão
descritos na
Tabela 6.18, que apresenta na primeira coluna o programa testado, a seguir as
informações de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,
especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.20 mostra
a variação da taxa de erro durante o aprendizado da melhor rede encontrada, e a Figura
6.21 mostra um gráfico comparativo com os resultados.
Tabela 6.18 – Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para o HMR 195
Nível de Nucleotídeo Nível de Éxon
Programa
Sp
Sn
ESn ESp
ME WE
ExonBR 0,97 0,90 0,87 0,84 0,05 0,01
TwinScan 0,93 0,89 0,80 0,75 0,08 0,09
GenScan 0,93 0,89 0,70 0,69 0,08 0,09
JIGSAW 0,97 0,88 0,84 0,82 0,10 0,01
HMMgene 0,93 0,93 0,76 0,77 0,12 0,07
119
Variação da Taxa de Erro em relação a quantidade de épocas - HMR 195
0
100
200
300
400
500
600
700
1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989
Épocas
Erro
Figura 6.20 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
de 55 bp com 12 neurônios na camada escondida para HMR
195
Comparativo de desempenho no HMR195
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
ExonBR TwinScan GenScan JIGSAW HMMgene
Sp Sn ESn ESp
Figura 6.21 – Gráfico comparativo de desempenho para o HMR195
De acordo com os resultados encontrados, a ferramenta ExonBR mostrou-se
bastante eficaz e versátil na busca de regiões codificadoras na base de dados HMR195 ,
seu desempenho pode ser comparado com as melhores ferramentas existentes para esta
espécie. A janela de 55 bp não gerou uma grande perda nesta base de dados.
120
Arabidopsis thaliana
(planta herbácea da família da mostarda)
Arabidopsis thaliana
é um organismo considerado padrão para testes de detecção de
regiões codificadoras para plantas, uma vez que foi a primeira planta cujo genoma foi
completamente seqüenciado. A base de dados foi formada por 300 seqüências com
tamanho médio de 171 bp. A maior seqüência possui 4.282 bp e a menor 6 bp. O
tamanho do banco de dados é de 51.313 bp sendo 24.237 codificadoras.
O banco de dados para teste foi criado utilizando 80% das bases codificadoras para
treinamento e 20% das bases para validação. O tempo de treinamento que a ferramenta
ExonBR utilizou foi de 1 hora e 2 minutos para descoberta de regiões codificadoras
num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede encontrada
possui com 54 bp e 9 neurônios na camada escondida. Os resultados estão descritos na
Tabela 6.19, que mostra na primeira coluna o programa testado, a seguir as informações
de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,
especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.22 mostra
a variação da taxa de erro durante o aprendizado da melhor rede encontrada e a Figura
6.23 mostra um gráfico comparativo com o resultado.
Tabela 6.19 – Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para
Arabidopsis thaliana
Nível de Nucleotídeo Nível de Éxon
Programa
Sp
Sn
ESn ESp
ME WE
ExonBR 0,99 0,97 0,90 0,90 0,09 0,01
JIGSAW 0,98 0,95 0,88 0,93 0,03 0,01
GeneZilla 0,98 0,95 0,77 0,81 0,08 0,05
GenScan 0,91 0,93 0,67 0,69 0,11 0,08
121
Variação da Taxa de Erro em relação a quantidade de épocas Arabidopsis thaliana
0
50
100
150
200
250
300
1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989
Épocas
Erro
Figura 6.22 – Variação da taxa de erro em relação à quantidade de épocas para rede
neural
Backpropagation
de 54 bp com 9 neurônios na camada escondida para
Arabidopsis thaliana
Comparativo de desempenho na Arabidopsis thaliana
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
ExonBR JIGSAW GeneZilla GenScan
Sp Sn ESn ESp
Figura 6.23 – Gráfico comparativo de desempenho para a
Arabidopsis thaliana
A ferramenta ExonBR, de acordo com os resultados encontrados, mostrou-se eficaz
na busca de regiões codificadoras de
Arabidopsis thaliana
. O software se adaptou a este
organismo com uma rede neural de 54 bp, o que gerou uma alta taxa de perda de éxons,
pois esta espécie possui vários éxons menores que esta janela.
122
Oryza sativa
(Arroz)
Outra espécie testada foi o Oryza sativa (arroz), seus dados foram coletados do
GenBank. A base de dados é formada por 38 seqüências com tamanho médio de 554 bp.
A maior seqüência possui 2721 bp e a menor 57 bp. O tamanho do banco de dados é de
21.084 bp sendo 4.528 codificadoras.
A bases de dados para os testes foi criado utilizando 80% das bases
codificadoras para treinamento e 20% das bases para validação. O tempo de treinamento
da ferramenta ExonBR foi de 17 minutos e 38 segundos para descoberta de regiões
codificadoras num Pentium D 2.8Ghz com 2 Gbytes de memória RAM. A melhor rede
encontrada possui 50 bp e 20 neurônios na camada escondida. Os resultados estão
descritos na Tabela 6.20, que mostra na primeira coluna o programa testado, a seguir as
informações de especificidade e sensibilidade em nível de nucleotídeos, sensibilidade,
especificidade, éxons perdidos e éxons errados em nível de éxon. A Figura 6.24 mostra
a variação da taxa de erro durante o aprendizado da melhor rede encontrada, e a Figura
6.25 mostra um gráfico comparativo com os resultados.
Tabela 6.20 – Tabela com os resultados comparativos dos testes realizados em nível de
nucleotídeos para
Oryza sativa
Nível de Nucleotídeo Nível de Éxon
Programa
Sp
Sn
ESn ESp
ME WE
ExonBR 0,97 0,86 0,85 0,90 0,03 0,01
JIGSAW 0,97 0,85 0,75 0,86 0,04 0,01
GenScan 0,90 0,70 0,58 0,75 0,12 0,10
123
Variação da Taxa de Erro em relação a quantidade de épocas - Oryza Sativa (Arroz)
0
2
4
6
8
10
12
14
16
18
1 39 77 115 153 191 229 267 305 343 381 419 457 495 533 571 609 647 685 723 761 799 837 875 913 951 989
Épocas
Erro
Figura 6.24 – Variação da taxa de erro em relação a quantidade de épocas para rede
neural
Backpropagation
de 54 bp com 20 neurônios na camada escondida para
Oryza
sativa
Comparativo de desempenho no Oryza Sativa (arroz)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
ExonBR JIGSAW GenScan
Sp Sn ESn ESp
Figura 6.25 – Gráfico comparativo de desempenho para
Oryza sativa
(arroz)
Como nos casos anteriores, a ferramenta mostrou-se bastante eficaz para a detecção
das regiões codificadoras no organismo
Oryza sativa
. Vale ressaltar a adaptabilidade do
sistema ExonBR. Deve-se notar o rápido treinamento desta espécie, devido ao fato do
124
banco de dados utilizado possuir poucas bases codificadoras, que são as informações
usadas para o treinamento.
125
7 A ferramenta
Este capítulo tem como objetivo descrever as técnicas utilizadas no
desenvolvimento da ferramenta de descoberta de regiões codificadoras (ExonBR).
Estas técnicas serão descritas utilizando a metodologia de análise estruturada
moderna, descrita em Yourdon (1990).
Serão apresentados o diagrama do contexto, o diagrama de fluxo de dados e o
diagrama de transição de estados, além das explicações sobre o funcionamento da
ferramenta.
A Figura 7.1 mostra a tela principal do programa, a Figura 7.2 apresenta a tela do
modo teste da ferramenta e na Figura 7.3 vê-se a etapa de treinamento da rede neurais
do ExonBR.
Figura 7.1 – Tela principal da ferramenta ExonBR
126
Figura 7.2 – Tela do modo teste da ferramenta ExonBR
Figura 7.3 – Tela do treinamento da rede neural da ferramenta ExonBR
127
7.1 Diagrama do contexto do sistema ExonBR
O diagrama do contexto tem como objetivo demonstrar a interface externa com o
sistema. Na ferramenta ExonBR, o principal ator é o biólogo. A Figura 7.4 mostra o
diagrama do contexto do sistema ExonBR.
Figura 7.4 – Diagrama do contexto do sistema ExonBR
7.2 Diagrama de Fluxo de Dados do sistema ExonBR
O diagrama de fluxo de dados (DFD) oferece uma visão orientada das funções
do sistema. O sistema ExonBR possui, basicamente, duas funções aprender um ou
vários lócus (modo treinamento) e testar uma seqüência baseado num banco de dados de
espécies (lócus) treinadas. O banco de dados de espécie treinadas é gerado no modo
treinamento. A Figura 7.5 mostra este diagrama.
128
Figura 7.5 – Diagrama de Fluxo de Dados (DFD) do sistema ExonBR
7.3 Diagrama de Transição de Estados do sistema ExonBR
O diagrama de transição de estados (DTE) mostra o comportamento tempo-
dependente do sistema. A Figura 7.6 mostra os estados do sistema ExonBR.
129
Figura 7.6 – Diagrama de Transição de Estados (DTE) do sistema ExonBR
130
7.4 Funcionamento do sistema ExonBR
Nesta seção será explicado o funcionamento do sistema ExonBR. Este sistema
foi dividido em dois módulos. São eles:
Módulo de Treinamento (Modo Treinamento)
O módulo de treinamento é responsável pelo treinamento das redes neurais
envolvidas no processo de detecção da região codificadora. O resultado
final deste módulo é uma base de dados com estrutura e pesos da rede
neural e da matriz peso-posição utilizada.
Módulo de Testes (Modo Teste)
Este modo de funcionamento permite ao usuário utilizar base de dados
criada para a busca de regiões codificadoras numa seqüência.
O módulo de treinamento pode ser dividido nos seguintes subsistemas:
Analisador sintático
Este subsistema permite a análise de um arquivo no formato do GenBank
e FASTA. Busca informações importantes para o treinamento, através da
averiguação do campo CDS, no caso dos arquivos GenBank. Os dados
analisados são:
-
Posição das regiões codificadoras no lócus;
-
Tipo de região codificadora (éxon simples, éxon inicial, éxon
terminal ou éxon interno);
-
Seqüências inválidas.
Analisador Estatístico
A tarefa do analisador estatístico é gerar as informações sobre os
hexâmeros para formar a entrada da rede neural, conforme descrito na
seção 5.4.
Para tal, uma matriz é gerada com as informações posicionais de cada
hexâmero (matriz peso-posição).
131
Gerador de Base de Dados
Nesta etapa, a base de dados de treinamento e validação é criada. São
selecionadas, aleatoriamente, seqüências codificadoras na taxa de 80%
para treinamento e 20% para validação.
As seqüências repetidas são retiradas. Um conjunto com a mesma
quantidade de seqüências não codificadoras é criado aleatoriamente e
inserido na base de dados de treinamento e validação.
Após a criação da base de dados, esta é embaralhada.
Pré-Processamento
Este subsistema realiza as funções de pré-processamento. O pré-
processamento é utilizado na descoberta de éxons iniciais e finais, estes
tipos de regiões codificadoras possuem estruturas previsíveis (códon
inicial e terminal). Este módulo, também, realiza a adequação dos dados
para entrada na rede neural.
Rede Neural
Este módulo faz o treinamento da rede neural utilizando o algoritmo de
backpropagation
. Este subsistema testa várias redes neurais até encontrar
a que melhor se adequa ao organismo. A rede escolhida é a que possuir
melhor generalização e menor quantidade de neurônios na camada de
entrada e na camada escondida. As possíveis janelas de entrada e
quantidade de neurônios na camada escondida são configurações do
sistema. Os resultados desta etapa são os pesos da rede neural treinada.
Pós-Processamento
Nesta etapa são realizados os testes para validação da técnica no lócus
sugerido.
O resultado desta etapa é a aceitação ou não dos novos dados para
composição da base de espécies treinadas.
O módulo de teste, por sua vez, pode ser dividido nos seguintes subsistemas:
Pré-Processamento
132
Este subsistema realiza as funções de pré-processamento descritas
anteriormente. Além destas funções, o pré-processamento realiza a
adequação dos dados para entrada na rede neural de acordo com a espécie
selecionada no banco de dados do ExonBR.
Rede Neural
Esta rede neural tem como objetivo aplicar a base de dados previamente
treinada selecionada sobre a seqüência que está sendo analisada. O
resultado desta etapa é a informação de onde estão localizadas as regiões
codificadoras.
Pós-Processamento
A tarefa desta etapa é realizar os ajustes necessários para a exibição das
regiões codificadoras, de acordo com que foi pedido pelo usuário.
133
8 Conclusão
Este trabalho tem como principal contribuição o desenvolvimento de uma nova
técnica baseada na matriz peso-posição modificada combinada com redes neurais para a
identificação de regiões codificadoras, e a ferramenta ExonBR que utiliza esta
metodologia.
Os objetivos deste trabalho foram alcançados, criando uma ferramenta amigável e
adaptável a qualquer organismo. De acordo com os resultados encontrados, este
programa pode ser comparado com os melhores existentes atualmente, com taxas de
acerto variando entre 80% e 95% para o organismo para o qual foi treinado e aqueles
próximos evolutivamente dele.
Os testes mostraram que janelas menores que 40 bp não geram bons resultados na
predição de regiões codificadoras. Verificou-se que a informação de G+C não foi útil
para a melhora do desempenho da rede neural, isto ocorre, pois esta informação está
contida na matriz peso-posição modificada, que é a entrada da rede neural.
Viu-se, ainda, que a rede neural escolhida varia de acordo com o organismo,
adaptando a ferramenta para predição de qualquer espécie. Isto pode ser observado nos
testes realizados com outros organismos eucariotos diferentes da
Droshopila
melanogaster
.
Observou-se que o hexâmero é uma grande fonte de informação para descoberta
de regiões codificadoras e que a matriz peso-posição é uma técnica eficaz para este fim,
sendo seu resultado bastante melhorado com a aplicação de uma rede neural. Portanto,
estas técnicas isoladamente não apresentam resultados tão satisfatórios quanto a sua
combinação.
Verificou-se que os éxons iniciais e terminais são mais fáceis de descobrir que
os internos e os simples, pois estas regiões possuem estruturas fixas no seu início (no
caso dos éxons iniciais) ou no seu fim (no caso dos éxons terminais) facilitando a sua
predição.
A utilização da saída da rede neural como probabilidade da região influenciou no
resultado. A variação deste valor pode ser utilizada para a predição de uma gama maior
de possíveis éxons no caso de organismos próximos evolutivamente do treinado,
diminuindo a quantidade de testes que devem ser realizados para descoberta de regiões
codificadoras.
134
As grandes vantagens e contribuições do sistema proposto são a facilidade na
manipulação da ferramenta, a boa taxa de acerto proporcionada, a possibilidade de
criação de um banco de dados próprio com qualquer espécie e a adaptabilidade aos
organismos.
As principais desvantagens desta técnica são o tamanho mínimo para descoberta
de éxons, podendo acarretar, nos organismos que possuem grande quantidade de éxons
pequenos, uma perda considerável na descoberta de regiões codificadoras; e a demora
para o treinamento, que piora com o aumento da base de treinamento.
A grande dificuldade no desenvolvimento deste trabalho foi descobrir a forma
como seria feita e entrada da rede neural. Várias formas de matriz foram testadas, porém
a técnica de matriz peso-posição foi a que encontrou melhores resultados. Outro ponto
importante foi a forma que os dados seriam testados. O teste nucleotídeo por
nucleotídeo mostrou-se eficaz, porém, lento, e a técnica descrita nesta tese (neste
trabalho) gerou os mesmos resultados de forma rápida. A descoberta da forma para
elaborar o conjunto de treinamento, também foi um desafio. Se todas as possibilidades
fossem treinadas na rede neural teríamos uma quantidade enorme de dados, retardando e
dificultando o treinamento, logo, a divisão dos dados em blocos foi a forma mais eficaz
para resolver este problema. A dificuldade de treinar a rede neural também deve ser
ressaltada, pois percebeu-se que para uma automatização da técnica foi necessário
diminuir a taxa de aprendizado, acarretando assim num maior tempo de treinamento,
porém, mais eficaz e com menor possibilidade de encontrar um mínimo local. Buscou-
se sempre minimizar o processamento e memória durante o desenvolvimento das
técnicas e da ferramenta.
Tendo em vista o que foi apresentado ao longo do trabalho, pode-se dizer que o
sistema proposto e as técnicas associadas a ele possibilitam grande facilidade e uma boa
flexibilidade para descoberta de éxons maiores ou iguais ao tamanho da janela mínima.
135
Sugestões para trabalhos futuros
Pode-se sugerir, para o futuro, os seguintes trabalhos:
desenvolvimento de novas técnicas para descoberta de outras regiões
genéticas (promotores,
splices
alternativos, entre outros) para o
acoplamento nesta ferramenta;
desenvolvimento desta ferramenta com processamento paralelo para
minimizar a demora no treinamento;
desenvolvimento de uma interface web com repositório universal de
espécies treinadas;
avaliação das regras produzidas pela rede neural que podem fornecer uma
informação interessante para o usuário;
programação de uma interface visual para mostrar as regiões encontradas;
busca de informação genética para diminuir o tamanho da janela nima
para descoberta de éxons;
aplicação de técnicas para descoberta da melhor rede neural em um menor
tempo;
utilização de outros tipos de redes neurais para maximizar o desempenho
da ferramenta.
136
Referências bibliográficas
ADI, S. S.; FERREIRA, C. E., 2002 Uma avaliação de ferramentas para predição de
genes – Instituto de Matemática e Estatística, USP.
ALLEN, J.E.; SALZBERG, S.L., 2005 - JIGSAW: integration of multiple sources of
evidence for gene prediction – Bioinformatics, Vol. 21 no. 18, pages 3596–3603.
ANDERBERG, M. R., 1973 Cluster Analisys for Application, Academic Press, New
York
ASHBURNER, M., GOODMAN, N., 1997, “Informatics Genome and Genetics
Databases
. In:
Current Opinion in Genetics & Development
, 7, pp. 750-756
ALTSCHUL, S.F.; GISH, W.; MYERS, E.W.; LIPMAN, D.J.; 1990 – Basic local
aligment search tool. J. Mol. Biol. 215, 403-410.
BALDI, P., 2001,
Bioinformatics: The Machine Learning Approach
, 2
nd
ed, The MIT
Press.
BAIROCH, A., 2000, The ENZYME database in 2000”, In:
Nucl. Acids. Res
, 28, pp.
304-305.
BAXEVANIS A.D., OUELLETTE B.F.F., 2001,
Bioinformatics: A practical guide to
the analysis of genes and proteins
., 2
nd
ed., Ed. Wiley-interscience.
BENSON, D.A., KARSCH-MIZRACHI, I., LIPMAN, D.J.,
et al
., 2006, "GenBank",
In:
Nucl. Acids. Res
,34, pp. D16-D20
BERMAN, H. M., WESTBROOK, J., FENG, Z.,
et al
., 2002, "The Protein Data Bank",
In:
Nucl. Acids. Res
., 30, pp. 245-248.
BLAKE, J.A., EPPIG, J.T., BULT, C.J.,
et al
., 2006, “The Mouse Genome Database
(MGD): updates and enhancements”, In:
Nucl. Acids Res.
34: D562-D567.
BOSER,B.; GUYON,I.; VAPNIK,V.N. ,1992 -A training algorithm for optimal margin
classifiers. In: Proc. COLT (Haussler,D., ed.), ACN Press, Pittsburgh, PA, 144–152.
BOUGUELERET, L.; TEKAIA, F.; SAUVAGET, I.; CLAVERIE, J.M.; 1988
Objective comparation of éxon and intron sequences by the means 2-dimensional data
analysis methods. Nucleic Acids Res., 16, 1729-1738.
BORODOVSKY, M.; MCININCH, J., 1993 – GENMARK: parallel gene recognition
for both DNA strands. Comp. Chem. 17, 123-133
137
BRANDON M. C., LOTT M. T., NGUYEN K.C.,ET AL., 2005 - MITOMAP: a human
mitochondrial genome database—2004 update - Nucleic Acids Res. 33(Database Issue):
D611–D613.
BRENT, M.R.; GUIGÓ, R., 2004 - Recent advances in gene structure prediction - Curr
Opin Struct Biol.;14(3):264-72
BRUDNO,M.; MORGENSTERN,B., 2002 - Fast and sensitive alignment of large
genomic sequences. In Proceedings IEEE Computer Society Bioinformatics conference.
pp. 138–147. http://www.stanford.edu/brudno/chaos/
BRUNAK, S.; ENGELBRECHT, J.; KNUDSEN, S.; 1991 – Prediction of Human
mRNA Donor and Acceptor Sites from the DNA Sequence - J. Mol. Biol., 220, 49-65
BUCHER, P. 1990 Weight matrix descriptions of four eukaryotic RNA plymerase II
promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212,
563-578
BUNEMAN, P., DAVIDSON, S.B, HART, K.,
et al.
, 1995, “A Data Transformation
System for Biological Data Sources.”, In:
Proceedings of 21th International Conference
on Very Large Data Bases
, pp 158-169.
BURSET M., GUIGÓ R., 1996 Evaluation of Gene Structure Prediction Programs-
Genomics 34, 353-367.
BURGE, C., 1997 – Identification of Genes in Human Genomic DNA – Thesis Stanford
University.
BURGE, C. AND KARLIN, S. 1997 Prediction of complete gene structures in human
genomic DNA, J. Mol. Biol., 268, 78-94.
BURGE, C AND KARLIN, S. 1998. Finding the genes in genomic DNA, Curr. Opin.
Struc. Biol.. 8:.346-354
CHEN,T; LU,C.; LI,W., 2005 - Prediction of splice sites with dependency graphs and
their expanded bayesian networks - Bioinformatics, Vol. 21 no. 4, pages 471–482
CHEN N., Harris T.W., Antoshechkin I.,
et al.
, 2005 -WormBase: a comprehensive data
resource for Caenorhabditis biology and genomics - Nucleic Acids Res. 2005 January 1;
33(Database Issue): D383–D389
CHURBANOV, A.; ROGOZIN,I.B.; DEOGUN, J.S.; ALI, H., 2006 - Method of
predicting Splice Sites based on signal interactions - Biology Direct 2006, 1:10
CLAVERIE, J. M.; BOUGUELERET, L.; 1986 Heuristic informational analysis of
sequences. Nucleic Acids Res. 14, 179-96.
138
CLAVERIE, J. M.; SAUVAGET, I.; BOUGUELERET, L.; 1990 k-Tuple frequency
analysis from intron/éxon discrimination to T-cell epitope mapping. Methods Enzymol,
183, 237-252.
CLAVERIE, J. M. 1997. Computational methods for the identification of genes in
vertebrate genomic sequences – Human Molecular Genetics, 1997, Vol. 6, No. 10
Review 1735–1744
COCHRANE, G., ALDEBERT P., ALTHORPE N.,
et al.
, 2006, “The EMBL
Nucleotide Sequence Database: developments in 2005”, In:
Nucl. Acids. Res.
, 34, pp.:
D10-D15.
DAVIS, L., 1991 -. Handbook of Genetic Algorithms. Van Nostrand Reinhold
DEGROEVE, S.; SAEYS,Y.; DE BAETS,B.;ROUZÉ,P.;VAN DE PEER,Y., 2005 -
SpliceMachine: predicting splice sites from high-dimensional local context
representations - Bioinformatics, Vol. 21 no. 8 2005, pages 1332–1338
FICKETT, J.W., 1982 - "Recognition of protein coding regions in DNA sequences",
Nucleid Acids Res, 10, 5305-5318
FICKETT J.W. & TUNG C.S., 1992 –Assesssment of protein coding measures -
Nucleid Acids Res, 20, 6441
FICKETT J. W., 1996 “The gene identification problem: An overview for
developers”- Computers Chem, 20(1):103-118
FOGEL, G. B.; CORNE, D. W, 2003 Evolutionary Computation in Bioinformatics
Morgan Kaufmann Publishers.
FORNEY, G. D., 1973 – The Viterbi Algorithm – Proc. IEEE, 61, 268-278
GENBANK, 2007, NCBI-GenBank Flat File Release 160.0,
ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt.
FUJIMORI,S.; WASHIO,T.; TOMITA, M., 2005 - GC-compositional strand bias
around transcription start sites in plants and fungi -BMC Genomics, vol. 6:26
GELFAND S. M, MIRONOV, A. A., PEVZNER, P.A., 1996 Gene reconigtion via
spliced sequence alignement – Proc. Natl. Acad. Sci. USA 93:9601-9066
GELFAND, M. S. , 1995 Prediction of function in DNA sequence analysis, J. Comp.
Biol. 2(1), 87-115
GISH, W.; STATES, D.J.; 1993 Identification of protein coding regions by database
similarity search. Nature Genet., 3, 266-272.
GRUMBLING G., STRELETS V., THE FLYBASE CONSORTIUM, 2006, " FlyBase:
anatomical data, images and queries", In:
Nucl. Acids. Res.,
34 , pp. D484-D488.
139
GUIGÓ, R; KNUDSEN, S., DRAKE, N., SMITH, T.F., 1992 Prediction of gene
structure. Journal of Molecular Biology 226, 141-157
GUIGÓ, R.; DERMITZAKIS, E.T.; AGARWAL, P.; PONTING, C.P.; PARRA, G.;
REYMOND, A.; ABRIL, J.F.; KEIBLER, E.; LYLE, R.; UCLA, C.; ANTONARAKIS,
S.E.; BRENT, M.R., 2003 -Comparison of mouse and human genomes followed by
experimental verification yields an estimated 1,019 additional genes.- Proc. Nat. Acad.
Sci. 100(3):1140-1145
HAYKIN, S., 2001 – Redes Neurais: Princípios e prática – Bookman, 2001.
HAWKINS, J.D., 1988 A survey on intron and éxon lengths. Nucl. Acids. Res. 16,
9893-9908.
HEBSGAARD, S. M.; KORNING, P.G.; TOLSTRUP, N.; ENGELBRECHT, J.;
ROUZÉ, P.; BRUNAK, S.; 1996 Splice site prediction in
Arabidopsis thaliana
pre-
mRNA by combining local and global sequence information.- Nucleic Acids Research,
24(17), 3439-3452
HENDERSON J.; SALZBERG S.; FASMAN, K, 1996 Finding genes in human DNA
with a hidden markov mode. In Proceeding 4
rd
International Conference on Intelligent
Systems for Molecular Biology, St. Lois. AAAI Press.
HENIKOFF, J.G., HENIKOFF, S., PIETROKOVSKI, S., 1999, “New features of the
Blocks Database servers”, In:
Nucl. Acids. Res
., 27, pp. 226-228.
HULO N., BAIROCH A., BULLIARD V., ET AL., 2006 “The PROSITE database” -
Nucl. Acids Res. 34: D227-D230.
HSU, K.; HSU, A., 1990 – Proc. Natl. Acad. Sci. USA 87 938-941.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION, 1987
"Informationprocessing systems - Open Systems Interconnection - Specification of
Abstract Syntax Notation One (ASN.1)", In:
Technical Report ISO-8824
, International
Organization for Standardization, Switzerland.
KONOPKA, A. K.; OWENS, J., 1990 Complexity charts can be used to map
functional domains in DNA- Gene Anal. Techn. Appl. 7, 35-38
KORF, I.; FLICEK, P.; DUAN, D.; BREANT, M. R., 2001 – Integrating genomic
homology into gene structure prediction. Bioinformatics, 1, S1-S9.
KRAEMER, E.; WANG, J.; GUO, J.; HOPKINS, S.; ARNOLD, J., 2001 - An analysis
of gene-finding programs for Neurospora crassa , Bioinformatics, 17:901-912.
140
KROGH, A., BROWN, M.; MIAN, I. S.; SJÖLANDER,K., HAUSSLER, D., 1994 -
Hidden Markov models in computional biology: Applications to protein modeling.
Journal of Molecular Biology 235:1501-1531.
KROGH, A.; MIAN, I. S.; HAUSSLER, D., 1994 A Hidden Markov model that find
genes in e. coli DNA. Nucleic Acids Reasearch 22:4768-4778
KROGH, A., 1997. Two methods for improving perfomance of an HMM and their
application for gene-finding. In Proceedings of the Fourth International Conference on
Intellligent Systems, pp. 134-142, AAAI Press, Menlo Park, CA.
KULP, D., HAUSSLER, D., REESE, M.G, EECKMAN, F.H., 1996 A generalized
hidden Markov model for the recognition of human genes in DNA In Proceedings of
the Fifth International Conference on Intelligent Systems for Molecular Biology pp.
134-142, AAAI Press, Menlo Park, CA.
LEE, Y., TSAI, J., SUNKARA, S., KARAMYCHEVA, S.,
et al
. ,2005 -The TIGR
Gene Indices: clustering and assembling EST and known genes and integration with
eukaryotic genomes. Nucleic Acids Res 33 Database Issue D71-74.
LEHNINGER, A. L., 1980- Bioquímica - Edgard Blüche
LINHARES, S. V.; GEWANDSZNAJDER, F., 1985 Biologia Programa Completo
Editora Ática
LETOVSKY, S. I., COTTINGHAM, R. W., PORTER, C. J.,
et al
., 1998, "GDB: the
Human Genome Database", In:
Nucleic Acids Research
, 26(01), pp. 94-99.
NCBI, 2002, http://www.ncbi.nih.gov/.
LUKASHIN, A. V, BORODOVSKY, M., 1998 GeneMark.hmm: The new solutions
for gene-finding. Nucleic Acids Res., 26: 1107-1115
MAJOROS, W. H.; PERTEA M. ; SALZBERG S. L., 2004 - TigrScan and
GlimmerHMM: two open source ab initio eukaryotic gene-finders.
MAJOROS, W. H.; PERTEA M. ; DELCHER, A.L. ; SALZBERG S. L., 2005 -
Efficient decoding algorithms for generalized hidden Markov model gene finders.
MAKALOWSKA I.; RYAN J.F.; BAXEVANIS, A.D., 2001 -GeneMachine: gene
prediction and sequence annotation , Bioinformatics, 17:843-844.
MORGENSTERN, B, 1999 - DIALIGN 2: improvement of the segment-to-segment
approach to multiple sequence alignment. Bioinformatics, 15, 211–218.
MURAKAMI, K.; TAKAGI, T., 1998 Gene recognition by combination of several
gene-finding programs – Bioinformatics, 14(8), 665-675
141
MURAL, R.J.; MANN, R.C.; UBERBACHER, E.C., 1991 in Proceeding of the First
International Conference on Electrophoresis, Supercomputing and the Human Genome,
pp. 164-172.
MURAL, R.J., EINSTEIN, J.R., GUAN, X., MANN, R.C., UBERBACHER, E. C.,
1992 "An artificial intelligence approach to DNA sequence feature recognition”
Trends Biotech. 10,67-69
OKUBO K., SUGAWARA H., GOJOBORI T, TATENO Y., 2006 “DDBJ in
preparation for overview of research activities behind data submissions” - Nucl. Acids
Res. 34: D6-D9
OUELLETTE, B.F.F, BOGUSKI, M. S., 1997, “Database Division and homology
search files: a guide for the perplexed”,
Genome Res
., 7, pp. 952-957
MURTHY, S. K.; KASIF S.; SALZBERG S., 1994 A system for induction of obliqúe
decision trees. Journal of Artificial Intelligence Research 2,1-33.
PATTERSON,D.J.; YASUHARA,K.; RUZZO,W.L., 2002 - Pre-mRNA secondary
structure prediction aids splice site prediction. Proceedings of the Pacific Symposium on
Biocomputing. Lihue, Hawaii, World Scientific Press, pp. 223–234.
PARRA, G.; BLANCO, E.; GUIGÓ, R., 2000 – GeneID in
Drosophila
- Genome
Research, 10(4):511-515.
PARRA, G.; AGARWAL, P.; ABRIL, J.F.; WIEHE, T.; FICKETT, J.W.; GUIGÓ; R,
2003 - Comparative gene prediction in human and mouse - Genome Research
13(1):108-117
PAVLOVIC V., GARG A., KASIF S., 2002, "A Bayesian framework for combining
gene predictions", Bioinformatics, 18:19-27
PERTEA, M.; LIN, X.; SALZBERG, S.L.,2001 - GeneSplicer: a new computational
method for splice site prediction - Nucleic Acids Research, 29(5):1185-1190.
POWELL, M.J.D, 1985 Radial basis functions form multivariable interpolation: A
review IMA Conference on Algorithms for the Approximation of Functional and
Data, pp. 143-167, RMCS, Shrivenham, England
RABINER, L. R., 1989 A tutorial on Hidden Markov Models and selected
applications in speech recognition, Proc. IEEE, 77(2), 257-285
RINNER, O.; MORGENSTERN, B., 2002 - AGenDA: Gene prediction by comparative
sequence analysis - In Silico Biol., 2, 195–205.
http://www.bioinfo.de/isb/2002/02/0018/
142
ROGIC, S., MACKWORTH, A. K., OUELLETTE, F.B.F, 2001 Evaluation of Gene-
Finding Programs on Mammalian Sequences- Genome Research, 817-832
ROGIC S., OUELLETTE F.B.F., MACKWORTH A.K, 2002.- Improving gene
recognition accuracy by combining predictions from two gene-finding programs-
Bioinformatics 18: 1034-1045
SALAMOV, A. A.; SOLOVYEV, V.V., 2000 Ab initio Gene Finding in Drosophila
Genomic DNA – Genome Research, 10, 516-522.
SALZBERG, S.L.; DELCHER, A.; FASMA, K.; HENDERSON, J., 1998 - A decision
tree system for finding genes in DNA.- J. Comp. Biol.,5, 667-680
SALZBERG, S.L.; PERTEA, M.; DELCHER, A.; GARDNER, M.J.;TETTELIN, H.,
1999. Interpolated Markov for eukariotic gene finding. Genomics,59, 24-31.
SCHMID C.D., PÉRIER, R. C., PRAZ, V., BUCHER, P.,
et al
., 2006, "EPD in its
twentieth year: towards complete promoter coverage of selected model organisms", In:
Nucl. Acids Res.
34
:
D82-D85
SEIBEL, L.F.B, LEMOS, M., LIFSCHITZ, S., 2000, “Banco de Dados de Genoma”,
SBBD 2000
.
SHERLOCK, G., HERNANDEZ-BOUSSARD, T., KASARSKIS, A.,
et al
., 2001, “The
Stanford Microarray Database”, In:
Nucl. Acids. Res
. ,29, pp.152-155.
SNYDER, E. E., STORMO,G. D., 1993 Identification of coding regions in genomic
DNA sequences: an application of dynamic programming and neural networks. Nucleic
Acids Res. 21, 607-613
SNYDER, E. E., STORMO,G. D., 1997 Identification genes in genomic DNA
sequences. DNA and Protein Sequence analysis, M.J. Bishop and C.J.Rawlings, eds.
(New York: Oxford University Press), p. 209-224
SOLOVYEV, V. V.; SALAMOV, A. A.; LAWRENCE, C.B., 1994 Predicting
internal éxons by oligonucleotide composition and discriminant analysis of spliceable
open reading frames. Nucleic Acids Research, 22, 5156-5163
SOLOVYEV, V. V.; SALAMOV, A. A.; LAWRENCE, C.B., 1995 –Identification of
human gene structure using linear discriminant function and dynamic programming.
Ismb 3,367-375
Staden, R., 1984 Computer methods to locate signals in nucleic acid sequences
Nucl. Acids. Res., 12, 505-519
UNIPROT, 2007 - UniProtKB/Swiss-Prot Protein Knowledgebase release statistics 11.0
of 29-May-2007 - http://www.expasy.org/sprot/relnotes/
143
TABASKA, J.E.; DAVULURI, R.; ZHANG, M.Q., 2001 -A novel 3'-terminal éxon
recognition algorithm – Bioinformatics, 17(7), pp. 602-607
TAHER, L.; RINNER, O.; GARG, S.; SCZYRBA, A.; BRUDNO, M.; BATZOGLOU,
S.; MORGENSTERN, B., 2003 - AGenDA: homology-based gene prediction -
Bioinformatics, Vol. 19 no. 12, pages 1575–1577
WHELLER, D.L., CHURCH, D.M., LASH, A.E.,
et al
., 2002, “Database resources of
the National Center for Biotechnology information: 2002 update”, In:
Nucleics Acid
Reserch
, 30(1), pp. 13-16.
UBERBACHER, E.C. AND MURAL, R. J., 1991 Locating protein-coding regions in
human DNA sequences by a multiple sensor-neural network approach. Proceedings of
the National Academy of Sciences of the U.S.A. 88, 11261-11265
USAKA , J.; ZHU, W.; BRENDEL, V., 2000 Optimal spliced alignment of
homologous cDNA to a genomic DNA template. Bioinformatics, 16
USAKA, J.; BRENDEL, V.; 2000 Gene Structure Prediction by Spliced Alignment of
Genomic DNA with Protein Sequences: Increased Accuracy by Differencial Splice Site
Scoring. Journal of Molecular Biology, 297, 1075-1085.
VAPNIK,V.N.,1995 - The Nature of Statistical Learning Theory. Springer-Verlag,
Berlin.
XU, Y.; EINSTEIN, J.R.; MURAL, R.J.; SHAH, M.; UBERBACHER, E.C., 1994
„An improved system for éxon recognition and gene modeling in human DNA
sequences“ In „ISMB-94 Proceedings Second International Conference on Intelligent
Systems for Molecular Biolog“, pp. 376-384, AAAI Press, Menlo Park.
YOURDON, EDWARD, 1990 Analise Estruturada Moderna 3
a.
Edição – Editora
Campus.
ZHANG, M.Q., 1997. Identification of protein coding regions in the human genome by
quadratic discriminant analysis. Proc. Natl. Acad. Sci. 94:565-568
ZHANG, M. Q., MARR, T. G., 1993 A weight array method for splicing signal
analysis – Comp. Appl. Biol. Sci. 9(5), 499-509
ZHANG, L.; LUO, L., 2003 - Splice site prediction with quadratic discriminant analysis
using diversity measure - Nucleic Acids Research, Vol. 31, No. 21
WANG, Y.; ZHANG, C.T; DONG, P., 2002 - Recognizing shorter coding regions of
human genes based on the statistics of stop codons, Biopolymers, 63:207-216.
WHITE, O.; SODERLUND, C.; SHANMUGAN, P.; FIELDS, C., 1992 Plant Mol.
Biol., 19, 1057-1064
144
WU, T., 1996 A segment-based dynamic programming algorithm for predicting gene
structure. Journal Computational Biology 3(3), 375-394.
WU, C.H., APWEILER, R., BAIROCH, A.,
et al
. ,.2006, "The Universal Protein
Resource (UniProt): an expanding universe of protein information". In:
Nucl. Acids.
Res,
. 34: pp. D187-D191.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo