Download PDF
ads:
RAQUEL CARDOSO DE MELO MINARDI
CLASSIFICAC¸
˜
AO ESTRUTURAL DE FAM
´
ILIAS
DE PROTE
´
INAS COM BA SE EM MAPAS D E
CONTATOS
Belo Horizonte
04 de junho de 2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Universidade Federal de Minas Gerais
Instituto de Cincias E xatas
Programa de Ps-Graduao e m Bioinform
´
atica
CLASSIFICAC¸
˜
AO ESTRUTURAL DE FAM
´
ILIAS
DE PROTE
´
INAS COM BA SE EM MAPAS D E
CONTATOS
Tese apresentada ao Curso de os-
Gradua¸ao em Bioinform´atica da Univer-
sidade Federal de Minas Gerais como req-
uisito parcial para a obten¸ao do grau de
Doutor em Bioinform´atica.
RAQUEL CARDOSO DE MELO MINARDI
Belo Horizonte
04 de junho de 2008
ads:
UNIVERSIDADE FEDERAL DE MINAS GERAIS
FOLHA DE APROVAC¸
˜
AO
Classifica¸ao Estrutural de Fam´ılias de Prote´ınas com Base em
Mapas de Contatos
RAQUEL CARDOSO DE MELO MINARDI
Tese defendida e aprovada pela banca examinadora constitu´ıda por:
Prof. Ph. D. Marcelo Matos Santoro Orientador
Universidade Federal de Minas Gerais
Prof. Ph. D. Wagner Meira Jr. Co-orientador
Universidade Federal de Minas Gerais
Prof. Ph. D. J
´
ulio C
´
esar Dias Lopes Co-orientador
Universidade Federal de Minas Gerais
Ph. D. Goran Neshich Co-orientador
Empresa Brasileira de Pesquisa Agropequ
˜
A¡ria
Prof. Ph. D. J
´
unior Barrera
Universidade de ao Paulo
Prof Ph. D. Rodrigo Weber dos Santos
Universidade Federal de Ju´ız de Fora
Prof. Ph. D. W
´
alter Filgueira de Azevedo J
´
unior
Pontif´ıcia Universidade Cat´olica do Rio Grande do Sul
Profa. Ph. D. Glaura da ConceiC¸ c
˜
ao Franco
Universidade Federal de Minas Gerais
Belo Horizonte, 04 de junho de 2008
Resumo Estendido
O objetivo deste trabalho ´e verificar se ´e poss´ıvel classificar estruturas de cadeias
proteicas utilizando apenas os dados das intera¸oes qu´ımicas entre os seus res´ıduos
de amino´acidos. Atrav´es de mapas de contatos gerados a partir de dados do STING
e a utilizao de trˆes diferentes m´etricas baseadas em ecnicas de processamento de
imagens somos capazes de classificar tais estruturas em fam´ılias de similar estrutura e
fun¸ao.
Fizemos alguns ensaios de varia¸ao de atributos no intuito de encontrar poss´ıveis
componentes de assinaturas estruturais de cada uma dessas fam´ılias. Verificamos que
existem alguns tipos de contatos mais relevantes na discrimina¸ao das fam´ılias (pontes
de hidrogˆenio sem intermedia¸ao de mol´eculas de ´agua, contatos hidrof´obicos e liga¸oes
´ıon-´ıon) e outros menos relevantes (pontes de hidrogˆenio intermediadas por mol´eculas
de ´a gua). Mostramos tamem que contatos entre res´ıduos muito pr´oximos na seq¨uˆencia
(menos de 30 res´ıduos de distˆancia) ao ao muito ´uteis na classifica¸ao, sendo aparente-
mente ru´ıdos nesse processo. Al´em disto, pelos resultados preliminares, nem o os
res´ıduos que formam um grande n´umero de contatos ao importantes. Res´ıduos com
poucos contatos aparentemente ao imprescind´ıveis na defini¸ao da fam´ılia estrutural.
Mostramos que uma das t´ecnicas de compara¸ao de mapas de contatos desenvolvida
pode ser ´util, adicionalmente, no alinhamento de contatos. Atrav´es destes alinhamen-
tos podemos, por exemplo, verificar as altera¸oes conservativas nos contatos de uma
prote´ına mutante em rela¸ao `a selvagem. Pode-se tamb´em, estudar comparativamente
uma mesma prote´ına de diversas espe´ecies animais.
Isto gerou ferramentas muito ´uteis na compara¸ao de prote´ınas de uma mesma
topologia e diferentes esp´ecies e tamb´em no entendimento das varia¸oes de estabilidade
de uma prote´ına selvagem e seus mutantes.
As ecnicas desenvolvidas parecem ser ´uteis tamb´em no estudo de padr˜oes de in-
tera¸oes entre diferentes cadeias pro t eicas. Em ensaios com serino- proteases e seus
inibidores, os BPTIs, mostramos ser poss´ıvel definir um padr˜ao de contatos potencial-
mente importantes na complexa¸ao do inibidor `a protease.
Alguns dos resultados deste trabalho foram implementados e est˜ao dispon´ıveis na
i
ferramenta STING (http://www.cbi.cnptia.embrapa.br/SMS/). Participamos da con-
cep¸ao e implementa¸ao de trˆes diferentes odulos: PCD (( Protein Contacts Dif-
ference)), TopSiMap (Topolog y S i milarity Map) e Topologs (um banco de dados de
estruturas similares tomando-se como base apenas contatos).
ii
Abstract
The objective of this work was to verify if it is possible to classify protein chain
structures using only the chemical interactions between its residues. Through con-
tact maps and using three different metrics based on image processing techniques we
have showed that we are able to classify such structures in families of similar structure
and function with precision up to 99%. We have performed some experiments with at-
tributes variation to find possible comp onents of the structural signatures of each of the
studied protein families. We have verified that some types of interactions are more dis-
criminator then others (they are hydrogen bonds without water molecules in the middle
of residues, hydrophobic contacts and ion-ion linking) and that other are less discrim-
inator (hydrogen bo nds intermediated by water molecules). We also have showed that
contacts between residues which are sequentially close (less than 30 residues of dis-
tance) are not very discriminator attributes for classification, apparently being noises
in the process. Moreover, for the preliminary results, the residues that form a great
number of contacts are not more important that the less connected ones as one should
previously think. Residues with few contacts apparently are essential in the definition
of the structural signature of a fa mily. We have showed that one of the t echniques for
contact maps comparison can additionally be useful as an heuristic for the contact map
overlap problem. It can be used to align contact maps and through these alignments
we can, for example, study mutations in residues that does not affect the pattern of
contacts. We can compare mutant and wild prot eins and also, comparatively study a
protein of diverse animal species. Another important tested use of the technique is in
the discovery of a pattern of interactions between different protein chains in complexes.
In assays with serine-proteases and its inhibitors, the BPTIs, we have showed that it is
possible to define a set of potentially impor tant contacts in the binding and stabiliza-
tion of the complexes. Some of the results of this work had been implemented and are
available, beyond this site, in t he STING (http://www.cbi.cnptia.embrapa.br/SMS).
We participate o f the conception and implementation of three different modules: PCD
(Protein Contacts Difference), TopSiMap (Topology Similarity Map) a nd Topologs (a
data base of similar structures being overcome as base only contacts).
iii
Dedico este trabalho primeiramente a Deus pois sem Ele nada seria poss´ıvel e ao
estar´ıamos aqui d e sfrutando destes ao importantes momentos.
Dedico, tamb´em, ´as pessoas mais importantes da minh a vida. Estas pe ssoas que
ao o me apresentaram os projetos dos sonhos, co mo desafiaram-me a constru´ı-los e
que tamb´em foram me ajudando nesta constru¸ao dia ap´os dia
A minha ae Maria Jos´e, por sempre acreditar em mim mais do que eu mesma,
pelo carinho e infinita dedicao.
Ao meu pai ulio, autodidata e meu maior exemplo de que podemos aprender e
fazer muito mais do que imaginam.
Ao meu marido
ˆ
Angelo por acreditar e compartilhar comigo todos os sonhos e
pelo seu eno rme amor.
E ´a minha ao Con cei¸ao , meu primeiro modelo de professor. Por sua culpa,
vislumbrei um ideal nesta profiss˜ao...
iv
Agradecimentos
A Deus, `a minha fam´ılia e aos professores Marcelo Santoro, Wagner Meira Jr., J´ulio
C´esar Dias Lopes e ao Dr. Goran Neshich e Dr. Carlos Herique da Silveira.
v
Sum´ario
1 Introdu¸ao 1
1.1 Diversidade funcional e estrutural de pro t e´ınas . . . . . . . . . . . . . . 1
1.2 Amina cidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Liga¸ao pept´ıdica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Estruturas prim´aria , secund´aria, terci´aria e quatern´aria de prote´ınas . . 5
1.5 Restri¸oes conformacionais da cadeia . . . . . . . . . . . . . . . . . . . 6
1.5.1 Paradoxo de Levinthal . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 Planaridade da liga¸ao pept´ıdica . . . . . . . . . . . . . . . . . 6
1.5.3
ˆ
Angulos φ (phi) e ψ (psi) . . . . . . . . . . . . . . . . . . . . . . 6
1.5.4 Intera¸oes ao-Covalentes entre os res´ıduos de amino´acidos . . . 8
1.5.5 Estruturas secund´arias . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Especificidades dos res´ıduos de amino´acidos no enovelamento e atividade
de prote´ınas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Fam´ılias de prote´ınas modelo . . . . . . . . . . . . . . . . . . . . . . . 14
1.7.1 Globinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7.2 Outras fam´ılias . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7.3 Complexos Serino-protease - BPTI . . . . . . . . . . . . . . . . 15
1.8 Dados dispon´ıveis sobre prote´ınas . . . . . . . . . . . . . . . . . . . . . 16
1.9 Seq¨uˆencia × estrutura × fun¸ao de prote´ınas . . . . . . . . . . . . . . . 17
1.10 Importˆancia de se classificar estruturas . . . . . . . . . . . . . . . . . . 17
1.11 Assinaturas estruturais . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.12 Mapas de contatos e sua rela¸ao com a estrutura . . . . . . . . . . . . . 19
1.13 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.13.1 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . 22
1.14 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.15 Objetivos espec´ıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2 Materiais e etodos 25
2.1 Reposit´or io s p´ublicos de dados . . . . . . . . . . . . . . . . . . . . . . . 25
vi
2.1.1 PDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2 SCOP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 ASTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.4 STING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Metodologia para alculo dos contatos . . . . . . . . . . . . . . . . . . 27
2.3 Selao das bases de dados para os exp erimentos . . . . . . . . . . . . . 29
2.3.1 Sele¸ao das Globinas . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Sele¸ao das prote´ınas de enovelamentos variados . . . . . . . . . 32
2.4 M´etricas para compara¸ao dos mapas de contatos . . . . . . . . . . . . 32
2.4.1 A abordagem de recupera¸ao de imagens com base no conte´udo 33
2.4.2 A abordagem de registro de imagens . . . . . . . . . . . . . . . 36
2.5 Algoritmo para defini¸ao de assinaturas estruturais . . . . . . . . . . . 40
2.5.1 Determina¸ao dos agrupamentos de contatos . . . . . . . . . . . 40
2.5.2 Separa¸ao dos clusters definidos incorretamente . . . . . . . . . 41
2.5.3 Defini¸ao dos vetores caracter´ısticos dos agrupamentos . . . . . 41
2.5.4 M´etrica para compara¸ao das assinaturas . . . . . . . . . . . . . 42
2.6 Estrat´egia de ava lia¸ao dos classificadores utilizando curvas ROC . . . 42
3 Publica¸oes 44
3.1 An image - matching ap proach to protein similarity analysis . . . . . . . 44
3.2 A contact-map matching approach to protein structure similarity analysis 4 5
3.3 Similarity-based versus feature-based analysis of structural protein simi-
larity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Mining structural signatures of proteins . . . . . . . . . . . . . . . . . . 47
3.5 Finding protein-protein interaction patterns by contact map matchin g . 48
3.6 The STAR sting server: a multiplatform environment for protein struc-
ture analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Resultados e discuss˜oes 50
4.1 Calibra¸ao dos classificadores . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.1 Correlogramo de cores . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.2 Earth mover’s distance . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 An´alise dos atributos dos contatos usados na classifica¸ao . . . . . . . 52
4.2.1 Tipos de contatos . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.2 Elimina¸ao dos contatos de curta distˆancia seq¨uencial . . . . . . 56
4.2.3 Elimina¸ao dos contatos com res´ıduos pouco conectados . . . . 56
4.3 Resultados finais com a melhor configura¸ao dos sistemas de classifica¸ao 57
4.4 Contribui¸oes deste trabalho no software STING . . . . . . . . . . . . . 58
vii
4.4.1 PCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4.2 TopSiMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4.3 Topologs ASTRAL 40 . . . . . . . . . . . . . . . . . . . . . . . 60
4.5 Sistema de compara¸a o de mapas de contatos dispon´ıvel na internet . . 61
5 Conclus˜oes 66
5.1 Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
A Seq¨uˆencias das Prot e´ınas Usadas nos Experimentos 69
A.1 Globinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.2 Mioglobinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B Publica¸oes 79
Referˆencias Bibliogr´aficas 80
viii
Lista de Figuras
1.1 Variedade estrutural e funcional das prote´ınas . . . . . . . . . . . . . . . . 2
1.2 Estrutura asica de um amino´acido. . . . . . . . . . . . . . . . . . . . . . 3
1.3 20 amino´acidos mais comumente encontrados nos seres vivos . . . . . . . . 4
1.4 Liga¸ao pept´ıdica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5
´
Atomos componentes do plano da liga¸ao pept´ıdica . . . . . . . . . . . . . 7
1.6 Planos consecutivos da cadeia polipept´ıdica . . . . . . . . . . . . . . . . . 7
1.7 α-h´elice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8 Folha-β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.9 Folhas-β para lelas e anti-paralelas . . . . . . . . . . . . . . . . . . . . . . . 12
1.10 Posicionamento das cadeias laterais em folhas-β . . . . . . . . . . . . . . . 13
1.11 Mioglobina de Baleia (PDB id 1a6m) . . . . . . . . . . . . . . . . . . . . . 15
1.12 Complexo Serino-protease - BPTI (Quimotripsina (PDB id 1cho)) . . . . . 16
1.13 Alinhamento das seq¨uˆencias das Mioglobinas de baleia (PDB id 1a6m) e de
ciliado (PDB id 1dlw). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.14 Um exemplo de mapa de contatos. . . . . . . . . . . . . . . . . . . . . . . 20
1.15 Contatos respons´a veis pela forma¸ao de α- h´elices. . . . . . . . . . . . . . . 21
1.16 Um exemplo da associa¸ao entre os contatos de um mapa e uma estrutura. 21
2.1 Tipos de enovelamentos utilizados nos testes deste trabalho: (a) G lobina
(PDB id 1a6mA) ( b) Apolipoprote´ına (PDB id 1nfnA) (c) Plastocianina
(PDB id 1plcA) (d) RBP (PDB id 1rbpA) (e) Tioredoxina (PDB id 2trxA). 30
2.2 F lavohemoglobina: exemplo de cadeia de prote´ına com dom´ınio Globina
jutamente com outro dom´ınio. Prote´ınas multi-dom´ınio, tais como esta,
foram exclu´ıdas da nossa base de dados. . . . . . . . . . . . . . . . . . . . 31
2.3 Alinhamento estrutural dos 50 exemplares de Globinas utilizados neste tra-
balho. Para obter maior clareza, exibimos apenas os ´atomos da cadeia
principal das prote´ınas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Alinhamento estrutural dos 50 exemplares de Mioglobinas utilizados neste
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5 Mapas de contatos hipo t´eticos a serem comparados nos exemplos. . . . . . 35
ix
4.1 Curvas ROC do Correlogramo de cores com a varia¸ao do parˆametro de raio
aximo de varredura d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Varia¸ao da precis˜ao do classificador baseado no CC com o aumento do
parˆametro d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Varia¸ao da precis˜ao do classificador baseado na etrica com o aumento do
parˆametro d
max
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4 An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a etrica CC com a configura¸ao inicial e com os contatos hidrof´obicos,
pontes de hidrogˆenio (sem mol´eculas de ´agua) e contatos carregados atra-
tivos separadamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.5 An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com pontes de hidrogˆenio ( sem mol´eculas de ´agua), con-
tatos hidrof´obicos, contatos carregados atrativos e r epulsivos, empilhamen-
tos arom´aticos e pontes dissulfeto. . . . . . . . . . . . . . . . . . . . . . . . 54
4.6 An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a etrica CC com diferenres tratamentos de pontes de hidrogˆenio. . . . . . 54
4.7 An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com pontes de hidrogˆenio com e sem interm´edio de mol´eculas
de ´agua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.8 An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a etrica CC com todas as varia¸oes de tipos de contatos. . . . . . . . . . 55
4.9 Varia¸ao da precis˜ao da classifica¸ao utilizando intera¸o es hidrof´obicas com
a varia¸ao do valor de corte para defini¸ao dos contatos hidrof´obicos. . . . 56
4.10 Freq¨uˆencia dos valores de distˆa ncia seq¨uencial de res´ıduos em contato em
todo o PDB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.11 Varia¸ao da precis˜ao com a elimina¸ao de contatos pr´oximos seq¨uencialmente. 57
4.12 Freq¨uencia dos n´umeros de contatos de um res´ıduo com outros res´ıduos em
todo o PDB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.13 Varia¸ao da precis˜ao com a elimina¸ao de contatos com res´ıduos que fazem
contatos com po ucos res´ıduos. . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.14 Precis˜ao dos classificadores com a melhor configura¸ao utilizando contatos
hidrof´obicos e pontes de hidrogˆenio sem ´agua para variadas fam´ılias de
prote´ınas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.15 Relat´orio da diferen¸ca de contatos entre duas cadeias do odulo PCD do
STING. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
x
4.16 Interface do odulo TopSiMap do STING. (a) Telas de alinhamento de
seq¨uˆencia e de estruturas e mapa de contatos preservados nas duas cadeias
comparadas. (b) Contatos presentes apenas na primeira cadeia. (c) Con-
tatos presentes a penas na segunda cadeia. . . . . . . . . . . . . . . . . . . 61
4.17 Banco de dados Topologs do STING. (a) Tela de ids PDB de cerca de
4.000 cadeias do ASTRAL 40. (b) Lista de hom´ologos da cadeia com base
nos contatos com lin ks para an´alise comparativa das seq¨uˆencias, estruturas
e mapas de contatos. ao exibidas as 100 cadeias mais parecidas dentre
as cerca de 4.000 da base. (c), (d) e (e) Primeira, ecima e vig´esima
estruturas mais parecidas com a mioglobina usada no exemplo. . . . . . . . 62
4.18 Web site com os resultados deste trabalho. Tela de visualiza¸ao de base de
dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.19 Web site com os resultados deste trabalho. Tela de visualiza¸ao de rank de
cadeias ordenadas po r similaridade em rela¸ao `a uma cadeia consultada. . 64
4.20 Web s i te com os resultados deste trabalho. Tela de visualiza¸ao dos detalhes
e compara¸ao entre cadeia da consulta e cadeia do rank. . . . . . . . . . . 65
xi
Lista de Tabelas
1.1 Nomenclatura e abrevia¸oes utilizadas para os a mino´a cidos comumente en-
contrados em pro t e´ınas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Tipos de contatos e seus valores de corte. . . . . . . . . . . . . . . . . . . . 28
2.2 Distˆancias entre os pixels vermelhos de cada imagem no exemplo. . . . . . 35
2.3 Distˆancias entre os pixels verdes de cada imagem no exemplo. . . . . . . . 35
2.4 Distˆancias entre os pixels azuis de cada imagem no exemplo. . . . . . . . . 35
2.5 Distˆancias entre os pixels vermelhos entre o par de imagens no exemplo. . 37
2.6 Distˆancias entre os pixels verdes entre o par de imagens no exemplo. . . . . 37
2.7 Distˆancias entre os pixels azuis entre o par de imagens no exemplo. . . . . 37
xii
Cap´ıtulo 1
Introdu¸c˜ao
1.1 Diversidade funcional e estrut ural de prote´ınas
A palavra prote´ına vem do grego protas que significa ”de muita importˆancia”.
Prote´ınas ao compostos orgˆanicos complexos que consistem em res´ıduos de amino´acidos
unidos por liga¸oes pept´ıdicas. Fo r am descobertas em 1.838 por ons Jakob Berzelius
e ao as mais ativamente estudadas mol´eculas na Bioqu´ımica, sendo essenciais para as
estruturas e fun¸oes das c´elulas vivas e v´ırus.
Diferentes prote´ınas desempenham uma ampla variedade de fun¸oes biol´ogicas. Al-
gumas prote´ınas ao enzimas (Fig ura 1.1a), catalizadoras de rea¸oes qu´ımicas. Geral-
mente aumentam a velocidade de uma rea¸ao em pelo menos 1 milh˜ao de vezes. Outras
tˆem papel essencial nos processos de resposta imunol´ogica. Os anticorpos (Figura 1 .1b)
ao prote´ınas altamente espec´ıficas que reconhecem e se combinam com substˆancias es-
tranhas como v´ırus, bact´erias e c´elulas de outros o r ganismos. a tamb´em aquelas
que em papel estrutural e mecˆanico como, por exemplo, as prote´ınas constituintes
do citoesqueleto. A alta fo r¸ca de tens˜ao da nossa pele e ossos ´e devida `a presen¸ca
do Col´ageno (Figura 1.1c), uma prote´ına fibrosa. O armazenamento e transporte de
substˆancias tamb´em ao feitos por prote´ınas. A Hemoglobina (Figura 1.1d), por ex-
emplo, transporta o oxigˆenio nas hem´acias, enquanto a Mioglobina o armazena nos
m´usculos. O ferro ´e transporta do no plasma sang¨uineo pela Transferrina e ´e ar-
mazenado no f´ıgado na fo r ma de um complexo com a Ferritina. A Insulina (Figura
1.1e) ´e o hormˆonio respons´avel pela redu¸ao da taxa de glicose no sangue.
1.2 Amino´acidos
Os amino´acidos ao as unidades estruturais asicas das prote´ınas (Figura 1.2). Eles
ao constitu´ıdos por um grupamento amina (NH
2
), uma carboxila (COOH), um
1
1. Introduc¸
˜
ao 2
(a) (b)
(c) (d) (e)
Figura 1.1: Variedade estrutural e funcional das prote´ınas
(a) Src Tyrosine Quinase, enzima de sinaliza¸ao. Localizada na membrana celular,
auxilia na passagem de sinais que regulam a s´ıntese de prote´ınas e o crescimento celu-
lar. (b) Anticorpo IgG1, um ligante neutralizador do v´ırus HIV-1. (c) Col´ageno,
de papel essencialmente estrutural, ´e a principal prote´ına presente em nosso tecido
conjuntivo e a mais abundante de nosso organismo. (d) Hemog l o bina, a prote´ına dos
gl´obulos vermelhos resp ons´avel pelo armazenamento e transporte do oxigˆenio em nosso
organismo. (e) I nsulina, hormˆonio polipept´ıdico sintetizado no a ncreas.
´atomo de H e um grupamento R diferenciado, todos eles liga dos a um ´atomo de C
denominado Cα. O grupamento R ´e conhecido como ca deia lateral (CL).
As prote´ınas ao compostas por um repert´orio de 20 tipos de amino´acidos mais
comument e encontrados nos seres vivo s e esse alfabeto ´e conservado a bilh˜oes de
anos. Os nomes destes amino´a cidos bem como suas abrevia¸oes ao apresentados na
Tabela 1.1.
O que diferencia estes 20 amino´acidos ao suas diversas cadeias laterais (Figura
1.3). Estas variam em tamanho, forma, carga, capacidade de forma¸ao de pontes de
1. Introduc¸
˜
ao 3
Figura 1.2: Estrutura asica de um amino´acido.
Em azul, o ´atomo de N da amina; em vermelho, os ´atomos de O da carboxila; em verde, os
´atomos de C; em branco, os ´atomos de H e em violeta o radical vari´avel p rasente em todos
os amino´acidos.
Tabela 1.1: Nomenclatura e abrevia¸oes utilizadas para os amino´acidos comumente
encontrados em prote´ınas.
Nome do amino´acido Abrevia¸ao Abrevia¸ao
de 3 letras de 1 letra
Alanina ALA A
Arginina ARG R
Asparagina ASN N
Aspartato ASP D
Ciste´ına CYS C
Glutamato GLU E
Glutamina GLN Q
Glicina GLY G
Histidina HIS H
Isoleucina ILE I
Leucina LEU L
Lisina LYS K
Metionina MET M
Fenilalanina PHE F
Prolina PRO P
Serina SER S
Treonina THR T
Triptofano TRP W
Tirosina TYR Y
Valine VAL V
hidrogˆenio, car´ater hidrof´obico e reatividade qu´ımica.
1.3 Liga¸ao pept´ıdica
Conforme dito anteriormente, as prote´ınas ao pol´ımeros lineares que se formam
pela liga¸ao de grupos carboxila de amino´acidos com os grupos aminas dos amino´acidos
1. Introduc¸
˜
ao 4
ALA ARG ASN ASP CYS
GLN GLU GLY HIS
ISO LEU LYS MET
PHE PRO SER THR
TRP TYR VAL
Figura 1.3: 20 amino´acidos mais comumente encontrados nos seres vivos
seguintes. Essa liga¸ao ´e denominada liga¸ao pept´ıdica e ocorre com a libera¸ao de uma
mol´ecula de ´agua. Ap´os a liga¸ao de dois amino´acidos (com a perda de ´atomos de O
e H da carboxila que se torna um g rupo carbonila (C = O) e de um ´atomo de H da
amina originando um grupo amida (NH)), estes passam a ser denominados res´ıduos
de amino´acidos (Figura 1.4 d).
1. Introduc¸
˜
ao 5
(a)
(b)
Figura 1.4: Liga¸ao pept´ıdica
Em (a), `a esquerda u m Triptofano e `a direita uma Valina. Em (b), o grupo carboxila do
Triptofano se liga ao gru po amina da Valina com a libera¸ao de um a m ol´ecula de ´agua.
Observe que se forma uma amida entre os res´ıduos dos 2 amino´acidos da liga¸ao pept´ıdica.
1.4 Est ruturas prim´aria, secund´aria, terc i´aria e
quatern´aria de p rote´ınas
Esta seq¨encia de res´ıduos ligados por liga¸oes pept´ıdicas que formam uma cadeia
polipept´ıdica ´e denominada estrutura prim´aria da prote´ına. Por conven¸ao devido
`a dire¸ao da s´ıntese proteica, o terminal amida da cadeia ´e tomado como in´ıcio da
seq¨uˆencia (N-terminal) e o carboxila ´e o fim da cadeia (C-terminal).
`
As partes alta-
mente repetitivas das cadeias polipept´ıdicas (formadas pelo carbono α e grupos car-
bonila e amida), damos o nome de ca d eia principal (CP), sendo as partes vari´aveis as
cadeias laterais (CL).
Existem ainda as denomina¸oes estrutura secund´aria, estrutura terci´aria e estrutura
quatern´aria. As estruturas secund´arias ao padr˜oes tridimensionais que ocorrem em
segmentos de prote´ınas devido a padr˜oes de pontes de hidrogˆenio e ser˜ao detalhadas
posteriormente. A estrutura terc i ´a ria ´e a estrutura tridimensional da prote´ına definida
pelas coordenadas x, y e z dos seus ´atomos. A estrutura quaten´aria ´e um n´ıvel adicional
de organiza¸ao molecular que consiste no arranjo de m´ultiplas cadeias enoveladas em
1. Introduc¸
˜
ao 6
um complexo com duas ou mais subunidades, iguais ou diferentes.
As estruturas tridimensionais das prote´ınas ao constitu´ıdas de dom´ınios. A primeira
defini¸ao de dom´ınios foi proposta por Wetlaufer em 1973 [Wetlaufer e Ristow, 1973]
como unidades est´aveis de estruturas de prote´ınas que podem enovelarse de forma
autˆonoma. Desde ent˜ao este conceito tamb´em tem sido relacionado a unidades de
estrutura compacta, com propriedades funcionais e evolutivas.
1.5 Restr i ¸oes conformacionais da c ade ia
1.5.1 Paradoxo de L evinthal
Como pode esta seq¨uˆencia linear de res´ıduos de amino´acidos se enovelar formando
estruturas tridimensionais extremamente complexas? Em 1968, Cyrus Lenvinthal
[Levinthal, 1968] levantou um paradoxo muito importante na teoria da dinˆamica de
enovelamento de prote´ınas. Ele provou que a busca de uma cadeia polipept´ıdica de-
senovelada por sua conforma¸ao nativa ao podia ser uma busca aleat´or ia , mas devia
ser dirigida.
Considerando uma cadeia polipept´ıdica hipot´etica de 100 r es´ıduos de a mino´acidos e,
com absurda simplifica¸ao, considerando ainda que cada res´ıduo pudesse se apresentar
em 3 diferentes conforma¸oes, a cadeia teria 3
100
5 × 10
47
configura¸oes. Se esta
cadeia pudesse mudar de conforma¸ao 10
13
vezes por segundo, ou 3 × 10
20
por ano,
levaria 10
27
anos para gerar todas conforma¸oes e todo este tempo ´e maior que a idade
do universo. Como as prote´ınas se enovelam em escala de segundos o u menos, buscas
aleat´orias a o ao efetivamente a forma como as cadeias se enovelam.
1.5.2 Planaridade da liga¸ao pept´ıdica
Existem arios fat ores conhecidos que reduzem o astronˆomico n´umero de poss´ıveis
conforma¸oes para uma cadeia de res´ıduos. O primeiro deles ´e a pr´opria natureza
qu´ımica da liga ¸ao pept´ıdica que ´e, essencialmente, planar de forma que seis ´atomos
dos res´ıduos ligados est˜ao em um mesmo plano: o Cα e o grupo carbonila do primeiro
res´ıduo e o gr upo amida e o Cα do segundo (Figura 1.5).
1.5.3
ˆ
Angulos φ (ph i) e ψ (psi)
A liga¸ao pept´ıdica tem car´ater de liga¸ao parcialmente dupla, o que impossibilita a
sua rota¸ao e restringe as poss´ıveis conforma¸oes da cadeia polipept´ıdica. Em contraste,
as liga¸oes entre o grupo amida e o Cα, assim como entre o grupo carbonila e o Cα,
ao liga¸oes simples, podendo rota cionar tomando arias orienta¸oes. Na Figura 1.6,
1. Introduc¸
˜
ao 7
Figura 1.5:
´
Atomos componentes do plano da liga¸ao pept´ıdica
Em amarelo, podemos ver os ´atomos do grupo carbonila e o Cα do Triptofano e os ´atomos
do grupo amida e o Cα da Valina em um plano.
podemos ver 2 planos consecutivos f ormados em uma cadeia polipept´ıdica hipot´etica
(ILE-TRP-VAL) unidos pelo Cα do res´ıduo do meio (TRP). Devido `a possibilidade de
rota¸ao das liga¸oes entre o Cα e os grupos a mida e carbonila do Triptofano, os planos
podem girar com certo grau de liberdade. ao esses graus de liberdade que possibilitam
que a cadeia polipept´ıdica tome uma infinidade de conforma¸oes.
Figura 1.6: Planos consecutivo s da cadeia polipept´ıdica
Nesta gura, acrescentamos outro res´ıduo a cadeia de polipept´ıd ica hipot´etica. Observe que
temos uma Isoleucina, seguida pelo Triptofano e pela Valina. Em amarelo, podemos ver os
´atomos formando 2 planos conectados pelo Cα do Tr iptofano.
As rota¸oes dessas duas liga¸oes ao chamadas ˆangulos diedros. O ˆangulo entre o
N da amida e o Cα ´e chamado φ (phi) e o ˆangulo entre o Cα e o C da carbonila ´e
chamado ψ ( psi). Por´em, Ramachandran mostrou atrav´es de seu mapa que nem todas
as combina¸oes de ˆangulos φ e ψ ao poss´ıveis devido a conflitos est´ericos entre os
´atomos.
1. Introduc¸
˜
ao 8
1.5.4 Intera¸oes ao-Covalentes entre os res´ıduos de
amino´acidos
Conforme explicamos, as prote´ınas ao cadeias de amino´acidos estruturados tridi-
mensionalmente.
´
E essa estrutura que possibilita a execu¸ao das mais complexas e
diversas fun¸oes bioqu´ımicas. A estrutura¸ao da cadeia e a sua manuten¸ao neste es-
tado enovelado e f uncional deve-se, em grande parte, `as intera¸oes eletrost´aticas ao
locais entre os res´ıduos de amino´acidos distantes na seq¨uˆencia.
A maioria dos processos qu´ımicos est´a relacionada a altera¸oes na distribui¸ao dos
el´etrons entre os ´atomos. Todas a s intera¸oes qu´ımicas entre os res´ıduos de amino´acidos
em prote´ınas envolvem varia¸oes nas distribui¸oes de cargas [Lopes, 2006].
´
E importante considerar que a energia da intera¸ao entre ´atomos varia com a
varia¸ao da distˆancia entre eles. Obviamente, a grandes distˆancias, ao existe qual-
quer intera¸ao mas, `a medida que a distˆancia diminui, ocorrem intera¸oes de crescent e
intensidade at´e que o sistema seja estabilizado na mais proavel distˆancia de liga¸ao.
Neste ponto, temos um m´ınimo de energia, predominando a atra¸ao entre os ´atomos.
Com distˆa ncias mais curtas, e a conseq¨uente aproxima¸ao de suas nuvens eletrˆonicas,
o processo come¸ca a ser repulsivo .
As intera¸oes ao locais ao quase sempre ao-covalentes. Uma liga¸ao covalente
´e uma liga¸ao qu´ımica cara cterizada pelo compartilhamento de um ou mais pares de
el´etrons entre dois componentes, produzindo uma a t r a¸ao que segura a mol´ecula re-
sultante unida. Os ´ato mos tendem a compartilhar estes el´etrons para que sua camada
de valˆencia seja preenchida. As intera¸oes ao-covalentes ao de natureza mais fraca
que as covalentes. As covalentes ao passam de 40KJ/mol enquanto as ao-covalentes
podem chegar a 1.000KJ/mol.
Um tipo de intera¸a o ao covalente e muito importante no entendimento de es-
truturas de prote´ınas ao as li goes dipolo-dipolo. Elas foram inicialmente estudadas
e postuladas por Johannes Diderik van der Waals em 1.873, tendo recebido o seu
nome. Os dipolos permamentes aparecem das liga¸oes qu´ımicas entre ´atomos de difer-
entes eletronegatividades. Os dipolos induzidos, por sua vez, aparecem por indu¸a o de
campos el´etricos nas vizinhan¸cas, em decorrˆencia de intera¸ao com cargas el´etricas e
persistem enquant o persistir a origem do campo el´etrico. Elas ao tamb´em conhecidas
como for¸cas de dispers˜ao de London em homenagem a Fritz London, seu descobridor.
A intensidade das intera¸o es entre dipolos permanentes depende da polaridade das
liga¸oes, enquanto nos dipolos induzidos ela depende da polar izabilidade dos el´etrons,
ou seja, da suscetibilidade da nuvem eletrˆonica `a deforma¸ao.
´
Atomos maiores e menos
eletronegativos ao mais polariz´aveis e apresentam intera¸oes entre dipolos induzidos
mais fortes.
1. Introduc¸
˜
ao 9
As liga¸oes de h i drogˆenio, extremamente importantes na estabiliza¸ao das estru-
turas secund´arias de prote´ınas, ao tamb´em intera¸oes dipolo -dipolo, diferenciando-se
pela maior intensidade e direcionalidade. A for¸ca da liga¸ao de hidrogˆenio depende do
alinhamento entre os ´atomos que interagem. Fl´uor, oxigˆenio e nitrogˆenio ao os mais
comuns ´atomos formadores de pontes de hidrogˆenio. A exigˆencia para forma¸ao de uma
ponte de hidrogˆenio ´e a liga¸ao polar de um hidrogˆenio com um ´atomo eletronegativo, o
doador. O ´atomo aceptor de hidrogˆenio deve ser um ´atomo com pares de el´etrons livres.
Quanto maior a eletronegatividade do ´atomo doador mais f orte a intera¸ao. Quanto
maior e eletronegatividade do ´atomo aceptor mais fraca a intera¸ao. Apenas oxigˆenio,
nitrogˆenio e ´uor apresentam pares de el´etrons ao ligados disp on´ıveis.
´
Atomos mais
pesados (tais como cloro e enxofre) tamb´em podem participar de pontes de hidrogˆenio,
assim com as menos polarizadas (como C-H por exemplo).
De grande importˆancia ao, adicionalmente, as liga¸oes ´ıon-´ıon. Tˆem car´ater elet-
rost´atico como as dipolo-dipolo mas ocorrem entre ´atomos com cargas formais e ao
bem mais fortes. Em prote´ınas existem 3 res´ıduos carregados positivamente: Argini-
nas, Lisinas e Histidinas (sendo que esta pode ter carga parcial quando desprotonada)
e 2 negativamente: Aspartato e Glutamato.
Essenciais no enovelamento proteico ao tamb´em as interoes hi drof´obicas uma
vez que, nas c´elulas, a s prote´ınas est˜ao em meio aquoso. O efeito hidrof´obico est´a rela-
cionado `a tendˆencia das mol´eculas apola r es sofrerem agrega¸ao em ´ag ua. A forma¸ao
de intera¸oes dipolo permanente-dip olo induzido entre as mol´eculas de ´agua e de ram-
ifica¸oes apolares da prote´ına ao mais fortes que as liga¸oes dipolo induzido-dipolo
induzido entre trechos da pr´opria prote´ına. No entanto, ocorre uma reorganiza¸ao
das mol´eculas de ´agua em torno das partes ap olares da prote´ına imobilizando um
grande n´umero de mol´eculas de ´agua na solvata¸ao. Isto significa perda de entropia
das mol´eculas de ´agua, o que torna o processo desfavor´avel. Desta forma, trechos
apolares tendem a se aglutinar exp ondo a m´ınima superf´ıcie po ss´ıvel para solvata¸ao.
Apesar de covalentes, ´e importante mencionar as pontes dissulfeto. Elas ocorrem
quando dois ´atomos de enxofre ligam-se pela oxida¸ao dos grupos sulfidrila (S- H )
dos res´ıduos de ciste´ına. ao as ´unicas liga¸o es covalentes e ao locais presentes em
prote´ınas sendo tamb´em muito impo r tantes no enovelamento e estabiliza¸ao de algumas
prote´ınas.
1.5.5 Estruturas secund´arias
O grupo CO (carbo nila) ´e um bom aceptor e o grupo NH (amina) ´e um bom
doador. Esses grupos interagem com outros trechos da cadeia sendo muito impor-
tantes na estabiliza¸ao das estruturas de prote´ınas e reduzindo obviamente o n´umero
1. Introduc¸
˜
ao 10
de conforma¸oes poss´ıveis para esta cadeia.
Em 1.951, Linus Pauling e Robert Corey propuseram a existˆencia de dois tipo s de
estruturas muito comuns em pro t e´ınas: as α-h´elices [Pauling et al., 1951] e as folhas-
β [Pauling e Corey, 1951]. Estas descobertas foram feitas com base nos estudos das
propens˜oes de forma¸ao de pontes de hidrogˆenio dos ´atomos da cadeia principal e,
posteriormente, comprovadas por difra¸ao de raios X.
As α-h´elices (Figura 1.7) ao estabilizadas por pontes de hidrogˆenio entre os grupos
amida (doador) e carbonila (aceptor) de res´ıduos da cadeia principal com uma rota¸ao
de cerca de 10 0 graus. Isto significa uma separa¸ao de, em m´edia, 3,6 res´ıduos ( 4)
e 1,5
˚
A de eleva ¸ao de cada volta da h´elice. Desta forma, a principal cara cter´ıstica de
uma α-h´elice ´e que entre o s res´ıduos i e i + 4 existe uma ponte hidrogˆenio.
(a)
(b) (c)
Figura 1.7: α-h´elice
(a) Nesta figura, ao exibidos apenas os ´atomos da cadeia principal de uma α-h´elice. Note
que as pontes de hidrogˆenio entre os H dos grupos amida e os C dos grupos carbonilas ao
destacadas com uma linha tracejada. (b) A mesma elice exibida em esqu ema d e cartoon.
(c) elice vista de cima.
Existem ainda outros tipos de h´elices menos comuns em prote´ınas: as elices-3
10
que apresentam pontes de hidrogˆenio entre os res´ıduos i e i + 3 e as h´elices-π, entre os
res´ıduos i e i + 5.
1. Introduc¸
˜
ao 11
As α-h´elices ao bastante compactas ao restando espa¸co em seu interior de modo
que as cadeias la t erais de seus res´ıduos ficam sempre a pontando para fora da elice.
Os res´ıduos com maior propens˜ao de forma¸ao de α-h´elices ao a Metionina, a Alan-
ina, a Leucina, o Glutamato e a Lisina. Por outro lado, a Prolina, a Glicina, a Tirosina
e a Serina tˆem baixa propens˜ao. A Prolina ao ´e um doador de hidrogˆenio e interfere
estericamente uma vez que seu anel restringe o ˆangulo φ da cadeia principal e, por isso,
costuma ser uma iniciadora ou finalizadora de elices. A Glicina apresenta um prob-
lema oposto: devido a sua alta flexibilidade conformacional torna cara entropicamente
a sua restri¸ao `a conforma¸ao de elice.
Como, por forma¸a o, todos os dipolos dos grupos carbonil (C = O) ao posicionados
em uma mesma dire¸ao e sentido, a elice tem um momento de dipolo causado por
esse efeito agregado. Normalmente, elices possuem um amino´acido negativo em seu
N-terminal. Podem possuir tamb´em um positivo em seu C-terminal. O N-terminal de
h´elices pode ser usado na intera¸ao com ligantes carregados negativamente uma vez
que a amida de sua cadeia principal pode servir como doadora de H.
As fo lhas-β (Figura 1.8) ao outro tipo de estrutura comum em prote´ınas e ao
formadas por pontes de hidrogˆenio entre gr upamentos amida e carbo nila em fitas
pept´ıdicas. A distˆancia axial entre os res´ıduos adjacentes ´e de cerca de 3,5
˚
A.
Folhas-β podem aparecer em paralelo ou antiparalelo de acordo com as dire¸oes (em
termos de N-terminal e C-terminal) das fitas em contato. Veja o exemplo de folhas-β
retirado da Carboxipep tida s e A na Figura 1 .9 .
Note que quando arios segmentos da cadeia principal se emparelham e formam uma
rede de pontes de hidrogˆenio, as cadeias laterais ( que ao for am exibidas na Fig ura
1.8) apontam uma para cima outra para baixo da rede sucessivamente, conforme Figura
1.10.
1.6 Especifi cidades dos res´ıduos de amino´acidos
no enovelamento e atividade de prote´ınas
A Alanina ´e um a mino´acido apolar, ou seja, hidrof´obico.
´
E um dos amino´acidos
mais freq¨uentes nas prote´ınas dos seres vivos.
A Arginina ´e uma cadeia alif´atica de 4 carbonos finalizada por um grupo guanidin a
(CH
5
N
3
). Este grupamento ´e formado pela oxida¸ao do grupo guanina. Em condi¸oes
fisiol´ogicas, com um pK
a
de aproximadamente 12, 5, ´e encontra do protonado (CH
6
N
+
3
),
portanto com carg a +1. Devido `a sua geometria, sua distribui¸ao de carg as e sua
habilidade de formar pontes de hidrogˆenio, este amino´acido ´e usualmente encontrado
interagindo com grupamentos negativos. Por este motivo ´e, geralmente, encontrada
1. Introduc¸
˜
ao 12
(a) (b)
Figura 1.8: Folha- β
(a) Nesta figura, ao exibidos apenas os ´atomos da cadeia principal de folhas-β. As pontes
de hidrogˆenio que estabilizam esta estrutura ao apresentadas em linha tracejada. (b) As
mesmas folhas-β vistas em esquema de cartoon.
Figura 1.9: Folhas-β paralelas e anti-paralelas
exposta ao solvente onde pode interagir com as mol´eculas polares da ´agua.
A Asparagina tem um grupamento carboxi-amida (R CO NH
2
) em sua cadeia
1. Introduc¸
˜
ao 13
Figura 1.10: Posicionamento das cadeias laterais em folhas-β
Nesta figura, apr esentamos um segmento da cadeia que forma a folha-beta da Figura 1.8. Os
´atomos de H foram removidos para melhorar a clareza e os ´atomos da cadeia principal (que
forma a rede de pontes de hidrogˆenio) ao exibidos em amarelo. Perceba o posiocionamente
alternando para cima e para baixo das cadeias laterais. As pontes de hid rogˆenio, netes caso,
est˜ao perpendiculares ao plano deste papel.
lateral. Devido ao seu alto potencial de forma¸ao de pontes de hidrogˆenio com a cadeia
principal de prote´ınas, ´e freq¨uentemente encontrada em in´ıcios e t´erminos de α- h´elices,
al´em de voltas de folhas-β.
O Aspartato ´e o ˆanion carboxilato do ´acido asp´artico, apresentando carga 1 no
grupamento COO da cadeia lateral em pH fisiol´ogico.
A Ciste´ına possui um grupamento tiol em sua cadeia la teral, o que lhe a car-
acter´ısticas hidrof´ılicas. Devido `a alta reatividade qu´ımica (nucleof´ılico e facilmente
oxidado) deste grupamento, este res´ıduo ´e de muita importˆancia estrutural e funcional
em muitas prote´ınas.
O Glutamato ´e o ˆanion carboxilato do ´acid o glutˆamico. Como o nome indica, ele
possui um ´acido carbox´ılico (C(= O)OH) em sua cadeia lateral e, em pH fisiol´ogico
´e encontrado desprotonado com carga 1.
A Glutamina ´e um amino´a cido for mado pela substiti¸ao de um hi droxil do
´
Acido
Glutˆamico por um grupo funcional amina.
A Glici na ´e o amino´acido mais simples. Sua cadeia lateral ´e formada por apenas
um ´ato mo de H e seu Cα ao ´e quiral.
A Histidina possui um grupo im i dazole em sua cadeia lateral. Este grupamento
possui 2 ´atomos de N: um deles ´e ligado a um H e, portanto, ´e ´acido; o outro ´e asico.
Estas propriedades ao exploradas de formas diferentes. Em tr´ıades catal´ıticas, o N
asico pode abstrair um pr´oton de Serinas, Treoninas e Ciste´ınas para at iv´a-las como
um nucle´ofilo. Ela tamb´em pode ser ´util na transferˆencia de pr´oto n de uma mol´ecula
para outra a t r av´es da abstra¸ao de um pr´oton da mol´ecula origem po r seu N asico e
da posterior doa¸ao do pr´oton do seu N ´acido para a mol´ecula destino. A Histidina
tem grande afinidade por metais.
1. Introduc¸
˜
ao 14
A Isoleucina ´e um amino´acido, cuja cadeia la t eral ´e composta apenas de ´atomos
de C e H sendo, portanto, bastante hidrof´obica.
A Leucina tamb´em possui sua cadeia lateral composta apenas por ´atomos de C e
H e ´e hidrof´obica.
A Lisina ´e um res´ıduo de amino´acido de cadeia alif´atica e, em pH fisiol´ogico, ´e
encontrada com carga +1.
A Metionina ´e um res´ıduo de amino´acido a polar e cont´em um ´atomo de S.
A Fenilalanina possui um grupamento benzil em sua cadeia lateral de forma que ´e
um res´ıduo hidrof´obico.
A Prolina ´e um dos res´ıduos mais r´ıgidos devido ao seu anel ser formado com a
inclus˜ao de ´atomos da cadeia principal. Este res´ıduo ao favorece a f orma¸ao de estru-
tiras secund´arias sendo muito comuns no in´ıcio de α-h´elices e folhas-β. Tamb´em ´e fre-
quentemente encontrada em voltas e exposta ao solvente. Como ao tem o hidrogˆenio
do grupo amida, ao serve como doador de H mas apenas aceptor.
A Serina ´e um res´ıduo polar sendo muito importante para a fun¸ao catal´ılitica de
algumas enzimas.
A Treonina ´e um res´ıduo polar, semelhante `a Serina.
O Triptofano se diferencia dos demais res´ıduos, pois sua cadeia lateral ´e composta
por um grupo indol. Este grupamento ´e um composto aro m´atico bic´ıclico consistindo
de um anel de benzeno com 6 carbonos e um anel pirr´olico com 5 membros sendo um
nitrogˆenio.
´
E um res´ıduo apolar e bastante volumoso.
A Tirosina possui sua cadeia lateral formada por um grupo fenol que lhe confere
fun¸ao especial como transpo r tadora de grupos fosfato.
´
E um res´ıduo polar.
A Valina ´e um res´ıduo bastante hidrof´obico.
Entender como esse alfabeto ´e usado na cria¸ao das mais complexas estruturas
tridimensionais ( Figura 1.1) que possibilitam a essas mol´eculas desempenharem as
mais variadas fun¸oes biol´ogicas ´e uma quest˜ao em aberto na bioqu´ımica.
1.7 Fam´ılias de prote´ınas modelo
1.7.1 Globinas
Nos tra balhos desenvolvidos ao longo desta tese, usaremos como principal fam´ılia
experimental as Globinas. Elas foram as primeiras prote´ınas a terem sua estrutura
elucidada, sendo as mais bem estudadas. Prote´ınas deste enovelamento podem ser
encontradas como monˆomeros ou em complexos. ao extremamente compactas e com-
postas por cerca de 153 res´ıduos de a mino´acidos, tendo um tamanho aproximado de
45 × 35 × 25
˚
A. Para funcionar, dependem da presen¸ca do grupo prost´etico heme que
1. Introduc¸
˜
ao 15
coordena o oxigˆenio atrav´es de um ´atomo de ferro. Cerca de 70% de sua cadeia ´e
enovelada em forma de, em m´edia, 8 h´elices. Seu interior ´e composto basicamente por
res´ıduos apolares como leucina, valina, metionina e fenilalanina. Os res´ıduos carrega -
dos, aspartato, glutamato, lisina e arginina, est˜ao quase sempre expostos ao solvente.
Os ´unicos res´ıduos polares no interior da mol´ecula ao duas histidinas que ao essenciais
na liga¸ao de ferro e oxigˆenio.
Figura 1.11: Mioglobina de Baleia (PDB id 1a6m)
1.7.2 Outras fam´ılias
Adicionalment e, utilizamos nos nossos experimentos outras fam´ılias de prote´ınas de
enovelamentos diveros:
Apolipoprote´ınas, prote´ınas compostas por um feixe de 4 α-h´elices;
Plastoci aninas, prote´ınas constitu´ıdas por um barril de 6 fitas β;
Retinol- binding proteins, prote´ınas consitu´ıdas por um barril de 8 fitas β acom-
panhado por pequenas α-h´elices;
Tioredoxinas prote´ınas compostas por folha α / β aberta e t orcida.
1.7.3 Complexos Serino-protease - BPTI
Durante o desenvolvimento desta tese, optamos por aplicar as t´ecnicas desenvolvidas
para classifica¸ao de estruturas na tentativa de se buscar padr˜oes de intera¸oes entre
cadeias de prote´ınas. Para estes experimentos, o complexo modelo foi o de Serino-
proteases com seu principal inibidor, o Bovine Pancratic Tryipson Inhibtor (BPTI).
1. Introduc¸
˜
ao 16
As Serino-proteases ao peptidases, ou seja, enzimas respons´aveis pela quebra de
liga¸oes pept´ıdicas e ao caracterizadas pela presen¸ca de um res´ıduo de serina em seu
s´ıtio catal´ıtico (tr´ıade cata l´ıtica, uma vez que ´e constitu´ıda por 3 res´ıduos). Participam
de in´umeras fun¸oes vitais nos seres vivos como, por exemplo, coagula¸ao, imuniza¸ao
e digest˜ao.
Estas enzimas podem ser inibidas por um g rande conjunto de outras prote´ınas.
Uma delas ´e o BPTI que ´e uma pequena prote´ına globular composta de 53 res´ıduos
e estabilizada por 3 pontes dissulfeto. Esta mol´ecula foi uma das primeiras a terem
sua estrutura resolvida por NMR (Re s sonˆancia Nuclear Magn´etica) e ´e administrada
como medica¸ao para reduzir o sangramento principalmente em cirurgias de cora¸ao e
f´ıgado.
Figura 1.12: Complexo Serino-protease - BPTI (Quimotripsina (PDB id 1cho))
A Serino-protease ´e apresentada em ciza e o BPTI em verde.
1.8 Dados dispo n´ıveis sobre prote´ınas
O Uniprot (Universal Protein Resource) [Bairoch et a l., 2004] do European Bioin-
formatics In stitute (EBI) ´e o maior cat´alogo de informa¸oes sobre seq¨uˆencias de prote´ınas.
Na vers˜ao atual, est˜ao dispon´ıveis cerca de 350.000 seq¨encias das mais variadas
fam´ılias de prote´ınas.
O EBI provˆe ainda outros 16 bancos de dados com informa¸oes sobre seq¨uˆencias
anotadas de prote´ınas. Apresentam uma classifica¸ao das seq¨uˆencias de a cordo com
1. Introduc¸
˜
ao 17
sua similaridade, das intera¸oes entre diferentes prote´ınas, de seus s´ıtios funcionais, de
prote´ınas que ao enzimas e seus s´ıtios catal´ıticos, ent r e outras.
Dentre as milh˜oes de seq¨uˆencias dispon´ıveis nos bancos de dados p´ublicos, apenas
cerca de 50 .0 00 estruturas de prote´ınas e seus complexos foram resolvidas e est˜ao
depositadas no Protein Data Bank (PDB) [Berman et al., 2000]. Cada arquivo no PDB
possui arias informa¸oes das quais destacamos a posi¸ao no espa¸co tridimensional de
cada ´atomo das mol´eculas de prote´ınas. Neste trabalho, utilizamos apenas prote´ınas e
seus complexos com estrutura resolvida, ou seja, as coordenadas de seus ´atomos.
1.9 Se q¨uˆencia × es t r utura × fun¸ao de prote´ınas
Por volta de 1.955, Christian Anfinsen publicou seus primeiros trabalhos
[Anfinsen et al., 1954, Anfinsen et al., 1955] e duas ecadas depois ganhou o Premio
Nobel em Qu´ımica [Anfinsen, 1973] com a demonstra¸ao, em experimentos com a Ri-
bon uclease, da rela¸ao entre a seq ¨uˆencia e a estrutura de prote´ınas. A Ribonuclease
´e uma enzima constitu´ıda por uma ´unica cadeia de 124 res´ıduos com a forma¸ao de
4 pontes dissulfeto. Ele desnaturou a prote´ına na pretens˜ao de verificar em quais
condi¸oes a mesma poderia ser renaturada.
Agentes como ur´eia ou cloreto de guanidina rompem as liga¸oes ao cova lentes.
Pontes dissulfeto podem ser desfeitas reversivelmente atrav´es do tratamento com β-
mercaptoetanol. Anfinsen tratou a Ribonucleas e com essas substˆancias, desenovelando
completamente as prote´ınas. Com a posterior redu¸ao na concentra¸ao destes compos-
tos, verificou que a enzima pouco a pouco recuperava sua atividade enzim´atica perdida
com a desnatura¸ao. Todas as propriedades f´ısicas e qu´ımicas da enzima renaturada
eram idˆenticas `as da enzima nativa. Estes experimentos mostraram que toda a in-
forma¸ao necess´aria para especificar a estrutura cataliticament e ativa da Ribonuclease
estava contida na seq¨encia de res´ıduos de amino´acidos que a comp˜oem.
Estudos p osteriores mostraram a generalidade desse achado que ´e um dos postulados
centrais da Bioqu´ımica: a seq¨uˆencia especifica a conforma¸ao, ou a estrutura. Esta
dependˆencia ´e muito importante devido `a intima rela¸ao entre estrutura e fun¸ao. A
fun¸ao que uma prote´ına desempenha em um organismo ´e completamente dependente
de sua estrutura tridimensional uma vez que ´e essa quem confere a especificidade `a
mol´ecula.
1.10 Importˆancia de se class i ficar estrutu r as
Estruturas de prote´ınas podem ser classificadas de formas variadas por:
1. Introduc¸
˜
ao 18
1a6mA VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASED 60
1dlwA ___________SLFEQLGGQAA____________VQAVTAQFYANIQADATVATFFNGID 37
:: :: .:.* :. * : : .:: * * : . *
1a6mA LKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHP 120
1dlwA MPNQTNKTAAFLCAALG__GPNAWTGRNLKEVHAN___MGVSNAQFT_TVIGHLRSALTG 91
: :: .. : * * * * : : * : **. : :. :* .* *: :
1a6mA GDFGADAQGAMNKALELFRKDIAAKYKELGY 151
1dlwA AGVAAALVEQTVAVAETVRGDVVTV______ 116
....* . * .* *:.:
Figura 1.13: Alinhamento das seq¨uˆencias das Mioglobinas de baleia (PDB id 1a6m) e
de ciliado (PDB id 1dlw).
Aster´ıscos indicam res´ıduos conservados em ambas as seq¨uˆencias; dois pontos, muta¸oes
conservativas e ponto, muta¸oes semi-conservativas.
similaridade funcional
similaridade evolucion´aria da seq¨uˆencia de res´ıduos de amino´acidos
similaridade de enovelamento.
A compara¸ao de seq¨encias ´e um m´etodo bastante simples de se obter informa¸oes
sobre a rela¸ao estrutural e evolucion´aria de prote´ınas. Duas prote´ınas com cerca
de 40% de identidade entre os amino´acidos de sua seq¨uˆencia ter˜ao, com alt´ıssima
probabilidade, estruturas similares [Leach, 2001]. Quando uma seq¨uˆencia de estrutura
desconhecida tˆem alta similaridade com uma de estrutura resolvida, podemos deduzir a
nova estrutura atrav´es de modelos computacionais feitos a partir da estrutura modelo.
Por´em, considere a compara¸ao entre duas Mioglobinas: a primeira de baleia e a
outra de ciliado (Figura 1.13). Apesar da alta similaridade estrutural e identidade fun-
cional, conforme pode ser comprovado no alinhamento abaixo, existe apenas 12,58% de
identidade entre seus amin´acidos no alinhamento de suas seq¨uˆencias. Mesmo se relaxar-
mos essa compara¸ao considerando as muta¸oes conservativas e semi-conservativas,
obtemos ´ındices de 36,42% e 47,68% respectivamente. Isto nos mostra que existem
seq¨uˆencias pouco relacionadas mesmo para prote´ınas muito similares o que enfraquece
a abordagem apenas por seq¨uˆencias.
´
E preciso comparar as prote´ınas estruturalmente. As estruturas das prote´ınas po-
dem elucidar sua fun¸ao e sua hist´oria evolucion´aria. Qual ´e a o r ig em da semelhan¸ca
estrutural de prote´ınas, cujas seq¨uˆencias ao apresentam similaridade seq¨uencial signi-
ficativa? Para elucidar essa quest˜ao estudos de classifica¸ao de estruturas de prote´ınas
ao muito importantes. Eles em definido fam´ılias de prote´ınas que compartilham
1. Introduc¸
˜
ao 19
um n´ucleo estrutural similar, ou seja, os mesmos element os de estrutura secund´aria
conectados na mesma topo logia de forma independente da variabilidade seq¨uencial.
Prote´ınas de enovelamento similar, geralmente, ao relacionadas evolutivamente e de-
sempenham fun¸oes similares [Brenner et al., 1995].
Em [Murzin et al., 1995], o s autor es apresentam o Structural Classification of Pro-
teins (SCOP), um banco de dados de classifica¸ao estrutural de dom´ınios de prote´ınas
que foi contru´ıdo basicamente por inspao visual e compara¸ao de estruturas a t r av´es
de etodos autom´aticos. Os dom´ınios ao classificados hier´arquicamente contemp-
lando relacionamentos evolucion´arios e estruturais nos seguintes n´ıveis: fam´ılias, super-
fam´ılias, enovelamento e classe conforme ser´a detalhado na Se¸ao 2.1.2.
Posteriorment e, outros autores em [Pearl et al., 2003] apresent am um novo banco de
dados de estruturas de dom´ınios de prote´ınas. Nesta base, cada dom´ınio ´e classificado
em super-fam´ılias e fam´ılias de seq¨uˆencia. Os mesmos autores produziram ta mb´em um
software denominado CATHEDRAL para compara¸ao de estruturas de prote´ınas. Este
sistema ´e totalmente baseado no casamento de estruturas secunarias e tenta classificar
uma estrutura de fam´ılia desconhecida em uma das fam´ılias do CATH.
1.11 Assin atur as estruturais
Assinaturas estruturais ao representa¸oes, possivelmente multidimensionais e con-
cisas, das caracter´ısticas das prote´ınas de mesmo enovelamento. ao um conjunto de
caracter´ısticas inerentes `as seq¨uˆencias que ao determinantes do seu enovelamento e
atividade.
1.12 Mapas de contatos e sua rela¸ao com a
estrutura
A conforma¸ao tridimensional de uma prote´ına pode ser representada de forma bas-
tante compacta como uma matriz esparsa, quadrada, sim´etrica e bin´aria de contatos
inter-res´ıduos, ou mapa de contatos. Um mapa de contatos ´e uma representa¸ao par-
ticularmente ´util da estrutura de prote´ınas provendo informa¸oes sobre suas estruturas
secund´arias e capturando aspectos de sua estrutura tridimensional.
Uma prot e´ına de n res´ıduos tem um mapa de contato n × n. Se dois res´ıduos de
amino´acidos a
i
e a
j
estiverem em contato, a posi¸ao (i, j) ter´a um ponto, caso contr´ario,
ficar´a em branco.
Dizemos que dois res´ıduos de amino´acidos est˜ao em contato se fazem uma liga¸ao
ao-covalente (exceto as pontes dissulfeto). Existem arias metodologias propostas
1. Introduc¸
˜
ao 20
para defini¸ao destes contatos. A mais simples delas consiste em utilizar um valor
de corte para a distˆancia de separa¸ao no espa¸co tridimensional entre os ´atomos dos
res´ıduos (seja considerando todos os seus ´atomos ou apenas os carbonos α). Em
[Hu et al., 2002], os autores utilizam uma distˆancia de corte de 7
˚
A. [Sobolev et al., 1999]
descrevem uma metodologia muito mais apurada para detec¸ao dos contatos. Ela
considera ao o as distˆancias inter-atˆo micas como tamb´em a natureza dos ´atomos
pr´oximos e suas liga¸oes. A Figura 1.14 a seguir mostra um mapa de contatos de uma
Mioglob ina.
50
100
150
200
50 100 150 200
Numero de residuos
Numero de residuos
Figura 1.14: Um exemplo de mapa de contatos.
Mapa de contatos de uma Mioglobina de baleia (PDB id 1a6m).
Para mostrar como os mapas de contatos ao uma boa e robusta representa¸ao
da estrutura de prote´ınas, vamos detalhar este mesmo mapa de Mioglobina de baleia,
associando alguns trechos `a estrutura.
Observe que existe um grande n´umero de contatos pr´oximos `a diagonal do mapa
(Figura 1.15). Estes ao contatos entre res´ıduos bastante pr´oximos na seq¨uˆencia. Geral-
mente, ao pontes de hidrogˆenio respons´aveis pela fo r ma¸ao das α- h´elices.
´
E poss´ıvel
perceber claramente interrup¸oes nestes contatos da diagonal. Estas interrup¸oes in-
dicam as regi˜oes de cadeia ao estruturada em h´elices. Podemos observar no mapa de
contatos as 8 h´elices comumente encontradas nas Globinas (denominadas na literatura
pelas letras de A a H).
Os agrupamentos de contatos distantes da diagonal indicam contatos ao locais.
Observando na estrutura da Mioglobina as elices que est˜ao pr´oximas (obviamente
fazendo contato umas com as outras), vamos verificar no mapa que existem contatos
entre elas. As h´elices G e H, por exemplo, est˜ao ligeiramente cruzadas e em contato, de
forma que no quadrante do mapa relativo a estas elices, ´e poss´ıvel ver grande n´umero
de intera¸oes (em destaque na Figura 1.16). Por outro lado, as h´elices C e H est˜ao
1. Introduc¸
˜
ao 21
140
120
100
80
60
40
20
20 40 60 80 100 120 140
Numero de residuos
Numero de residuos
A
B
C
D
E
F
G
H
Figura 1.15: Contatos respons´aveis pela forma¸a o de α-h´elices.
extremamente afastadas estruturalmente de modo que ´e natural ao encontrar nenhum
contato relativo a estes trechos no mapa.
Observe ainda que os grupamentos de contatos ao locais podem aparecer como
retas crescentes ou descrescentes. Esta ´e uma caracter´ıstica interessante por mostrar
se os trechos da cadeia em contato em ou ao a mesma orienta¸ao na seq¨uˆencia. Agru-
pamentos crescentes indicam que as partes est˜ao em contato paralelamente, o u seja,
seus N-terminais e C-terminais est˜ao na mesma orienta¸ao (como aproximadamente
acontece com as elices F e H). No caso desta Mioglobina, a maioria dos agrupamen-
tos ao descrescentes indicando contatos antiparalelos (como por exemplo as elices G
e H).
1.13 Motivao
As prote´ınas ao macromol´eculas essenciais ao o na estrutura¸ao como em pro-
cessos qu´ımicos das c´elulas vivas e v´ırus. O entendimento de como um repert´orio de
20 amino´acidos ´e usado na composi¸ao dessas mol´eculas com ao diferenciadas e com-
plexas estruturas e fun¸oes biol´ogicas ´e uma quest˜ao em aberto na Bioqu´ımica moderna.
Apesar das restri¸oes estruturais impostas pelas liga¸oes pept´ıdicas, os ˆangulos diedrais
ao `a cadeia de amino´acidos tamanha liberdade que ´e, atualmente, imposs´ıvel prever a
estrutura de uma prote´ına partindo apenas de sua seq¨uˆencia de amino´acidos. Entender
profundamente a rela¸ao entre a seq¨uˆencia de amino´acidos, a estrutura e a fun¸ao de
prote´ınas ´e de capital impo r tˆancia no entendimento do processo de enovelamento destas
e conseq¨uentemente, na elucida¸ao de pat ologias provenientes da sua a-forma¸ao e
poss´ıvel desenvolvimento de terapias.
O estabelecimento de assinaturas estruturais para fam´ılias de prote´ınas ´e um passo
1. Introduc¸
˜
ao 22
(a)
140
120
100
80
60
40
20
20 40 60 80 100 120 140
Numero de residuos
Numero de residuos
A
B
C
D
E
F
G
H
(b)
Figura 1.16: Um exemplo da associa¸ao entre os contatos de um mapa e uma estrutura.
(a) Mapa de contato de uma Mioglobina de baleia (PDB id 1a6m) e (b) a respectiva estrutura
da prote´ına.
essencial nesse processo de busca e conhecimento dos aspectos necess´arios para que um
grupo de prote´ınas, com seq¨uˆencias potencialmente bastante diversas, enovelem-se em
semelhantes estruturas e desempenhem fun¸oes idˆenticas.
Acreditamos que existe um padr˜ao de liga¸oes ao-covalentes que seja preservado
para cada fam´ılia de prote´ınas funcionalmente equivalentes.
´
E objetivo deste trabalho
estabelecer e desenvolver metodologias para obter esse padr˜ao de contatos que deve
ser mantido mesmo com alta variabilidade na dimens˜ao seq¨uencial. Acreditamos que,
mesmo com a varia¸ao do alfabeto que comp˜oe um dado conjunto de prote´ınas de
mesma fun¸ao, os contatos mais preservados ao respons´aveis pela estrutura¸ao similar
das prote´ınas, o que lhes confere a mesma semˆantica ou funcionalidade.
1. Introduc¸
˜
ao 23
1.13.1 Trabalhos relacionados
Ao iniciar este projeto, ao foram encontrados no nosso levant amento bibliogr´afico
sistemas de classifica¸ao de estruturas de prote´ınas com base em mapas de contatos,
mas apenas alguns m´etodos de compara¸ao e an´alise desses mapas. Em
[Holm e Sander, 1991], os autores apresentam uma metodologia para encontrar sube-
struturas comuns a um conjunto de prote´ınas atrav´es da an´alise de suas matrizes de
distˆancias. As matrizes de distˆancias ao matrizes quadradas e sim´etricas assim como
os mapas de contatos mas em cada posi¸ao (i, j) ´e apresentada a distˆancia euclidiana
3D em
˚
A do resi´ıduo i para o j. Em [Lancia et al., 2001], os autores mostram que o
problema da sobreposi¸ao de mapas de contatos (contact map overlap) ´e NP
1
provando
a sua a lta complexidade computacional e apresentam um algoritmo para solu¸ao ´otima
para apenas alguns mapas com restri¸oes espec´ıficas.
[Caprara et al., 2004] a continuidade ao t r abalho apresentando nova abordagem
para solu¸ao que inclui outros tipos de mapas mas ainda com restri¸oes. Em
[Krasnogor e Pelta, 20 04], encontramos a primeira m´etrica de similaridade baseada em
mapas de contatos entre duas prote´ınas.
Em 2007, foram publicados os dois primeiros servidores web para compara¸ao es-
trutural de prote´ınas e mapas de contatos. O primeiro deles [Chung et al., 2007] ´e
uma ferramenta que detecta contatos potencialmente conservados em um conjunto de
prote´ınas atrav´es de seu alinhamento estrutural. Dessa forma, ele parte de um alin-
hamento estrutural para alinhar mapas de contatos e buscar contatos preservados. O
outro [Bart hel et al., 2007] fez um trabalho de integra¸ao de arias m´etricas para com-
para¸ao estrutural e defini¸ao de uma m´etrica consenso para os casos em que as arias
m´etricas utilizadas divergem muito. Fomos pioneiros nesta ´area uma vez que o STING,
em sua vers˜ao Star lan¸cada em 2006 [Neshich et al., 2006b] a apresentava os odulos
TopSiMap, Topologs e PCD que ao resultados deste projeto e possibilitam ao usu´ario
a compara¸ao de mapas contato visualmente e atrav´es de algoritmos, a recupera¸ao de
prote´ınas de mapas de contatos semelhantes.
Os algoritmos de compara¸ao de mapas de contatos desenvolvidos ao longo deste
trabalho baseiam-se em algoritmos de processamento digital de imagens e vis˜ao com-
putacional. At´e o momento, ao encontramos outros trabalhos que os utilizem na
compara¸ao de mapas de contatos.
1
Na teoria de complexidade computacional, a classe de complexidade NP (de ao-polinomial)
´e composta por problemas que ao decid´ıveis por uma aquina de Turing ao-determin´ıstica.
[Cormen et al., 2001] Na pr´atica, problemas deste tipo ao aqueles cujo trabalho computacional en-
volvido em sua resolu¸ao podem ser descritos como fun¸c ˜oes ao-polinomiais, ou seja, problemas de
alta complexidade e para os quais o poder computacional existente ao ´e suficiente para solucionar
de for ma ´otima o problema principalmente para grandes entradas.
1. Introduc¸
˜
ao 24
1.14 Objet ivo geral
Desenvolver um classificador de estruturas de prote´ınas com base nos contatos in-
tramoleculares entre os res´ıduos de amino´acidos da cadeia polipept´ıdica.
1.15 Objet ivos espec´ıficos
1. Determina¸ao de a t ributos que sejam componentes essenciais de assinaturas es-
truturais de prote´ınas funcionalmente idˆenticas;
2. Desenvolver um algoritmo que permita a compila¸ao de assinaturas estruturais
para cada fam´ılia de prote´ınas depositadas no PDB;
3. Constru¸ao de uma ferramenta, que ser´a disponibilizada publicamente, para
an´alise e compara¸ao de padr˜oes de contatos entre duas prote´ınas relacionadas.
Cap´ıtulo 2
Materiais e m´etodos
Neste cap´ıtulo, apresentamos um resumo dos materiais e m´etodos apresentados
ao longo das publica¸oes desta tese. Finalizamos este cap´ıtulo com explica¸oes dos
procedimentos realizados na sele¸ao das bases de dados utilizadas nos experimentos
apresentados no cap´ıtulo de resultados e discuss˜oes que ainda a o foram publicados.
2.1 Reposit´o r i os p´ublic os de dados
2.1.1 PDB
O PDB (Protein Data Bank) [Berman et al., 2000] ´e atualmente o maior e mais
completo reposit´orio de estruturas de prote´ınas existente e vem exp erimentando um
crescimento exponencial. Ele traz mais de 46.000 arquivos com coordenadas de mol´eculas
e / ou complexos prot´eicos. Segundo estat´ısticas do pr´oprio reposit´orio, existe alta re-
dundˆancia de dados sendo aproximadamente 1 7.000 cadeias com menos de 90% de
homologia seq¨uencial. Para cada cadeia, podem existir dados de diversos mutantes
simples ou ultiplos al´em da existˆencia de m´ultiplos cen´arios experimentais nos quais
a estrutura foi resolvida.
As principais t´ecnicas utilizadas na resolu¸ao de estruturas ao a difra¸ao de raios-X,
a ressonˆancia nuclear magn´etica (NMR) e a microscopia eletrˆonica. A grande maio r ia
das estruturas depositadas no PDB fora m resolvidas por difra¸ao de raios-X. Em m´edia,
a resolu¸ao ´e de 2,18
˚
A com desvio padr˜ao de 1,31
˚
A.
2.1.2 SCOP
Muito esfor¸co tem sido feito no intuito de organizar o cat´alogo de estruturas do
PDB. Uma das iniciativas de classifica¸ao das cadeias do PDB foi feita pelo SCOP
(Structural Classification of Proteins) [Brenner et al., 1995]. Na vers˜ao atual (1.71) do
25
2. Materiais e m
´
etodos 26
SCOP, 27.599 das cerca de 46.0 00 entradas do PDB foram anotadas o que significa
75.930 cadeias de 1.160 diferentes enovelamentos. Este trabalho foi realizado ao o
atrav´es de softwares mas tamb´em de inspao manual. A classifica¸ao deste banco de
dados se a em termos de fam´ılias, super- fam´ılias, enovelamentos e classes. Segundo
os a utor es, prote´ınas ao de uma mesma fam´ılia se tem alta similaridade seq¨uˆencial e
estrutural. Prote´ınas da mesma super-fam´ıli a ao provavelmente r elacionadas evolu-
tivamente compartilhando o mesmo enovelamento e desempenhando fun¸oes bastante
similares. Prote´ınas compartilham o mesmo enovelamento se possuem o mesmo arranjo
arquitetural, ou seja, ao estruturalmente muito pr´oximas. As classe s do SCOP ao
definidas com base na compo si¸ao das cadeias em termos de estruturas secund´arias: se
a maioria ´e α (formadas, na maioria, por α-h´elices) ou β (formadas, na maioria, por
folhas β) ou uma jun¸ao delas.
O SCOP ´e muito ´util na valida¸ao dos resultados deste trabalho uma vez que ´e
uma excelente anota¸ao das cadeias depositadas no PDB. Adicionalmente, ao disponi-
bilizados arquivos texto facilmente leg´ıveis por scri p ts nos quais pode-se obter, ao
o a classifica¸ao em termos de classes, enovelamentos, fam´ılias e super-fam´ılias mas
tamb´em a descri¸ao da cadeia e do organismo (nomenclatura cient´ıfica e comum) do
qual a prote´ına foi extra´ıda. Neste trabalho, utilizamos a sua classifica¸ao com base
no enovelamento.
2.1.3 ASTRAL
O PDB ´e um reposit´orio de dados muito completo e ´util para diversas ´areas de
pesquisa o que tamb´em faz com que ele seja muito redundante. Para este trabalho,
muitas vezes foi necess´ario trabalhar com um conjunto ao redundante de prote´ınas.
Essa sele¸ao ´e bastante trabalhosa e deveria excluir seq¨uˆencias muito similares, es-
truturas muito redundantes, considerar o organismo da qual ela f oi extra´ıda, entre
outros aspectos a avaliar. Quando precisamos diminuir a redundˆancia no conjunto de
dados recorremos `a sele¸ao do ASTRAL [Brenner et al., 2000, Chandonia et al., 2002,
Chandonia et al., 2004]. Este banco de dados ´e parcialmente derivado do SCOP e
provˆe prote´ınas ao redundantes com base em um valor de corte para a similaridade
seq¨uencial das cadeias.
2.1.4 STING
O STING [Neshich et al., 2006b, Neshich et al., 2005, Neshich et al., 2003] ´e um
completo banco de dados acompanhado de arias ferramentas para an´alise estrutural
de prote´ınas. Seu odulo de contatos [Mancini et a l., 2004] possibilita a defini¸ao e
2. Materiais e m
´
etodos 27
an´alise de intera¸oes ao covalentes (considerando adicionalmente as pontes dissulfeto).
Os autores dividiram as p oss´ıveis intera¸oes em 14 tipos:
Contatos hidrof´obicos;
Contatos carregados atra t ivos (intera¸oes ´ıon-´ıon);
Contatos carregados repulsivos (intera¸oes ´ıon-´ıon);
Pontes de hidrogˆenio entre cadeia principal e cadeia principal (sem ou com uma
ou duas mol´eculas de ´agua);
Pontes de hidrogˆenio entre cadeia principal e cadeia lateral (sem ou com uma ou
duas mol´eculas de ´agua);
Pontes de hidrogˆenio entre cadeia lateral e cadeia lateral (sem ou com uma ou
duas mol´eculas de ´agua);
Empilhamento arom´atico (intera¸oes dipolo induzido-dipolo induzido entre an´eis
arom´aticos);
Pontes dissulfeto
O STING utiliza a defini¸ao de contatos proposta em [Sobolev et al., 1999]. Ele con-
sidera pontes de hidrogˆenio os contatos entre 2,0 e 3,2
˚
A atribuindo a elas 2,6kcal/mol
de energia, contatos hidrof´obicos de 2,0 a 3,8
˚
A e 0,6kcal/mol, carregados entre 2,0 e
6,0
˚
A e 10,0kcal/mol, po ntes dissulfeto entre 1,5 e 2,8
˚
A e 85,0kcal/mol. Para os em-
pilhamentos arom´aticos a energia ´e 0,5kcal/mol e a distˆancia a o foi encontrada na
literatura.
2.2 Metodolo gia para alculo dos contatos
Nossa metodologia para alculo dos contatos foi parcialmente baseada em
[Sobolev et al., 1999, Neshich et al., 2006b, Neshich et al., 2005, Neshich et al., 2003].
Todos os ´atomos de cada um dos 20 res´ıduos de amino´acidos mais comumente encon-
trados em prote´ınas fora m classificados em uma ou mais das seguintes classes:
Hidrof´obicos
Positivos
Negativos
2. Materiais e m
´
etodos 28
Aceptores de ponte de hidrogˆenio
Doadores de ponte de hidrogˆenio
Arom´aticos
Enxofres
Seguem as classes dos ´atomos:
Hidrof´obicos: ALA(CB), ARG(CB, CG, CD), ASN(CB), ASP(CB), CYS(CB),
GLN(CB, CG), GLU(CB, CG), HIS(CB, CG, CD2, CE1), ILE(CB, CG1, CG2,
CD1), LEU(CB, CG, CD1, CD2), LYS(CB, CG, CD), MET(CB, CG, CE),
PHE(CB, CG, CD1, CD2, CE1, CE2, CZ), PRO(CB, CG, CD), THR(CG2),
TRP(CB, CG, CD1, CD2, CE2, CE3, CH2, CZ, CZ2, CZ3), TYR(CB, CG,
CD1, CD2, CE1, CE2, CZ), VAL(CB, CG1, CG2)
Positivos: ARG(NH1, NH2), HIS(ND1, NE2), LYS(NZ)
Negativos: ASP(OD1, OD2), GLU(OE1, OE2)
Aceptores: ALA(O), ARG(O), ASN(O, OD1), ASP(O, OD1, OD2), CYS(O),
GLN(O, OE1), GLU(O, OE1, OE2), GLY(O), HIS(O), ILE(O), LEU(O), LYS(O),
MET(O), PHE(O), PRO(O), SER(O), THR(O), TRP(O), TYR(O), VAL(O)
Doadores: ALA(N), ARG(N, NE, NH1, NH2), ASN(N, ND2, OD1), ASP(N),
CYS(N), GLN(N, NE2), GLU(N), GLY(N), HIS(N, ND1, NE2), ILE(N), LEU(N),
LYS(N, NZ), MET(N), PHE(N), PRO(N), SER(N, OG), THR(N, OG1), TRP(N,
NE1), TYR(N, OH), VAL(N)
Arom´aticos: HIS(CG, ND1, CD2 , CE1, NE2), PHE(CG, CD1, CD2, CE1, CE2,
CZ), TRP(CG, CD1, CD2, NE1, CE2, CE3, CZ2, CZ3, CH2), TYR(CD1, CD2,
CE1, CE2, CG, CZ)
Enxofre: CYS(S), MET(SD)
Consideramos que dois r es´ıduos de amino´acidos fazem algum tipo de contato se, e
somente se:
1. A distˆancia seq¨uencial entre eles for de, no m´ınimo, 3 res´ıduos;
2. Algum dos ´ato mos de um dos res´ıduos estiver a uma distˆancia tridimensional
dentro dos intervalos de corte pr´e-definidos para suas classes de algum ´atomo do
outro res´ıduo;
3. Os ˆangulos entre os ´atomos ao ao considerados no omputo dos contatos.
2. Materiais e m
´
etodos 29
Definimos entre ´atomos dessas classes os seguintes tipos de contatos:
Tipo de contato Classes de ´atomos Valor de corte (
˚
A)
Hidrof´obicos ambos hidrof´obicos entre 2 e 3 ,8
Carregados atrativos positivos e negativos entre 2 e 6
Carregados repulsivos ambos positivos ou negativos entre 2 e 6
Pontes de hidrogˆenio aceptores e doadores entre 2 e 3,2
Empilhamentos aroaticos ambos arom´aticos entre 3 e 8
Pontes dissulfeto ambos enxofre entre 1,5 e 2,8
Tabela 2.1: Tipos de contatos e seus valores de corte.
2.3 Se l e¸c˜ao das bases de dados para os
experimentos
Para verificar a precis˜ao dos classificadores propostos foi necess´ario selecionar um
conjunto de prote´ınas de um enovelamento espec´ıfico e outro conjunto de enovelamentos
diferentes e variados. O objetivo dos experimentos fo i calcular a precis˜ao dos classi-
ficadores na recupera¸ao de element os da fam´ılia espec´ıfica misturados com outras de
enovelamentos diferentes. Utilizamos o banco de dados SCOP na sele¸ao das prote´ınas
uma vez que ele as divide de acordo com o enovelamento.
Selecionamos as Globinas como enovelamento modelo e, adicionalmente, verificamos
a precis˜ao dos classificadores com outras fam´ılias diferentes. Seguem as fam´ılias tra-
balhadas:
Globinas
Apolipoprote´ınas
Plastocianinas
RBPs (Retinol b i nding proteins)
Tioredoxinas
As Globinas (Figura 2.1(a)) ao as prote´ınas respons´aveis pelo t r ansporte de mol´eculas
de oxigˆenio nos m´usculos e no sangue e est˜ao entre as mais b em estudadas prote´ınas.
ao compostas exclusivamente por α-h´elices. As Apolipoprote´ınas (Figura 2.1 (b)),
tamb´em compostas exclusiva mente por α- h´elices, ao prote´ınas que ligam lip´ıdios e
constituem as Lipoprote´ınas do plasma. ao importantes no t ransporte dos lip´ıdios
ingeridos atrav´es do fluxo sang¨uineo do intestino para o f´ıgado e de lip´ıdios sintetiza-
dos pelo orga nismo para os tecidos que o s armazenam, metabolizam e secretam. As
Plastocianinas (Figura 2.1(c)) a o prote´ınas envolvidas no transporte de el´etrons na
2. Materiais e m
´
etodos 30
fotoss´ıntese. Contˆem um ´atomo de cobre e ao compostas basicamente po r folhas-
β em um arra njo em forma de barril. As RBPs (Figura 2.1(d)), tamb´em prote´ınas
predominantemente compostas por fo lhas-β, em fun¸ao relacionada com o transporte
de Retinol e ao respons´aveis por solubilizar e estabilizar ligantes hidrof´obicos em
solu¸ao aquosa. Tioredoxinas (Figura 2.1(e)) ao prote´ınas compostas por uma mis-
tura de α-h´elices e folhas-β. Atuam como anti-oxidantes facilitando a redu¸ao de o utras
prote´ınas.
(a)
(b) (c)
(d) (e)
Figura 2.1: Tipos de enovelamentos utilizados nos testes deste trabalho: (a) Globina
(PDB id 1a6mA) (b) Apolipoprote´ına (PDB id 1nfnA) (c) Plastocianina (PDB id
1plcA) (d) RBP (PDB id 1rbpA) (e) Tioredoxina (PDB id 2trxA).
2.3.1 Sele¸ao das Globinas
A consulta pelo enovelamento Globina na vers˜ao atual do banco de dados SCOP re-
tornou 1.356 exemplares de Globinas. Percebemos que algumas dessas cadeias possu´ıam
dom´ınios Globina juntamente com outros tipos de dom´ınios, como ´e o caso da Flavo-
hemoglobina ilustrada na Figura 2.2. Por esse motivo, fizemos uma verificao manual
verificando se cada cadeia de Globina indicada r epresentava mesmo apenas o dom´ınio
Globina.
2. Materiais e m
´
etodos 31
Figura 2.2: Flavohemoglobina: exemplo de cadeia de prote´ına com dom´ınio Glo bina ju-
tamente com outro dom´ınio. Prote´ınas multi-dom´ınio, tais como esta, foram exclu´ıdas
da nossa base de dados.
Do conjunto curado de Globinas f oram selecionados 50 exemplares que foram alin-
hados utilizando o software PriSM [Yang e Honig, 1 999] e ao apresentados na Figura
2.3. O PriSM ´e um software para an´alise e modelagem de prote´ınas que tem duas
vantagens em rela¸ao a outros pacotes: suporta o alinhamento de um grande umero
de cadeias e ao utiliza nenhum parˆametro para realizar os alinhamentos.
Figura 2 .3 : Alinhamento estrutural dos 50 exemplares de Globinas utilizados neste
trabalho. Para obter maior clareza, exibimos apenas os ´atomos da cadeia principal das
prote´ınas.
Exibimos, no Anexo A, os alinhamentos das seq¨uˆencias dos 50 exemplares de Globi-
nas utilizados neste trabalho.
2.3.1.1 Sele¸ao das Mioglobinas
Al´em de selecionar prote´ınas variadas do enovelamento Globina, optamos po r sele-
cionar um subconjunto bastante homogˆeneo deste enovelamento. Selecionamos outra
2. Materiais e m
´
etodos 32
base de dados composta pelas Mioglobinas. Na vers˜ao atual do SCOP (1.71), a 217
cadeias destas prote´ınas. ao 151 provenientes de baleia, 7 de cavalo marinho, 1 de
foca, 33 de porco, 20 de cavalo, 1 humana, 1 de elefante, 2 de tartaruga e 1 de atum.
Selecionamos mais uma vez 50 exemplares de Mioglobinas de forma a manter os ex-
emplares de esp´ecies menos comuns no PDB e balanceando a escolha de esp´ecies mais
comuns, eliminando alguns deles.
Figura 2.4: Alinhamento estrutural dos 50 exemplares de Mioglobinas utilizados neste
trabalho.
No Anexo A, apresentamos o a linhamentos das seq¨uˆencias destas Mioglobinas.
2.3.2 Sele¸ao das prote´ınas de enovelamentos variados
Como as Globinas em cerca de 150 res´ıduos de amino´acidos, as Ap olipoprote´ınas
190, as Plastocianinas 100, as RPBS 180 e as Tioredoxinas 110, selecionamos do SCOP
50 cadeias aleat´oriamente dentre aquelas cujo n´umero de res´ıduos de amino´a cidos es-
tava dentro do intervalo [100,200]. Nesse conjunto temos prote´ınas α, β, α/ β e α + β.
Acreditamos que pro te´ınas com n´umeros de res´ıduos muito diferentes dificilmente se-
riam confundidas uma vez que o umero de contatos a comparar seria tamb´em muito
diferente.
2.4 M´etricas para compara¸ao dos mapas de
contatos
Nesta se¸ao, mostraremos como a abordagem de casamento de imagens ´e utilizada
para medir a similaridade estrutural de duas prote´ınas com base em seus mapas de
contato. Em particular, exploramos 2 diferentes paradigmas no tratamento deste prob-
lema:
2. Materiais e m
´
etodos 33
O paradigma de recuperao de imagens com base no conte´udo (RIBC) resolvido
com uma m´etrica baseada nas carater´ısticas das imagens, o correlogramo de cores
(CC);
O paradigma de registro de imagens (RI) que solucionamos com duas t´ecnicas
baseadas na similaridade das imagens: raio edio de dispers˜ao ( RMD) e earth
mover’s distance (EMD).
A RIBC ´e uma disciplina cient´ıfica amplamente baseada na no¸ao de que ´e poss´ıvel
comprimir imagens preservando sua semˆantica [Pentland et al., 1994]. As imagens ao
comprimidas em um vetor assinatura de menor tamanho poss´ıvel, visando a eficiˆencia
de poss´ıveis consultas `as bases de assinaturas. Usualmente, esses vetores assinatura ao
computados com base em atributos de baixo n´ıvel extra´ıdos diretamente das imagens
tais como cores, texturas ou primitivas geom´etricas e seus relacionamentos espaciais
na imagem que provˆem informa¸oes semˆanticas de alto n´ıvel [Mojsilovic et al., 2004].
Uma forte motivao para aplica¸ao deste tipo de ecnica ´e o crescimento das bases
de prote´ınas como o pr´oprio PDB. A indexa¸ao dessas bases de dados ´e uma opera¸ao
computacionalmente cara mas, uma vez criados os vetores assinatura, a pesquisa ´e
bastante eficiente.
O paradigma de RI [Brown, 1992] ´e usualmente utilizado na compara¸ao de imagens
de um mesmo objeto que sofre transforma¸oes ao r´ıgidas
[Maintz e VIergever, 1998]. Um custo ´e at ribu´ıdo para cada deforma¸ao que o objeto
precisa sofrer e a dissimilaridade entre as imagens ´e computada como sendo o m´ınimo
custo para deformar uma imagem na outra.
A motivao pela qual aplicamos este tipo de t´ecnica ´e que prote´ınas de seres
distintos evolu´ıram de mol´eculas ancestrais e suas distˆancias filogen´eticas devem estar
fortemente correlacionadas com a dissimilaridade estrutural. Assim, se pud´essemos,
de alguma forma, modelar as deforma¸oes necess´arias para tra nsformar um mapa de
contatos de uma primeira prote´ına em um mapa de uma outra prote´ına como uma
seq¨uˆencia de transforma¸oes que imitariam os efeitos da evolu¸ao na sua estrutura, a
similaridade estrutural entre essas prote´ınas poderia ser calculada como a seq¨uˆencia de
transforma¸oes de custo m´ınimo.
Existe um compromisso na escolha desses diferentes paradigmas. As ecnicas de
RIBC tendem a ser mais eficientes em grandes conjuntos de dados mas, por outro lado,
as ecnicas de RI tendem a ser mais acuradas, pelo menos na compara¸ao de imagens
pr´oximas.
2. Materiais e m
´
etodos 34
2.4.1 A abordagem de recupera¸ao de imagens com base no
conte´udo
Para especificar completamente o funcionamento do algoritmo de RIBC, ´e necess´ario
definir como o vetor assinatura de cada po ss´ıvel imagem ´e gerado e como a similaridade
entre tais vetores ´e computada [Del-Bimbo, 1999].
O CC [Huang et al., 1997] expressa como a correla¸ao de pares de cores se altera
com a distˆancia. Especifica a probalidade de se encontrar um pixel de cor j a uma
distˆancia k de outro pixel de cor i. Seja I uma imagem n × n com espa¸co de cores
quantizado em m cores c
1
, ..., c
m
. Seja a distˆancia d n um parˆametro de entrada
para o sistema. Assim, o correlogramo de I ´e definido pa ra i, j [m], k [d] como
γ
(k)
c
i
,c
j
(I) P rob
p
1
I
c
i
,p
2
I
p
2
I
c
j
| |p
1
p
2
| = k
, (2.1)
onde a nota ¸ao p
1
I
c
i
significa que a cor do pixel p
1
na imagem I ´e c
i
, isto ´e, que
p
1
I, I(p
1
) = c
i
.
Para computar o correlogramo, temos que avaliar a seguinte equa¸ao:
γ
(k)
c
i
,c
j
(I) =
Γ
(k)
c
i
,c
j
(I)
h
c
i
· 8k
, (2.2)
onde h
c
i
´e o valor do histograma de cores de c
i
e
Γ
(k)
c
i
,c
j
p
1
I
c
i
, p
2
I
c
j
| |p
1
p
2
|= k
. (2.3)
O algoritmo mais ingˆenuo para calcular esta express˜ao ´e de O(n
2
d
2
). Por´em, us-
ando a vers˜ao com pro grama¸ao dinˆamica, tamb´em proposta em [Huang et al., 1997] o
algoritmo seria O(n
2
d). Note que, como o n´umero de cores em nossas imagens ´e muito
reduzido, ao avaliamos o custo do algoritmo com base no n´umero de cores.
A m´etrica do correlogramo ´e relativamente insens´ıvel a elementos individuais do
vetor. Ela corresponde, entretanto, a uma m´edia ponderada das discrepˆancias de todo o
conjunto de caracter´ısticas das assinaturas das imagens. No caso de dois correlogramos
das imagens I e I
, estes pesos ao inversamente proporcionais a γ
(k)
c
i
,c
j
(I) + γ
(k)
c
i
,c
j
(I
),
isto ´e, quanto maior este termo ´e, menor a influˆencia do par de cores (c
i
, c
j
) na medida
final. Mais especificamente, a m´etrica d para os correlogramos das imagens I e I
´e:
|I I
|
γ,d
1
i,j[m],
k[d]
|γ
(k)
c
i
,c
j
(I) γ
(k)
c
i
,c
j
(I
)|
1 + γ
(k)
c
i
,c
j
(I) + γ
(k)
c
i
,c
j
(I
)
, (2.4)
onde o 1 no denominador evita a divis˜oes por zero. No t e que, depois de constru´ıdos
2. Materiais e m
´
etodos 35
os correlogramos, o alculo da m´etrica ´e O(n), o que garante a eficiˆencia na resposta a
consultas mesmo em grandes bases de dados.
Mostraremos um exemplo de aplica¸ao da t´ecnica com a utiliza¸ao de dois mapas de
contatos hipot´eticos. Na Figura 2.5, apresentamos 2 mapas de contatos 5×5 e contendo
3 tip os de contatos: vermelhos, verdes e azuis. Queremos computar a dissimilaridade
entre eles atrav´es do CC de forma bastante simplificada.
(a) (b)
Figura 2.5: Mapas de contatos hipot´eticos a serem comparados nos exemplos.
Para computar a dissimilaridade entre os mapas de contato ´e necess´ario , primeira-
mente, computar os histogra mas de distribui¸ao espacial das cores. Para tal, medimos
a distˆancia de todos os pixels coloridos a todos os outros pixels da mesma cor (con-
forme Tabelas 2.2, 2.3 e 2.4). As tabelas de distˆancias ao, obviamente, sim´etricas de
forma que consideremos apenas uma das metades. Como a imagem tem tamanho 5x5,
a maior distˆancia po ss´ıvel seria
18 ou 4,24, uma vez que ao consideramos a diagonal
que ´e sempre 0. O histograma vai ter enao 4 posi¸oes sendo que a primeira significa
o n´umero de pixels que distam de 1 a 2 (exclusive), a segunda de 2 a 3 (exclusive) e
assim por diante.
Tabela 2.2: Distˆancias entre os pixels vermelhos de cada imagem no exemplo.
A B C
A 0 2 1
B 2 0 1
C
1 1 0
H I J
H 0 1 1
I 1 0 1
J
1 1 0
D G
D 0 2
G
2 0
L
L 0
Tabela 2.3: Distˆancias entre os pixels verdes de cada imagem no exemplo.
Para a cor vermelha, temos o seguinte vetor de freq¨uˆencias F
A
vermelho
= (2; 1; 0; 0)
que resulta nas seguintes probabilidades P
A
vermelho
(0, 66; 0, 34; 0; 0) e F
B
vermelho
=
2. Materiais e m
´
etodos 36
D G
D 0 2
G 2 0
L
L 0
E F
E 0 1
F 1 0
K M
K 0 1
M 1 0
Tabela 2.4: Distˆancias entre os pixels azuis de cada imagem no exemplo.
(3; 0; 0; 0) que r esulta em P
B
vermelho
= (1; 0; 0; 0). Somando os odulos das diferen¸cas
entre cada p osi¸ao dos vetores obtemos 0, 34+0, 34 = 0, 68. Para normalizar, dividimos
este valor pelo n´umero de pixels vermelhos nos dois mapas obtendo 0, 68/6 0, 11.
De forma similar teremos F
A
verde
= (0; 1; 0; 0) e F
B
verde
= (0; 0; 0; 0) uma vez que ao
existem pares de contatos verdes no mapa B. Teremos P
A
verde
= (0; 1; 0; 0) e P
B
verde
=
(0; 0; 0; 0) resultando em dissimilaridade 1. Teremos tamb´em F
A
azul
= ( 1; 0; 0; 0) e
F
B
azul
= (1; 0; 0; 0), resultando em vetores de probabilidade idˆenticos e dissimilaridade
0. Dividindo pelo n´umero de contatos verdes 1/3 0, 33. O resultado final ´e a soma
das dissimilaridades para todas as cores e, nesse caso, seria 0, 11 + 0 + 0, 33 = 0, 44.
2.4.2 A abordagem de registro de imagens
2.4.2.1 O raio edio de disp ers˜ao
Esta t´ecnica ´e baseada em [Kutulakos, 2000], onde ´e introduzido o conceito de trans-
forma¸c ˜o e s de em baral hamento. Estas ao transforma¸oes geom´etricas onde embaralha-
se pixels por no aximo um ra io de dispers˜ao r.
O uso deste tipo de transforma¸ao na an´alise da dissimilaridade estrutural de
prote´ınas ´e atraente porque sua natureza espacialmente localizada preserva carac-
ter´ısticas geom´etricas de alto n´ıvel, assim como as transforma¸oes evolucion´arias na
estrutura prim´aria das prote´ınas fazem na estrutura.
Neste trabalho, fizemos uma adapta¸ao desta ideia e definimos o conceito de raio
m´edio de dispers˜ao, ˆr
disp
, entre duas imagens como a distˆancia Euclidiana entre pix-
els em uma imagem e o pixel da mesma cor mais pr´oximo na outra imagem. Mais
formalmente, o raio edio de dispers˜ao entre duas imagens n × n ´e dado por:
ˆr
disp
(I, I
)
1
2 n
2
i,j[n]
r(I, I
, i, j) + r(I
, I, i, j), (2.5)
onde
r(I, I
, i, j) min
x,y[n],
I(i,j)=I
(x,y)
(x i)
2
+ (y j)
2
. (2.6)
O algoritmo ingˆenuo para esta computa¸ao tem custo O(n
4
). Entretanto, pr´e-
computando, para cada cor c
i
, i [m], a transformada de distˆancia relativa aos pixels
2. Materiais e m
´
etodos 37
da imagem I de cor c
i
usando o algoritmo de Chamfer (que ´e O(n
2
)) e repetindo esse
procedimento para a imagem I
, reduzimos este custo para O(n
2
). Ap´os essa pr´e-
computa¸ao, cada termo r(I, I
, i, j) na Equa¸ao (2.5) ´e processado em O(1), apenas
pela busca na posi¸ao (i, j) na transformada de distˆancia relativa aos pixels de I
que
tˆem a cor I(i, j).
Na pr´atica, todos os pixels brancos foram exclu´ıdos dos alculos uma vez que rep-
resentam ausˆencia de contatos. Como os mapas de contatos ao matrizes bastante
esparsas, criamos listas auxiliares de O(n) elementos de forma a responder as consultas
em tempo O(n).
Finalmente, observe que dois mapas de contatos a serem comparados tem na grande
maioria das vezes tamanhos diferentes. Para superar este problema, reescalamos todos
os mapas de contatos para o tamanho 1 000 × 1000.
Mostraremos um exemplo de aplica¸ao do RMD com os mapas da Figura 2.5. Para
computar a dissimilaridade entre dois mapas devemos encontrar pixels de cada cor nos
mais pr´oximos na segunda imagem (conforme Tabelas 2.5, 2.6 e 2.7).
H I J
A 0 1 1
B
2 1 1
C 1 1 0
Tabela 2.5: Distˆancias entre os pixels vermelhos entre o par de imagens no exemplo.
L
D 1
G 1
Tabela 2.6: Distˆancias entre os pixels verdes entre o par de imagens no exemplo.
K M
E 0 1
F
1 1
Tabela 2.7: Distˆancias entre os pixels azuis entre o par de imagens no exemplo.
Os custos computados ser˜a o dados pelas distˆancias entre os pixels casados. Assim,
teremos A H com custo 0, B I com custo 1, C J com custo 0. Como o ´ındice
deve ser sim´etrico, fazemos na ordem inversa e obtemos os seguintes mapeamentos
H A com custo 0, I A com custo 1 e J C com custo 0. Note que quando
2. Materiais e m
´
etodos 38
existem duas op¸oes de mesmo custo, escolhemos ar bitrar iamente entre as op¸oes.
Somando todos estes custos e dividindo pelo n´umero de contatos vermelhos nos dois
mapas obtemos ( 1 + 1)/6 0, 33. Para o tipo verde, teremos D L com custo
1 e G L com custo 1. No sentido inverso, L D com custo 1. Normalizando,
teremos (1 + 1 + 1)/3 = 1. Os mapeamentos do tipo azul ser˜ao E K com custo 0,
F K com custo 1 e no sentido inverso K E com custo 0 e M E com custo 1.
Normalizando, teremos (1 + 1)/4 = 0, 5. Totalizando, 0, 33 + 0, 5 + 1 = 1, 83.
2.4.2.2 O earth mover’s distance
Uma poss´ıvel limita¸ao da etrica descrita na subse¸ao anterior ´e que ela permite
que m´ultiplos contatos em um mapa casem com o mesmo contato do outro . Assim, a
m´etrica ao ´e capaz de diferenciar entre grupamentos densos e espar¸cos de contatos.
Esta limita¸ao pode ser evitada com o uso da m´etrica earth mo ver’s distance (EMD).
A utiliza¸ao desta m´etrica em bases de imagens foi inicialmente propo sta em
[Rubner et al., 1998]. Especificamente, o trabalho sugere o uso da m´etrica em assinat-
uras de images com base em intensidade ou histograma de cores, por exemplo. Neste
trabalho, aplicamos a t´ecnica diretamente nos mapas de contato o que faz com que a
t´ecnica seja baseada em similaridade e ao caracter´ıstica.
A ideia por tr´as do EMD ´e tratar cada pixel colorido em uma mapa de contato
como uma unidade de terra espalhada por um espa¸co de tamanho conhecido e os pixels
em um segundo mapa de contato como buracos com capacidade para uma unidade de
terra no mesmo espa¸co. A cor de cada unidade de terra ou buraco ´e dada de acordo
com a cor dos pixels. O EMD mede a quantidade de trabalho necess´ario para preencher
os buracos com terra, com a restri¸ao de que buracos de uma cor podem ser apenas
preenchidos com terra da mesma cor.
Como proposto em [Rubner et al., 1998], a computa¸ao do EMD ´e equivalente a
resolver o fa moso problema do transporte. Mais especificamente, o EMD ´e obtido
encontrando o conjunto de fluxos ao-negativos f
i,j,x,y
, g
x,y
que minimize o trabalho
total do carregador de terra, w, definido como:
w (I, I
)
i,j,x,y[n]
f
i,j,x,y
d(i, j, x, y) +
x,y[n]
g
x,y
d
max
, (2.7)
onde
d(i, j, x, y)
(x i)
2
+ (y j)
2
, if I(i, j) = I
(x, y),
, caso contr´a rio,
(2.8)
2. Materiais e m
´
etodos 39
sujeito `as seguintes restri¸oes:
x,y[n]
i,j[n]
f
i,j,x,y
+ g
x,y
= 1
, (2.9)
i,j[n]
x,y[n]
f
i,j,x,y
= 1
. (2.10)
Na Equa¸ao (2.7), o fator d(i, j, x, y) corresponde a o custo de mover uma unidade
de massa do local (i, j) na imagem I para a posi¸ao (x, y) na imagem I
. Na mesma
equa¸ao, d
max
´e uma penalidade para cada buraco deixado vazio devido ao n´umero de
pixels daquela cor na imagem I ser menor que na imagem I
. Este ´e um parˆametro de
entrada para o algo r itmo. A Equa¸ao (2.9) garante que todo buraco ser´a preenchido
com uma unidade de massa ou uma penalidade d
max
ser´a aplicada. Finalmente, a
Equa¸ao (2.10) garante que cada pixel na imagem I ser´a fornecedor de apenas uma
unidade de terra.
A m´etrica final ´e normalizada em rela¸ao ao fluxo total:
d
em
(I, I
)
1
n
2
w
em
(I, I
) . (2.11)
A solu¸ao padr˜ao para o problema do transporte envolve o uso do m´etodo simplex
[Dantzig, 1951] no qual, no pior caso, o custo computacional ´e expo nencial. Felizment e,
este caso ´e extremamente raro e, no caso m´edio, o custo ´e proporcional ao n´umero de
restri¸oes [Wagner, 1986]. Se consider´a ssemos todos os pixels de cada mapa de contato,
o custo seria O(n
6
). Desconsiderando novamente os pixels brancos, o custo m´edio seria
O(n
3
).
Mostraremos, agor a, o exemplo da aplica¸ao do EMD para os mesmos mapas de
contatos da Fig ura 2.5. Como nossos mapas tem 3 tipos de contatos, devemos resolver
3 modelos do problema do transporte separadamente.
Fcamos os alculos para os pixels vermelhos. Considerando que o custo de pontos
ao casados ´e 3, teremos que minimizar a seguinte equa¸ao: w
vermelho
(I, I
) = 0F
AH
+
1f
AI
+ 1f
AJ
+ 2f
BH
+ 1f
BI
+ 1f
BJ
+ 1f
CH
+ 1f
CI
+ 0f
CJ
+ 3g
A
+ 3g
B
+ 3g
C
. Os
coeficientes ao os custos de se mapear um pixel no outro, ou seja, as distˆancias entre
eles. A minimiza¸ao ´e sujeita `as seguintes restri¸oes:
f
AH
+ f
AI
+ f
AJ
+ g
A
= 1
f
BH
+ f
BI
+ f
BJ
+ g
B
= 1
f
CH
+ f
CI
+ f
CJ
+ g
C
= 1
f
AH
+ f
BH
+ f
CH
= 1
2. Materiais e m
´
etodos 40
f
AI
+ f
BI
+ f
CI
= 1
f
AJ
+ f
BJ
+ f
CJ
= 1
Estas restri¸oes indicam que cada ponto da imag em (a) pode cair em, no aximo,
um ponto da imagem (b). Caso ao exista ponto em (b) para receber um ponto de (4),
um custo adicional ´e aplicado. Al´em disto, cada ponto da imagem (b) pode receber,
no aximo, um ponto de (a). Minimizando a express˜a o, verificamos as seguintes
correspondˆencias: A H com custo 0, B I com custo 1 e C J com custo 0.
Observe que w
vermelho
(I, I
) = 1/6 0, 16.
Para os pixels verdes minimizamos W
verde
(I, I
) = 1f
D L
+ 1f
GL
+ 3g
D
+ 3g
G
com as
seguintes restri¸oes:
f
D L
+ g
D
= 1
f
GL
+ g
G
= 1
f
D L
+ f
GL
= 1
Obtemos G L com custo 1 e D fica sem mapeamento gerando um custo 3. Logo,
w
verde
(I, I
) = 4/3 1, 33.
Para os pixels azuis minimizamos w
azul
(I, I
) = 0f
EK
+ 1f
EM
+ 1f
F K
+ 1f
F M
+
3g
E
+ 3g
F
com as seguintes restri¸oes:
f
EK
+ f
EM
+ g
E
= 1
f
F K
+ f
F M
+ g
F
= 1
f
EK
+ f
F K
= 1
f
EM
+ f
F M
= 1
Obtemos E K com custo 0 e F M com custo 1, logo w
azul
(I, I
) = 1/4 = 0, 25.
A dissimilaridade final ser´a dada por w(I, I
) = w
vermelho
(I, I
) + w
verde
(I, I
) +
w
azul
(I, I
) = 0, 16 + 1, 33 + 0, 25 = 1, 74.
2.5 Alg oritmo para defini¸ao d e assinaturas
estruturais
2.5.1 Determina¸ao dos agrupamentos de contatos
De acordo com [Guting, 1994], as info r ma¸o es sobre os contatos com as quais trabal-
hamos nos mapas de contatos ao dados espaciais. No intuito de definir as assinaturas
estruturais da fam´ılias de prote´ınas, precisamos ser capazes de identificar auto matica-
mente agrupamentos de contatos em cada mapa.
2. Materiais e m
´
etodos 41
Para tal tarefa, existem in´umeros algoritmos descritos na literatura de minera¸ao
de dados. a basicamente dois tipos de algor itmos [Kaufman e Rousseeuw, 1990]: os
de particionamento e os hier´arquicos. Os algoritmos de particionamento constroem
parti¸oes da base de dados D que possui n objetos em um conjunto de k agrupa-
mentos. Normalmente k ´e um parˆametro de entrada para estes algoritmos o que ´e
indesej´avel no nosso caso. O algoritmo come¸ca com uma parti¸ao arbitr´aria e vai re-
finando esta de forma a otimizar a fun¸ao objetivo. Os algoritmos hier´arquicos criam
uma decomposi¸ao hier´arquica de D. Esta decomposi¸ao ´e representada por um den-
dograma, uma ´arvore resultante da divis˜ao iterativa de D. Neste caso, ao existe o
parˆametro de entrada k mas ´e necess´ario definir a condi¸ao de parada nas divis˜oes da
´arvore.
Optamos por utilizar o DBSCAN [Ester et al., 1996] que ´e um algoritmo de parti-
cionamento baseado em densidade. A vantagem deste etodo ´e a capacidade de iden-
tificar ao somente agrupamentos tipicamente esf´ericos mas sim de qualquer forma.
A id´eia principal do m´etodo consiste no alculo da densidade que implica que cada
ponto de um cluster precisa ter um n´umero m´ınimo de pontos a um raio r definido
arbitrariamente, ou seja, sua densidade precisa superar um determinado valor de corte.
Assim, o algoritmo implementado consiste em sortear um contato aleatoriamente no
mapa e, dado o raio r, incluir os contatos que se encontram a uma distˆa ncia euclidiana
menor ou igual a este raio. O processo segue iterativamente com a adi¸ao dos pontos
que est˜ao dentro do raio r dos pontos rec´em-adicionados at´e que ao r estem pontos
a adicionar. Neste caso, um novo contato ao pertencente ao agrupamento definido ´e
sorteado para iniciar um novo agrupamento. O processo se repete at´e que ao existam
pontos fora dos agrupamentos. Obviamente, a que se definir uma densidade m´ınima
para defini¸ao dos agrupamentos.
2.5.2 Separa¸ao dos clusters definidos incorretamente
A transformada de Hough [Hough, 1962] foi desenvolvida em 1962 para detectar car-
acter´ısticas analiticamente represenaveis em imagens binarizadas, assim como linhas,
c´ırculos e elipses. Para detectar uma linha, Hough utilizou a equa¸a o decilive-intercepto
definida por y = ax + b. Usando uma matriz acumuladora, examina-se cada ponto e
calcula-se os parˆametros da equa¸ao a e b. Incrementa-se, enao, o acumulador refer-
ente aos parˆametros (A[a, b]). Ap´os o processamento de todos os pontos, procura-se os
picos da matriz acumuladora sendo estes os indicadores de poss´ıveis linhas na imag em.
Neste trabalho, utilizamos esta transformada para dividir ag r upamentos que ao
unidos pelo D BSCAN, mas na verdade ao linhas perependiculares entre si. Neste
caso, atrav´es dos picos, somos capazes de verificar se um agrupamento cont´em a penas
2. Materiais e m
´
etodos 42
uma ou se ´e a uni˜ao de arias linhas. Sendo a uni˜ao, fazemos a separa¸ao dos pontos
com base nas suas distˆancias `as poss´ıveis retas reveladas pela transformada.
2.5.3 Defini¸ao dos vetores caracter´ısticos dos agrupamentos
Uma vez definidos os agrupamentos e sendo eles lineares, nomeamos cada cluster
por um vetor que o caracteriza. Os vetores ao definidos de forma simplificada por
um ponto origem e um ponto destino. O ponto or ig em ´e o ponto de menor x e o de
destino, o de maior x.
2.5.4 M´etrica para compara¸ao das assinaturas
Para comparar os conjuntos de vetores caracter´ısticos de um mapa (assinatura)
com os de outros utilizamos a mesma m´etrica EMD definida na se¸ao 2.4.2.2 por´em
ao inv´es de usar os pontos r eferentes aos contatos utilizamos os pontos representativos
dos vetores da assinatura.
2.6 Est rat´egia de avalia¸ao dos classificadores
utilizando curvas ROC
Nesta se¸ao, apresentamos os conceitos necess´arios para o entendimento de nossa
estrat´egia de avalia¸ao das etricas propostas.
Matrizes de confus˜ao [Kohavi, 2004] contˆem informa¸ao sobre as classes reais e
preditas dos objetos e possibilitam avaliar o desempenho de sistemas de classifica¸ao.
As curvas ROC (Receiv e r Operating Characteristics) [Fawcett, 2006] ao uma outra
forma de avalia¸ao destes sistemas. Em uma curva ROC, plotamos no eixo x a taxa
de falsos positivos e, no eixo y a taxa de verdadeiros positivos. A taxa de falsos posi-
tivos consiste no n´umero de instˆancias negativa s preditas como positivas dividido pelo
n´umero de instˆa ncias negativas, a taxa de verdadeiros positivos o n´umero de instaˆancias
positivas preditas como positivas dividido pelo n´umero de instˆancias p ositivas.
No espa¸co da curva, o ponto (0, 1) indica n´umeros de um classificador perfeito:
classifica todas as instˆancias positivas e negativas corretamente. Neste ponto a ta xa
de falsos positivos ´e 0 e a de verdadeiros positivos ´e 1. O ponto (0, 0) representa o
classificador que prediz todas as instˆancias como negativas e o ponto (1, 1), positiva s.
a o ponto (1, 0) ´e o classificador que erra todas as predi¸oes.
Em muitos casos, os classificadores possuem parˆametros que precisam ser estimados
para elevar a taxa de verdadeiros positivos (`as vezes com o custo de se elevar tamb´em a
taxa de falsos positivos) ou diminuir a taxa de falsos negativos (possivelmente reduzindo
2. Materiais e m
´
etodos 43
tamb´em a taxa de verdadeiros positivos). Cada conjunto de valores selecionados para os
parˆametros geram um ponto (taxa de falsos positivos, taxa de verdadeiros positivos)
e uma erie destes pontos ´e usada para plotar a curva ROC. Neste trabalho, o parˆametro
que precisa ser estimado ´e o valor de corte usado na decis˜ao se uma instˆancia pertence
ou ao a uma fam´ılia de prote´ınas.
Uma vantagem desta abordagem ´e que as curvas ROC ao independentes da dis-
tribui¸ao das classes e encapsulam toda a informa¸ao contida nas matrizes de confus˜ao
uma vez que a taxa de falsos negativos ´e complementar `a taxa de verdadeiros positivos
e a de verdadeiros negativos `a de falsos positivos. Estas curvas provˆem uma ferra-
menta visual para avalia¸ao do compromisso entre a identifica¸ao correta de todas as
instˆancias positivas e as instˆancias negativas incorretamente classificadas. Outra carac-
ter´ıstica muito interessante ´e que a ´area sob a curva pode ser usada como uma medida
de precis˜ao dos sistemas de classifica¸ao. Outra m´etrica de precis˜ao muito utilizada ´e
a distˆancia de um ponto ao po nto (0, 1) (representativo do classificador perfeito).
Neste trabalho, todas as medidas de precis˜ao dos classificadores com as fam´ılias
estudadas baseiam-se na ´area sob a curva ROC edia entre todas as curvas para
prote´ınas da fam´ılia.
Cap´ıtulo 3
Publica¸oes
Neste cap´ıtulo, apresentamos as publica¸oes geradas com resultados desta tese.
Uma opia dos artigos ´e apresentada no Anexo B.
3.1 An image-matching approach to protein
similarity analysis
O artigo [Fernandes-Jr. et al., 2004] ´e o primeiro trabalho integrante desta tese.
Foi apresentado em 2004 no XVII Simp´osio Brasileiro de Processamento de Imagens e
Computa¸ao Gr´afica que aconteceu em Curitiba.
Neste tra balho, apresentamos a id´eia de modelar o problema de compara¸ao estru-
tural de prote´ınas como um problema de compara¸ao entre imagens coloridas. Para
cada prote´ına, produzimos o mapa de contatos utilizando os alculos de intera¸oes ao-
covalentes do STING [Neshich et al., 2003]. Estes mapas de contatos ao compo stos
por pontes de hidrogˆenio, intera¸oes hidrof´obicas e contatos carregados atrativos.
Inicialmente, implementamos um algoritmo de processamento de imagens baseado
no paradigma de recuperao de image ns com base no conte´udo. Segundo este paradigma,
´e poss´ıvel comprimir imagens e uma base de dados preservando sua semˆantica. Para
cada imagem, uma assinatura ´e constru´ıda de forma que a base resultante indexada ´e
pesquisada de fo rma bastante eficiente. Esta compress˜ao ´e feita atrav´es da extra¸ao
de caracter´ısticas como cores, texturas e primitivas geom´etricas (linhas, segmentos,
curvas, fronteiras, jun¸oes, etc.). Na modelagem proposta, cada tipo de intera¸ao ao
covalente ´e modelada como uma cor na imagem de forma que analisamos a distribui¸ao
espacial das cores da imagem. Este algoritmo ´e denominado Correlogramo de Cores e
foi considerado bastante interessante dado o tamanho das bases de dados de estruturas
de prote´ınas existentes at ualmente.
Em seguida, implementamos outro algoritmo baseado no paradigma de registro de
44
3. Publicac¸
˜
oes 45
imagens. Ele mede qu˜ao similares duas prote´ınas ao calculando o custo de se defor-
mar os mapas de contatos de uma convertendo-a no mapa da outra. Chamamos esta
m´etrica de Raio edio de Dispers˜ao. Este par adigma ´e muito utilizado no casamento
de um mesmo objeto que sofre deforma¸oes ao-r´ıgidas em diversas imagens. Uma forte
motivao para a aplica¸ao deste id´eia ´e que prote´ınas evolu´ıram de ancestrais comuns
e a sua distˆancia filogen´etica ´e for temente correlacionada com a sua dissimilaridade
estrutural. Dessa forma tentamos modelar as altera¸oes necesarias para transformar
uma prote´ına em outra pelas deforma¸oes necesarias para ajustar um mapa de contato
a outro.
Para testar esta meto dologia utilizamos um conjunto de 28 prote´ınas de diferentes
enovelamentos entre prote´ınas α, β e αβ. Usamos como fam´ılia modelo as Mioglobinas,
coletadas de 9 diferentes esp´ecies: baleia, cavalo, elefante, tartaruga, cavalo marinho,
foca, porco, ser humano e atum. Comparando todas as prote´ınas da base com a
Mioglobina humana, verificamos que a m´etrica baseada no Correlogramo de Cores
recuperou 6 das 8 Mioglobinas (dentre a s 8 prote´ınas consideradas mais parecidas
com a query) enquanto a baseada no Raio edio de Dispers˜ao recuperou todos os
exemplares.
Este trabalho apresentou como principal resultado a possibilidade de se comparar
estruturas de prote´ınas atrav´es de seus mapas de contatos. Tivemos uma primeira
indica¸ao de que existe um padr˜ao de contatos em cadeias de prote´ınas de uma fam´ılia
e que este deve ser um importante componente da assinatura estrutural desta fam´ılia.
3.2 A contact-map matching approach to protein
structure similarity analysis
No artigo anterior [Fernandes-Jr. et al., 2004], propusemos uma modelagem baseada
em casamento de imagens para analisar a similaridade entre estruturas de prot e´ınas
atrav´es de seus mapas de contatos. Os resultados foram promissores apesar de os ex-
perimentos terem sido feitos com poucos exemplares de Mioglobinas e de pro t e´ınas de
outras fam´ılias diversas.
Neste trabalho [Melo et al., 2006], montamos uma base de dados mais apropriadas
para confirmar os resultados do artigo anterior. Selecionamos todos os monˆomeros de
prote´ınas de enovelament os diversos:
224 Globin as, as prote´ınas respons´aveis pelo transporte de oxigˆenio no sangue e
m´usculos;
13 Apo l i poprote´ınas, lipoprote´ınas compostas por um conjunto de 4 α-h´elices;
3. Publicac¸
˜
oes 46
15 Plastocianinas, pro t e´ınas transportadoras de el´etrons compostas, na maior
parte, por folhas-β;
18 Retinol-Binding Proteins (R.B.P.s), comp osta por um barril de folhas-β;
8 Tioredoxinas, compostas por uma mistura de α-h´elices e folhas-β.
Nosso objetivo foi tentar recuperar prote´ınas de cada uma destas cinco fam´ılias
misturadas a uma base de 187 outros monˆomeros selecionados do PDB.
O classificador baseado no Correlogramo de Cores apresentou precis˜o es entre 89,12%
e 98,44% enquanto o baseado no Raio M´edio de Dispers˜ao, entre 8 1,69% e 99,84%.
Al´em destas an´alises de precis˜ao na recupera¸ao de prote´ınas de uma mesma fam´ılia
dentre outras de fam´ılias diversas, analisamos a habilidade dos classificadores em or-
denar as prote´ınas da mesma fam´ılia em termos de dissimilaridade de estruturas. Alin-
hamentos estruturais entre as prote´ınas query e outras prote´ınas da fam´ılia mostraram
que os ´ındices de dissimilaridade calculados pelas m´etricas propostas possuem alta
correla¸ao com o R.M.S.D. dos alinhamentos estruturais.
Com este trabalho, mostramos que as m´etricas propostas apresentaram excelentes
resultados na recup era¸ao de prote´ınas de diversas fam´ılias e composi¸oes em termos de
estruturas secund´arias assim como na ordena¸ao de prote´ınas de mesmo enovelamento
em termos da similaridade estrutural.
3.3 Similarity-based versus feature-based analysis
of structural protein similarity
Neste manuscrito [Melo et al., 2008], introduzimos uma nova ecnica que acredi-
tamos poder elevar as precis˜oes dos nossos classificadores. A ecnica de registro de
imagens apresent ada em [Fernandes-Jr. et al., 2004] possibilita que mais de um con-
tato de um primeiro mapa seja casado com um contato do segundo mapa. Por acreditar
que isto poderia causar algum problema na medi¸ao da dissimilaridade entre o s mapas,
propusemos neste trabalho uma m´etrica baseada no Earth Mover’s Distance.
Esta etrica mo dela o primeiro mapa como um conjunto de montes de terra a ser
movido para buracos, que ao os contatos do segundo mapa. A dissimilaridade dos
mapas ´e dada pelo trabalho de se mover os montes de terra do primeiro mapa para
o segundo. O trabalho ´e medido pela distˆancia entre os pontos onde se localizar os
contatos nos dois mapas. Cada monte de terra pode ser movido para um, e somente
um, buraco. Cada buraco, por sua vez, pode receber um, e somente um, monte de terra.
Este ´e um famoso problema de o timiza¸ao que consiste em escolher quais montes ser˜ao
movidos para buraco de forma a realizar o m´ınimo de trabalho poss´ıvel.
3. Publicac¸
˜
oes 47
Para nossa surpresa, observamos que o s resultados da nova m´etrica proposta foram
pouco superiores que as da m´etrica do Raio M´edio de Dispers˜ao. De fato, para fam´ılias
mais conservadas estruturalmente, a m´etrica a nterior a tinha excelentes resultados na
recupera¸a o das Apolipoprote´ınas e R.B.P.s. Para as outras fam´ılias, conseguimos uma
melhoria com a nova m´etrica.
3.4 Mining structural signatures of proteins
Neste trabalho [Melo et al., 20 07a], apresentamos uma metodologia para busca de
assinaturas estruturais em prote´ınas baseada no padr˜ao de contatos em cada cadeia.
Utilizando t´ecnicas de minera¸ao de dados, exploramos uma base de mapas de contatos
no aspecto de localiza¸ao espacial dos contatos no intuito de evidenciar uma assinatura
estrutural que defina a fam´ılia de prote´ınas.
Nos experimentos, foram usados exemplares de Mioglobinas, Apolipoprote´ınas,
Plastocianinas, R.B.P.s e Tioredoxinas. Visualizando os mapas de contatos de prote´ınas
de uma mesma fam´ılia, verificamos que os padr˜oes de contatos apresentados por cada
fam´ılia, ao agrupamentos de contatos hidrof´obicos (os grup os ao formados por con-
tatos ao-locais) ou pontes de hidrogˆenio (os grupos ao formados por contatos locais).
Optamos assim por testar nossa abordagem com estes dois tipos de contatos inicial-
mente.
Para detectar automaticamente os agrupamentos presentes nos mapas de contatos
de nossa base, utilizamos um algoritmo de clustering baseado em densidade, o DB-
SCAN. Este algoritmo ´e capaz de tratar uma importante caracter´ıstica dos mapas de
contatos que outros algoritmos deste t ipo ao ao capazes: mapas de contatos possuem
agrupamentos de f ormato linear que ao sempre paralelos ou anti-paralelos `a diagonal
do mapa.
A inten¸ao deste trabalho foi identificar segmentos de reta representativos de cada
agrupamento de um mapa de contato e, finalmente, verificar se estes segmentos de reta
est˜ao ou ao presentes em todos os exemplares de um fa m´ılia de prote´ınas. De fato,
esta representa¸ao facilita o reconhecimento de padr˜oes relevantes. Todavia, muitos
dos agrupamentos identificados pelo DBSCAN apresentavam f orma de ”L”. Isto ocorre
sempre que dois agrupamentos se tocam. Nestes casos, o segmento de reta identificado
fica totalmente distorcido. Para solucionar este problema, usamos a transform ada de
Hought, que ajuda a identificar se um cluster encontrado pelo DBSCAN ´e realmente
um segmento de r eta ou arios.
Finalmente, obtivemos atrav´es desta metodologia assinaturas par a cada mapa de
contato. Essas assinaturas consistem de um conjunto de vetores. Estes vetores tˆem
3. Publicac¸
˜
oes 48
sempre dire¸ao paralela ou perp endicular `a diagonal do mapa e a dire¸ao foi arbitr´aria
de forma que a origem esta sempre `a esquerda e o destino `a direira.
Al´em de caracterizar cada mapa de contato com uma assinatura, propusemos uma
metodologia de classifica¸ao de estruturas baseada nestas. Fomos capazes de recuperar
Mioglobinas de um conjunto de Mioglobinas e ao-Mioglobinas com uma precis˜ao de
95%, o que mostra que cada assinatura realmente apresenta um padr˜ao para a fam´ılia.
3.5 Finding protein-protein interaction patterns
by contact map matching
Neste trabalho [Melo et al., 200 7b], apresentamos uma nova poss´ıvel aplica¸ao para
as metodolo gias desenvolvidas de compara¸ao e classifica¸ao de mapas de contatos. Ela
consiste na defini¸ao de padr˜oes de intera¸oes entre cadeias, ou seja, na interface entre
cadeias proteicas de um complexo.
Para tal, propomos um novo tipo de mapas de contatos. Neste mapa, o eixo x
representa uma cadeia e o y, a outra. Dessa forma, os mapas representam os contatos
entre 2 cadeias, ao mais sendo quadrados e sim´etricos como acontece com os mapas
de contatos tradicionais.
Para os experimentos, foram selecionadas cadeias de Serino-Proteases por serem
umas das mais estudadas prote´ınas que se apresentam complexadas com outras cadeias.
Encontramos no banco de dados SCOP essa mol´ecula complexada com 12 diferentes
tipos de inibidores. Escolhemos trabalhar com o Bovine Pan c reatic Trypsin Inhibtor
(B.P.T.I.) por ser o inibidor com mais exemplares no PDB. As Serino-Proteases que
encontramos complexadas com o B.P.T.I foram Tripsinas, Quimotripsinas, Trombinas,
Matriptases e Kalikre´ınas.
Utilizamos o algoritmo de compara¸ao entre mapas de contatos para gerar os´ındices
de dissimilaridade entre as mol´eculas e posteriormente utilizamos os ´ındices para gerar
uma ´arvore na qual cada complexo Serino-Protease - B.P.T.I. ´e ligado ao complexo
mais parecido em termos de contatos de interface. Verificamos que os complexos com
o mesmo tipo de Serino-Protease tenderam a se agrupar, conforme esperado, o que nos
a ind´ıcios de que a metodologia utilizada para classificar cadeias tamb´em pode ser
utilizada com sucesso para classificar mapas de intera¸ao prote´ına-prote´ına.
Adicionalment e, neste t rabalho propusemos uma nova utiliza¸ao para o algor itmo
baseado no Earth Mover’s Distance: fazer o alinhamento dos mapas de contatos. A
id´eia consiste em considerar como alinhados os contatos que forem casados pelo al-
goritmo de otimiza¸ao. Verificamos que os alinhamentos foram corretos e obtivemos
contatos conservados em todos os complexos. O algoritmo fo i capaz de identificar
3. Publicac¸
˜
oes 49
contatos conservados entre res´ıduos bem descritos na literatura por estarem no s´ıtio
catal´ıtico da prote´ına ou no trecho conhecido como oxianion hole”.
3.6 The STAR sting server: a multiplatform
environment for protein structure analysis
Finalmente, a presentamos o artigo da vers˜ao STAR do pacote de programas de
an´alise estrutural de prot e´ınas Sting [Neshich et al., 2006b]. Alguns dos resultados
desta tese foram incorporados `a esta vers˜ao do programa na forma dos odulos: P.C.D.,
TopSiMap e Topologs.
O Protein Contacts Difference (P.C.D.) ´e um odulo que of erece um relat´orio
comparativo entre os contatos de duas cadeias proteicas. Ele apresenta os contatos
conservados, novos e extintos de uma cadeia para outra. Atrav´es de seu o digo de
cores, ´e poss´ıvel identificar os tipos de contatos.
´
E uma ferramenta muito ´util na
an´alise dos contatos conservado s e modificados no caso de muta¸oes na seq¨uˆencia de
res´ıduos, apresentando no relat´orio a distˆancia tridimensional dos contatos ao res´ıduos
mutantes.
O TopSiMap (Topological Similarity Map) ´e uma ferramenta de a n´alise compara-
tiva entre a t opologia de prote´ınas atrav´es de mapas de contatos. Neste programa,
´e poss´ıvel ver duas cadeias proteicas alinhadas bem como comparar seus mapas de
contatos que podem ser visualizados de forma interativa. O usu´ario pode selecionar
apenas os contatos preservados entre dois mapas, os contatos que existem em apenas
um dos mapas, fazer uma filtragem por contatos de cada tipo, por contatos com o in-
term´edio de mol´eculas de ´agua, podem aproximar o mapa e pode visualizar os contatos
selecionados na estrutura da prote´ına atrav´es do plug-in JMol ou Chime.
O Topologs ASTRAL 40 ´e um banco de dados de classifica¸ao estrutural de prot e´ınas
com base em seus padr˜oes de contatos. O subconjunto do PDB apresentado no banco de
dados ASTRAL 40 teve seus mapas de contatos computados e processados pelos nossos
algoritmos de compara¸ao de mapas de contatos. Isto torna poss´ıvel, para cada cadeia
desta base, selecionar as 100 cadeias de mapas de contatos mais parecidos. Al´em disto,
´e poss´ıvel verificar os alinhamentos estruturais assim como analisar interativamente os
mapas de contatos entre uma cadeia e as 100 mais similares.
Estes sistemas foram implementados utilizando perl para os scripts de tratamento
de dados de coordenadas atˆomicas provenientes do e Java e jsp para a implementa
˜
A§˜ao
do servidor web.
Cap´ıtulo 4
Resultados e discuss˜oes
4.1 Calib r a¸ao dos cl ass i ficadores
Dois dos classificadores propostos neste t r abalho (Correlogramo de cores e Earth
movers distance) ao param´etricos. Por esse motivo, utilizamos a base de Mioglobinas
para calibrar estes classificadores, ou seja, obter o melhor valor aproximado para estes
parˆametros.
4.1.1 Correlogramo de cores
O parˆametro a ser calibrado no Correlogramo de cores ´e a distˆancia d. Este ´e o
valor aximo de distˆancia entre dois contatos do mesmo tipo que ter˜ao a sua freq¨uˆencia
computada no vetor a ssinatura. Na Figura 4.1, plotamos as curvas ROC para 5 d
100. A precis˜ao de cada configura¸ao ´e especificada no gr´afico.
Observamos que a precis˜ao do classificador cresce a medida que o valor d aumenta.
Isto a era esperado uma vez que quanto maior o raio de varredura mais informa¸ao
acrescenta mos ao classificador sob pena de aumentar o tempo de execu¸ao, obviamente.
Como, por defini¸ao d n, continuamos aumentando o valor do raio at´e 2 00 que ´e o
maior tamanho de cadeia da nossa base de mapas de contatos. Apresentamos na Figura
4.2 a precis˜ao dos classificadores com o aumento do valor d. Observe que enquanto d
100, a precis˜ao ´e crescente (sendo a ta xa de crescimento dessa precis˜ao descrescente).
Para d > 100, ao verificamos aumento expressivo da precis˜ao. Portanto, o pta mos por
utilizar d = 100 em todos os experimentos deste trabalho.
4.1.2 Earth mover’s distance
A m´etrica EMD possui o parˆametro de entrada d
max
. Todas as vezes que compara-
mos dois mapas de contatos que tem n´umeros de contatos de um mesmo tipo diferentes,
50
4. Resultados e discuss
˜
oes 51
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Taxa de verdadeiros positivos
Taxa de falsos positivos
d=005
d=010
d=015
d=020
d=025
d=030
d=035
d=040
d=045
d=050
d=055
d=060
d=065
d=070
d=075
d=080
d=085
d=090
d=095
d=100
Figura 4.1: Curvas ROC do Correlogramo de cores com a varia¸ao do parˆametro de
raio aximo de varredura d.
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
0
20
40
60
80
100
120
140
160
180
200
Precisao
Parametro d
Figura 4.2: Varia¸ao da precis˜ao do classificador baseado no CC com o aumento do
parˆametro d.
4. Resultados e discuss
˜
oes 52
a penalidade d
max
ser´a somada ao custo de transformar um mapa no outro, ou seja, `a
dissimilaridade entre os mapas. Este valor foi calibrado, de forma idˆentica ao procedi-
mento aplicado para calibrar o par ˆametro da etrica a nterior, atrav´es de curvas ROC.
Apresentamos na Figura 4.3 a varia¸ao da precis˜ao deste classificador com o aumento
do parˆametro d
max
. O ponto d
max
= 35 ´e o ponto onde obtemos maior precis˜ao na
classifica¸ao .
0.945
0.95
0.955
0.96
0.965
0.97
0.975
0 10 20 30 40 50 60 70 80
Precisao
Parametro dmax
Figura 4.3 : Varia¸ao da precis˜ao do classificador baseado na etrica com o aumento
do parˆametro d
max
.
4.2 An´alise dos atributos dos contatos usados n a
classifica¸ao
4.2.1 Tipos d e contatos
Mostramos que ´e poss´ıvel classificar estruturas de prote´ınas atrav´es dos padr˜oes de
intera¸oes hidrof´obicas, pontes de hidrogˆenio (sem ´agua) e contatos carregados atra-
tivos. Posteriormente, decidimos verificar se os trˆes tipos de contatos eram igualmente
conservados e portanto importantes como atributos para classifica¸ao estrutural de
cadeias prot´eicas. Tentamos, enao recuperar Mioglobinas dentre as prote´ınas de en-
ovelamentos variados utilizando-nos separadamente de cada um dos t rˆes tipos iniciais
trabalhados (contatos hidrof´obicos, pontes de hidrogˆenio sem ´agua e contatos carrega-
dos atr ativos). Confor me podemos ver na Figura 4.4, a precis˜ao foi maior utilizando
apenas pontes de hidrogˆenio (99,17%) ou contatos hidrof´obicos (98,80%) do que com
a configura¸ao com os trˆes tipos de contatos da configura¸a o propo sta inicialmente. A
classifica¸ao teve sua precis˜ao reduzida em 19,5%, em compara¸ao com a configura¸a o
inicial, quando utilizamos apenas os contatos carregados atrativos. Portanto, este tipo
4. Resultados e discuss
˜
oes 53
de intera¸ao mostra-se menos conservado que as intera¸oes hidrof´obicas e pontes de
hidrogˆenio, em Mioglobinas.
1
0.8
0.6
Carregados atrativos
tres tipos iniciais
Hidrofobicos
Pontes de H sem agua
Precisao
Figura 4.4: An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a etrica CC com a configura¸ao inicial e com os contatos hidrof´obicos, pontes de
hidrogˆenio (sem mol´eculas de ´agua) e contatos carregados atrativos separadamente.
Posteriorment e, a dicionamos os outros tipos de intera¸oes: carregados repulsivos,
empilhamentos arom´at icos e pontes dissulfeto. A Figura 4.5 mostra que os resultados
com estes tipos de intera¸oes alcan¸caram precis˜oes abaixo das obtidas pelos tipos de
contatos iniciais. Uma observao importante ´e a baix´ıssima precis˜ao da s pontes dis-
sulfeto. Este tipo de intera¸ao ´e inexistente em Globinas de forma que a o pode ser
utilizado para r ecupera¸ao de cadeias dessas prote´ınas. O que ocorre neste caso ´e que
toda cadeia que ao possua ponte dissulfeto, e com qualquer enovelamento, ´e consid-
erada idˆentica a uma Globina. As precis˜oes obtidas fo r am 93,56%, 69,92% e 33,69%
com empilhamentos arom´aticos, contatos carregados repulsivos e pontes dissulfeto, re-
spectivamente.
Em rela¸ao `as pontes de hidrogˆenio, sabemos que estas possuem diferentes pap´eis na
estrutura¸ao das prote´ınas. Pontes de hidrogˆenio em papel fundamental na forma¸ao
das estruturas secund´arias. Nas α-h´elices, por exemplo, ´atomos da cadeia principal
de r es´ıduos i compartilham hidrogˆenios com ´atomos da cadeia principal de res´ıduos
i + 4. Folhas-β tamb´em ao f ormadas com pontes de hidrogˆenio entre res´ıduos dis-
tantes na seq¨uˆencia. O STING computa pontes de hidrogˆenio e as dispo nibiliza aos
seus usu´arios separadamente de acordo com os ´atomos que participam da intera¸ao: se
ao ´a t omos da cadeia principal o u da cadeia lateral. Nos experimentos discutidos at´e o
momento utilizamos as pontes de hidrogˆenio indistintamente, ou seja, tratamos pontes
de hidrogˆeno entre ´atomos da cadeia principal (MC-MC), ´atomo da cadeia principal
e ´atomo da cadeia lateral (MC-SC) e ´atomos das cadeias laterais (SC-SC) como se
fossem o mesmo tipo de intera¸ao. A Figura 4.6 mostra o que acontece com a precis˜ao
4. Resultados e discuss
˜
oes 54
1
0.8
0.6
0.4
Pontes dissulfeto
Carregados repulsivos
Carregados atrativos
Aromaticos
Hidrofobicos
Pontes de H sem agua
Precisao
Figura 4.5: An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com pontes de hidrogˆenio (sem mol´eculas de ´agua), contatos hidrof´obicos,
contatos carregados atrativos e repulsivos, empilhamentos arom´aticos e pontes dis-
sulfeto.
dos classificadores se separamos as pontes de hidrogˆenios em diferentes qualidades e
as tratamos como se fossem diferentes atributos. Neste gr´afico podemos observar que
a melhor configura¸ao para as pontes de hidrogˆenio ´e quando as consideramos indis-
tintamente. Isto indica que este tipo de contato ´e altamente conservado espacialmente
em prote´ınas mas ao ´e muito espec´ıfico em termos de localiza¸ao atˆomica. Isto ´e, dois
res´ıduos podem fazer pontes de hidrogˆenio ent r e diferentes ´atomos (sendo eles de cadeia
principal ou lateral) e esta varia¸ao da localica¸ao atˆomica ao parece ser a o relevante
para estrutura¸ao da prote´ına. Observamos tamb´em que as pontes envolvendo ´atomos
da cadeia principal ao bem mais conservados que aqueles envolvendo ´atomos da cadeia
lateral. Possivelmente isto ´e explicado pelo f ato de a cadeia principal ter bem menos
graus de liberdade que a cadeia lateral.
1
0.9
0.8
0.7
CL-CL sem agua
CP-CL sem agua
CP-CP sem agua
Todas sem agua separadas
Todas sem agua
Precisao
Figura 4.6: An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com diferenres tratamentos de po ntes de hidrogˆenio.
4. Resultados e discuss
˜
oes 55
Finalmente, calculamos a precis˜ao do classificador utilizando pontes de hidrogˆenio
com interm´edio de uma mol´ecula de ´agua, conforme pode ser verificado na Figura
4.7. Observamos que a precis˜ao caiu em 24,48%. Isto mostra que provavelmente as
mol´eculas de ´agua aprisionadas nos cristais de prote´ınas ao ao muito conservadas na
fam´ılia das Globinas.
1
0.9
0.8
0.7
Com agua
Sem agua
Precisao
Figura 4.7: An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com pontes de hidrogˆenio com e sem interm´edio de mol´eculas de ´agua.
Finalmente, apresentamos na F ig ura 4.8 as precis˜oes da classifica¸a o de Mioglobinas
com todas as varia¸oes nos tipos de contatos.
1
0.8
0.6
0.4
Pontes dissulfeto
Carregados repulsivos
Pontes de H sem agua (CL-CL)
Pontes de H com agua
Carregados atrativos
Pontes de H sem agua (CP-CL)
Aromaticos
tres tipos iniciais
Pontes de H sem agua (CP-CP)
Pontes de H separadas sem agua
Hidrofobicos
Pontes de H sem agua
Precisao
Figura 4.8: An´alise comparativa da precis˜ao da classifica¸ao de Mioglobinas utilizando
a m´etrica CC com todas as varia¸oes de tipos de contatos.
Em rela¸ao aos contatos hidrof´obicos, utilizamos primeiramente o valor de corte
4. Resultados e discuss
˜
oes 56
padr˜ao sugerido pelo STING. Posteriormente, verificamos que este valor ao possibili-
tava a sele¸ao de todos os contatos hidrof´obicos [Silveira et al., 2008]. Como pode ser
observado na Figura 4.9, o valor de corte para defini¸ao de contatos hidrof´obicos que
maximiza a precis˜ao da classifica¸ao ´e em torno de 7
˚
A.
0
0.2
0.4
0.6
0.8
1
2 4 6 8 10 12 14 16 18 20
Precisao
Valor de corte para contatos hidrofobicos (Angs.)
Mioglobinas
Globinas
Apolipoproteinas
Plastocianina
RBPs
Tioredoxinas
Figura 4.9: Varia¸ao da precis˜ao da classifica¸ao utilizando intera¸oes hidrof´obicas com
a varia¸a o do valor de corte para defini¸ao dos contatos hidrof´obicos.
4.2.2 Elimina¸ao dos contatos de c urta distˆancia seq¨uencial
A Figura 4.10(a) mostra um histograma no qual apresentamos as freq¨uencias das
distˆancias seq¨uenciais entre res´ıduos que fazem qualquer tipo de contato em todas as
cadeias presentes no PDB. Em (b), exibimos os mesmos dados, por´em para valores
de distˆancia seq¨uencial menor que 10 0 res´ıduos. Observe que a grande maioria dos
contatos ao locais, ou seja, ocorrem entre res´ıduos com 10 ou menos res´ıduos de sep-
ara¸ao na cadeia polipept´ıdica. Verificamos neste experimento a varia¸ao da precis˜ao
com a elimina¸ao de contatos pr´oximos seq¨uencialmente. Observamos na Figura 4.11
que quando desconsideramos estes contatos a precis˜ao decresce progressivamente o que
indica que os contatos locais ao conservados e, portanto, importantes na defini¸ao do
enovelamento e da assinatura estrutural de fam´ılias de prote´ınas.
4.2.3 Elimina¸ao dos contatos com res´ıduos pouco
conectados
Um res´ıduo de amino´acido pode fazer intera¸oes qu´ımicas ao covalentes com arios
outros res´ıduos da cadeia. Verificamos neste exp erimento se res´ıduos muito conectados
ao mais conservados que res´ıduos pouco conectados. A Figura 4.12 mostra a freq ¨uencia
do n´umero de contatos por res´ıduo em todo o PDB. A grande maioria dos res´ıduos faz
contatos com menos de 5 outros res´ıduos.
4. Resultados e discuss
˜
oes 57
(a)
0
10000
20000
30000
40000
50000
0 200 400 600 800 1000
Frequencia
Distancia Sequencial dos Residuos em Contato
(b)
0
100000
200000
300000
400000
500000
600000
700000
800000
0 10 20 30 40 50 60 70 80 90 100
Frequencia
Distancia Sequencial dos Residuos em Contato
Figura 4.10 : Freq¨encia dos valores de distˆancia seq¨uencial de res´ıduos em contato em
todo o PDB.
0.86
0.88
0.9
0.92
0.94
0.96
0.98
1
5 10 15 20 25 30 35 40 45 50
Precisao
Distancia de contatos a serem eliminados
Mioglobinas
Figura 4.11: Varia¸ao da precis˜ao com a elimina¸ao de contatos pr´o ximos seq¨uencial-
mente.
Na Figura 4.13, constatamos que mesmo os contatos entre res´ıduos pouco conecta-
dos parecem ser importantes na defini¸ao do enovelamento de uma prote´ına e que, a o
considerar apenas contatos entre res´ıduos que atuam como hubs em prote´ınas, estamos
perdendo info rma¸ao. Portanto, neste trabalho, ao detectamos conservao suficiente
para classificar prote´ınas apenas usando res´ıduos muito conectados.
4.3 Resu l tados finais com a melhor configu r a¸ao
dos sistemas de classifi cao
Os melhores resultados obtidos foram com a utiliza¸ao de contatos hidrof´obicos
e pontes de hidrogˆenio. Os contatos hidrof´obicos mostraram-se mais conservados no
valor de corte 7
˚
A. a com as pontes de hidrogˆenio, verificamos que a um aumento
na precis˜ao quando consideramos indistintamente contatos de cadeia principal e lat-
eral e sem interm´edio de mol´eculas de ´agua. Testamos o classificador com Globinas e
4. Resultados e discuss
˜
oes 58
0
500000
1e+06
1.5e+06
2e+06
2.5e+06
3e+06
3.5e+06
4e+06
0 5 10 15 20 25 30
Frequencia
Numero de Contatos dos Residuos
Figura 4.1 2: Freq¨uencia dos n´umeros de contatos de um res´ıduo com outros res´ıduos
em todo o PDB.
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 2 4 6 8 10 12 14 16
Precisao
Densidade de contatos para eleminacao de residuos
Mioglobinas
Figura 4.13: Varia¸ao da precis˜ao com a elimina¸ao de contatos com res´ıduos que fazem
contatos com po ucos res´ıduos.
Mioglobinas al´em de outras fam´ılias de tamanhos parecidos mas enovelamentos bas-
tante variados: Apolipoprote´ınas, Plastocianincas, RBPs e Tioredoxinas. Para todas
as fam´ılias obtivemos uma precis˜ao edia de 94,04% com contatos hidrof´obicos e de
97,89% com as pontes de hidrogˆenio. A menor preci˜ao obtida foi de 79,10% na recu-
pera¸ao de RBPs por contatos hidrof´obicos e a maior foi de 99,20% na recupera¸ao de
Plastocianinas utilizando pontes de hidrogˆenio.
4.4 Contribui¸oes deste trabalho no software
STING
Nesta subse¸ao, mostramos alguns softwares que foram desenvolvidos com r esulta-
dos desta pesquisa em parceria com o Dr. Gora n Neshich, do CNPTIA/EMBRAPA de
4. Resultados e discuss
˜
oes 59
0.5
0.6
0.7
0.8
0.9
1
Hidrofobicos
Pontes de H sem agua
Hidrofobicos
Pontes de H sem agua
Hidrofobicos
Pontes de H sem agua
Hidrofobicos
Pontes de H sem agua
Hidrofobicos
Pontes de H sem agua
Hidrofobicos
Pontes de H sem agua
Precisao
Globinas
Mioglobinas
Apolipoporoteinas
Plastocianinas
RBPs
Tioredoxinas
Figura 4.14: Precis˜ao dos classificadores com a melhor configura¸a o utilizando contatos
hidrof´obicos e pontes de hidrogˆenio sem ´agua para variadas fam´ılias de prote´ınas.
Campinas, co-orientador deste trabalho. Eles est˜ao hoje incorporados ao pacote Blue
Star STING [Neshich et al., 2006a].
4.4.1 PCD
No PCD ou Protein Contacts Difference os usu´arios obtˆem um relat´orio completo
comparativo das intera¸oes intra-cadeia para quaisquer duas cadeias no formato PDB.
O programa retorna uma lista de intera¸oes que foram preservadas nas duas cadeias
assim como uma lista daquelas que constam em apenas uma delas. O sistema tamb´em
possibilita a compara¸ao de uma cadeia selvagem e sua mutante simples analisando os
contatos alterados e sua distˆancia em rela¸ao ao res´ıduo mutado.
4.4.2 TopSiMap
O TopSiMap ´e um odulo que tamb´em possibilita a compara¸ao entre os contatos
de duas cadeias PD B. Ele plota as figuras dos mapas de contatos de cada cadeia e ´e
bastante interativo possibilitando a sele¸ao de tipos de contatos, varia¸ao das distˆancias
dos contatos e sele¸ao daqueles que ao preservados ou ao. Este odulo tamb´em pos-
sibilita a visualiza¸ao dos contatos selecionados nas duas mol´eculas alinhadas atrav´es
do plugin chime ou JMol. Existe tamb´em um relat´orio das energias envolvidas nos
contatos.
4. Resultados e discuss
˜
oes 60
Figura 4.15 : Relat´orio da diferen¸ca de contatos entre duas cadeias do odulo PCD do
STING.
4.4.3 Topologs ASTRAL 40
´
E um banco de dados de cadeias PD Bs hom´ologas com base nas intera¸oes intra-
cadeia. Para todo o ASTRAL 40, computamos uma lista das cadeias mais parecidas
com base em seus mapas de contatos. O banco pode ser consultado por cadeia es-
pec´ıfica, mas tamb´em possibilitamos a navega¸ao pela lista de todas as 4.911 cadeias
representa tivas do PDB (Figura 4.20).
4. Resultados e discuss
˜
oes 61
(a)
(b) (c)
Figura 4.16: Interface do odulo TopSiMap do STING. (a) Telas de alinhamento de
seq¨uˆencia e de estruturas e mapa de contatos preservados nas duas cadeias comparadas.
(b) Contatos presentes apenas na primeira cadeia. (c) Contatos presentes apenas na
segunda cadeia.
4.5 Sistema de compara¸ao de mapas de contatos
dispon´ıvel na internet
Projetamos e implementamos um banco de dados relacional utilizando o MySQL
para armazenar todos os resultados do s experimentos. Al´em disto, para fa cilitar e
publicar os resultados deste projeto, modelamos e implement amos com o uso de jsp
um web site
(bioinfo.speed.dcc.ufmg.br/3dbio/raquelcm) com os resultados dos experimentos apre-
sentados nesta tese.
Neste site, a t ualmente ´e poss´ıvel visualizar os resultados das bases utilizadas nesta
tese, mas pretendemos englobar todo o PDB. O usu´ario pode, depois de selecionar
uma das bases de dados, buscar por prote´ınas de mapas de contatos semelhantes `a
uma cadeia de consulta.
´
E poss´ıvel visualizar as estruturas e comparar os mapas de
contatos.
4. Resultados e discuss
˜
oes 62
(a)
(b)
(c) (d) (e)
Figura 4.17: Banco de dados Topo lo gs do STING. (a) Tela de ids PDB de cerca de
4.000 cadeias do ASTRAL 40. (b) Lista de hom´ologos da cadeia com base nos contatos
com links para an´alise comparativa das seq¨uˆencias, estruturas e mapas de contatos.
ao exibidas as 100 cadeias mais parecidas dentre as cerca de 4.000 da base. (c), ( d)
e (e) Primeira, d´ecima e vig´esima estruturas mais parecidas com a miog l obina usada
no exemplo.
4. Resultados e discuss
˜
oes 63
Figura 4.18: Web site com os resultados deste trabalho. Tela de visualiza¸ao de base
de dados.
Nesta tela, os usu´arios podem visualizar as cadeias de prote´ınas de cada uma das cinco
fam´ılias que fizeram parte dos nossos experimentos. Cada cadeia possui um link que leva ao
rank de todas as prote´ınas da base ordenadas pela dissimilaridade entre os seus mapas de
contatos.
4. Resultados e discuss
˜
oes 64
Figura 4.19: Web site com os resultados deste trabalho. Tela de visualiza¸ao de ra nk
de cadeias ordenadas po r similaridade em rela¸ao `a uma cadeia consultada.
Uma vez s elecionada a cadeia da base de d ados, o usu´ario pode visualizar nesta tela o rank
de todas as prote´ınas da base experimental ordenadas pela dissimilaridade entre os seus
mapas de contatos. Nesta tela, cada cadeia possui um link que leva a visualiza¸ao da cadeia
da consulta e a cadeia selecionada do rank.
´
E poss´ıvel ver os detalhes sobre cada cadeia,
visualizar e interagir com as estruturas, al´em das figuras dos m ap as de contatos.
4. Resultados e discuss
˜
oes 65
Figura 4.20: Web site com os resultados deste trabalho. Tela de visualiza¸ao dos
detalhes e compara¸ao entre cadeia da consulta e cadeia do rank.
Uma vez feita uma consulta e tendo-se selecionado um a cadeia d o rank, o usu´ario pode
visualizar nesta tela a cadeia da consu lta e a cadeia selecionada.
´
E poss´ıvel ver os detalhes
sobre a cadeia, visualizar e interagir com a estrutura atrav´es de um plug-in do software JMol
mais a aquina Virtual Java, al´em dos mapas de contatos.
Cap´ıtulo 5
Conclus˜oes
Neste trabalho, modelamos o problema de comparar estruturalmente duas cadeias
proteicas como o problema de compara¸ao entre seus mapas de contatos.
Inicialmente, propusemos uma metodologia de compara¸ao estrutural de prote´ınas
baseada em ecnicas de processamento digital de imagens. Propusemos uma m´etrica
baseada no paradigma de recupera¸ao de imagens com base no conte´udo, usando como
carater´ıstica principal da imagem a distribui¸ao de contatos (modelados como cores de
acordo com a natureza da intera¸ao qu´ımica) no espa¸co. Comparamos esta abordag em
com outras m´etricas baseadas no registro de imagens. A primeira delas foi denominada
raio m´edio de dispers˜ao, por computar a m´edia dos custos de se deslocar os contatos
de um mapa pa ra ser transformado em outro. A outra foi baseada no earth mover’s
distance e foi resolvida com base no famoso problema do transporte. Todas estas
m´etricas propostas mostraram excelentes resultados na recupera¸ao de prote´ınas de 5
fam´ılias testadas (Globinas, Apolipoprote´ınas, Plastocianinas, R.B.P.s e Tioredoxinas)
misturadas a prote´ınas de topologias diversas.
Com isto, mostramos ser os mapas de contatos bastante conservados em cada fam´ılia
de prote´ınas o que serve de ind´ıcio de que o padr˜a o de contatos em uma cadeia proteica
deve ser um importante componente da assinatura estrutural de cada fa m´ılia.
Propusemos enao uma metodologia baseada em algoritmos de agrupamento com
base na densidade dos pontos (DBSCAN) para obter automaticamente os gr upos de
contatos de cada mapa e caracterizar cada grupo como um vetor. Posteriormente,
utilizamos um modelo de otimiza¸ao para casar os vetores de dois mapas de contatos
e contabilizar a dissimilaridade entre eles. Mostramos que, utilizando os contatos
hidrof´obicos e pontes de hidrogˆenio (tipos de contatos mais freq¨uˆentes e os ´unicos que
formam clusters nos mapas), fomos capazes de definir um padr˜ao de vetores represen-
tativos da fam´ılia Globina. Mostramos, inclusive que este padr˜ao pode ser usado para
recupera¸a o de Globinas misturadas a prote´ınas de enovelamentos diversos com alta
66
5. Conclus
˜
oes 67
precis˜ao.
Finalmente, constru´ımos e disponibilizamos uma ferramenta na internet que possi-
bilita a consulta a arias bases de cadeias de prote´ınas e a visualiza¸ao de compara¸ao
de estruturas de pro t e´ınas e seus mapas de contatos.
Como um trabalho a parte, mostramos o potencial dos algoritmos desenvolvidos
na identifica¸ao de padr˜oes de contatos entre interfaces de cadeias de complexos de
prote´ınas. Mostramos que o alg oritmo foi capaz de identificar diferentes padr˜oes de
intera¸oes entre diversas sub-fam´ılias de Serino-Proteases ( Tripsinas, Q uimotripsinas,
Trombinas, Matriptases e Kalikre´ınas) e seu inibidor BPTI.
5.1 Perspectivas
Nesta se¸ao levantamos algumas quest˜oes sobre o futuro dos trabalhos desenvolvidos
nesta tese. Primeiramente, discutimos itens que gostar´ıamos de ter implementado e
ao foi poss´ıvel principalmente por quest˜oes de tempo. A seguir, ser˜ao apresentados
poss´ıveis rumos para o trabalho.
A primeira quest˜ao relaciona-se com a calibra¸ao de do is dos nossos classificadores.
Utilizamos a base de Mioglobinas misturadas a outras prot e´ınas de enovelamentos
variados no processo de calibra¸ao, ou seja, defini¸ao dos valores de parˆametros que
maximiza a precis˜ao dos classificadores. Conforme explicado na Se¸ao 4.1, utilizamos o
SCOP como banco de dados padr˜ao ouro, ou seja, ele nos fornece a classifica¸ao correta
para cada cadeia proteica. Com base nesta classifica¸ao correta, calculamos a precis˜ao
dos classificadores propostos com diversas configura¸oes de parˆametros de entrada e
escolhemos o valor de parˆametro que maximiza a preci˜ao do sistema de classifica¸ao.
Um poss´ıvel vi´es na escolha deste parˆametro ´e que ele foi selecionado com base em
apenas uma fam´ılia de prote´ınas. Gostar´ıamos de repetir estes experimentos com
fam´ılias variadas e estudar a influˆencia da fam´ılia no valor ´otimo deste parˆametro. O
intuito de tais estudos seria o de entender melhor os parˆametros definindo se existe ou
ao um parˆametro ´unico que possa ser utilizado para todas as fam´ılias ou se existe um
valor espec´ıfico para cada fam´ılia.
Outro item que go star´ıa mos de t er implementado neste trabalho ´e uma an´alise
comparativa e criteriosa entre a nossa metodologia e outras propostas na literatura. O
principal problema que enfrentamos foi conseguir programas de uso aberto para que
pud´essemos fazer os testes com as mesmas bases de dados que apresentamos. A maioria
dos autores ao disponibiliza o software e apresenta os resultados em ba ses espec´ıficas
e pr´e-computadas em interfaces web. Nesses casos, ´e bastante complicado conseguir
dados em larga escala e de forma autom´atica para nossa an´alise comparativa. Acred-
5. Conclus
˜
oes 68
itamos que para esta an´alise seria necess´ario eleger algumas das metodologias mais
interessantes e tentar conseguir os softwares dos autores ou, no pior caso, r eimple-
mena-los.
Uma meta tamb´em muito importante e que ainda ao conseguimos finalizar foi o
omputo das nossas etricas para todo o PDB. Isto ao foi poss´ıvel devido a restri¸oes
de recursos computacionals principalmente, apesar de nossos algoritmos ao terem
alta complexidade computacional e volume de dados a processar ´e bastante grande. O
algoritmo de maior complexidade ´e O(n
3
) onde n ´e o n´umeros de contatos. Para uma
globina de cerca de 150 res´ıduos, usando o valor de corte de 7
˚
A o btemos cerca de 300
contatos hidrof´obicos. Assim a compara¸ao entre duas globinas teria que fa zer alculos
proporcionais a 300
3
. Imagine como seria a compara¸ao a n´ıvel de todo o PDB. Seriam
necess´arias [k (k 1)]/2 3.2 00.000.000 compara¸oes onde k ´e o n´umero de cadeias
do PDB. Mesmo uma compara¸ao a n´ıvel de ASTRAL 40 (um sub conjunto do PDB no
qual ao existem cadeias com mais de 40% de similaridade) seria bastante demorada.
Estamos fazendo estes alculos do intuito de disponibilizar estes resultados em nosso
servidor web. Uma das maiores dificuldades que estamos encontrando ´e que existe um
pequeno n´umero de cadeias muito gra ndes e estas cadeias ao extremamente demoradas
tanto de se calcular os contatos quanto de serem comparadas com cada uma das outras
milhares de cadeias do PDB.
Dando continuidade ao tema de estudo desta pesquisa, gostar´ıa mos de nos apro-
fundar na elucida¸ao de assinaturas estruturais com base em contatos preservados.
Neste tra balho, provamos ser poss´ıvel classificar fam´ılias de prote´ınas com base ape-
nas na localiza¸ao espacial dos contatos. Mostramos ainda que existem agrupamen-
tos de contatos conservados na fam´ılia de globinas e que devem ser uma componente
importante de sua assinatura estrutural, ou seja, ao um conjunto de caracter´ısticas
respons´aveis pela estrutura e fun¸ao da fam´ılia. Gostar´ıamos de definir os contatos
preservados de forma mais precisa identificando os contatos que se preservam ou os
contatos que, mesmo ao preservados, sejam equivalentes em prote´ınas de mesma es-
trutura e seq¨uˆencias diversas. Estamos iniciando nossos trabalhos nesta ´area atrav´es
da modelagem de prote´ınas como g r afos e de algoritmos de isomorfismo de subgrafos.
Apˆendice A
Seq¨uˆencias das Prote´ınas Usadas
nos Experimentos
A.1 Globinas
1FAW B VHWSAEEKQLITGLWGKVN VADCGA 25
1HBR
B VHWTAEEKQLITGLWGKVN VAECGA 25
1WMU B VHWTSEEKQYITSLWAKVN VGEVGG 25
1A9W
E VHFTAEEKAAVTSLWSKMN VEEAGG 25
1IRD
B VHLTPEEKSAVTALWGKVN VDEVGG 25
2PGH B VHLSAEEKEAVLGLWGKVN VDEVGG 25
1G08
B MLTAEEKAAVTAFWGKVK VDEVGG 24
1JEB B VHLTDAEKAAVSGLWGKVN ADEVGG 25
1S5X
B VEWTDKERSIISDIFSHMD YDDIGP 25
1XQ5
B VVWTDFERATIADIFSKLD YEAVGG 25
1SPG B VDWTDAERAAIKALWGKID VGEIGP 25
1GCV
B VHWTQEERDEISKTFQGTD MKTVVT 25
1CG5 B VKLSEDQEHYIKGVWKDVD HKQITA 25
1CG5
A VLSSQNKKAIEELGNLIKANAEAWGA 26
1GCV
A AFTACEKQTIGKIAQVLAKSPEAYGA 26
1G08 A VLSAADKGNVKAAWGKVGGHAAEYGA 26
1IRD
A VLSPADKTNVKAAWGKVGAHAGEYGA 26
1FAW A VLSAADKTNVKGVFSKIGGHAEEYGA 26
1JEB
A SLTKTERTIIVSMWAKISTQADTIGT 26
1HBR
A MLTAEDKKLIQQAWEKAASHQEEFGA 26
1WMU
A MLTEDDKQLIQHVWEKVLEHQEDFGA 26
69
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 70
1S5X A SLSDKDKAAVRALWSKIGKSADAIGN 26
1XQ5 A SLSSKDKDTVKALWGKIADKAEEIGS 26
1MWC
A GLSDGEWQLVLNVWGKVEADVAGHGQ 26
2MM1
A GLSDGEWQLVLNVWGKVEADIPGHGQ 26
1GJN A GLSDGEWQQVLNVWGKVEADIAGHGQ 26
1EMY
A GLSDGEWELVLKTWGKVEADIPGHGE 26
1BZ6 A VLSEGEWQLVLHVWAKVEADVAGHGQ 26
1LHT
A GLSDDEWNHVLGIWAKVEPDLSAHGQ 26
1MYT
A ADFDAVLKCWGPVEADYTTMGG 22
1OJ6 A MERPEPELIRQSWRAVSRSPLEHGT 25
1Q1F
A MERPESELIRQSWRVVSRSPLEHGT 25
1HBG A GLSAAQRQVIAATWKDIAGADNGAGVGK 28
1JL7
A GLSAAQRQVVASTWKDIAGADNGAGVGK 28
3SDH
A PSVYDAAAQLTADVKKDLRDSWKVIGSDKKGNGV 34
5HBI A PSVYDAAAQLTADVKKDLRDSWKVIGSDKKGNGV 34
1DLW
A SLFEQLGG QAAVQAVT 16
1UVY A SLFEQLGG QAAVQAVT 16
1DLY
A MMRTVQLRTLRPCIRAQQQPVRPSTSATAAAATAPAPARKCPSSLFAKLGG REAVEAAV 59
1IDR
A MGLLSRLR KREPISIYDKIGG HEAIEVVV 29
1RTE A MGLLSRLR KREPISIYDKIGG HEAIEVVV 29
1MOH
A SLEAAQKSNVTSSWAKASAAWGTAGP 26
1MBA A SLSAAEADLAGKSWAPVFANKNANGL 26
1IT2
A PIIDQGPLPTLTDGDKKAINKIWPKIYKEYEQYSL 35
1ITH
A GLTAAQIKAIQDHWFLNIKGCLQAAAD 27
2GDM A GALTESQAALVKSSWEEFNANIPKHTH 27
1KR7
A MVNWAAVVD 9
1UX8 A MGQSFNAPYEAIG EELLSQLV 21
1H97
A TLTKHEQDILLKELGPHVDTPAHIVETGL 29
1ASH
A ANKTRELCMKSLEHAKVDTSNEARQDGI 28
1FAW
B EALARLLIVYPWTQRFFSSFG NLSSPTAILGNPMVRAHGKKVLTSFGDAVKNLDN 80
1HBR
B EALARLLIVYPWTQRFFASFG NLSSPTAILGNPMVRAHGKKVLTSFGDAVKNLDN 80
1WMU B EALARLLIVYPWTQRFFASFG NLSSANAILHNAKVLAHGQKVLTSFGEAVKNLDN 80
1A9W
E EALGRLLVVYPWTQRFFDSFG NLSSPSAILGNPKVKAHGKKVLTSFGDAIKNMDN 80
1IRD B EALGRLLVVYPWTQRFFESFG DLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDN 80
2PGH
B EALGRLLVVYPWTQRFFESFG DLSNADAVMGNPKVKAHGKKVLQSFSDGLKHLDN 80
1G08
B EALGRLLVVYPWTQRFFESFG DLSTADAVMNNPKVKAHGKKVLDSFSNGMKHLDD 79
1JEB B EALGRLLVVYPWTQRYFDSFG DLSSASAIMGNAKVKAHGKKVITAFNDGLNHLDS 80
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 71
1S5X B KALSRCLIVYPWTQRHFSGFG NLYNAEAIIGNANVAAHGIKVLHGLDRGVKNMDN 80
1XQ5 B ATLARCLIVYPWTQRYFGNFG NLYNAAAIMGNPMIAKHGTTILHGLDRAVKNMDN 80
1SPG
B QALSRLLIVYPWTQRHFKGFG NISTNAAILGNAKVAEHGKTVMGGLDRAVQNMDN 80
1GCV
B QALDRMFKVYPWTNRYFQKRT DFRSS IHAGIVVGALQDAVKHMDD 70
1CG5 B KALERVFVVYPWTTRLFSKLQ GLFSANDIG VQQHADKVQRALGEAIDDLKK 76
1CG5
A DALARLFELHPQTKTYFSKFS GFEACNE QVKKHGKRVMNALADATHHLDN 76
1GCV A ECLARLFVTHPGSKSYF EYK DYSAAGA KVQVHGGKVIRAVVKAAEHVDD 75
1G08
A EALERMFLSFPTTKTYFPHF DLSHGSA QVKGHGAKVAAALTKAVEHLDD 75
1IRD
A EALERMFLSFPTTKTYFPHF DLSHGSA QVKGHGKKVADALTNAVAHVDD 75
1FAW A ETLERMFTAYPQTKTYFPHF DLQHGSA QIKAHGKKVAAALVEAVNHIDD 75
1JEB
A ETLERLFLSHPQTKTYFPHF DLHPGSA QLRAHGSKVVAAVGDAVKSIDD 75
1HBR A EALTRMFTTYPQTKTYFPHF DLSPGSD QVRGHGKKVLGALGNAVKNVDN 75
1WMU
A EALERMFIVYPSTKTYFPHF DLHHDSE QIRHHGKKVVGALGDAVKHIDN 75
1S5X
A DALSRMIVVYPQTKTYFSHWP DVTPGSP HIKAHGKKVMGGIALAVSKIDD 76
1XQ5 A DALSRMLAVYPQTKTYFSHWK DLSPGSA PVNKHGKTIMGGIVDAVASIDD 76
1MWC
A EVLIRLFKGHPETLEKFDKFK HLKSEDEMKASEDLKKHGNTVLTALGGILKKKGH 81
2MM1 A EVLIRLFKGHPETLEKFDRFK HLKSEDEMKASEDLKKHGATVLTALGGILKKKGH 81
1GJN
A EVLIRLFTGHPETLEKFDKFK HLKTEAEMKASEDLKKHGTVVLTALGGILKKKGH 81
1EMY
A TVFVRLFTGHPETLEKFDKFK HLKTEGEMKASEDLKKQGVTVLTALGGILKKKGH 81
1BZ6 A DILIRLFKSHPETLEKFDRFK HLKTEAEMKASEDLKKHGVTVLTALGAILKKKGH 81
1LHT
A EVIIRLFQLHPETQERFAKFK NLTTIDALKSSEEVKKHGTTVLTALGRILKQKNN 81
1MYT A LVLTRLFKEHPETQKLFPKFA GIA QADIAGNAAISAHGATVLKKLGELLKAKGS 76
1OJ6
A VLFARLFALEPDLLPLFQYNGRQFSSPEDSLSSPEFLDHIRKVMLVIDAAVTNVEDL S 83
1Q1F
A VLFARLFALEPSLLPLFQYNGRQFSSPEDSLSSPEFLDHIRKVMLVIDAAVTNVEDL S 83
1HBG A KCLIKFLSAHPQMAAVFGFSG ASDPGVAALGAK VLAQIGVAVSHLGDE G 77
1JL7
A ECLSKFISAHPEMAAVFGFSG ASDPGVAELGAK VLAQIGVAVSHLGDE G 77
3SDH A ALMTTLFADNQETIGYFKRLG NVSQGMANDKLRGHSITLMYALQNFIDQLDNP D 88
5HBI
A ALMTTLFADNQETIGYFKRLG DVSQGMANDKLRGHSIILMYALQNFIDQLDNP D 88
1DLW
A AQFYANIQADATVATFFNGID MPNQTNKTAAFLCAALGGPNA 58
1UVY A AQFYANIQADATVATFFNGID MPNQTNKTAAFLCAALGGPNA 58
1DLY
A DKFYNKIVADPTVSTYFSNTD MKVQRSKQFAFLAYALGGASE 101
1IDR
A EDFYVRVLADDQLSAFFSGTN MSRLKGKQVEFFAAALGGPEP 71
1RTE A EDFYVRVLADDQLSAFFSGTN MSRLKGKQVEFFAAALGGPEP 71
1MOH
A EFFMALFDAHDDVFAKFSGLF SGAAKGTVKNTPEMAAQAQSFKGLVSNWVDNLDNA G 83
1MBA A DFLVALFEKFPDSANFFADFK GKSVADIKASPKLRDVSSRIFTRLNEFVNNAANA G 82
1IT2
A NILLRFLKCFPQAQASFPKFS TKKSNLEQDPEVKHQAVVIFNKVNEIINSMDNQ E 90
1ITH
A SIFFKYLTAYPGDLAFFHKFS SVPLYGLRSNPAYKAQTLTVINYLDKVVDALGG 81
2GDM A RFFILVLEIAPAAKDLFSFLK GTSEVPQNNPELQAHAGKVFKLVYEAAIQLEVTGVV 84
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 72
1KR7 A DFYQELFKAHPEYQNKFGFKG VALGSLKGNAAYKTQAGKTVDYINAAIGGSAD 62
1UX8 A DTFYERVASHPLLKPIFPSDL TETARKQKQFLTQYLGGPPLYT 64
1H97
A GAYHALFTAHPQYISHFSRLE GHTIENVMQSEGIKHYARTLTEAIVHMLKEISN DA 85
1ASH
A DLYKHMFENYPPLRKYFKSRE EYTAEDVQNDPFFAKQGQKILLACHVLCATYDDR E 84
1FAW
B IKNTFAQLSELHC DKLHVDPENFRLLGDILIIVLAAHFA KEFTPECQAAWQKLVRV 136
1HBR B IKNTFSQLSELHC DKLHVDPENFRLLGDILIIVLAAHFS KDFTPECQAAWQKLVRV 136
1WMU
B IKKTFAQLSELHC EKLHVDPENFKLLGNILIIVLATHFP KEFTPASQAAWTKLVNA 136
1A9W
E LKPAFAKLSELHC DKLHVDPENFKLLGNVMVIILATHFG KEFTPEVQAAWQKLVSA 136
1IRD B LKGTFATLSELHC DKLHVDPENFRLLGNVLVCVLAHHFG KEFTPPVQAAYQKVVAG 136
2PGH
B LKGTFAKLSELHC DQLHVDPENFRLLGNVIVVVLARRLG HDFNPDVQAAFQKVVAG 136
1G08 B LKGTFAALSELHC DKLHVDPENFKLLGNVLVVVLARNFG KEFTPVLQADFQKVVAG 135
1JEB
B LKGTFASLSELHC DKLHVDPENFRLLGNMIVIVLGHHLG KDFTPAAQAAFQKVVAG 136
1S5X
B IAATYADLSTLHS EKLHVDPDNFKLLSDCITIVLAAKMG HAFTAETQGAFQKFLAV 136
1XQ5 B IKATYAELSVLHS EKLHVDPDNFKLLSDCLTIVVAAQLG KAFSGEVQAAFQKFLSV 136
1SPG
B IKNVYKQLSIKHS EKIHVDPDNFRLLGEIITMCVGAKFGPSAFTPEIHEAWQKFLAV 137
1GCV B VKTLFKDLSKKHA DDLHVDPGSFHLLTDCIIVELAYLRK DCFTPHIQGIWDKFFEV 126
1CG5
B VEINFQNLSGKH QEIGVDTQNFKLLGQTFMVELALHYK KTFRPKEHAAAYKFFRL 131
1CG5
A LHLHLEDLARKHG ENLLVDPHNFHLFADCIVVTLAVNL QAFTPVTHCAVDKFLEL 131
1GCV A LHSHLETLALTHG KKLLVDPQNFPMLSECIIVTLATHL TEFSPDTHCAVDKLLSA 130
1G08
A LPGALSELSDLHA HKLRVDPVNFKLLSHSLLVTLASHLP SDFTPAVHASLDKFLAN 131
1IRD A MPNALSALSDLHA HKLRVDPVNFKLLSHCLLVTLAAHLP AEFTPAVHASLDKFLAS 131
1FAW
A IAGALSKLSDLHA QKLRVDPVNFKFLGHCFLVVVAIHHP SALTPEVHASLDKFLCA 131
1JEB
A IGGALSKLSELHA YILRVDPVNFKLLSHCLLVTLAARFP ADFTAEAHAAWDKFLSV 131
1HBR A LSQAMAELSNLHA YNLRVDPVNFKLLSQCIQVVLAVHMG KDYTPEVHAAFDKFLSA 131
1WMU
A LSATLSELSNLHA YNLRVDPVNFKLLSHCFQVVLGAHLG REYTPQVQVAYDKFLAA 131
1S5X A LKTGLMELSEQHA YKLRVDPANFKILNHCILVVISTMFP KEFTPEAHVSLDKFLSG 132
1XQ5
A LNAGLLALSELHA FTLRVDPANFKILSHCILVLLAVKFP KDFTPEVHISYDKFFSA 132
1MWC
A HEAELTPLAQSHA TKHKIPVKYLEFISEAIIQVLQSKHP GDFGADAQGAMSKALEL 137
2MM1 A HEAEIKPLAQSHA TKHKIPVKYLEFISEAIIQVLQSKHP GDFGADAQGAMNKALEL 137
1GJN
A HEAELKPLAQSHA TKHKIPIKYLEFISDAIIHVLHSKHP GDFGADAQGAMTKALEL 137
1EMY
A HEAEIQPLAQSHA TKHKIPIKYLEFISDAIIHVLQSKHP AEFGADAQGAMKKALEL 137
1BZ6 A HEAELKPLAQSHA TKHKIPIKYLEFISEAIIHVLHSRHP GDFGADAQGAMNKALEL 137
1LHT
A HEQELKPLAESHA TKHKIPVKYLEFICEIIVKVIAEKHP SDFGADSQAAMKKALEL 137
1MYT A HAAILKPLANSHA TKHKIPINNFKLISEVLVKVMHEKAG LDAGGQTALRNVMGI 130
1OJ6
A SLEEYLASLGRKHR AVGVKLSSFSTVGESLLYMLEKSLG PAFTPATRAAWSQLYGA 139
1Q1F
A SLEEYLTSLGRKHR AVGVRLSSFSTVGESLLYMLEKSLG PDFTPATRTAWSRLYGA 139
1HBG A KMVAQMKAVGVRHKGYGNKHIKAQYFEPLGASLLSAMEHRIG GKMNAAAKDAWAAAYAD 136
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 73
1JL7 A KMVAEMKAVGVRHKGYGNKHIKAEYFEPLGASLLSAMEHRIG GKMNAAAKDAWAAAYGD 136
3SDH A DLVCVVEKFAVNHI TRKISAAEFGKINGPIKKVLASKN FGDKYANAWAKLVAV 141
5HBI
A DLVCVVEKFAVNHI TRKISAAEFGKINGPIKKVLASKN FGDKYANAWAKLVAV 141
1DLW
A WTGRNLKEVHANMG VSNAQFTTVIGHLRSALTGAGVAAALVEQTVAVAETVRGD 112
1UVY A WTGRNLKEVHANMG VSNAQFTTVIGHLRSALTGAGVAAALVEQTVAVAETVRGD 112
1DLY
A WKGKDMRTAHKDLVP HLSDVHFQAVARHLSDTLTELGVPPEDITDAMAVVASTRTE 157
1IDR A YTGAPMKQVHQGRG ITMHHFSLVAGHLADALTAAGVPSETITEILGVIAPLAVD 125
1RTE
A YTGAPMKQVHQGRG ITMHHFSLVAGHLADALTAAGVPSETITEILGVIAPLAVD 125
1MOH
A ALEGQCKTFAANHK ARGISAGQLEAAFKVLSGFMKSYGG DEGAWTAVAGA 133
1MBA A KMSAMLSQFAKEHVG FGVGSAQFENVRSMFPGFVASVAA PPAGADAAWTKLFGL 136
1IT2
A EIIKSLKDLSQKHK TVFKVDSIWFKELSSIFVSTIDGGAE FEKLFSI 137
1ITH A NAGALMKAKVPSHD AMGITPKHFGQLLKLVGGVFQEEFS ADPTTVAAWGDAAGV 135
2GDM
A VTDATLKNLGSVHVS KGVADAHFPVVKEAILKTIKEVVG AKWSEELNSAWTIAYDE 140
1KR7
A AAGLASRHK GRNVGSAEFHNAKACLAKACSAHGA PDLGHAIDDILSH 109
1UX8 A EEHGHPMLRARHLP FPITNERADAWLSCMKDAMDHVGLEGEIREFLFGRLELTARH 120
1H97
A EVKKIAAQYGKDHT SRKVTKDEFMSGEPIFTKYFQNLVK DAEGKAAVEKFLKH 138
1ASH A TFNAYTRELLDRHAR DHVHMPPEVWTDFWKLFEEYLGKKTT LDEPTKQAWHEIGRE 140
1FAW
B VAHALARKYH 146
1HBR B VAHALARKYH 146
1WMU
B VAHALALGYH 146
1A9W E VAIALAHKYH 146
1IRD
B VANALAHKYH 146
2PGH
B VANALAHKYH 146
1G08 B VANALAHRYH 145
1JEB
B VAAALAHKYH 146
1S5X B VVSALGKQYH 146
1XQ5
B VVSALGKQYH 146
1SPG
B VVSALGRQYH 147
1GCV B VIDAISKQYH 136
1CG5
B VAEALSSNYH 141
1CG5
A VAYELSSCYR 141
1GCV A ICQELSSRYR 140
1G08
A VSTVLTSKYR 141
1IRD A VSTVLTSKYR 141
1FAW
A VGTVLTAKYR 141
1JEB
A VSSVLTEKYR 141
1HBR A VSAVLAEKYR 141
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 74
1WMU A VSAVLAEKYR 141
1S5X A VALALAERYR 142
1XQ5
A LARALAEKYR 142
1MWC
A FRNDMAAKYKELGFQG 153
2MM1 A FRKDMASNYKELGFQG 153
1GJN
A FRNDIAAKYKELGFQG 153
1EMY A FRNDIAAKYKELGFQG 153
1BZ6
A FRKDIAAKYKELGYQG 153
1LHT
A FRNDMASKYKEFGFQG 153
1MYT A IIADLEANYKELGFSG 146
1OJ6
A VVQAMSRGWDGE 151
1Q1F A VVQAMSRGWDGE 151
1HBG
A ISGALISGLQS 147
1JL7
A ISGALISGLQS 147
3SDH A VQAAL 146
5HBI
A VQAAL 146
1DLW A VVTV 116
1UVY
A VVTV 116
1DLY
A VLNMPQQ 164
1IDR A VTSGESTTAPV 136
1RTE
A VTSGESTTAPV 136
1MOH A LMGEIEPDM 142
1MBA
A IIDALKAAGA 146
1IT2
A ICILLRSAY 146
1ITH A LVAAMK 141
2GDM
A LAIVIKKEMDDAA 153
1KR7 A L 110
1UX8
A MVNQTEAEDRSS 132
1H97
A VFPMMAAEI 147
1ASH A FAKEINKHGR 150
A.2 Miogl obinas
103M A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
2MGF
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1CH2
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 75
1J52 A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1CPW A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1MLL
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1MLN
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1A6M A VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 59
1SPE
A VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 59
1L2K A VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 59
1YOI
A VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 59
1UFP
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1UFJ A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1IRC
A MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASE 60
1DWT A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1XCH
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1DWS
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1GJN A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1WLA
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1YMC A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1YMB
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1AZI
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1NZ3 A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDEFKHLKTEAEMKASE 59
1NZ4
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDEFKHLKTEAEMKASE 59
1NZ5 A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDEFKHLKTEAEMKASE 59
1BJE
A GLSDGEWQQVLNVWGKVEADIAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 59
1EMY
A GLSDGEWELVLKTWGKVEADIPGHGETVFVRLFTGHPETLEKFDKFKHLKTEGEMKASE 59
1MDN A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MNO
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1M6C A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MNJ
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MNK
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1YCA A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1YCB
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MWC
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MWD A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MYG
A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 59
1MYI A GLSDGEWQLVLNVWGKVEADVAGHGQEVLIRLFKGHPETLEKFDSFKHLKSEDEMKASE 59
2MM1
A GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDRFKHLKSEDEMKASE 59
1MBS
A GLSDGEWHLVLNVWGKVETDLAGHGQEVLIRLFKSHPETLEKFDKFKHLKSEDDMRRSE 59
1LHS A GLSDDEWNHVLGIWAKVEPDLSAHGQEVIIRLFQLHPETQERFAKFKNLTTIDALKSSE 59
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 76
1LHT A GLSDDEWNHVLGIWAKVEPDLSAHGQEVIIRLFQLHPETQERFAKFKNLTTIDALKSSE 59
1MYT A ADFDAVLKCWGPVEADYTTMGGLVLTRLFKEHPETQKLFPKFAGIA QADIAGNA 54
1MBA
A SLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 58
2FAL
A XSLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 59
3MBA A SLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 58
4MBA
A SLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 58
5MBA A SLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 58
2FAM
A XSLSAAEADLAGKSWAPVFANKNANGLDFLVALFEKFPDSANFFADFKGKS VADIKASP 59
1DM1
A SLSAAEADLAGKSWAPVFANKNANGDAFLVALFEKFPDSANFFADFKGKS VADIKASP 58
103M
A DLKKAGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
2MGF A DLKKQGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1CH2
A DLKKHGVTVLTALGAILKKKGHHEAELKPFAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1J52
A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1CPW A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYWEFISEAIIHVLHSRH 120
1MLL
A DLKKHGVTFLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1MLN A DLKKHGVTILTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1A6M
A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 119
1SPE
A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 119
1L2K A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 119
1YOI
A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 119
1UFP A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1UFJ
A DLKKHGVTVLTGLGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRH 120
1IRC
A DLKKHGVTVLTALGAILKKKGHHEAELKPLAQSGATKHKIPIKYLEFISEAIIHVLHSRH 120
1DWT A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1XCH
A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYNEFISDAIIHVLHSKH 119
1DWS A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1GJN
A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1WLA
A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1YMC A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1YMB
A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1AZI
A DLKKHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1NZ3 A DLKEHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1NZ4
A DLKEHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1NZ5 A DLKEHGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1BJE
A DLKKTGTVVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSKH 119
1EMY
A DLKKQGVTVLTALGGILKKKGHHEAEIQPLAQSHATKHKIPIKYLEFISDAIIHVLQSKH 119
1MDN A DLKKHGNTNLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 77
1MNO A DLKKHGNTNLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1M6C A DLKKHGNTNLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MNJ
A DLKKVGNTILTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MNK
A DLKKVGNTTLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1YCA A DLKKHGNTTLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1YCB
A DLKKHGNTTLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MWC A DLKKHGNTVLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MWD
A DLKKHGNTVLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MYG
A DLKKHGNTVLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MYI A DLKKHGNTVLTALGGILKKKGHHEAELTPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
2MM1
A DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISEAIIQVLQSKH 119
1MBS A DLRKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSKH 119
1LHS
A EVKKHGTTVLTALGRILKQKNNHEQELKPLAESHATKHKIPVKYLEFICEIIVKVIAEKH 119
1LHT
A EVKKHGTTVLTALGRILKQKNNHEQELKPLAESHATKHKIPVKYLEFICEIIVKVIAEKH 119
1MYT A AISAHGATVLKKLGELLKAKGSHAAILKPLANSHATKHKIPINNFKLISEVLVKVMHEKA 114
1MBA
A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 118
2FAL A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 119
3MBA
A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 118
4MBA
A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 118
5MBA A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 118
2FAM
A KLRDVSSRIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 119
1DM1 A KLRDHSSTIFTRLNEFVNNAANAGKMSAMLSQFAKEHVGFGVGSAQFENVRSMFPGFVAS 118
103M
A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
2MGF A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1CH2
A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1J52 A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1CPW
A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1MLL
A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1MLN A PGNFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1A6M
A PGDFGADAQGAMNKALELFRKDIAAKYKELGY 151
1SPE
A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 153
1L2K A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 153
1YOI
A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 153
1UFP A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1UFJ
A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1IRC
A PGDFGADAQGAMNKALELFRKDIAAKYKELGYQG 154
1DWT A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
A. Seq
¨
u
ˆ
encias das Prote
´
ınas Usadas nos Experimentos 78
1XCH A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1DWS A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1GJN
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1WLA
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1YMC A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1YMB
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1AZI A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1NZ3
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1NZ4
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1NZ5 A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1BJE
A PGDFGADAQGAMTKALELFRNDIAAKYKELGFQG 153
1EMY A PAEFGADAQGAMKKALELFRNDIAAKYKELGFQG 153
1MDN
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MNO
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1M6C A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MNJ
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MNK A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1YCA
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1YCB
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MWC A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MWD
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MYG A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
1MYI
A PGDFGADAQGAMSKALELFRNDMAAKYKELGFQG 153
2MM1
A PGDFGADAQGAMNKALELFRKDMASNYKELGFQG 153
1MBS A PAEFGADAQAAMKKALELFRNDIAAKYKELGFHG 153
1LHS
A PSDFGADSQAAMKKALELFRNDMASKYKEFGFQG 153
1LHT A PSDFGADSQAAMKKALELFRNDMASKYKEFGFQG 153
1MYT
A G LDAGGQTALRNVMGIIIADLEANYKELGFSG 146
1MBA
A VAAPPAGADAAWTKLFGLIIDALKAAGA 146
2FAL A VAAPPAGADAAWTKLFGLIIDALKAAGA 147
3MBA
A VAAPPAGADAAWTKLFGLIIDALKAAGA 146
4MBA
A VAAPPAGADAAWTKLFGLIIDALKAAGA 146
5MBA A VAAPPAGADAAWTKLFGLIIDALKAAGA 146
2FAM
A VAAPPAGADAAWTKLFGLIIDALKAAGK 147
1DM1 A VAAPPAGADAAWTKLFGLIIDALKAAGK 146
Apˆendice B
Publica¸oes
79
Referˆencias Bibliogr´aficas
[Anfinsen, 1973] Anfinsen, C. (1973). Studies on the principles that govern the folding
of protein chains. Les Prix Nobel en 1972, pp. 103–119.
[Anfinsen et al., 1955] Anfinsen, C.; Harringto n, W.; Hvidt, A.; Linderstrom-Lang, K.;
Ottensen, M. e Schellman, J. (1955 ). Studies o n the structural basis of ribonuclease
activity. Biochimica et Biophysica Acta, 17:141–142.
[Anfinsen et al., 1954] Anfinsen, C.; Redfield, R.; Choate, W.; Page, J. e Carroll, W.
(1954). Studies on the gross structure, cross-linkages and terminal sequences in
ribonuclease. Journal of Biological Chemistry, 2007(1):201–210.
[Bairoch et al., 2004] Bairoch, A.; Apweiler, R.; Wu, C.; Barker, W.; Boeckmann, B.;
Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M.; Natale,
D.; O’Donovan, C.; Redaschi, N. e Yeh, L. (2004). The universal protein resource
(uniprot). Nucleic Acids Res., 233:1 54–159.
[Barthel et al., 2007] Ba r thel, D.; Hirst, J.; Blazewicz, J.; Burke, E. e Krasnogor, N.
(2007). Procksi: a decision support system for protein (structure) comparison, knowl-
edge, similarity and info r matio n. BMC Bioin f ormatics, 8(416).
[Berman et al., 2000] Berman, H.; Westbrook, J.; Feng, Z.; G illiland, G.; Bhat, T.;
Weissig, H.; Shindyalov, I. e Bourne, P. (2000). The protein data bank. Nucleic
Acids Res., 28:235–242.
[Brenner et al., 1995] Brenner, S.; Chothia, C.; Hubbard, T. e Murzin, A. (1995).
Understanding protein structure: using scop for f old interpretation. Methods in
Enzymology, 266:635–643.
[Brenner et al., 2000] Brenner, S.; Koehl, P. e Levitt, M. (2000). The ASTRAL com-
pendium for sequence and structure analysis. Nucleic Acids Res. , 28:254–256.
[Brown, 1992] Brown, L. (1 992). A survey of image registration t echniques. In ACM
Computing Surveys, volume 4, pp. 325–376.
80
Refer
ˆ
encias Bib liogr
´
aficas 81
[Caprara et al., 2004] Caprara, A.; Carr, R.; Istrail, S.; Lancia, G. e Walenz, B. (2004).
1001 optimal pdb structure a lignment: integer programming methods for finding the
maximum contact map overlap. J. Comput. Biol., 11:27–52.
[Chandonia et al., 2004] Chandonia, J.; Hon, G.; Walker, N.; Conte, L. L.; Koehl, P.;
Levitt, M. e Brenner, S. (2004). The ASTRAL compendium in 2004. Nucleic Acids
Res., 32:D189–D1 92.
[Chandonia et al., 2002] Chandonia, J.; Walker, N.; Conte, L. L.; Koehl, P. e Brenner,
M. L. S. (2002). ASTRAL compendium enhancements. Nucleic Acids Res., 30:260–
263.
[Chung et al., 2007] Chung, J.; Beaver, J.; Scheeff, E. e Bourne, P. (2007). Con-struct
map: a comparative contact map analysis tool. Bioinformatics, 23(18):2491–2492.
[Cormen et al., 2 001] Cormen, T.; Leiserson, C.; Rivest, R. e Stein, C. (2001). Intro-
duction to algorithms. MIT Press and McGraw-Hill.
[Dantzig, 1951 ] Dantzig, G. (1951). Application of the simplex method to a transporta-
tio prob l em. John Wiley and sons.
[Del-Bimbo, 1999] Del-Bimbo, A. (1999). Visual information retrieval. MorganKauf-
mann.
[Ester et al., 1996] Ester, M.; Kriegel, H.; Sander, J. e Xu, X. (1996). A density-based
algorithm fo r discovering clusters in large spatial dat abases with noise. In Proceedings
of 2nd International Confere nce on Knowledge Discovery and Data Mining.
[Fawcett, 2006] Fawcett, . (20 06). An introduction to ROC a nalysis. Pattern Recogni-
tion Letters, 27(8):861–874.
[Fernandes-Jr. et al., 2004] Fernandes-Jr., F.; Carceroni, R.; Lopes, C.; Meira-Jr., W.;
Melo, R.; Araujo, A.; Santoro, M. e Silveira, C. (2004). An image-matching approach
to protein similarity analysis. In SIBGRAPI ’04: Proceedings of the Computer
Graphics and Image Processing, XVII Brazili an Symposium on (SIBGRAPI’04),
pp. 17–24, Washington, DC, USA. IEEE Computer Society.
[Guting, 1994] Guting, R. (1994). An introduction t o spatial database systems. The
International Journal of Ve ry Large Data Bases, 3(4):357–399.
[Holm e Sander, 1991] Holm, L. e Sander, C. (1991). Detection of common tridimen-
sional substructures in prot eins. Proteins, 11:51–58.
Refer
ˆ
encias Bib liogr
´
aficas 82
[Hough, 1962] Hough, P. (1962). Method and means f or recognizing complex patterns.
Technical report.
[Hu et al., 2002] Hu, J.; Shen, X.; Shao, Y.; Bystroff, C. e Zaki, M. (2002). Mining
protein contact maps. In 2nd BIOKDD: Workshop on Da ta Mining in Bioinf o rmat-
ics.
[Huang et al., 1997] Huang, J.; Kumar, S.; Mitra, M.; Zhu, W. e Zabih, R. (1997). Im-
age indexing using color correlograms. In Computer Vision and Pattern Recognition
(CVPR’97), pp. 762–768.
[Kaufman e Rousseeuw, 1990] Kaufman, L. e Rousseeuw, P. (1990). Finding groups in
data: an introduction to cluster analysis. John Wiley and Sons.
[Kohavi, 2004] Kohavi, F. P. R. (2004). Machine learning. Machine Learning, 30(2-
3):127–132.
[Krasnogor e Pelta, 20 04] Krasnogor, N. e Pelta, D. (2004). Measuring the similarity
of protein structures by means of the universal similarity metric. Bioinformatics,
20:1015–102 1.
[Kutulakos, 2000] Kutulakos, K. (2000). Approximate n- view stereo. In European
Conf. on Computer Vision, pp. 67–83 .
[Lancia et al., 2001] Lancia, G.; Carr, R.; Walenz, B. e Istrail, S. (2001). 101 optimal
pdb substructure alignments: a branch and cut algorithm for the maximum contact
map overlap problem. In 5th Annual International Con ference on Computational
Molecular Biology (RECOMB), pp. 1 92–202.
[Leach, 2001 ] Leach, A. (2001) . Molecular Modelling: Prin ciples and Applications (2nd
Edition). Prentice Hall.
[Levinthal, 1968] Levinthal, C. (1968). Are there pathaways for protein folding? Jour-
nal of Chimie Physique et de Physico-Chimie Biologi que, 65:44–45.
[Lopes, 2006] Lopes, J. (2006 ) . Liga¸oes qu´ımicas e intera¸oes intermoleculares (apos-
tila). In Curso de Educao continuada, SEE-MG/CECIMIG-UFMG.
[Maintz e VIergever, 1998] Maintz, J. e VIergever, M. (1998). A survey of medical
image registration. In Medical Image Analysis, volume 2, pp. 1–36.
[Mancini et al., 2004] Mancini, A.; Higa, R.; Oliveira, A.; Dominiquini, F.; Kuser, P.;
Yamagishi, M.; Togawa, R. e Neshich, G. (2004). STING contacts: a web-based
Refer
ˆ
encias Bib liogr
´
aficas 83
application for identification and analysis of amino acids contacts within protein
structure and across pro t ein interfaces. Bioinformatics, 20(13):2145–21 47.
[Melo et al., 2008] Melo, R.; Fernandes-Jr., F.; Carceroni, R.; Lopes, C.; Murray, C.;
Meira-Jr, W.; Ara´ujo, A.; Silveira, C. e Santoro, M. (200 8). Similarity-based ver-
sus feature-based analysis of structural protein similarity. Manuscrito submetido `a
revis ta Pattern Analysis and Applications.
[Melo et al., 2007a] Melo, R.; Gomide, J.; Dias, P.; Meira-Jr., W. e Santoro, M.
(2007a). Mining structural signatures of proteins. In III Workshop em Algoritmos e
Aplicoes de Minarao de Dados.
[Melo et al., 2006] Melo, R .; Lo pes, C.; Fernandes-Jr., F.; Silveira, C.; Santoro, M.;
Carceroni, R.; Meira-Jr., W. e Araujo, A. (2006). A contact map matching approach
to protein structure similarity analysis. Genet. Mol. Res., 5(2):284–308.
[Melo et al., 2007b] Melo, R.; Ribeiro, C.; Murray, C.; Veloso, C.; Silveira, C.; Neshich,
G.; Meira-Jr., W.; Carceroni, R. e Santoro, M. (2007b). Finding protein-protein
interaction patterns by contact map matching. Genet. Mol. Res., 6(4):946–963.
[Mojsilovic et al., 2004] Mojsilovic, A.; Gomes, J. e Rogowitz, B. (200 4). Semantic-
friendly indexing and quering of images based on the extraction ofthe objective
semantic cues. Int. J. Computer Vision, 56(1-2):79–107.
[Murzin et al., 19 95] Murzin, A.; Brenner, S.; Hubbard, T. e Chothia, C. (1995). Scop:
A structural classification of prot eins database for investigation of sequences and
structures. J. Mol. Biol., 247:536–540.
[Neshich et al., 2005] Neshich, G.; Borro, L.; Higa, R.; Kuser, P.; Yamagishi, M.;
Franco, E.; Krauchenco, J.; Ribeiro, R. F. A.; Bezerra, G.; Velludo, T.; Jimenez,
T.; Furukawa, N.; Teshima, H.; Kitajima, K.; Bava, A.; Sarai, A.; Togawa, R. e
Mancini, A. (2005). D iamond sting: an expanded functionality for the sting suite of
programs a llowing the comprehensive sequence/structure/function/stability analy-
sis with added capability for handling local files. Nucleic Aci d s Res. : Web Server
Issue, 33.
[Neshich et al., 2006a] Neshich, G.; Mazoni, I.; Oliveira, S.; Yamagishi, M.; Kuser-
Falc
˜
A£o, P.; Borro, L.; Morita, D.; Souza, K.; Almeida, G.; Rodrigues, D.; Jardine,
J.; Togawa, R.; Mancini, A.; Higa, R.; Cruz, S.; Vieira, F.; dos Santos, E.; Melo,
R. e Santoro, M. (2006a) . The star STING server: a multiplatform environment for
protein structure analysis. Genet. Mol. Res., 5(2).
Refer
ˆ
encias Bib liogr
´
aficas 84
[Neshich et al., 2006b] Neshich, G.; Mazoni, I.; Oliveira, S.; Yamagishi, M.; Kuser-
Falc
˜
A£o, P.; Borro, L.; Morita, D.; Souza, K.; Almeida, G.; Rodrigues, D.; Jardine,
J.; Togawa , R.; Mancini, A.; Higa, R.; Cruz, S.; Vieira, F.; Santos, E.; Melo, R. e
Santoro, M. (2006b). The star sting server: A multiplatform environment for protein
structure analysis. Genet. Mol. Res., 5(4):717–722.
[Neshich et al., 2003] Neshich, G.; Togawa, R.; Mancini, A.; Kuser, P.; Yamagishi, M.;
Pappas-Jr, G.; Torres, W.; e Campos, T. F.; Ferreira, L.; Luna, F.; Oliveira, A.;
Miura, R.; Inoue, M.; Horita, L.; de Souza, D.; Dominiquini, F.; Alvaro, A.; Lima,
C.; Ogawa, F.; Go mes, G.; Palandrani, J.; dos Santos, G.; de Freitas, E.; Mattiuz,
A.; Costa, I.; de Almeida, C.; Souza, S.; Baudet, C. e Higa, R. (2003). STING
millennium: a web-based suite of programs for comprehensive and simultaneous
analysis of protein structure and sequence. Nucleic Acids Res., 31(13):3386–3392.
[Pauling e Corey, 1951] Pauling, L. e Corey, R. (1951). The plated sheet, a new layer
configuration of po lypeptide chains. PNAS, 37:251–256.
[Pauling et al., 1951] Pauling, L.; Corey, R. e H.R.Branson (1951). The structure od
proteins: two hydrogen-bonded helical configurations o f the polypeptide chain. In
Proc. Nat. Acad. Sci. Wash., volume 37, pp. 205–211.
[Pearl et al., 2003] Pearl, F.; Bennett, C.; Brazy, J.; Harrison, A.; Martin, N.; Shep-
herd, A.; Sillitoe, I.; Thornton, J. e O r engo, C. (2003). The cath da tabase: as
extended protein family resource for structural and functional genomics. Nucleic
Acid Res., 31(1):452–455.
[Pentland et al., 1994] Pentla nd, A.; Picard, R . e Sclaroff, S. (199 4). Photobook:
content-based manipulation ofimage databases. In SPIE Storage and Retrieval for
Image and Video Databases.
[Rubner et al., 1998] Rubner, Y.; Tomasi, C. e Guibas, L. (1998). A metric for dis-
tributions with applications to image databa ses. In IEEE International Conf. on
Computer Vision.
[Silveira et al., 2008] Silveira, C.; Pires, D.; Melo, R.; Ribeiro, C.; Veloso, C.;
J.C.D.Lopes; Meira-Jr, W.; Neshich, G.; Ramos, C.; Habesch, R. e Santoro, M.
(2008). Protein cutoff scanning: a comparative analysis of cutoff dependent and
cutoff free methods for prospecting contacts in proteins. Submitted to Proteins :
Structure, Function a and Bioin f ormatics.
Refer
ˆ
encias Bib liogr
´
aficas 85
[Sobolev et al., 1999] Sobolev, V.; Sorokine, A.; Prilusky, J.; Abola, E. e Edelman,
M. (1999). Automated analysis of interatomic contacts in proteins. Bi oinformatics,
15:327–332.
[Wagner, 1 986] Wagner, H. (1986). Principles of operations research with applications
to managerial decisi ons. Prentice-Hall.
[Wetlaufer e Ristow, 1973] Wetlaufer, D. e Ristow, S. (197 3). Acquisition of three-
dimensional structure of proteins. Annual Review of Bioche mistry, 42:135–158.
[Yang e Honig, 1999] Yang, A. e Honig, B. (1999). Sequence to structure alignment in
comparative modelling. Proteins: Struc., Func. and Genet., 3:66–72.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo