Download PDF
ads:
i
J
J
u
u
l
l
i
i
a
a
n
n
a
a
G
G
a
a
l
l
i
i
n
n
s
s
k
k
a
a
s
s
A
A
n
n
á
á
l
l
i
i
s
s
e
e
d
d
e
e
s
s
i
i
m
m
i
i
l
l
a
a
r
r
i
i
d
d
a
a
d
d
e
e
e
e
n
n
t
t
r
r
e
e
s
s
e
e
q
q
u
u
ê
ê
n
n
c
c
i
i
a
a
s
s
d
d
o
o
s
s
g
g
e
e
n
n
e
e
s
s
d
d
o
o
H
H
I
I
V
V
-
-
1
1
e
e
o
o
G
G
e
e
n
n
o
o
m
m
a
a
H
H
u
u
m
m
a
a
n
n
o
o
Dissertação apresentada à Universidade
Federal de São Paulo – Escola Paulista de
Medicina para obtenção do Título de
Mestre em Ciências.
S
S
ã
ã
o
o
P
P
a
a
u
u
l
l
o
o
2
2
0
0
1
1
0
0
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
J
J
u
u
l
l
i
i
a
a
n
n
a
a
G
G
a
a
l
l
i
i
n
n
s
s
k
k
a
a
s
s
A
A
n
n
á
á
l
l
i
i
s
s
e
e
d
d
e
e
s
s
i
i
m
m
i
i
l
l
a
a
r
r
i
i
d
d
a
a
d
d
e
e
e
e
n
n
t
t
r
r
e
e
s
s
e
e
q
q
u
u
ê
ê
n
n
c
c
i
i
a
a
s
s
d
d
o
o
s
s
g
g
e
e
n
n
e
e
s
s
d
d
o
o
H
H
I
I
V
V
-
-
1
1
e
e
o
o
G
G
e
e
n
n
o
o
m
m
a
a
H
H
u
u
m
m
a
a
n
n
o
o
Dissertação apresentada à Universidade
Federal de São Paulo – Escola Paulista de
Medicina para obtenção do Título de
Mestre em Ciências.
Orientador: Prof. Dr. Luiz Mário Ramos Janini
Co-orientadores: Prof. Dr. Marcelo Briones
Prof. Dr. Francisco Bosco
S
S
ã
ã
o
o
P
P
a
a
u
u
l
l
o
o
2
2
0
0
1
1
0
0
ads:
iii
Dedico este trabalho aos meus pais, a base de tudo na minha vida, por acreditarem sempre
em mim, além de serem pessoas a quem devo tudo o que conquistei até hoje. O apoio e o
incentivo por parte deles foram essenciais para conseguir forças quando elas pareciam estar no
fim.
iv
A
A
G
G
R
R
A
A
D
D
E
E
C
C
I
I
M
M
E
E
N
N
T
T
O
O
S
S
Agradeço ao meu orientador Dr. Luiz Mário Ramos Janini por ter me dado o prazer de ser
sua aluna e fazer parte do grupo de pesquisadores do Laboratório de Retrovirologia da UNIFESP.
Muito obrigada por ter acreditado em mim, pela persistência e paciência ao me ensinar e,
principalmente, por me chamar atenção quando foi preciso.
Agradeço também a todos os companheiros e amigos de trabalho, principalmente à
Michelle Camargo, que ajudou a iniciar meu trabalho e me passou muito de seu conhecimento.
Todos os que são ou já foram integrantes do Laboratório de Retrovirologia da UNIFESP também
foram muito importantes para conseguir terminar este trabalho, seja com uma palavra de apoio,
conselho ou algum outro tipo de ajuda, isto fez uma grande diferença. Este companheirismo no
dia-a-dia é imprescindível para manter um ambiente de trabalho agradável e passarmos o
conhecimento de uns para os outros. Compartilhar conhecimento é algo fundamental em um
ambiente de trabalho, e com relação a isto não tenho o que reclamar, apenas agradecer. Muito
obrigada amigos, amigas, companheiros e companheiras de trabalho! Muito obrigada Beth e
Carla por me acompanharem no início de minha jornada com experimentos de bancada que
realizei no laboratório! Muito obrigada também à Mariana que me ensinou os primeiros passos
para trabalhar com clonagem, bactérias, e outras coisas muito mais complexas. Muito obrigada!!!
Agradeço muito ao professor Paulo Paiva, pois sem ele com certeza eu não teria
terminado este trabalho. Foram muitos pedidos de ajuda, muitos e-mails enviados, várias dúvidas
e problemas resolvidos. Deixo aqui o meu muito obrigada pela paciência e por ter disponibilizado
muito de seu tempo para me ajudar. Sua ajuda foi fundamental.
Agradeço aos meus co-orientadores Dr. Marcelo Briones e Dr. Francisco Bosco por terem
aceitado meu convite para me auxiliarem e participarem do presente estudo, transmitindo seus
pensamentos e idéias que fizeram deste um trabalho muito importante. Obrigada por me
ajudarem a construir e concluir este trabalho. Com certeza a base de tudo que fiz começou com a
ajuda de vocês.
Agradeço aos meus muitos amigos e amigas que não trabalham comigo, principalmente
por ouvirem minhas reclamações e desabafos nos momentos de dificuldade e nervosismo. Esses
dois anos de muito estudo não teriam sido fáceis se vocês não fizessem parte da minha vida!
Obrigada por existirem!
v
LISTA FIGURAS
Figura 1. Estrutura genômica do HIV-1. ....................................................................................... 14
Figura 2. Estrutura do HIV-1. ........................................................................................................ 15
Figura 3. Ciclo de vida do HIV. .................................................................................................... 16
Figura 4. Tipos de cDNA viral (Coffin, 1997) .............................................................................. 19
Figura 5. Sítios de integração do cDNA do HIV-1 no genoma humano. ...................................... 22
Figura 6. Posição dos matches do gene env em cada cromossomo humano. ................................ 53
Figura 7. Posição dos matches do gene gag em cada cromossomo humano................................. 54
Figura 8. Posição dos matches da região LTR em cada cromossomo humano. ............................ 54
Figura 9. Posição dos matches do gene nef em cada cromossomo humano. ................................. 55
Figura 10. Posição dos matches do gene pol em cada cromossomo humano. .............................. 55
Figura 11. Posição dos matches do gene rev em cada cromossomo humano. .............................. 56
Figura 12. Posição dos matches do gene tat em cada cromossomo humano. ............................... 56
Figura 13. Posição dos matches do gene vif em cada cromossomo humano................................. 57
Figura 14. Posição dos matches do gene vpr em cada cromossomo humano. .............................. 57
Figura 15. Posição dos matches do gene vpu em cada cromossomo humano. .............................. 58
vi
LISTA DE GRÁFICOS
Gráfico 1. Porcentagem do número de matches obtidos até os determinados E-values. .............. 32
Gráfico 2. Dinâmica da curva do fitting da Macaca mulatta (a
1
< 1). .......................................... 35
Gráfico 3. Dinâmica da curva do fitting do gene nef do HIV-1 (a
1
< 1). ...................................... 36
Gráfico 4. Dinâmica da curva do fitting das sequências aleatórias (a
1
= 1). ................................. 36
Gráfico 5. Dinâmica da curva do fitting do gene CP do vírus do mosaico do tabaco (a
1
> 1). .... 37
Gráfico 6. Porcentagens das três primeiras maiores frequências de trechos virais dos matches. . 52
vii
LISTA DE TABELAS
Tabela 1. Parâmetros utilizados no BLASTn. ............................................................................... 25
Tabela 2. Identificações de acesso no NCBI referentes aos cromossomos humanos que
constituem o banco de dados. ........................................................................................................ 27
Tabela 3. Quantidade de sequências de cada gene dos diversos subtipos do HIV-1. ................... 28
Tabela 4. Identificações de acesso no NCBI referentes aos trechos de cromossomos da Macaca
mulatta. .......................................................................................................................................... 30
Tabela 5. Parâmetros encontrados na análise do fitting. ............................................................... 34
Tabela 6. Valores de a
0
para os genes env, gag, nef, pol, rev, tat e vif com a
1
= 0,6. .................. 38
Tabela 7. Cromossomos que obtiveram maior frequência de matches. ........................................ 39
Tabela 8. Gene env. Trechos de maior frequência em cada um dos cromossomos humanos. ...... 41
Tabela 9. Gene gag. Trechos de maior frequência em cada um dos cromossomos humanos. ...... 42
Tabela 10. Região LTR. Trechos de maior frequência em cada um dos cromossomos humanos. 43
Tabela 11. Gene nef. Trechos de maior frequência em cada um dos cromossomos humanos. ..... 44
Tabela 12. Gene pol. Trechos de maior frequência em cada um dos cromossomos humanos...... 45
Tabela 13. Gene rev. Trechos de maior frequência em cada um dos cromossomos humanos...... 46
Tabela 14. Gene tat. Trechos de maior frequência em cada um dos cromossomos humanos. ..... 47
Tabela 15. Gene vif. Trechos de maior frequência em cada um dos cromossomos humanos. ...... 48
Tabela 16. Gene vpr. Trechos de maior frequência em cada um dos cromossomos humanos. .... 49
Tabela 17. Gene vpu. Trechos de maior frequência em cada um dos cromossomos humanos. .... 50
Tabela 18. Porcentagem dos três trechos virais de maior frequência. ........................................... 51
viii
R
R
E
E
S
S
U
U
M
M
O
O
Os genes virais podem ter origens celulares ou não. Eles podem ter sido reunidos durante a
evolução, sendo que cada um pode corresponder a uma origem distinta. A similaridade entre
sequências genéticas sugerem homologia e, portanto, um parentesco evolutivo. O presente estudo
tem como objetivo identificar regiões de similaridade, com suporte estatístico confiável, entre o
genoma do HIV-1 e o genoma humano a partir da análise comparativa entre sequências de DNA,
por meio do programa BLAST. Também é de nosso interesse desenvolver uma metodologia que
permita comparar sequências genéticas de diversos organismos, de forma que a similaridade
possa ser quantificada. Para realizar as comparações entre as sequências genéticas, é utilizada a
ferramenta BLASTn (versão 2.2.20) e um banco de dados local composto pelos cromossomos
humanos. Python (versão 5.1.30) é utilizada para o processamento das sequências, e a análise dos
dados é feita utilizando a linguagem estruturada de consulta SQL (Structured Query Language).
O genoma humano é comparado com: sequências dos genes do HIV-1, sequências de genes do
vírus do mosaico do tabaco (controle negativo biológico), trechos de cromossomos da Macaca
mulatta (controle positivo biológico) e sequências aleatórias (controle negativo não biológico). O
presente estudo demonstra diferenças entre os genes do HIV-1 e a região LTR. Alguns genes
demonstram maior similaridade com o genoma humano do que outros, de acordo com a análise
da curva do fitting. Ao verificar a curva obtida a partir de E-values muito baixos, observa-se que
todos os genes do HIV-1 apresentam curva não linear do tipo y = a
0
. x
a1
, onde a
0
e a
1
são
parâmetros obtidos a partir de ajuste numérico. O método é validado utilizando dados do genoma
da Macaca mulatta, pelo qual é observada alta similaridade com o genoma humano. A partir
desta validação é possível construir três diferentes grupos de genes do HIV-1 de acordo com o
valor de a
1
, onde: os genes env, gag, nef, pol, rev, tat e vif apresentam valores de a
1
idênticos, o
gene vpr um valor mais baixo e o gene vpu um valor bem mais alto.
ix
A
A
B
B
S
S
T
T
R
R
A
A
C
C
T
T
It is possible that viral genes have cellular origins. They may have been gathered during
evolution, and each one may correspond to a distinct origin. The similarity between genetic
sequences suggest homology and, therefore, an evolutive relationship. The present study aimed at
identifying region with similarity, with significant statistic support, between the human and the
HIV-1 genome through the comparative analysis between DNA sequences using the BLAST
program. It is also our purpose to develop a methodology which allows the comparison between
genetic sequences of diverse organisms, quantifying the similarity. Thus, to carry it through, we
use the BLASTn software (2.2.20 version) and a local database of human chromosomes. Python
(5.1.30 version) is used for sequence processing and the data analysis is made using the SQL
(Structured Query Language). The human genome is compared to sequences from: HIV-1 genes,
Tobbaco Mosaic Virus genes (negative non-biologic control), chromosomes motifs of Macaca
mulatta (positive biologic control) and random sequences (negative non-biologic control). We
find differences between all the HIV-1 genes and the LTR region. Some genes show more
similarity with the human genome than others, according to the curve fitting analysis. When
analyzing the curve obtained at very low E-values, it is observed that all HIV-1 genes are well
represented by a non-linear curve fitting y = a
0
. x
a1
where a
0
and a
1
are parameters obtained
numerically. As a result, the method is validated using the data from the genome of Macaca
mulatta for which a high level of similarity with the human genome is observed. Based on this
validation, it is possible to form three distinct groups of genes from HIV-1 according to the a
1
value where: the env, gag, nef, pol, rev, tat and vif genes have identical a
1
values; the vpr gene a
very low a
1
value; and the vpu a a
1
higher value.
1
ÍNDICE
LISTA FIGURAS ................................................................................................................... v
LISTA DE GRÁFICOS ......................................................................................................... vi
LISTA DE TABELAS ......................................................................................................... vii
1. INTRODUÇÃO .................................................................................................................. 1
1.1 Busca da similaridade viral com o genoma humano e ferramentas ................................. 1
1.1.1 Homologia versus similaridade .............................................................. 1
1.1.2 Introdução à metodologia para busca de similaridade ........................... 3
1.1.3 Análise de sequências genéticas ............................................................ 5
1.1.4 Busca de similaridade entre o HIV-1 e o genoma humano ................... 7
1.2 Origens virais e suas estratégias que possam resultar em trechos de similaridade com o
genoma hospedeiro ................................................................................................................. 8
1.2.1 Origem e diversidade viral ..................................................................... 8
1.2.2 Interação entre vírus e hospedeiro ......................................................... 9
1.2.3 Variação do genoma viral .................................................................... 10
1.3 O HIV , histórico, partícula, genoma e ciclo de replicação ............................................ 12
1.3.1 O HIV ................................................................................................... 12
1.3.1.1 Surgimento do HIV-1 na espécie humana ....................................... 12
1.3.1.2 Aparecimento da aids ....................................................................... 13
1.3.1.3 Estrutura do HIV-1 e ciclo viral ....................................................... 14
1.4 Integração do HIV .......................................................................................................... 18
1.4.1 Região LTR e Integração do HIV-1 ..................................................... 18
1.4.2 Locais de integração no genoma humano ............................................ 20
2. OBJETIVOS ..................................................................................................................... 24
3. METODOLOGIA E CASUÍSTICA ................................................................................. 25
3.1 Programa utilizado nas comparações entre as sequências genéticas .............................. 25
3.1.1 Parâmetros utilizados no BLASTn ...................................................... 25
3.2 Ajuste estatístico ............................................................................................................. 26
3.3 Amostragem ................................................................................................................... 27
3.3.1 Sequências dos cromossomos humanos ............................................... 27
3.3.2 Sequências do HIV-1 ........................................................................... 28
2
3.3.3 Sequências do vírus do mosaico do tabaco .......................................... 29
3.3.4 Sequências da Macaca mulatta ............................................................ 29
3.3.5 Sequências aleatórias ........................................................................... 31
4. RESULTADOS ................................................................................................................ 32
4.1 Distribuição dos E-values ............................................................................................... 32
4.1.1 Diferenças entre os genes do HIV-1, TMV e Macaca mulatta ........... 32
4.1.2 Classificação dos melhores genes ........................................................ 33
4.2 Locais de maior frequência de matches nos cromossomos ............................................ 38
4.3 Locais de maior frequência de matches nos genes virais ............................................... 51
4.4 Distribuição dos matches nos cromossomos humanos ................................................... 53
DISCUSSÃO ........................................................................................................................ 59
CONCLUSÕES .................................................................................................................... 68
REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................. 70
1
1. INTRODUÇÃO
1.1 Busca da similaridade viral com o genoma humano e ferramentas
1.1.1 Homologia versus similaridade
Na biologia, a homologia é um dos conceitos comparativos mais importantes. De acordo
com Hall (2006), homologia é a presença de uma mesma característica em dois organismos cujo
ancestral em comum também possui a característica. Frequentemente, o nível de ancestralidade
comparado não é explícito. Por isto, é importante investigar se duas características que estão
sendo comparadas possuem elementos semelhantes suficientes para permitir que sejam tratados
como homólogos de maneira que seja inferida uma análise comparativa, evolucionária ou
filogenética.
Porém, alguns traços em comum poderiam ser atribuídos à evolução convergente. Tal
evento seria verdade se os organismos com tais estruturas viveram em ambientes similares com
pressões seletivas muito similares, ou se tal estrutura proporcionasse vantagem em quase todo o
ambiente (estruturas tais como os olhos e as asas). Considerando estes casos, seria necessário que
as duas classes de organismos com suas supostas estruturas homólogas apresentassem no registro
fóssil uma história coerente com antepassados que compartilham as mesmas estruturas.
Estruturas e funções de sequências genéticas podem ser conservadas, mas elas podem
evoluir de forma que nenhum sinal de similaridade possa ser detectado. Esta limitação é devido à
falta de compreensão da parte do código genético que dita as estruturas das proteínas e interações
da sequência de aminoácido linear (Bamford, 2003).
Em 1859, Darwin citou que durante o longo curso da evolução a seleção natural deve ter
apreendido um determinado número de elementos similares primordiais, muitas vezes repetidos,
e foram adaptados às mais diversas finalidades (Taylor, Raes, 2004). Sendo assim, talvez
algumas sequências sejam compartilhadas pelos diversos domínios da vida.
A análise de sequências geralmente tem como objetivo a busca de similaridade entre
sequências que possam permitir uma inferência de homologia. O termo homologia, que é
simplesmente uma origem em comum, é amplamente utilizado na literatura científica sem que
sua definição seja clara. Por alguma razão, o conceito de homologia tende a obscurecer quando
aplicado à sequências de DNA. Termos como homologia de sequências, homologia estrutural,
2
alta homologia, homologia significante, ou mesmo 35% de homologia são comuns. Em muitos
casos, o termo homologia é utilizado de maneira errada, como um substituto para similaridade de
sequência ou similaridade estrutural (Koonin, 2003). A incorreta utilização do termo homologia
pode ocorrer devido ao uso incorreto da semântica. Muitas vezes esse termo é utilizado para
designar apenas similaridade entre sequências, ou seja, na ausência de um ancestral em comum.
Quando a similaridade entre duas sequências é muito baixa, devem ser utilizados critérios
estatisticamente significantes para calcular o grau de similaridade. Mesmo que duas sequências
de proteína tenham apenas 10% de resíduos idênticos e 8% de resíduos de aminoácidos similares
(um total de 18% de similaridade), isto poderia apenas indicar homologia ou não. Este baixo
nível de similaridade pode ser um indicativo de homologia se a similaridade for estendida em um
longo trecho de sequências e se for estatisticamente significante através de um critério que seja
confiante (como os critérios utilizados pelo algoritmo BLAST e seus derivados) (Koonin, 2003).
No entanto, para dizer que são homólogas é necessária a existência de um ancestral em comum
entre as sequências.
Por inferência, pode-se dizer que sempre que for observada uma sequência
estatisticamente significante ou similaridade estrutural entre duas proteínas ou domínio de
proteínas, isto pode ser um indício de evolução divergente a partir de um ancestral em comum ou,
em outras palavras, evidência de homologia (Koonin, 2003).
A similaridade é a única variável que pode ser expressa numericamente e correlacionada
com probabilidade. Quanto maior for a similaridade entre duas sequências, menor será a
probabilidade de elas terem sido originadas independentes uma da outra e terem se tornado
similares ao acaso (Koonin, 2003).
A existência de identidade entre sequências de organismos que não possuem um ancestral
em comum é um fato curioso que necessita ser investigado. De acordo com as definições citadas
acima, o fato de não possuírem um ancestral em comum exclui a possibilidade de essas
sequências serem homólogas, sendo possível apenas dizer que as mesmas são similares e o
quanto são similares, isto a partir da utilização de uma ferramenta que permita tal inferência. Ao
identificar sequências em comum entre entidades não relacionadas e para diferenciar graus de
similaridade entre as mesmas seria necessária a utilização e interpretação de diferentes métodos
estatísticos, tal qual foi proposto no presente estudo.
3
As análises comparativas são necessárias para explicar as origens, a evolução e a
dinâmica do conteúdo do genoma. Se alguns genomas contem sequências sem homólogos,
mesmo em familiares próximos, isto alerta uma busca de diversidade em regiões previamente
inexploradas e a maneira com a qual estas sequências podem ter sido originadas (Daubin,
Ochman, 2004).
1.1.2 Introdução à metodologia para busca de similaridade
A comparação de sequências tem um papel central na era pós-genômica (Lecompte,
Thompson et al., 2001). Muitas informações são obtidas a partir da comparação de sequências
para: 1) determinação da função biológica mediante homologia de sequências; 2) busca de
padrões conservados ao longo da evolução, que pode servir para buscar estruturas conservadas,
sinais de localização ou resíduos funcionais que podem descrever uma família ou sub-família de
proteínas; 3) estudos evolutivos com o intuito de definir relações filogenéticas entre sequências;
4) organização dos domínios dentro de uma família proteica; 5) construção da estrutura molecular
a partir do alinhamento de nucleotídeos com uma proteína de estrutura conhecida e,
consequentemente, determinar sua função biológica.
Os programas da família BLAST realizam um alinhamento local onde sequências de
entrada são comparadas com sequências de um banco de dados. Muitos outros algoritmos e
softwares foram e continuam sendo desenvolvidos. Todas estas ferramentas para busca de
similaridade produzem um conjunto de sequências em comum (matches) que são alinhadas com a
sequência alvo. Todo match tem um valor numérico atribuído (score) cujo valor é determinado
por uma matriz de substituição podendo levar-se em consideração intervalos (gaps) que são
considerados penalidades. Somente os matches que obtiverem maior score do que um valor pré-
estabelecido (threshold) serão considerados (Pagni e Jongeneel, 2001).
Existem dois tipos de matrizes de substituição: BLOSUM (Block Substitution Matrix) e
PAM (Point Accepted Mutations ou Percent of Accepted Mutations). Estas matrizes surgem da
necessidade de atribuir um valor ao alinhamento de cada par de caracteres.
As matrizes PAM foram as primeiras matrizes de substituição utilizadas em alinhamentos
de sequências intimamente relacionadas. A PAM1 é calculada através da comparação de
sequências com até 1% de divergência. Ela estima que a taxa de substituição ocorra em 1% dos
4
caracteres. A PAM1 funciona como uma base de cálculo para a elaboração de outras matrizes,
assumindo-se que mutações repetitivas seguirão o mesmo padrão encontrado na matriz PAM1.
As matrizes PAM50, PAM100, PAM250 são extrapolações da PAM1.
BLOSUM são matrizes baseadas em alinhamentos locais e não devem ser utilizadas em
comparações envolvendo sequências intimamente relacionadas. É um método que, por
agrupamento, ordena as sequências de cada bloco em grupos relacionados. As probabilidades
usadas no cálculo da matriz são computadas a partir de blocos das sequências conservadas
encontradas em alinhamentos múltiplos da sequência. Estas sequências conservadas
supostamente tem importância funcional. A BLOSUM62 foi criada utilizando sequências que
compartilhavam não mais que 62% de identidade, e pode ser extrapolada também para uma
matriz BLOSUM80. A escolha de matrizes diferentes implicará em resultados ligeiramente
distintos. A BLOSUM62 embora seja desenvolvida para comparação de sequências
moderadamente distantes, consegue detectar relacionamentos mais próximos.
As sequências comparadas pelos programas de busca podem ser classificadas como
verdadeiros positivos ou falsos positivos (as sequências eliminadas pelo programa são os
negativos). Um verdadeiro positivo é uma sequência que compartilha similaridade com a
sequência alvo. A sequência é considerada falsa positiva se a similaridade observada for atribuída
à possibilidade de ocorrer ao acaso. Contudo, uma análise estatística baseada em princípios pode
ajudar na decisão, porque alguns matches são mais prováveis terem sido produzidos ao acaso do
que outros. Para isto, o parâmetro estatístico mais frequentemente utilizado é o E-value, o qual
representa o número de matches com score igual ou maior do que o encontrado que podem
ocorrer ao acaso, portanto o E-value promove a estimativa de que ocorram falsos positivos (Pagni
e Jongeneel 2001).
O E-value depende do tamanho da base de dados procurada, pois o número de falsos
positivos acima do threshold (linha de corte estabelecida pelo programa) aumenta
proporcionalmente ao tamanho do banco de dados. Pesquisadores que executam buscas em
bancos de dados de sequências geralmente tem como critério aceitar uma particular similaridade
indicando homologia baseando-se no E-value (Pagni e Jongeneel 2001).
Um alinhamento local entre duas sequências, sem gaps, consiste simplesmente em um par
de segmentos de tamanhos iguais. Uma modificação dos algoritmos de Smith-Waterman e Sellers
5
permite encontrar todos os pares de segmentos cujos scores não podem ser melhorados através da
extensão do alinhamento. Estes pares de segmentos são os chamados High-scoring segment pairs
ou HSPs. Para analisar a probabilidade de um alinhamento com alto score ser atribuído ao acaso,
é calculado o E-value.
Através da formula E = Kmn e
-
γ
S
, o E-value (E) é definido a partir de um determinado
score (S). Para duas sequências com tamanhos m (sequência de entrada) e n (banco de dados), as
estatísticas do score da HSP são caracterizadas por dois parâmetros: K e
γ.
De maneira mais
simplificada, o número de HSPs que podem ocorrer ao acaso com score pelo menos S é dado
pela fórmula anterior. Os parâmetros K e
γ
podem ser interpretados como escalas para o tamanho
do espaço de busca e o sistema de contagem do score, respectivamente.
O número de HSPs aleatórias com score maior ou igual a S é descrito pela distribuição de
Poisson (Karlin, Altschul, 1990). Isto significa que a probabilidade de encontrar alguma HSP
com score maior ou igual a S é dado por:
e
-E
E
a
a!
onde E é o E-value de S dado pela equação citada anteriormente (E = Kmn e
-
γ
S
). A chance de
obter nehuma HSP com score maior ou igual a S é
e
-E
, portanto a probabilidade de encontrar
pelo menos determinada HSP é P = 1 – e
-E
.
O BLAST reporta o E-value (E) porque é mais fácil compreender a diferença entre, por
exemplo, um E-value de 5 e de 10 do que P-values de 0.993 e de 0.99995. Entretanto, quando E
for menor que 0,01 , P-value e E-value são idênticos
(www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html#head4).
1.1.3 Análise de sequências genéticas
Pesquisas em biologia molecular e evolução tem mudado dramaticamente desde a criação,
na década de 80, de bancos de dados de sequências de nucleotídeos e proteínas. A expansão da
internet na última década foi significante, pois permitiu que investigadores tivessem cil acesso
a essas bases de dados (Gotea et al., 2003).
6
A técnica mais frequentemente utilizada para comparar duas ou mais sequências de
nucleotídeos ou aminoácidos consiste em sobrepor uma sequência sobre outra e buscar
semelhanças e diferenças, a qual é formalmente denominada alinhamento (Ticona, 2003).
Vários programas tem sido desenvolvidos e aprimorados a fim de facilitar a busca de
sequências similares. Estes programas incluem: FASTA (Lipman, Pearson, 1985), BLAST
(Altschul, Gish et al., 1990), Gapped BLAST e PSI-BLAST (Altschul, Madden et al. 1997),
BLAST 2 Sequences (Tatusova e Madden, 1999), MegaBLAST (Zhang, Schwartz et al., 2000) e
BLAT (Kent, 2002).
Neste projeto foi utilizado o algoritmo BLAST (Basic Local Alignment Search Tool). Este
programa utiliza atalhos para realizar a busca de maneira mais rápida. Ele executa alinhamentos
locais, onde são pesquisados trechos de similaridade entre uma sequência de entrada e o banco de
dados (www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook.section.612). O programa da família
BLAST utilizado neste projeto foi o BLASTn, através do qual foram comparadas sequências de
nucleotídeos de entrada com sequências de nucleotídeos do banco de dados composto pelos
cromossomos humanos.
As sequências em comum encontradas através do alinhamento entre duas sequências são
consideradas falsas positivas se a similaridade observada for atribuída à possibilidade de ocorrer
ao acaso. Para isto, o parâmetro estatístico mais frequentemente utilizado pelo BLAST é o E-
value, o qual representa o número de trechos de similaridade com score igual ou maior do que o
encontrado que podem ocorrer ao acaso. Portanto, o E-value promove a estimativa de que
ocorram falsos positivos (Pagni e Jongeneel 2001).
Não existe um valor ideal estabelecido para o E-value de forma que seja inferida
homologia ou similaridade. De fato E-values baixos (perto de zero) demonstram a total ou quase
inexistência do acaso na determinada comparação entre duas sequências, no entanto, dependendo
do que se está procurando, é possível analisar diversos valores de E-value. Mesmo que o E-value
seja muito baixo, o termo homologia pode ser inferido se as duas sequências comparadas
possuírem um ancestral em comum, caso contrário podemos dizer apenas que são similares.
7
1.1.4 Busca de similaridade entre o HIV-1 e o genoma humano
Como não existe um ancestral comum entre o HIV-1 e o genoma humano, foram
pesquisados possíveis trechos de similaridade entre os dois genomas. Ao identificar trechos de
similaridade entre os mesmos, verificou-se a probabilidade disto ter ocorrido ao acaso.
Provavelmente isto não seja uma verdade, pois através das comparações realizadas entre os
genomas foram encontrados trechos de similaridade que obtiveram valores de E-value baixos, o
que sugere pequena participação do acaso nas comparações e indica um alto grau de similaridade.
A análise dos E-values nas comparações entre o genoma do HIV-1 e o genoma humano
demonstrou que existe diferença de similaridade com o genoma humano entre cada um dos genes
virais. Os trechos determinados pelas comparações podem sugerir a presença de um sinal de
ancestralidade ou homologia residual entre genomas distintos na biosfera, ou evolução
convergente, que a metodologia do BLAST consegue detectar.
Foi demonstrado que cerca de 40% do nosso genoma é constituído por retrotransposons
derivados de retrovírus, sendo alguns integrados ao genoma hospedeiro há milhões de anos
(Tosta, 2001). Propõe-se que esta associação extensa e prolongada entre seres humanos e agentes
infecciosos seja capaz de gerar mútua adaptação e, consequentemente, coevolução. O principal
instrumento de coevolução envolvendo o hospedeiro humano e os agentes infecciosos é o
infectron. Este termo inclui a grande variedade de DNAs exógenos que podem invadir um
genoma e interferir com sua estrutura ou organização e, consequentemente, com sua função
(Tosta, 2001).
Portanto, trechos de genomas que são compartilhados entre o HIV-1 e humano podem ser
similares devido à presença de sequências anciãs de vírus integrados, conservação de funções
(peptídeo sinal), pirataria molecular, ou mesmo devido a uma coevolução entre o HIV-1 e o
genoma humano.
Para compreender o motivo da existência de trechos de similaridade entre genomas que
não possuem um ancestral em comum, é importante entender um pouco sobre a origem dos vírus
e sua diversidade em diferentes formas de vida celular, assim como a interação entre os vírus e
seu hospedeiro.
8
1.2 Origens virais e suas estratégias que possam resultar em trechos de similaridade com o
genoma hospedeiro
1.2.1 Origem e diversidade viral
Os vírus são companheiros ubíquos das formas de vida celular. Já foi encontrado um vírus
para cada organismo estudado até hoje, ou seja, todo organismo possui um vírus que o parasita
(Van Regenmortel, 2000). Estudos recentes tem mostrado que os rus são as entidades
biológicas mais abundantes do planeta (Breitbart; Rohwer, 2005). Eles podem ser considerados
os agentes que sofreram maior evolução devido à sua capacidade de transferência horizontal de
genes (Sano et al, 2004).
Os diferentes micobacteriófagos, por exemplo, possuem um relacionamento genético
complexo, onde segmentos de seus genomas tem histórias evolutivas diferentes. Seu genoma é
um mosaico e isto pode ser reflexo da transferência horizontal de genes (Hatfull et al, 2008). A
diversidade desta população parece ser grande, pois nenhum fago genomicamente definido foi
isolado mais de uma vez (Pedulla et al, 2003).
As trocas de sequências genéticas entre agentes infecciosos e o hospedeiro leva à
diversidade gênica e, consequentemente, à adaptabilidade. Considerando que as trocas podem ser
bidirecionais, elas são capazes de ocasionar mútua adaptação e coevolução (Tosta, 2001).
Em um estado precoce da evolução, inclusive LUCA (Last Universal Common Ancestor),
o sistema genético inteiro poderia ser, de certa maneira, como um vírus (virus-like). Inicialmente
todos os segmentos RNA da população poderiam ser completamente próprios e poderia não haver
distinção parasita ou de elementos virais e aqueles que originariam genomas de formas de vida
recentes. No entanto, esta distinção pode ter emergido assim que surgiram as primeiras
cooperativas (Koonin, Martin, 2005).
De acordo com Koonin et al (2006) existem algumas idéias sobre a origem e evolução dos
vírus: 1) origem dos vírus a partir de elementos genéticos primordiais, 2) degeneração de
organismos unicelulares ao estado do vírus e 3) escaped genes: genes virais provenientes de
genes de organismos celulares que foram modificados para benefício próprio.
De acordo com Claverie (2006), existem duas hipóteses mais tradicionais sobre a origem
dos vírus. Uma é a hipótese de escape, onde o vírus poderia ter sido originado de células através
9
do escape de mínimos componentes celulares necessários para constituir um sistema de
replicação próprio. A outra é a hipótese de redução, onde os vírus derivariam de um organismo
celular com perda progressiva de funções até que, finalmente, se transformaram em um vírus
legítimo. Esta dicotomia simples pode se tornar confusa, pois genes podem ser transferidos
horizontalmente entre os vírus que compartilham os mesmos hospedeiros, ou capturados
diretamente do hospedeiro.
A análise das sequências de diversas proteínas virais revelou diversas categorias de genes
virais os quais diferem na sua procedência. Ao menos cinco classes podem ser classificadas em
três categorias maiores que parecem ser facilmente distinguíveis (Koonin et al, 2006):
Genes com homólogos facilmente detectáveis em formas de vida celulares:
1. Genes com homólogos em organismos celulares;
2. Genes que são conservados dentro de um grupo principal dos vírus ou mesmo dos
diversos grupos e tem homólogos celulares relativamente distantes;
Genes vírus-específicos:
3. ORFans (encontrado apenas no determinado vírus, não possui homólogo);
4. Genes vírus-específicos que são conservados em um grupo de vírus, mas não tem
nenhum homólogo detectável em formas de vida celulares;
Genes com assinatura viral (hallmark):
5. Genes compartilhados por alguns grupos de vírus.
1.2.2 Interação entre vírus e hospedeiro
Estudos a respeito do relacionamento entre hospedeiro e patógeno demonstraram
estratégias imunes de fuga pelos vírus, que são vulneráveis à defesa antimicrobiana da célula. As
infecções persistentes fornecem um exemplo de como a fuga foi bem sucedida. Se uma estratégia
bem sucedida for desenvolvida pelo vírus, uma infecção persistente pode transformar-se em um
relacionamento latente com o hospedeiro (uma infecção latente é também persistente, mas a
atividade da infecção o é suficiente para induzir uma resposta imune ou uma doença aparente)
(Lidbury, 1994).
10
Os mecanismos moleculares pelos quais os vírus podem gerar uma progênie infecciosa
dentro de um tipo particular de célula ou hospedeiro constituem um exemplo surpreendente de
adaptação, onde o vírus usa o metabolismo celular para seu próprio benefício. Mas a utilização
dos recursos celulares frequentemente prejudica a célula, causando doenças e ocasionalmente a
morte do organismo infectado (Manrubia, Lázaro, 2006).
A relação entre a persistência do vírus e a doença do hospedeiro pode ser distinta baseada
no budget genético, isto é, a capacidade genética para que um vírus evolua as estratégias imunes
de fuga, a fim de conduzir um relacionamento a longo prazo com o hospedeiro, não resultando
em sintomas crônicos induzidos pelo vírus ou doenças fatais (Chaston, Lidbury, 2001).
De acordo com Wilson (1999), o HIV oferece uma vista contrastando a fuga imune viral,
porque medeia esta por mecanismos mais primitivos que não envolvem a aquisição de genes do
hospedeiro. As estratégias do HIV envolvem a produção de variantes de escape, a inibição da
ação de intérferons, e diminuição da expressão de MHC (Farrel, 1998; Wilson, 1999). Esta
variação genética permite aleatória fuga do reconhecimento pela célula T citotóxica e fuga
subsequente da memória imunológica.
Em resposta às pressões seletivas, parece que os vírus utilizaram todos os meios
disponíveis para diversificar. Seus genomas foram sujeitos aos processos graduais de mutação,
como substituição de nucleotídeo, associação de pequenas inserções e deleções, geração de
domínios, duplicação de gene seguida por divergência funcional, perda e translocação de genes,
recombinação ou rearranjo entre vírus relacionados e captura de genes celulares ou de outro
vírus. A captura de genes ocorreu em muitas linhagens virais durante toda sua evolução. Muitos
vírus codificam, por exemplo, uma DNA ou RNA polimerase e uma helicase, funções que
provavelmente foram requeridas em estágios precoces da evolução viral e supostamente foram
capturadas (Davison, 1999).
1.2.3 Variação do genoma viral
Os vírus com genoma RNA, como o HIV-1, ou que possuem intermediário RNA em seu
ciclo replicativo, é o grupo mais abundante de parasitas subcelulares. A variabilidade genética foi
11
observada em diversos vírus RNA, e seu potencial para a rápida evolução é reconhecido cada vez
mais como a base de sua ubiquidade e adaptabilidade (Domingo, Holland, 1994).
Evidências bioquímicas e estruturais sugerem que RNA replicases e transcriptases
reversas não fazem a edição 3’ –> 5’, atividade de exonuclease encontrada na maioria das DNA
polimerases celulares (Fricdberg et al, 1995). Altas taxas de erro, grandes populações e tempos
curtos de geração são três características que fizeram do vírus um sistema apropriado à evolução
(Manrubia, Lázaro, 2006).
A evolução através da seleção natural necessita da geração de alguma diversidade
genética. A maioria da variabilidade genética é consequência direta da ocorrência de erros
durante a cópia do genoma viral. A replicação do ácido nucléico é um processo complexo, onde
uma sequência complementar é gerada através da adição de nucleotídeos. A replicação não é
inteiramente fiel e, ocasionalmente, um nucleotídeo incorreto é incorporado à fita sintetizada. Se
o erro não for corrigido, ele pode ser propagado para as próximas gerações e resultar em uma
mutação (Earl, Deem, 2004).
Os vírus empregam mecanismos de mutação e seleção para reproduzirem-se
eficientemente em mudanças ambientais frequentes. importantes diferenças na capacidade de
evolução entre os vírus DNA e RNA. Os vírus DNA podem replicar seus genomas utilizando
DNA polimerases de alta fidelidade. Em contraste, pelo fato de não ocorrer isto no mundo celular
do RNA (o RNA é sempre sintetizado a partir da transcrição do DNA), os rus RNA necessitam
atividades enzimáticas que geralmente não estão presentes na célula. Estas enzimas são as RNA
replicases e transcriptases reversas, que são codificadas pelo genoma viral. Ambas as enzimas
não possuem atividade corretiva, resultando numa taxa de erro da replicação em uma ordem de
valor maior do que no vírus DNA (Domingo, Holland, 1997; Drake, Holland, 1999).
A média da taxa de mutação dos rus RNA está na ordem de 10
−4
a 10
−5
incorporações
de nucleotídeo por etapa de ciclo replicativo. Isto significa que cada genoma gerado vai conter
em média uma ou duas mutações quando comparado à sequência original. A taxa de mutação
deve ser distinta de frequência de mutação, que é a fração de mutações em uma população de
genomas. Este último parâmetro é influenciado pela habilidade replicativa de cada genoma
mutante em competição com os outros genomas da população. A seleção positiva favorece a
presença de mutações com um valor adaptativo visto que a seleção negativa remove ou mantém
12
uma quantidade pequena de genomas que carregam mutações deletérias (Manrubia, Lázaro,
2006).
A transcriptase reversa tem um papel integral na replicação do HIV e pode não ter
evoluído especificamente como uma estratégia de fuga. Por outro lado, foi devido à falta de
mecanismos de reparo dos erros da transcriptase reversa que esta modalidade de fuga evoluiu
(Chaston, Lidbury, 2001).
1.3 O HIV , histórico, partícula, genoma e ciclo de replicação
1.3.1 O HIV
1.3.1.1 Surgimento do HIV-1 na espécie humana
A emergência e a propagação dos retrovírus devem ter sido uma ocorrência comum na
evolução dos vertebrados. É possível citar não somente retrovírus que causam doenças
infecciosas atualmente, mas nossos próprios DNAs genômicos contem numerosos retrovírus
endógenos: trechos de genomas de retrovírus passados que, após integração no hospedeiro,
perderam a habilidade de produzir partículas infecciosas e agora fazem parte do genoma
hospedeiro. A ancestralidade direta do HIV também está se tornando esclarecedora. Análises
demonstram que o HIV é um lentivírus que obteve um relacionamento filogenético com um
grupo de vírus que infectam uma variedade de ordens mamíferas, incluindo os primatas não
humanos (Holmes, 2001).
Em geral, sempre que um vírus cruza limites da espécie e infecta um novo hospedeiro, ele
não está apto a multiplicar eficientemente no novo tipo celular. Neste caso a infecção é abortada.
No entanto, devido à sua enorme capacidade de adaptação, o vírus esporadicamente adquire a
habilidade de transmissão entre organismos, resultando na emergência de uma nova doença
(Manrubia, Lázaro, 2006).
A transferência de vírus geralmente é favorecida pelos distúrbios ecológicos que
aumentam o contato entre a espécie que carrega tipos diferentes de vírus. Às vezes a transferência
é facilitada por mudanças nas propriedades dorus que permitem a penetração e a replicação em
13
um novo tipo celular. A maioria das recentes doenças emergentes em seres humanos inclui, entre
outras, a síndrome da imunodeficiência adquirida (aids, causada pelo HIV-1) (Gao et al, 1999).
Alguns estudos correlacionaram genomas de amostras do HIV-1 com genomas de SIVs
em chimpanzés (cpz) (Gao et al, 1999). Pode-se dizer que o HIV-1 é uma versão viral adaptada,
gerada a partir do vírus da imunodeficiência símia (SIV) que infecta chimpanzés.
1.3.1.2 Aparecimento da aids
O aparecimento da aids no final da década de 70 nos EUA foi o primeiro sinal da chegada
da pandemia mais mortal que acometeu a história da humanidade. Após um curto período de
tempo, a aids tornou-se a principal causa de morte e devastou social e economicamente toda a
região Sub-Saariana do continente Africano. Nesta mesma região, a prevalência do HIV-1
atingiu, no final do século 20, níveis impensáveis em torno de 30% da população
economicamente ativa, reduzindo tanto a expectativa de vida quanto o poder econômico dos
países afetados (Sucupira, 2006).
A primeira notificação de aids na saúde pública ocorreu em 1981, período onde foi notado
um aumento do número de infecções oportunistas. Em 1983 o agente causador, um retrovírus, foi
isolado e relacionado com lentivírus que causam uma variedade de infecções crônicas bem
conhecidas. Em meados dos anos 80 foi evidente que dois tipos um pouco diferentes de HIV
estavam circulando em populações humanas, sendo que a maioria das infecções era causada pelo
HIV-1, que teve uma distribuição cada vez mais global, sendo que um pequeno número de povos
residentes da África ocidental, ou cuja origem se encontrava nesta região, foram contaminados
com o HIV-2 (Holmes, 2001).
Quase 70% de todas as infecções pelo HIV-1 no mundo são encontradas na África Sub-
Saariana, e a África Central é a única região onde todos os grupos do HIV-1 e subtipos do grupo
M tem sido identificados (Yang, Dash et al. 2001). Reconstruções filogenéticas demonstraram
que o HIV-1 aparece em três distintas linhagens: M, N, O (Gurtler, Hauser et al., 1994; Simon,
Mauclere et al, 1998).
Notavelmente, dentre os três SIVcpz ancestrais do HIV-1 que atravessaram barreiras e
infectaram com sucesso os seres humanos, apenas um causou a pandemia global da aids: o grupo
14
M do HIV-1, que possui diversos subtipos nomeados a partir de letras do alfabeto (A, B, C, D, F,
G, H, J, K) (Heeney, 2006).
1.3.1.3 Estrutura do HIV-1 e ciclo viral
Os genomas dos lentivírus, assim como os retrovírus (Figura 1), possuem como
característica comum a presença de três genes estruturais: gag, pol, env. O gene gag codifica as
proteínas do capsídeo viral, o gene pol as enzimas envolvidas no ciclo de replicação viral e o
gene env as proteínas do envelope viral.
Figura 1. Estrutura genômica do HIV-1.
(Adaptado de www.hiv.lanl.gov/content/sequence/HIV/MAP/landmark.html)
O HIV é composto por um envoltório fosfolipoprotéico (envelope) que contém uma
cápsula protéica, e por um complexo ribonucleoproteico (capsídeo) onde se encontra o material
genômico do vírus, constituído por duas fitas simples de RNA de polaridade positiva e as
enzimas virais (protease, transcriptase reversa e integrase).
O gene env codifica as glicoproteínas do envelope viral: gp120 e gp41, que são produtos
da quebra de uma glicoproteína maior, a gp160, pela protease viral. A gp120 está localizada na
superfície da partícula viral e interage com receptores CD4 de células do hospedeiro (Figura 2).
15
A ligação entre o vírus e esta molécula induz mudanças conformacionais na gp120 que
contribuem para a exposição do domínio de ligação à correceptores celulares (CCR5 e CXCR4).
Estas mudanças conformacionais permitem a exposição do peptídeo de fusão da gp41 (proteína
transmembrana) para a membrana da célula alvo. Após a fusão do envelope viral com a
membrana da célula hospedeira, o capsídeo penetra no citoplasma celular, deixando o envelope
para trás.
Figura 2. Estrutura do HIV-1.
(Adaptado de: http://arapaho.nsuok.edu/~castillo/NotesImages/Topic159NotesImage1.jpg)
As proteínas codificadas pelo gene gag são necessárias para a montagem das partículas
virais. Gag codifica as proteínas que compõem a matriz e o capsídeo. Os papéis dessas proteínas
durante o ciclo viral (Figura 3) são numerosos e complexos, envolvendo não somente a
montagem, mas também a maturação do vírus para a liberação da partícula (Freed, 1998).
Durante as primeiras etapas do ciclo viral, as proteínas virais, especialmente as do capsídeo, estão
em contato íntimo com o ambiente intracelular. Evidências suportam a idéia de que as interações
entre proteínas do hospedeiro e o capsídeo viral são importantes para eventos que ocorrem
durante a infecção, tal como o transporte do complexo de p integração, descapsidamento,
entrada no núcleo e integração (Matsuoka et al., 2009).
16
1 Vírus circulante
2 Ligação entre a Gp 120 e
o receptor CD4 da célula
hospedeira
3
Entrada do
vírus após o
processo de fusão
4
Transcrição reversa
do genoma viral
5
Integração do
genoma viral no
genoma do
hospedeiro
6
Tradução do
genoma viral
7
Montagem e
maturação da
partícula viral
8
Brotamento da
partícula viral. O
vírus carrega parte
da membrana
celular
9
A partícula viral
ainda imatura sai da
célula hospedeira
10
A protease viral quebra a
proteína em pedaços que se
combinam para gerar uma
partícula viral infectante
Figura 3. Ciclo de vida do HIV.
(Adaptado de http://img.thebody.com/nmai/cycle.jpg)
17
O gene pol codifica três enzimas essenciais para o ciclo viral: transcriptase reversa,
integrase, e protease. O RNA viral é transcrito reversamente pela transcriptase reversa, para que
seja produzida uma fita de DNA dupla complementar (cDNA) ao RNA viral. A integrase é
responsável por integrar este cDNA ao genoma humano. Após a integração do genoma viral na
célula hospedeira, o cDNA viral é transcrito em RNA pela maquinaria celular e traduzido no
citoplasma por ribossomos celulares. Após a tradução do RNA em proteína é formado um grande
polipeptídeo, o qual é quebrado pela protease viral para montar novas partículas virais.
Por possuírem uma organização genômica mais complexa do que os retrovírus, os
lentivírus podem possuir, além dos genes estruturais, genes adicionais regulatórios e acessórios.
A atividade de alguns genes virais está mais voltada para a partícula viral, enquanto outros
interagem diretamente com a célula hospedeira.
O HIV-1 possui seis genes adicionais, cada um exercendo uma função importante durante
a replicação viral. Estes genes são rev, tat (genes regulatórios) e nef, vif, vpr, vpu (genes
acessórios). As proteínas regulatórias são essenciais para a replicação viral através do controle da
expressão gênica do HIV-1. Por outro lado, as proteínas produzidas pelos genes acessórios são
frequentemente dispensáveis para a replicação viral in vitro (Romani, Engelbrecht, 2009). Além
dos genes, o HIV-1 possui terminais nas duas extremidades de seu genoma, chamadas LTRs
(Long Terminal Repeat), envolvidas no processo de integração do genoma viral ao genoma
humano. Estas regiões não codificam nenhuma proteína, portanto não podem ser chamadas de
gene.
A proteína viral Tat, codificada pelo gene tat, regula a transcrição viral, pois recruta
fatores celulares ao promotor viral LTR. Tat interage com complexos de proteína quinase,
acetiltransferases, proteínas fosfatases e outros fatores (Nekhai, Jeang, 2006).
Vpr é uma proteína dinâmica que se localiza primeiramente no núcleo. Uma fração
significativa é concentrada no envelope nuclear, o que sustenta a interação entre Vpr e
componentes do complexo de poro nuclear, incluindo a nucleoporina hCG1. Sua finalidade é
levar para o núcleo o complexo de pré-integração, para que o HIV-1 integre seu genoma na célula
hospedeira. Vpr também faz com que a célula pare na fase G2, antes da apoptose (Jacquot, 2007).
A deleção desse gene reduz dramaticamente a virulência do HIV-1 (Romani, Engelbrecht, 2009).
18
O HIV-1 desenvolveu estratégias para transportar RNAs mensageiros (mRNAs) ao
citoplasma para serem traduzidos. Rev codifica uma proteína que pode se ligar aos mRNAs virais
e os levar para o citoplasma através de poros nucleares (Panaro et al., 2008). Para realizar esta
atividade, Rev interage com proteínas de transporte celular e helicases, entre outras (Nekhai,
Jeang, 2006).
O gene nef é conservado em todos os genomas dos lentivírus de primatas. Ele promove a
replicação viral e a infectividade, influencia o tráfego de um grande número receptores de
superfície e interfere na sinalização de TCR (Receptor de Células T), modulando a ativação da
célula T (Ariën e Verhasselt, 2008).
Vif é o fator de infectividade viral, uma proteína acessória crítica para a replicação in
vivo. A função preliminar de Vif é impedir o encapsidamento de APOBECs (proteínas celulares
com ação antiviral) em partículas virais e induzir a degradação ubiquitina-dependente de algumas
das APOBECs. Entretanto, Vif pode igualmente impedir o encapsidamento da APOBEC3G e de
APOBEC3F através de mecanismos degradação-independentes (Goila-Gaur, Strebel, 2008).
Vpu é, aparentemente, multifuncional. Este gene codifica uma proteína viral que possui
duas funções principais: degradação da molécula CD4 no retículo endoplasmático e a liberação
dos vírus das células. A recente identificação de um novo fator vpu-antagonista, chamado
teterina, sugere que Vpu contribua para a disseminação, permitindo a produção de uma nova
progênie viral. (Nomaguchi, 2008).
1.4 Integração do HIV
1.4.1 Região LTR e Integração do HIV-1
A região LTR do genoma do HIV-1 é o centro de controle da expressão gênica e também
está envolvida na retrotranscrição e integração do genoma viral no hospedeiro. Seu tamanho
corresponde a aproximadamente 640 pares de base. (Ramirez de Arellano, Soriano et al. 2006).
Existem quatro tipos de cDNA viral (Figura 4): o produto linear da transcrição reversa e
três formas circulares: 1-LTR, 2-LTR e produto de auto-integração.
19
A forma circular contendo uma LTR (1-LTR) resulta da recombinação homóloga entre
duas LTRs de uma molécula de DNA viral linear. A forma 2-LTR representa a ligação de dois
terminais do precursor linear, frequentemente com deleções de poucos nucleotídeos de um ou
dois terminais, e ocasionalmente com deleções enormes ou sequências inseridas entre os dois
terminais unidos. Os produtos de auto-integração ocorrem devido à utilização da molécula de
DNA viral própria como um alvo, resultando em um ou dois produtos circulares re-arranjados,
dependendo da orientação com a qual a extremidade do DNA viral integra (Coffin et al. 1997).
Figura 4. Tipos de cDNA viral (Coffin, 1997)
2-LTR
1-LTR
Produtos de autosffds
-
Produto linear da Transcriptase
Reversa
Produtos de auto - integração
20
Em parte do ciclo replicativo do HIV-1, o RNA viral é transcrito em DNA de fita dupla
(cDNA), e a enzima carregada pelo vírus responsável por este processo é a transcriptase reversa.
Esta é uma enzima fundamental, pois cliva dois nucleotídeos a partir da extremidade 3’ do LTR,
tornando possível a integração viral através da interação entre grupos hidroxila no DNA viral e
ligações fosfodiéster no DNA hospedeiro. A conclusão do processo de integração requer a
remoção de dois nucleotídeos não pareados na extremidade 5’ do provírus (Craigie, 2001). Se o
vírus não for integrado, ele não poderá replicar e produzir as proteínas necessárias para a
montagem da partícula viral e posterior liberação, a fim de infectar novas células e retomar o
ciclo replicativo.
A ativação transcricional da expressão gênica do HIV-1 é controlada pela interação de
fatores de transcrição com sequências especificas no LTR do provírus. A identificação e
caracterização de proteínas celulares envolvidas neste processo podem fornecer uma
compreensão básica sobre a regulação da transcrição do HIV-1 e da célula eucariota. A região
LTR do HIV-1 é similar ao complexo promotor eucarioto, com moduladores transcricionais e
elementos regulatórios onde agem fatores de transativação. Ela demonstra também uma alta
variabilidade genética entre os subtipos do HIV-1. De fato, diversos marcadores subtipo-
específicos estão presentes nesta região. Ainda não está claro, para a maioria dos subtipos do
HIV-1, se as diferenças genéticas observadas no LTR entre eles podem influenciar sua eficiência
replicativa. A região LTR pode ser de interesse particular para desenvolver novas drogas que
podem impedir a interação do LTR do HIV-1 com as proteínas celulares ou virais envolvidas na
regulação da transcrição (Ramirez de Arellano, Soriano et al., 2006).
1.4.2 Locais de integração no genoma humano
A integração do DNA é favorecida em genes ativos, mas o mecanismo subjacente é
incerto. A proteína celular LEDGF/p75 (Lens Epithelium-Derived Growth Factor) liga-se ao
DNA cromossomal e na integrase do HIV-1 podendo, consequentemente, dirigir a integração
através de uma interação. A LEDGF é assim o primeiro exemplo de uma proteína celular que
controla a posição da integração do HIV-1 em células humanas (Ciuffi, Llano et al. 2005).
Alguns trabalhos demonstram que a maioria dos retrovírus integram preferencialmente em
regiões hipersensitivas à DNase I e nas regiões cromossômicas transcricionalmente ativas. Essas
21
regiões são encontradas em regiões de cromatina descondensada (Schroder et al., 2002;
Albanese, 2008).
A seleção de alvos para a integração é crucial para a replicação viral eficiente, mas o
mecanismo é pouco entendido (Schroder et al, 2002).
Kim et al (2006) citaram que o local de integração do DNA retroviral não é específico,
mas também não é completamente randômico e a frequência da utilização de sítio específicos
pode variar consideravelmente.
Schroder et al (2002) realizou um experimento que envolveu a infecção de células SupT1
(linhagem de células T) com HIV e um vetor baseado no HIV, e após 48 horas o DNA
cromossomal foi isolado. Os fragmentos contendo a junção entre o provírus e o DNA celular
foram clonados e sequenciados, sendo gerados 524 diferentes alvos para a integração, conforme
Figura 5, na próxima página. Destes 524 tios de integração, 358 localizavam-se em genes. De
acordo com o estudo, a região mais favorável foi um locus intergênico no cromossomo 11q13,
que conteve cinco sítios de integração independentes dentro de 2.4 kb.
Na Figura 5, a localização dos sítios de integração são mostrados como “pirulitos” acima
dos cromossomos. Os roxos indicam o HIV-1; os vermelhos, o vetor baseado no HIV; e os
verdes, o Complexo de Pré Integração (controle in vitro). Os cromossomos humanos estão
numerados. Para cada cromossomo, a cor dos traços nas barras de cima indicam integração
dentro de genes (ouro) ou fora de genes (cinza). A barra abaixo indica a densidade relativa no
gene, com as áreas mais densas mostradas em vermelho mais intenso. Os centrômeros estão
mostrados em retângulos cinza. A análise do cariótipo mostrou que o cromossomo Y não está
presente nas células SupT1 estudadas e a representação dos cromossomos foi aproximadamente
igual nas células analisadas (dado não mostrado) (Schroder et al, 2002).
22
Figura 5. Sítios de integração do cDNA do HIV-1 no genoma humano.
Kim et al (2006) descreveram que o mecanismo que determina a especificidade do sítio
alvo de integração dos retrovírus não é bem compreendido e é afetado por diversos fatores.
Devido à natureza não específica da integração, estudos para compreender o mecanismo e
caracterização de fatores envolvidos na seleção do sítio alvo em células infectadas requerem
coleta e análise de uma grande biblioteca de clones provirais do HIV-1.
De acordo com o estudo realizado por Kim et al (2006), foram demonstrados diversos
alvos de integração com 46 47 pares de base (pb) onde 25 pb correspondem ao final LTR do
genoma viral, 19 20 pb correspondem ao DNA celular e 2 pb à sequência ligante. Dez mil
sequências randômicas com 19-20 pb foram geradas randomicamente e demonstraram que,
mesmo com desigual distribuição de bases e um índice elevado de elementos repetidos,
aproximadamente 70% destas sequências randômicas foram mapeadas somente nas posições
23
originais. Como esperado, a maioria das sequências que foram mapeadas em diversos locais está
associado com elementos repetitivos. Este dado é comparável ao dado obtido por Schroder et al
(2002) o qual demonstrou que 30% dos provírus estão localizados perto de sequências repetidas.
24
2. OBJETIVOS
1) Identificar regiões de similaridade entre genoma humano e HIV-1 que possuem
suporte estatístico confiável.
2) Desenvolver uma metodologia que permita comparar sequências de organismos de
origens diversas e encontrar trechos de similaridade que possam ser quantificados de
forma confiável através do programa BLAST.
25
3. METODOLOGIA E CASUÍSTICA
3.1 Programa utilizado nas comparações entre as sequências genéticas
Para realizar as comparações entre as sequências genéticas, foi utilizada a ferramenta
BLASTn (versão 2.2.20) com um banco de dados local composto pelos cromossomos humanos.
A linguagem de programação utilizada para o processamento em lote das sequências foi
Python (versão 2.5). Os resultados foram armazenados em um servidor de Banco de Dados
MySQL (versão 5.1.30) e as consultas para análise dos dados obtidos foram realizadas utilizando
a linguagem estruturada de consulta SQL (Structured Query Language).
O BLASTn foi utilizado para realizar as comparações entre cada um dos genes do HIV-1,
genes MP e CP e algumas sequências de genoma completo do vírus do mosaico do tabaco,
trechos de cromossomos da Macaca mulatta e sequências aleatórias, isto com cada um dos
cromossomos do genoma humano. Este programa foi utilizado por ser uma ferramenta difundida
e utilizada em muitos estudos. A metodologia possibilitou a quantificação da similaridade através
dos alinhamentos que obtiveram menores E-values, já que este parâmetro demonstra o quanto
determinado alinhamento está submetido ao processo do acaso.
O BLAST realizou alinhamentos locais entre as sequências de entrada (HIV-1, rus do
mosaico do tabaco, Macaca mulatta, sequências aleatórias) e sequências do banco de dados
(cromossomos humanos).
3.1.1 Parâmetros utilizados no BLASTn
Tabela 1. Parâmetros utilizados no BLASTn.
Parâmetro
Valor
atribuído
Expectation value (E)
10.0
Foram mostrados todos os alinhamentos com
E-value até 10.
Cost to open a gap
-1
Gap é o espaço introduzido em um
alinhamento para compensar inserções ou
26
deleções em uma sequência relacionada à
outra. Este parâmetro penaliza cada abertura de
gap.
Cost to extend a gap
-1
Este parâmetro penaliza cada extensão de gap
Penalty for a nucleotide
mismatch
-3
A cada pareamento de bases diferentes é
atribuído o valor -3.
Reward for a nucleotide
match
1
A cada pareamento de bases iguais é atribuído
o valor 1.
Threshold for extending hits
0
O BLAST procura os primeiros pares de
palavras cujo score alcança pelo menos E-value
= 0.
Word size
11
O BLAST inicia o alinhamento a partir de um
trecho (match) composto por 11 bases idênticas
entre a sequência de entrada e o banco de
dados. A partir deste trecho composto por 11
bases, o alinhamento é estendido para os dois
lados.
Matriz de substituição
BLOSUM62
3.2 Ajuste estatístico
O fitting (ajuste estatístico) foi utilizado no presente estudo para diferenciar os graus de
similaridade das comparações realizadas entre genoma humano e: HIV-1, vírus do mosaico do
tabaco, Macaca mulatta e sequências aleatórias.
O melhor fitting é aquele que possui o menor qui-quadrado e consegue gerar a melhor
curva, ou seja, uma curva que inclua o maior número de pontos possíveis. Outro fator que define
27
o melhor fitting é a utilização do menor número possível de variáveis, portanto neste projeto foi
utilizada uma análise do tipo y = a
0
. x
a1
, onde as variáveis são apenas a
0
e a
1
.
3.3 Amostragem
3.3.1 Sequências dos cromossomos humanos
As sequências completas de todos os cromossomos humanos estão disponíveis a partir do
seguinte endereço eletrônico:
www.ncbi.nlm.nih.gov/projects/mapview/map_search.cgi?taxid=9606&build=previous. Foram
utilizados os cromossomos cujas identificações iniciam com “NC”, conforme Tabela 2.
Tabela 2. Identificações de acesso no NCBI referentes aos cromossomos humanos que
constituem o banco de dados.
Cromossomo
Identificação de
acesso no NCBI
1 NC_000001
2 NC_000002
3 NC_000003
4 NC_000004
5 NC_000005
6 NC_000006
7 NC_000007
8 NC_000008
9 NC_000009
10 NC_000010
11 NC_000011
12 NC_000012
13 NC_000013
14 NC_000014
15 NC_000015
16 NC_000016
17 NC_000017
18 NC_000018
19 NC_000019
20 NC_000020
28
21 NC_000021
22 NC_000022
X NC_000023
Y NC_000024
Todas as sequências dos subtipos do HIV-1, genes do TMV, trechos de cromossomos da
Macaca mulatta e sequências aleatórias foram comparadas com cada um dos cromossomos
humanos separadamente.
3.3.2 Sequências do HIV-1
Mais de 5000 sequências (Tabela 3) dos genes (env, gag,, nef, pol, rev, tat, vif, vpr, vpu) e
região LTR de todos os subtipos (A-D, F-H, J, K) do HIV-1 foram obtidas a partir do banco de
dados Los Alamos (www.hiv.lanl.gov). Foram obtidas todas as seqüências completas de todos os
genes do HIV-1 postadas no banco de dados até abril de 2007, exceto formas recombinantes.
Cada uma das mais de 5000 sequências foi comparada separadamente com cada cromossomo
humano.
Tabela 3. Quantidade de sequências de cada gene dos diversos subtipos do HIV-1.
env gag LTR nef pol rev tat vif vpr vpu
A 77 34 19 104 61 66 61 80 67 70
B 199 125 47 512 110 100 79 326 224 203
C 201 172 74 256 159 166 149 171 164 178
D 54 22 39 73 44 51 45 56 44 59
F 13 10 8 11 10 10 10 11 10 15
G 14 6 8 13 9 7 7 8 8 21
H 3 3 3 5 3 3 3 3 3 6
J 3 2 2 2 2 2 2 2 2 2
K 2 3 2 2 2 2 2 2 2 2
Total 566 377 202 978 400 407 358 659 524 556
29
3.3.3 Sequências do vírus do mosaico do tabaco
Em setembro de 2008 foram obtidas sequências completas de genes do vírus do mosaico
do tabaco (TMV) no banco de dados de nucleotídeos do NCBI (www.ncbi.nlm.nih.gov) através
da palavra chave “Tobacco Mosaic Vírus”, sendo 19 sequências do gene CP, 28 sequências do
gene MP e 2 sequências do genoma completo. Estas sequências foram utilizadas como controle
negativo biológico.
As identificações para acesso das sequências do gene CP no banco de dados do NCBI são:
AF103780, AJ429078, AJ429080, AJ429081, AJ429098, DQ352454, DQ352813, Q401152,
AF012917, AF103779, AJ239099, AJ429079, AJ429082, AM412008, AY555269, D13367,
DQ014551, EF183504, X70858.
As identificações para acesso das sequências do gene MP no banco de dados do NCBI
são: AJ307580, AJ308682, AJ308683, AJ308684, AJ308685, AJ308688, AJ308690, AJ308693,
AJ310339, AB354955, AJ307578, AJ307579, AJ307581, AJ307582, AJ307583, AJ308686,
AJ308687, AJ308689, AJ308691, AJ308692, AJ509080, AJ509081, AJ509082, AJ509083,
AM412007, AY300161, AY360447, DQ028580.
As identificações para acesso das sequências do gene completo do TMV no banco de
dados do NCBI são: AF155507 e AF165190.
3.3.4 Sequências da Macaca mulatta
Para a Macaca mulatta, foram obtidas 43 sequências correspondentes a trechos de seus
cromossomos através do banco de dados do NCBI
(www.ncbi.nlm.nih.gov/projects/mapview/map_search.cgi?taxid=9544). Estas sequências foram
utilizadas como controle positivo devido à ancestralidade com o humano.
A identificação de sequências do genoma da Macaca mulatta no NCBI e o tamanho delas
estão demonstradas na tabela a seguir:
30
Tabela 4. Identificações de acesso no NCBI referentes aos trechos de cromossomos da Macaca
mulatta.
Identificação da sequência no NCBI Tamanho da sequência
ref|NC_007859.1|NC_007859:c31699125-31696583 Macaca mulatta
2543
ref|NW_001095158.1|Mmu10_WGA15721_1:2447429-2449073 Macaca
1645
ref|NW_001095158.1|Mmu10_WGA15721_1:522400-523000 Macaca
601
ref|NW_001096617.1|Mmu11_WGA17180_1:4269498-4270165 Macaca
668
ref|NW_001096617.1|Mmu11_WGA17180_1:523427-524643 Macaca
1217
ref|NW_001098159.1|Mmu12_WGA18722_1:11469274-11470057 Macaca
784
ref|NW_001098159.1|Mmu12_WGA18722_1:3601420-3603743 Macaca
2324
ref|NW_001098989.1|Mmu13_WGA19552_1:1510196-1510797 Macaca
602
ref|NW_001098989.1|Mmu13_WGA19552_1:925867-928267 Macaca
2401
ref|NW_001100391.1|Mmu14_WGA20954_1:10643591-10644760 Macaca
1170
ref|NW_001100391.1|Mmu14_WGA20954_1:1140305-1141366 Macaca
1062
ref|NW_001101663.1|Mmu15_WGA22226_1:10032796-10033368 Macaca
573
ref|NW_001101663.1|Mmu15_WGA22226_1:2087415-2089225 Macaca
1811
ref|NW_001102973.1|Mmu16_WGA23536_1:1153344-1156627 Macaca
3284
ref|NW_001102973.1|Mmu16_WGA23536_1:836865-837602 Macaca
738
ref|NW_001104501.1|Mmu17_WGA25064_1:19410325-19410997 Macaca
673
ref|NW_001104501.1|Mmu17_WGA25064_1:4562995-4565841 Macaca
2847
ref|NW_001105667.1|Mmu18_WGA26230_1:1120394-1121774 Macaca
1381
ref|NW_001105667.1|Mmu18_WGA26230_1:512144-512695 Macaca
552
ref|NW_001108716.1|Mmu1_WGA10_1:1060801-1061379 Macaca mulatta
579
ref|NW_001108716.1|Mmu1_WGA10_1:469524-471093 Macaca mulatta
1570
ref|NW_001108982.1|Mmu1_WGA133_1:10663575-10663799 Macaca
225
ref|NW_001111308.1|Mmu20_WGA29173_1:558606-561274 Macaca
2669
ref|NW_001111357.1|Mmu20_WGA29222_1:981492-982375 Macaca
884
ref|NW_001112540.1|Mmu2_WGA2704_1:c14966475-14963933 Macaca
2543
ref|NW_001112546.1|Mmu2_WGA2710_1:2429225-2431747 Macaca
2523
ref|NW_001114187.1|Mmu3_WGA4351_1:482427-483139 Macaca mulatta
713
ref|NW_001116476.1|Mmu4_WGA6640_1:3420102-3421006 Macaca
905
ref|NW_001116476.1|Mmu4_WGA6640_1:64972-65712 Macaca mulatta
741
ref|NW_001118162.1|Mmu5_WGA8326_1:3998980-4000545 Macaca
1566
ref|NW_001118163.1|Mmu5_WGA8327_1:7924855-7926192 Macaca
1338
ref|NW_001120978.1|Mmu6_WGA9847_1:8189370-8189780 Macaca
411
ref|NW_001120979.1|Mmu6_WGA9848_1:13878960-13879690 Macaca
731
31
ref|NW_001120979.1|Mmu6_WGA9848_1:15196931-15199042 Macaca
2112
ref|NW_001121151.1|Mmu7_WGA11315_1:291340-291813 Macaca mulatta
474
ref|NW_001121151.1|Mmu7_WGA11315_1:677345-680222 Macaca mulatta
2878
ref|NW_001121193.1|Mmu7_WGA11357_1:644561-646577 Macaca mulatta
2017
ref|NW_001122887.1|Mmu8_WGA13051_1:2402-6933 Macaca mulatta
4532
ref|NW_001122887.1|Mmu8_WGA13051_1:2852605-2853978 Macaca
1374
ref|NW_001122890.1|Mmu8_WGA13054_1:5048694-5049125 Macaca
432
ref|NW_001124206.1|Mmu9_WGA14370_1:901627-902610 Macaca mulatta
984
ref|NW_001218172.1|MmuX_WGA30481_1:2171056-2171565 Macaca
510
ref|NW_001218172.1|MmuX_WGA30481_1:4430943-4434381 Macaca
3439
3.3.5 Sequências aleatórias
As sequências aleatórias foram geradas através do endereço eletrônico:
www.bioinformatics.org/sms2/random_dna.html.
Foram geradas 300 sequências aleatórias com 1000 pb, para serem utilizadas como
controle negativo (não biológico) no presente estudo.
32
0%
10%
20%
30%
40%
50%
60%
0,001 0,005 0,01 0,05 0,1 0,5 1 1,5
E-value
Nº de matches
env
gag
LTR
nef
pol
rev
tat
vif
vpr
vpu
TMV-MP
TMV-CP
Macaca
mulatta
4. RESULTADOS
4.1 Distribuição dos E-values
Após submeter as sequências completas de todos os genes do HIV-1, sequências
completas dos genes MP e CP do TMV, trechos de cromossomos da Macaca mulatta e
sequências aleatórias no programa BLASTn para serem comparadas com cada um dos
cromossomos humanos, observou-se a distribuição dos E-values.
4.1.1 Diferenças entre os genes do HIV-1, TMV e Macaca
mulatta
Foram verificadas comparações com uma grande variação de E-value (até 10). Portanto,
ao analisar todos os alinhamentos, foi utilizado um conjunto de estatísticas e não uma estatística
só, já que cada E-value corresponde a uma estatística.
Gráfico 1. Porcentagem do número de matches obtidos até os determinados E-values.
33
De acordo com o Gráfico 1, é possível observar a porcentagem do número de matches até
o determinado E-value. A Macaca mulatta obteve 35% dos matches com E-value até 0,001. Este
dado gráfico demonstra que o BLAST conseguiu detectar um sinal que demonstra a
ancestralidade, neste caso entre genes da Macaca mulatta e o genoma humano. Foi analisada uma
região composta por E-values baixos (onde os mesmos puderam ser convertidos para p-values
com suporte estatístico confiável) já que ao aumentar o limite com E-values mais altos há
saturação dos dados e perda do significado.
4.1.2 Classificação dos melhores genes
Para tentar definir genes do HIV-1 que possuem maior grau de similaridade (melhores
genes) com o genoma humano, foi utilizado um fitting (ajuste estatístico), sendo que o melhor
fitting é aquele que possui o menor qui-quadrado. Este é o parâmetro de qualidade do ajuste e
mede o quanto os pontos estão dispersos em torno da curva de ajuste, assim, quanto mais
próximo de zero, a significância estatística será maior.
O fitting de cada gene foi calculado a partir da relação entre número de matches e E-value.
No eixo das ordenadas foram plotados os números de matches (trechos de similaridade)
cumulativos, ou seja, quantos matches foram obtidos até o determinado E-value (representado no
eixo das abcissas). Nos gráficos da próxima página a curva do fitting está representada em
vermelho, e os pontos pretos representam os resultados obtidos através do BLAST. Por exemplo:
para a Macaca mulatta (Gráfico 2), aproximadamente 32% de todos os alinhamentos (matches)
ocorreram até o E-value 2.10
-5
.
O cálculo foi feito a partir de um intervalo de E-value baixo, onde o E-value é igual ao P-
value. A partir do começo da curva, que é obtida nesse intervalo de E-values baixos, é
demonstrada a tendência da mesma, ou seja, se ela terá concavidade positiva ou negativa.
Os intervalos com E-values baixos utilizados para cada gene do HIV-1, vírus do mosaico
do tabaco (TMV), Macaca mulatta e sequências aleatórias foram diferentes para cada um deles.
Isto porque em alguns casos não existem intervalos com E-values muito baixos, a quantidade de
pontos é muito pequena ou, simplesmente, não existem pontos.
34
Ao verificar a curva do fitting obtida a partir do intervalo com os menores E-values
possíveis, observou-se que todos os genes do HIV-1 apresentaram curva não linear do tipo y = a
0
. x
a1
, onde a
0
e a
1
são parâmetros obtidos a partir de ajuste numérico.
A partir da Tabela 5 é possível visualizar, além dos valores de
a
0
e
a
1
, o qui-quadrado e o
coeficiente de correlação, o qual mede a qualidade do ajuste, sendo ideal o valor próximo a 1.
Tabela 5. Parâmetros encontrados na análise do fitting.
a
0
a
1
Q
ui
-
quadrado
Coeficiente de
correlação
nef 0,0135 0,596 1,18.10
-8
0,995
pol 0,0074 0,487 1,77.10
-7
0,897
gag 0,0520 0,605 3,59.10
-6
0,951
vif 0,1510 0,599 4,88.10
-5
0,784
tat 0,0330 0,606 1,26.10
-8
0,997
env 0,0180 0,592 1,51.10
-8
0,998
rev 0,0330 0,669 5,97.10
-7
0,843
vpr 0,0084 0,360 1,18.10
-6
0,851
vpu 0,2470 0,923 2,67.10
-7
0,965
LTR 33,970 3,290 3,7.10
-6
0,970
Macaca mulatta
0,3670 0,013 8,2.10
-5
0,998
TMV (gene CP) 0,1980 1,957 1,95.10
-5
0,987
TMV (gene MP)
0,019 1,009 1,51.10
-5
0,951
aleatórias 0,1680 0,971 1,3.10
-4
0,999
O tipo de curva, que é determinada pelo valor de
a
1
, obtida a partir da análise do fitting
pode ser observada nos Gráficos 2, 3, 4 e 5.
35
Gráfico 2. Dinâmica da curva do fitting da Macaca mulatta (
a
1
< 1).
O Gráfico 2 demonstra que a Macaca mulatta obteve concavidade negativa, pois o valor
de
a
1
foi menor que 1, e muito mais acentuada do que a concavidade negativa apresentada pelo
gene nef (Gráfico 3) do HIV-1. Todos os genes do HIV-1 obtiveram o mesmo tipo de curva e por
isto foi demonstrado apenas um gene. Por outro lado, as sequências aleatórias (Gráfico 4)
apresentaram uma reta, e o gene CP do TMV (Gráfico 5) uma concavidade positiva (
a
1
maior
que 1).
Isto demonstra que, ao analisar a quantidade de matches relacionada ao E-value, existem
diferenças entre os itens.
36
Gráfico 3. Dinâmica da curva do fitting do gene nef do HIV-1 (
a
1
< 1).
Gráfico 4. Dinâmica da curva do fitting das sequências aleatórias (
a
1
= 1).
37
Gráfico 5. Dinâmica da curva do fitting do gene CP do vírus do mosaico do tabaco (
a
1
> 1).
Apesar da maioria dos genes do HIV-1 terem obtido valores de expoente (
a
1
) semelhantes,
o parâmetro
a
0
foi diferente para cada um deles.
Para alguns genes do HIV-1 existem poucos pontos no intervalo com E-value baixo,
porém outros possuem mais pontos. O fato de possuir mais pontos em um intervalo de E-value
baixo poderia indicar maior grau de similaridade do que aqueles genes que obtiveram poucos
pontos, que a Macaca mulatta obteve muito mais pontos do que qualquer um dos outros itens,
isto com E-values baixos.
A análise do fitting também apontou uma diferença entre todos os genes do HIV-1 e a
região LTR do HIV-1. Isto pode ser explicado, pois a região LTR não é uma sequência
codificadora, mas sim regulatória, e atua como um promotor que pode estar submetido a outros
padrões evolutivos.
38
Como citado anteriormente, alguns genes do HIV-1 obtiveram valores de
a
1
diferentes dos
outros. Os valores para os genes env, gag, nef, pol, rev, tat e vif foram muito semelhantes. Por
outro lado, para o gene vpr foi mais baixo e o valor para o gene vpu foi mais alto.
A existência de valores de
a
1
semelhantes permitiu que fosse calculada a média de
a
1
para
os genes env, gag, nef, pol, rev, tat e vif. O valor da média foi 0,6. Assim, este valor foi fixado na
fórmula do fitting, sendo: y = a
0
. x
0,6
. A partir desta fórmula, calculou-se o valor de
a
0
para
tentar classificar esses genes de acordo com o grau de similaridade, sendo aqueles com maior
valor mais similares ao genoma humano.
Tabela 6. Valores de a
0
para os genes env, gag, nef, pol, rev, tat e vif com a
1
= 0,6.
Genes do HIV-1
a
0
vif
0,1510
gag
0,0520
tat
0,0330
rev
0,0330
env
0,0180
nef
0,0135
pol
0,0074
4.2 Locais de maior frequência de matches nos cromossomos
Para verificar o significado da localização dos trechos de similaridade obtidos através da
comparação entre os genes do HIV-1 e o genoma humano, dados do Projeto Genoma Humano
foram imprescindíveis para o presente estudo. O Projeto Genoma Humano teve como objetivo o
mapeamento do genoma humano e a identificação de todos os nucleotídeos que o compõem. Foi
necessário um esforço mundial para se decifrar o genoma. Após a iniciativa do National Institutes
of Health (NIH) estadunidense, centenas de laboratórios de todo o mundo se uniram à tarefa de
sequenciar, um a um, os genes que codificam as proteínas do corpo humano e também aquelas
sequências de DNA que não são genes.
Ao analisar os locais dos cromossomos humanos onde ocorreram os matches, a partir da
comparação entre os genes do HIV-1 e o genoma humano, percebeu-se que para os diferentes
39
genes do HIV-1 houve um local de maior concentração no genoma humano, conforme Tabela 7,
a seguir.
Tabela 7. Cromossomos que obtiveram maior frequência de matches.
Gene Cromossomo ss se E-value Qtd
Qtd / Total
matches
Significado
env 22 43254688 43254708 4,7 81 52%
Leucine zipper, down-regulated in
cancer 1-like
gag 15 53863322 53863342 2,8 193 78%
LTR 14 46762432 46762413 3,6 51 63%
MAM domain containing glycosylphos-
phatidylinositol anchor 2
nef 15 51902820 51902800 1,1 827 77%
pol 22 24365013 24364993 5,6 105 72% Adrenergic, beta, receptor kinase 2
rev 22 48480699 48480681 9,6 40 10%
tat 21 10137880 10137902 8,3 112 12%
vif 22 14591269 14591245 1 74 85% Transcribed locus
vpr 21 27327690 27327672 7,8 57 56%
vpu 20 55949121 55949139 6,5 116 38%
A tabela acima demonstra em qual cromossomo ocorreu a maior frequência de matches
(Cromossomo), o trecho deste cromossomo (ss, se) que obteve a maior frequência, o E-value do
trecho correspondente ao match, a quantidade do determinado trecho (Qtd) obtida no
cromossomo, a frequência (Qtd / total matches) do determinado trecho dentre todos os trechos
obtidos naquele cromossomo, e o significado do trecho no genoma humano (os campos em
destaque referem-se aos trechos que possuem significado).
40
Em alguns casos ainda não é conhecido o significado do determinado trecho. Os
significados foram obtidos através do Map Viewer, disponível no site do NCBI
(www.ncbi.nlm.nih.gov/projects/mapview/map_search.cgi?taxid=9606).
Também foi verificada a maior frequência de trechos de similaridade nos outros
cromossomos humanos, e não apenas no cromossomo que obteve a maior frequência. As
próximas tabelas demonstram, para cada um dos cromossomos do genoma humano, em qual
trecho ocorreu a maior frequência de matches. De acordo com as Tabelas 8 a 17, é possível
observar o cromossomo (Cromossomo), o trecho (ss, se) do cromossomo que obteve a maior
frequência de matches, o E-value do trecho correspondente, a quantidade do trecho (Qtd) obtida
no determinado cromossomo, a frequência (Qtd / Total) obtida pelo determinado trecho dentre
todos os trechos obtidos naquele cromossomo, e o significado do determinado trecho.
Para analisar a localização dos matches não foi utilizado um cut-off de E-value, ou seja,
foram verificados todos os alinhamentos obtidos pelo programa BLASTn, pois a intenção foi
verificar onde estavam ocorrendo os matches¸ independente do grau de similaridade.
41
Gene env
Tabela 8. Gene env. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd
Qtd / Total
regiões Significado
22 43254688 43254708 4,7 81 52% Leucine zipper, down-regulated in cancer 1-like
18 6425400 6425421 1,2 250 41%
Y 10634483 10634463 4,7 81 28%
10 49756527 49756507 4,6 199 27% WDFY4 WDFY family member 4
17 20400324 20400344 4,7 82 26% Transcribed locus
17 28225441 28225421 4,7 81 26% Miosina ID
6 26078647 26078626 1,2 295 23% TRIM38 tripartite motif-containing 38
1 89481785 89481765 4,6 277 23% Guanylate binding protein 5 (GBP5)
13 27480151 27480130 1,2 91 22% Fms-related tyrosine kinase 3
14 97481307 97481328 1,2 80 20% Chromosome 14 open reading frame 64
16 4574171 4574150 1,2 107 19% Hypothetical LOC342346
9 77524587 77524567 4,7 81 18%
21 20258521 20258497 4,8 14 16%
8 65963011 65962991 4,6 125 15%
12 127458469 127458449 4,7 81 15%
7 54757812 54757792 4,7 81 13%
4 132525360 132525389 1,2 132 12%
5 28873465 28873445 4,6 97 12%
15 58879376 58879350 0,3 27 11% RAR-related orphan receptor A
2 217290341 217290373 4,6 132 10%
11 69646334 69646310 0,019 115 8% Transmembrane protein 16A
X 129631912 129631932 4,7 81 7% Ecto-NOX disulfide-thiol exchanger 2
20 6132668 6132648 4,7 15 7%
3 171231188 171231168 4,7 92 6%
19 787455 787475 4,7 7 5% Azurocidin 1 (cationic antimicrobial protein 37)
42
Gene gag
Tabela 9.
Gene gag. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
15 53863322 53863342 2,8 193 78%
13 79482011 79481990 0,7 117 68%
14 21127272 21127292 2,7 85 63%
22 34599615 34599595 2,7 33 57% RNA binding motif protein 9
2 180004113 180004133 2,8 118 52% Zinc finger protein 533
8 50151078 50151058 2,7 133 43% Chromosome 8 open reading frame 22
21 46501412 46501433 0,68 6 43% minichromosome maintenance complex
5 104860864 104860884 2,7 156 41%
12 44385516 44385496 2,7 48 31%
7 134962955 134962975 2,7 24 30% nucleoporina 205kDa
18 407881 407857 2,8 13 28% Collectin sub-family member 12
17 58860163 58860141 0,17 11 25% Tetratricopeptide repeat, ankyrin repeat and coiled-
16 6775196 6775176 2,7 6 24% Ataxin 2-binding protein 1
10 67030950 67030970 2,7 14 20% Transcribed locus
3 126634532 126634512 2,7 21 19%
1 52572718 52572738 2,7 54 18% Zinc finger, FYVE domain containing 9
11 26282671 26282651 2,7 13 18% Transmembrane protein 16A
20 32544385 32544406 0,7 9 17% Itchy homolog E3 ubiquitin protein ligase (mouse)
Y 19732963 19732943 2,8 1 17%
6 27944845 27944823 0,18 13 12%
4 22906188 22906213 0,003 15 12% Similar ao ciclo de divisão celular 42
4 35920979 35920999 2,7 15 12% Centaurin, delta 1
X 28166692 28166672 2,8 9 11%
9 29267776 29267756 2,7 8 11%
19 39635535 39635559 2,8 1 8%
43
Região LTR
Tabela 10. Região LTR. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
14 46762432 46762413 3,6 51 63% MAM domain containing
18 50555452 50555471 4,7 50 59% RAB27B, member RAS oncogene family
19 62677594 62677574 1,1 19 51% Vomeronasal 1 receptor 1
17 48497928 48497952 0,83 21 44%
2 138261082 138261062 0,93 93 43%
Y 912894 912872 9 2 40%
4 1552477 1552456 0,29 19 35%
10 106820951 106820970 3,2 20 34% Sortilin-related VPS10 domain containing
21 34404790 34404771 4,5 1 33%
7 71444856 71444836 0,97 27 33% Calneuron 1
20 50295894 50295917 4,5 4 29%
9 31812208 31812188 0,93 11 27%
12 2776451 2776471 1,1 16 25% Integrin alpha FG-GAP repeat containing 2
15 57102019 57102038 3,7 7 25% Ring finger protein 111
22 17591562 17591585 4,5 4 22% Clathrin, heavy chain-like 1
11 72696450 72696469 4,5 19 22% Transcribed locus
3 155967527 155967508 4,5 14 21%
5 179918804 179918823 3,6 10 17% CCR4-NOT transcription complex, subunit 6
13 52276584 52276561 3,7 5 17%
16 78461042 78461023 4,7 3 13%
X 145243809 145243829 0,98 3 12%
1 21537830 21537851 0,28 8 11% Endothelin converting enzyme 1
6 82462052 82462031 0,28 5 10% Transcribed locus
8 90859368 90859347 0,29 2 6% Receptor-interacting serine-threonine kinase 2
8 43250016 43249993 3,6 2 6%
44
Gene nef
Tabela 11.
Gene nef. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
15 51902820 51902800 1,1 827 77%
3 24205785 24205766 4,4 811 54% Transcribed locus
20 59309322 59309303 4,4 136 49% Cadherin 4, type 1, R-cadherin (retinal)
8 57440589 57440569 1,1 531 44%
18 50555452 50555471 4,4 194 44% RAB27B, member RAS oncogene family
1 151260352 151260372 1,1 809 42% Small proline-rich protein 1B (cornifin)
X 27883919 27883939 1,1 827 40%
X 86456460 86456480 1,1 809 39%
2 215786275 215786297 0,071 528 36%
19 52705876 52705857 4,4 129 30% N-ethylmaleimide-sensitive factor attachment
21 42019720 42019697 4,4 14 24%
4 23596239 23596262 4,7 179 24%
12 129573209 129573229 1,1 118 19% RIMS binding protein 2
10 80024881 80024860 0,28 72 14% Full length insert cDNA clone ZB77E08
5 56248852 56248833 4,4 101 12% Chromosome 5 open reading frame 35
Y 5373455 5373435 1,1 9 11% Protocadherin 11 X-linked
11 128123364 128123345 4,4 46 10% Friend leukemia virus integration 1
22 34158641 34158622 4,4 16 10% Transcribed locus
17 48497928 48497952 1,1 43 9%
14 105685152 105685171 4,5 27 8% Immunoglobulins, ORF
16 77655994 77656013 4,5 37 8% Transcribed locus
7 71444856 71444836 1,1 57 7% Transcribed locus
6 99320316 99320335 4,5 39 6%
13 107985408 107985389 4,4 19 6% Transcribed locus
9 38804913 38804894 4,4 19 5%
9 45115467 45115448 4,4 19 5%
9 65657704 65657723 4,4 19 5%
9 67206654 67206673 4,4 19 5%
45
Gene pol
Tabela 12.
Gene pol. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
22 24365013 24364993 5,6 105 72% Adrenergic, beta, receptor kinase 2
17 47213939 47213918 1,3 260 53% Carbonic anhydrase X
21 23371149 23371171 0,36 45 48% hypothetical LOC100130310
7 103566647 103566627 5,5 126 45% Transcribed locus
10 87128703 87128725 0,34 260 40%
Y 18771145 18771166 1,4 49 36%
5 44287443 44287423 5,6 222 32%
20 44645340 44645361 1,4 28 30% Solute carrier family 13 (sodium-dependent
13 79482011 79481990 1,3 167 30%
9 90276492 90276472 5,6 155 30% Spindlin 1
X 111638380 111638356 5,6 218 29%
X 67172130 67172150 5,6 206 27%
4 36320265 36320245 5,5 141 22%
19 34160446 34160466 5,5 7 21%
18 36035914 36035889 1,4 121 20%
11 81607280 81607260 5,6 82 20% CDNA clone IMAGE:5298883
12 81193252 81193277 1,4 67 20%
14 78854172 78854192 5,3 109 17% Transcribed locus
1 11135718 11135738 5,3 135 17% FK506 binding protein 12-rapamycin associated protein
8 138376700 138376680 5,5 69 16%
6 131911586 131911606 5,6 65 13%
2 177150242 177150262 5,3 72 12%
15 74176367 74176341 0,36 13 10% Chromosome 15 open reading frame 27
3 27511943 27511967 5,5 34 9%
16 16969239 16969260 1,4 6 9%
3 43620815 43620791 5,5 33 9% transmembrane protein 16K
46
Gene rev
Tabela 13. Gene rev. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
22 48480699 48480681 9,6 40 10%
Y 10634066 10634048 9,6 41 7%
21 10137880 10137902 9,6 68 6%
18 4831360 4831378 9,6 57 6%
16 4574171 4574150 0,16 87 5% Hypothetical LOC342346
13 31952024 31952042 9,6 44 4% phosphonoformate immuno-associated
14 102887307 102887288 2,4 60 4% Transcribed locus
17 38278772 38278790 9,6 41 4% Transcribed locus
17 50913452 50913434 9,6 41 4%
17 20400324 20400344 0,61 41 4% similar to hCG2039159
15 68637484 68637503 2,4 50 4%
20 30996404 30996381 2,4 44 4% similar to CG40449-PA.3
6 163483610 163483629 2,6 99 3% PARK2 co-regulated
19 56120316 56120297 2,4 53 3%
9 25965040 25965058 9,6 42 3%
10 5717173 5717191 9,6 41 3% Ankyrin repeat and SOCS box-containing
10 61484253 61484272 2,2 41 3% Ankyrin 3, node of Ranvier (ankyrin G)
X 1989328 1989306 9,6 96 3%
3 52355174 52355144 0,039 71 3% Dynein, axonemal, heavy chain 1
7 53093073 53093055 9,6 53 2%
4 7564113 7564132 2,4 53 2% Sortilin-related VPS10 domain containing
12 88779719 88779737 9,6 48 2%
11 69646334 69646310 0,003 57 2% Transmembrane protein 16A
11 131554533 131554555 0,039 57 2% Neurotrimin
8 137636784 137636802 9,6 53 2%
5 158169204 158169186 9,6 45 2% Early B-cell factor 1
2 135265612 135265590 0,039 57 1%
1 117121884 117121902 9,6 53 1%
47
Gene tat
Tabela 14.
Gene tat. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
21 10137880 10137902 8,3 112 12%
22 43254688 43254708 0,53 32 9% Leucine zipper, down-regulated in cancer 1-
22 43027414 43027432 8,3 32 9% KIAA1644 protein
22 26078806 26078787 2,1 32 9%
22 43027360 43027378 8,3 32 9% KIAA1644 protein
13 108969411 108969429 8,3 68 7%
18 4831360 4831378 8,3 46 6%
17 28552310 28552328 8,3 52 6% amiloride-sensitive cation channel 1,
16 4574171 4574150 0,13 82 6% Hypothetical LOC342346
15 58879376 58879350 0,034 64 6% dishevelled associated activator of
Y 1989328 1989306 8,3 78 5%
11 84203747 84203765 8,3 116 5% discs, large homolog 2, chapsyn-110
3 52355174 52355144 8,3 111 5% Dynein, axonemal, heavy chain 1
12 6258982 6258964 8,3 84 4%
7 119167650 119167668 8,3 78 4%
5 50052085 50052107 8,3 91 4% Poly (ADP-ribose) polymerase family,
14 26263393 26263411 8,3 52 4% Chromosome 14 open reading frame 22
6 163483610 163483629 2,1 91 4% PARK2 co-regulated
20 30996404 30996381 2,1 38 4% similar to CG40449-PA.3
19 56120316 56120297 2,1 43 3%
X 2211073 2211096 2,1 70 3% Dehydrogenase/reductase (SDR family) X-
10 5717173 5717191 8,3 33 3% Ankyrin repeat and SOCS box-containing
9 25965040 25965058 8,3 33 3%
9 33332125 33332107 8,3 33 3%
2 129187980 129187962 8,3 78 2%
4 7564113 7564132 2,1 43 2% Sortilin-related VPS10 domain containing
1 93344395 93344417 8,3 78 2% Metal response element binding
8 80377956 80377938 8,3 43 2% Transcribed locus
48
Gene vif
Tabela 15. Gene vif. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
22 14591269 14591245 1 74 85% Transcribed locus
21 13979920 13979944 1 74 57%
9 11706120 11706096 0,004 299 56%
15 30076221 30076197 1 50 53%
16 87208517 87208498 4,1 105 53% zinc finger CCCH-type containing 18
Y 4982315 4982296 4,1 17 52% protocadherin 11 Y-linked
8 69618835 69618858 4,1 185 44% chromosome 8 open reading frame 34
12 68019268 68019249 4,1 475 37% Transcribed locus
11 30078682 30078702 1 104 30% Transcribed locus
4 65559989 65559966 4,1 130 28%
13 38557154 38557173 4,1 200 28%
14 45960173 45960154 4,1 117 25%
1 98802850 98802873 4,1 105 24%
3 36350107 36350088 4,1 114 23%
17 30285970 30285989 4,1 13 22% chaperonin containing TCP1, subunit 6B
5 56303777 56303758 4,1 84 22%
20 40707782 40707801 4,1 37 22% protein tyrosine phosphatase, receptor type,
2 183771236 183771217 4,1 103 20%
X 107307453 107307434 4,1 88 17% collagen, type IV, alpha 6
6 49015286 49015267 4,1 51 17%
7 120911702 120911683 4,1 21 15% Similar to ribosomal protein L18; 60S
18 74066877 74066896 4,1 26 13%
10 47084235 47084258 4,1 20 11% Transcribed locus
19 58014460 58014441 4,1 3 11% Zinc finger protein 285B
19 15290257 15290276 4,1 3 11% Bromodomain containing 4
49
Gene vpr
Tabela 16. Gene vpr. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
21 27327690 27327672 7,8 57 56%
5 73770113 73770095 7,8 274 46% Transcribed locus
13 100988856 100988874 7,8 118 38% integrin, beta-like 1 (with EGF-like repeat domains)
Y 369040 369022 7,8 46 37%
14 48015820 48015842 7,8 111 37%
8 110139943 110139925 7,8 181 34%
11 18274333 18274315 7,8 279 31% Serum amyloid A1
6 78043773 78043755 7,8 279 27%
22 37476462 37476444 7,8 16 27% unc-84 homolog B (C. elegans)
17 52468965 52468987 7,8 76 25%
15 86522827 86522845 7,8 115 24% neurotrophic tyrosine kinase, receptor, type 3
2 11640840 11640858 7,8 159 24% GREB1 protein
4 29163370 29163352 7,8 128 23%
16 25250271 25250289 7,8 31 22%
7 90221170 90221151 2 55 22% PFTAIRE protein kinase 1
9 105967134 105967116 7,8 27 21%
3 151688147 151688165 7,8 114 20%
12 130090490 130090508 7,8 177 18% G protein-coupled receptor 133
19 38688145 38688163 7,8 14 18% peptidase D
20 56867129 56867106 2 12 17% GNAS complex locus
10 78312478 78312460 7,8 25 14% potassium large conductance calcium-activated channel,
18 49167557 49167538 2 12 13% deleted in colorectal carcinoma
X 15164479 15164459 0,5 21 8% Ankyrin repeat and SOCS box-containing 9
1 213975820 213975842 7,8 18 7% Usher syndrome 2A (autosomal recessive, mild)
50
Gene vpu
Tabela 17. Gene vpu. Trechos de maior frequência em cada um dos cromossomos humanos.
Cromossomo ss se E-value Qtd Qtd / Total Significado
20 55949121 55949139 6,5 116 38%
21 38395731 38395749 7 64 30% Down syndrome critical region gene 4
15 58193456 58193474 6,5 102 26% Transcribed locus
12 126219091 126219068 1,7 299 25%
17 50818460 50818478 6,5 72 23% Monocyte to macrophage differentiation-
16 65932675 65932657 6,2 61 21% Leucine rich repeat containing 36
1 227209634 227209656 6,5 311 19%
X 34792390 34792368 6,5 168 18%
19 40975643 40975661 6,5 25 17% Hypothetical gene supported by AK055260
11 85320487 85320513 6,5 170 13% hypothetical LOC100131457
14 69298546 69298565 1,7 72 13% Splicing factor, arginine/serine-rich 5
18 40925458 40925477 1,7 53 12%
22 20738752 20738734 7 10 12% immunoglobulin lambda locus
Y 15615708 15615690 7 22 12%
8 911799 911817 6,5 87 10% Chromosome 8 open reading frame 68
3 144473480 144473498 6,5 102 10% carrier family 9 (sodium/hydrogen
10 19514334 19514316 7 46 8% similar to apical early endosomal
5 28873465 28873445 0,45 82 8%
4 147024755 147024736 1,7 111 8% Transcribed locus
6 73325486 73325508 6,5 71 7%
9 23141341 23141359 7 30 6%
7 94577426 94577444 7,4 44 6% Protein phosphatase 1, regulatory
13 67251544 67251526 7 30 6%
2 52828853 52828835 6,5 72 4% Transcribed locus
51
4.3 Locais de maior frequência de matches nos genes virais
Ao analisar os matches e verificar os trechos dos genes virais obtidos nestes alinhamentos,
observou-se que apenas para os genes rev e tat existem trechos com maior concentração, ao
contrário dos outros genes virais, os quais estão mais distribuídos.
A Tabela 18 demonstra apenas a porcentagem dos 3 trechos de maior concentração em
todos os genes virais. Se fossem demonstrados todos os trechos, a soma da porcentagem para
cada gene seria 100%. Na tabela são demonstrados a posição do match no respectivo gene viral
(qs, qe), o E-value obtido, a quantidade (Qtd) de matches que obtiveram o determinado trecho
(qs, qe), e a relação entre o número de matches que ocorreram no determinado trecho e omero
total de matches obtidos no gene (Qtd / total de trechos).
Tabela 18. Porcentagem dos três trechos virais de maior frequência.
Gene qs qe E-value Qtd Qtd / total de trechos
env
416 440 0,019 1411 9%
2212 2232 4,7 188 1%
gag
497 517 2,7 95 3%
515 535 2,7 77 3%
311 331 2,7 62 2%
LTR
178 201 4,7 57 4%
59 78 4,7 49 4%
479 499 1,1 34 3%
nef
268 288 1,1 834 5%
271 291 1,1 823 5%
215 235 1,2 475 3%
pol 689 709 5,5 96 1%
rev
135 154 2,2 24593 51%
136 154 8,8 10161 21%
135 153 9,6 2711 6%
tat
274 293 2,1 19897 47%
275 293 8,3 8398 20%
274 292 8,3 1817 4%
vif
9 28 4,1 475 6%
54 78 0,004 299 4%
294 318 1 215 3%
vpr
204 222 7,8 553 6%
262 281 2 346 4%
203 221 7,8 279 3%
vpu
141 159 7 707 4%
88 106 7 318 2%
94 116 6,5 284 2%
52
Assim, 51% de todos os matches realizados com o gene rev ocorreram no trecho que
corresponde à posição 135 até a posição 154 deste gene.
Através do endereço eletrônico (http://ca.expasy.org/viralzone/all_by_species/7.html) de
um Servidor de Proteômica, foi possível verificar se existe algum significado para os trechos de
concentração encontrados para rev e tat. O Servidor de Proteômica ExPASy (Expert Protein
Analysis System) do Instituto Suíço de Bioinformática é dedicado à análise de sequências de
proteína e estruturas.
A partir desse Servidor foi observado que a região 135-154 do gene rev corresponde ao
sinal de localização nuclear e ligação do RNA. Esse sinal de localização nuclear se liga à
importinas celulares fazendo com que rev seja levado ao núcleo. No núcleo ocorre a dissociação
entre rev e as importinas celulares permitindo que rev se ligue a um elemento responsivo que está
relacionado com a exportação do mRNA viral para o citoplasma.
Com relação ao gene tat, para a região 274-293 não havia uma função especificada.
Para alguns genes (env e pol) não foram demonstrados os 3 trechos de maior
concentração. Isto ocorreu porque houve apenas 1 ou 2 trechos de maior concentração. O gene
pol, por exemplo, não obteve trecho de concentração. Sua maior concentração foi 1%, ou seja, os
matches estão totalmente distribuídos ao longo dos cromossomos humanos.
Gráfico 6. Porcentagens das três primeiras maiores frequências de trechos virais dos matches.
53
4.4 Distribuição dos matches nos cromossomos humanos
As Figuras 6 a 15 demonstram os cromossomos humanos e os locais onde ocorreram os
matches. Cada traço vertical preto indica o local do match. A linha horizontal abaixo dos
cromossomos indica a escala de tamanho dos cromossomos, equivalente a 100.000.000 de pares
de base.
Observou-se que a distribuição dos matches é diferente em cada gene do HIV-1, e a
posição dos trechos de similaridade não é homogênea.
Gene env
Figura 6. Posição dos matches do gene env em cada cromossomo humano.
54
Gene gag
Figura 7. Posição dos matches do gene gag em cada cromossomo humano.
Região LTR
Figura 8. Posição dos matches da região LTR em cada cromossomo humano.
55
Gene nef
Figura 9. Posição dos matches do gene nef em cada cromossomo humano.
Gene pol
Figura 10. Posição dos matches do gene pol em cada cromossomo humano.
56
Gene rev
Figura 11. Posição dos matches do gene rev em cada cromossomo humano.
Gene tat
Figura 12. Posição dos matches do gene tat em cada cromossomo humano.
57
Gene vif
Figura 13. Posição dos matches do gene vif em cada cromossomo humano.
Gene vpr
Figura 14. Posição dos matches do gene vpr em cada cromossomo humano.
58
Gene vpu
Figura 15. Posição dos matches do gene vpu em cada cromossomo humano.
59
DISCUSSÃO
Análise de similaridade entre HIV-1 e genoma humano
Uma comparação entre o genoma do HIV-1 e o genoma humano possibilita verificar a
existência de algum tipo de sinal evolutivo que pode ter sido conservado ao longo da evolução.
Este tipo de sinal pode ser visualizado através de uma ferramenta que busca similaridade entre
sequências com suporte estatístico confiável. BLAST é uma ferramenta utilizada para a
comparação entre sequências e realiza um alinhamento local, sendo possível identificar trechos
de similaridade entre quaisquer duas sequências.
Neste trabalho, o programa da família BLAST utilizado foi o BLASTn, o qual compara
sequências de nucleotídeo de entrada com sequências de nucleotídeo de um banco de dados.
Antes de comparar as sequências completas dos genes do HIV-1 (sequência de entrada)
com cada um dos cromossomos humanos (banco de dados), imaginou-se que todos os genes
virais obteriam resultados semelhantes (mesmos sinais) frente ao genoma humano. Após as
comparações, foram verificadas diferenças entre os genes virais, principalmente entre todos os
genes e a região LTR do HIV-1, e também foi observada uma diferença de similaridade entre
cada um dos genes do HIV-1, sendo que alguns genes demonstraram maior similaridade com o
genoma humano do que outros, de acordo com a análise do fitting.
Como controle para as comparações, foram utilizados controles negativos biológicos e
não biológicos (genes do TMV e várias sequências aleatórias) e um controle positivo biológico
(trechos de cromossomos da Macaca mulatta). A Macaca mulatta foi utilizada como controle
positivo devido à ancestralidade direta entre a mesma e o humano. Por outro lado, o TMV, por
infectar apenas plantas, não possui evidência de relação evolutiva com o genoma humano, por
isto foi utilizado como controle negativo. As comparações de sequências aleatórias (não
biológicas) com o genoma humano foram úteis para serem diferenciadas das comparações
realizadas entre sequências biológicas e o genoma humano.
Esses controles (negativos e positivo) foram comparados com cada um dos cromossomos
humanos da mesma forma que cada um dos genes do HIV-1. Os resultados das comparações dos
controles com o genoma humano foram diferentes das comparações entre HIV-1 e genoma
humano.
60
Análise dos E-values dos alinhamentos
O parâmetro estatístico utilizado para analisar a similaridade entre as sequências
comparadas foi o E-value e, para inferir similaridade, foram analisados alinhamentos com valores
muito baixos, onde o E-value é igual ao P-value, ou seja, com uma margem de erro estatístico
muito baixa.
Quando observamos o número de pontos de E-values obtidos através das comparações
com HIV-1, TMV, Macaca mulatta e sequências aleatórias, é evidente que a Macaca mulatta
possui muito mais pontos do que os outros, isto devido à ancestralidade. Existe também uma
diferença no número de pontos entre as sequências biológicas (HIV-1 e TMV) e as aleatórias. As
sequências aleatórias possuem muito menos pontos de E-value e, ao verificar a relação entre
número de matches e diversos valores de E-value, inclusive valores muito altos, verificou-se que
isto é representado por uma reta, ao contrário dos outros itens, onde foram observados platôs.
Este comportamento demonstra a diferença entre entidades biológicas (HIV-1, Macaca mulatta,
TMV) e não biológicas (sequências aleatórias).
Ao analisar os matches obtidos através das comparações entre os genes do HIV-1, genes
MP e CP do vírus do mosaico do tabaco, trechos de cromossomos da Macaca mulatta e
sequências aleatórias com o genoma humano, também foi observada uma diferença na quantidade
de matches com baixos E-values. Para verificar o número de matches com E-value baixo, o
intervalo do mesmo foi definido empiricamente, pois não existe ancestralidade evidente ou
comprovada entre o genoma humano e HIV-1 e TMV.
Foi evidente que o HIV-1, assim como o TMV, se apresentaram muito menos similares ao
genoma humano do que a Macaca mulatta. Com relação ao TMV, não uma interação óbvia
entre o mesmo e a espécie humana que justificasse uma coevolução, convergência evolutiva ou
conservação de função por ancestralidade que pudesse resultar em similaridade.
Como citado, para as sequências aleatórias foi observado que o número de matches por E-
value cresce linearmente. Existe muito pouca similaridade entre as mesmas e o genoma humano
com significância estatística alta, e quase não foram verificados pontos com E-values baixos.
61
Análise de similaridade através de um fitting
A diferença na distribuição dos E-values verificada a partir das comparações de cada um
dos genes do HIV-1 com o genoma humano permitiu que a similaridade encontrada pelos genes
virais fosse classificada a partir de um fitting (ajuste estatístico), isto para definir se alguns genes
virais são mais similares que outros frente ao genoma humano.
É importante destacar que não foi utilizado apenas um E-value, mas uma coleção de E-
values, ou seja, várias estatísticas diferentes da mesma classe. Este conjunto de estatísticas foi
necessário para diferenciar os graus de similaridade entre as sequências que foram comparadas
com o genoma humano.
Para o presente estudo, o parâmetro E-value oferecido pelo BLAST necessitou de uma
análise estatística complementar, pois o mesmo não foi suficiente para tentar inferir uma possível
homologia ou similaridade entre sequências. O fato de diferentes entidades comparadas com o
mesmo banco de dados obterem alinhamentos com E-values baixos não foi suficiente para
apontar qual deles é mais ou menos similar ao banco de dados, portanto foi utilizado um fitting
através do qual os resultados puderam ser interpretados através da presença de, principalmente,
dados obtidos com a Macaca mulatta.
Foram testados vários fittings para avaliar as comparações realizadas neste projeto. O
melhor fitting foi definido através de uma análise do tipo y = a
0
. x
a1
, o qual permitiu demonstrar
diferenças entre cada um dos genes do HIV-1, assim como diferenciar o grau de similaridade
entre diferentes entidades biológicas e sequências aleatórias com o genoma humano.
O fitting foi calculado a partir de um intervalo de E-value, e este intervalo foi diferente
para cada um dos itens comparados ao genoma humano. Isto porque a quantidade de pontos de E-
values baixos foi diferente para cada um deles. Este intervalo foi escolhido devido à sua
significância estatística alta e também porque, como já foi discutido, quando os valores são muito
baixos, E-value e P-value são iguais. Para as sequências aleatórias não foi possível calcular o
fitting através de um intervalo de E-value baixo, isto devido ao baixo número de pontos.
Ao analisar o fitting dos genes do HIV-1 através de uma análise do tipo y = a
0
. x
a1
,
foram feitas duas importantes observações: a existência de três diferentes grupos e a existência de
um grupo com valores de a
1
idênticos.
O valor do expoente a
1
foi idêntico para a maioria dos genes do HIV-1, sendo diferentes
os genes vpr e vpu. Este fato demonstra, a princípio, a existência de três grupos que podem ser
62
classificados ao verificar o valor desse expoente. Os genes env, gag, nef, pol, rev, tat e vif
apresentaram valores de a
1
idênticos, o gene vpr um valor mais baixo e o gene vpu um valor bem
mais alto.
O fato de o gene vpr ter apresentado um valor de a
1
menor do que os outros genes do
HIV-1 pode sugerir um maior grau de similaridade com o genoma humano do que os outros
genes. Isto baseado nos dados obtidos com a Macaca mullata, que apresentou valor de a
1
muito
baixo. Assim, é provável que quanto mais baixo for o expoente a
1
, maior é o grau similaridade
com o genoma humano. Por outro lado, o gene vpu apresentou valor de a
1
mais alto e similar às
sequências aleatórias e ao gene MP do TMV. Isto destaca a existência de algum sinal que
diferencia o gene vpu dos demais genes do HIV-1, e também indica que ele é tão dissimilar ao
genoma humano quanto os genes do TMV e as sequências aleatórias, que estes apresentaram
valores de a
1
bem mais altos do que a Macaca mulatta.
A ocorrência de um expoente a
1
com valor baixo não demonstra mais ou menos
similaridade com o genoma humano. O que importa não é o valor, e sim a diferença de valor
entre os itens, pois é evidente que a escolha de outra variável para as ordenadas no gráfico do
fitting faria com que o valor do expoente mudasse, mas o que importa é a relação do determinado
parâmetro entre os itens.
A curva que representa o fitting, que é definida pelo valor do expoente a
1
, do gene CP do
TMV, por exemplo, por possuir concavidade positiva e localizar-se abaixo da linha das
sequências aleatórias, indica que o mesmo está menos próximo ao genoma humano, em termos
de similaridade, do que a maioria dos genes do HIV-1 e a Macaca mulatta.
Por possuírem valores de a
1
idênticos, o cálculo de sua média entre os genes env, gag, nef,
pol, rev, tat e vif possibilitou que os mesmos fossem classificados de acordo com o grau de
similaridade frente ao genoma humano. Para realizar esta classificação foi necessário fixar o
valor do expoente a
1
, o qual foi determinado como a média dos valores de a
1
dos genes citados,
sendo o valor da média igual a 0,6. Portanto, ao fixar este valor na equação do fitting observamos
que, dentre esses sete genes do HIV-1, os mais similares foram vif, gag, tat, rev, env, nef e pol,
isto do mais similar para o menos similar.
A similaridade encontrada entre os genes do HIV-1 e o genoma humano pode estar
relacionada com suas respectivas funções, que podem estar voltadas à célula hospedeira ou ao
ciclo viral e montagem da partícula.
63
De acordo com a análise do fitting, o gene vpr obteve um valor de expoente mais baixo
que os outros genes, indicando maior similaridade deste gene frente ao genoma humano do que
os demais genes. A similaridade encontrada entre genoma humano e o gene vpr pode ser
explicada devido à interação entre o mesmo e componentes celulares, pois Vpr interage com
componentes do complexo de poro nuclear, sendo sua finalidade levar para o núcleo o complexo
de pré-integração para que o cDNA viral seja integrado no genoma humano. Como a deleção
deste gene reduz a virulência causada pelo HIV-1, tal fato demonstra a importância dessa
proteína para o vírus.
Com relação ao gene rev, a similaridade encontrada com o genoma humano pode estar
relacionada à interação de Rev com proteínas celulares, isto para que o RNA mensageiro seja
transportado do núcleo ao citoplasma. Por outro lado, o gene tat codifica a proteína viral Tat, que
possui atividade de transativação ao se ligar em um promotor localizado na região LTR viral. A
ligação do tat no respectivo promotor recruta fatores de transcrição celulares, e assim é iniciado o
processo de transcrição do genoma viral.
Vif produz uma proteína que também interage diretamente com o hospedeiro. A proteína
Vif possui um motivo o qual interage com proteínas celulares que possuem função antiviral, as
APOBECs, fazendo com que as mesmas sejam levadas ao proteassoma e posteriormente
degradadas. O gene nef codifica proteínas que estão relacionadas com a internalização de
receptores da superfície de células do sistema imune, diminuindo a sinalização entre a célula
infectada por outras células do sistema imune e, de certa forma, impedindo que novos vírus
infectem e célula já infectada.
O gene vpu pode ter encontrado similaridade com o genoma humano porque codifica
uma proteína com duas funções muito importantes que estão voltadas para a célula hospedeira,
sendo uma delas a participação na degradação de moléculas CD4 a partir do recrutamento de
ubiquitina-ligases, mediando sua degradação pelo proteassoma, e a outra função está relacionada
ao brotamento do vírus para posterior liberação da partícula viral.
A partir da análise do fitting esse gene se apresentou menos similar ao genoma humano do
que os outros genes do HIV-1. É importante destacar que vpu está presente apenas no HIV-1 e no
SIV que infecta chimpanzés (SIV
cpz
), não sendo encontrado no HIV-2. Apesar de ser um gene
encontrado no HIV-1 e no SIV
cpz
, de acordo com Vanden Haesevelde (1996), o gene vpu é
diferente entre eles. Ao comparar o vpu dos dois vírus, existe apenas 17% de similaridade entre
64
seus aminoácidos. Sendo assim, embora o HIV-1 seja filogeneticamente relacionado ao SIV
cpz
, é
possível que este gene não tenha sido adquirido do SIV
cpz
, mas de alguma outra fonte. Os SIVs
possuem uma alta taxa de recombinação entre eles, portanto o vpu do HIV-1 pode ser proveniente
de algum SIV que não seja o SIV
cpz
.
O gene gag é responsável por produzir proteínas que compõem o capsídeo viral, mas
existem evidências de que interações entre proteínas do hospedeiro e o capsídeo viral são
importantes para eventos que ocorrem durante a infecção, como o transporte do complexo de pré
integração, descapsidamento, entrada no núcleo e integração.
O gene env codifica glicoproteínas de superfície responsáveis por interagir com receptores
celulares. Talvez uma similaridade entre as sequências das glicoproteínas e o receptor celular
favoreça o processo de aproximação entre os dois.
O gene pol codifica enzimas que atuam no ciclo de replicação viral e estão voltadas para a
partícula viral, com exceção da integrase, que está envolvida na integração do genoma do HIV-1
ao genoma humano. Talvez a integrase possa, por similaridade de sequências, reconhecer alguma
região do genoma humano para que ocorra o processo de integração.
A região LTR, talvez por não ser um gene, diferenciou-se dos outros genes com relação
ao valor do expoente a
1
. Enquanto os valores de a
1
para a maioria dos genes virais foram
semelhantes, a região LTR se apresentou semelhante ao vírus do mosaico do tabaco, com valor
de a
1
elevado.
Localização dos matches e sua frequência nos cromossomos humanos
Ao verificar os trechos de similaridade, foi observado que existem genes do HIV-1 (rev e
tat) cujos matches com o genoma humano estão concentrados em determinados trechos destes
genes (existe um mesmo trecho viral que encontra similaridade com diversos trechos do genoma
humano), enquanto nos outros genes não concentração clara dos matches, ou seja, os trechos
de similaridade estão distribuídos ao longo dos genes virais. Assim, a presença destes trechos
com maior frequência pode ser indicativo da existência de um sinal evolutivo entre HIV-1 e
genoma humano.
Por outro lado, ao verificar a existência de regiões de concentração de matches nos
cromossomos humanos, verificou-se que os genes tat e rev não possuíram pontos de
65
concentração. Estes genes apresentaram matches distribuídos ao longo dos cromossomos. A
porcentagem do número de matches do maior ponto de concentração da maioria dos genes foi
maior que 50%, com exceção dos genes tat (10%), rev (12%) e vpu (38%). Destes pontos de
concentração, apenas alguns trechos de similaridade estão localizados dentro de genes, e outros
não estão localizados em áreas gênicas ou ainda não foram mapeados.
De acordo com Tosta (2001), 40% do genoma humano é composto por retrotransposons
derivados de retrovírus e, a partir dos resultados obtidos no presente estudo, todo o genoma do
HIV-1 encontrou similaridade com alguma região do genoma humano. Assim, especula-se que o
genoma eucarioto funcione como um reservatório de sequências e motivos virais e talvez a
junção dessas sequências (matches) poderia compor a criação de um genoma viral.
A partir dos desenhos dos cromossomos demonstrando a posição dos matches, foram
observadas algumas regiões do genoma humano que não apresentaram matches com nenhum
gene viral. Isto ocorreu no braço p dos cromossomos 13, 14, 15 e 22, e o cromossomo 21 quase
não obteve match neste mesmo braço. Com relação ao cromossomo Y, no final do braço q, quase
não houve presença de matches¸ com exceção do gene pol. Ao analisar estes dados e
comparando-os à figura obtida a partir do trabalho publicado por Schroder et al (2002), foi
observado que justamente essas regiões são indicadas como áreas fora de genes. O fato
demonstra que não há ocorrência de matches (identificados no presente estudo) em áreas que não
correspondem a genes.
Os matches estão distribuídos de maneira não aleatória no genoma humano e
independente do tamanho dos cromossomos, alguns apresentaram maior número de matches do
que outros. Não necessariamente os maiores cromossomos apresentaram maior número de
matches, reforçando a idéia de que essa distribuição não é aleatória.
Verificou-se também que os genes virais não encontraram matches com todo o genoma
humano, porém o genoma humano encontrou matches com todo o genoma viral.
Ao comparar duas sequências biológicas é possível inferir homologia, caso tenham um
ancestral em comum, ou identificar trechos de similaridade com a finalidade de entender o
motivo de compartilharem essas sequências. Como o HIV-1 e o genoma humano não possuem
um ancestral em comum, pois são duas entidades biológicas não correlacionadas, a presença dos
trechos de similaridade encontrados pode indicar que existem sequências comuns a todas as
entidades biológicas na biosfera.
66
As regiões de similaridade encontradas entre o HIV-1 e o genoma humano podem ser
decorrentes de (1) processo de coespeciação, onde podem ter ocorrido mecanismos de
convergência, pirataria molecular e manipulação do metabolismo e proteínas celulares; (2)
conservação de funções, pois o vírus é um parasita intracelular obrigatório que deve ser capaz de
reproduzir algumas funções celulares, como a presença de peptídeos sinais em suas proteínas
secretórias ou sequências de localização celulares em proteínas de importação nuclear; ou (3)
presença de elementos retrovirais integrados no genoma humano.
Trechos de similaridade entre região LTR e genoma humano
Devido à existência de trechos de concentração de matches citados anteriormente,
formulou-se a hipótese de que a similaridade entre sequências dos genes virais e o genoma
humano pudesse direcionar a integração para um determinado local. A integração retroviral
poderia ser direcionada por um mecanismo recombinatório em regiões de similaridade entre o
genoma viral e humano.
Uma similaridade entre sequências permite a aproximação física entre elas. Essa
aproximação via similaridade pode fazer com que as sequências se recombinem. Assim, pode ser
que a similaridade tenha algum papel no direcionamento da integração no genoma humano e, se
isto for verdade, o mecanismo não ocorre via LTR, pois a análise do fitting demonstrou que os
genes do HIV-1 são muito mais similares ao genoma humano do que a região LTR.
Verificou-se através de busca de similaridade entre a sequência dos LTRs do HIV-1 e o
genoma humano possíveis regiões de integração do genoma viral ao genoma humano. Os
resultados obtidos foram comparados ao estudo realizado por Schroder et al (2002) onde foram
demonstrados os sítios de integração do HIV-1, porém não houve correlação com os dados
obtidos no presente estudo. Sendo assim, os dados encontrados neste trabalho podem apenas
sugerir a localização de possíveis alvos de integração via similaridade de sequências.
Na literatura não foi encontrado nenhum trabalho que tenha realizado a comparação de
genes do HIV-1 com o genoma humano, portanto foi muito difícil buscar referências que
67
pudessem direcionar e comparar dados com o presente estudo. Apesar dos resultados
demonstrados o estudo será continuado, onde serão realizadas novas comparações utilizando
mais controles como, por exemplo, outros vírus que infectam humanos. Isto será feito para
verificar o comportamento de outros organismos frente ao genoma humano e comparar com os
resultados já obtidos, a fim de aprimorar a metodologia desenvolvida.
68
CONCLUSÕES
Como não existe ancestralidade entre HIV-1 e genoma humano, algum evento permitiu a
existência de trechos de similaridade que são compartilhados entre os mesmos. Estes
trechos de similaridade sugerem a presença de um sinal que pode estar presente devido a
um processo de coevolução ou podem ter sido adquiridos pelo vírus ao longo de sua
convivência com o hospedeiro.
A partir da análise do fitting, ao analisar o tipo de curva encontrada, observou-se que a
Macaca mulatta apresentou concavidade negativa, pois o valor de
a
1
foi menor que 1, e
muito mais acentuada do que a concavidade negativa apresentada pelo gene nef do HIV-1.
Devido à ancestralidade com o genoma humano, especulou-se que todos os itens que
obtiveram a curva mais próxima à da Macaca mulatta seriam mais similares ao genoma
humano do que aquelas curvas com comportamento diferente. Todos os genes do HIV-1,
com exceção do gene vpu, obtiveram o mesmo tipo de curva. Por
outro lado, as
sequências aleatórias apresentaram uma reta, e o gene CP do TMV uma concavidade
positiva, onde
a
1
> 1.
Na análise do fitting, valores de expoentes semelhantes podem ter ocorrido pelo fato de as
determinadas sequências terem o mesmo tipo de estrutura (mesma ordem). Talvez a
evolução biológica possa ter originado um tipo de ordem e, sendo assim, a grande
diferença encontrada entre o expoente da Macaca mulatta e os outros itens (HIV-1, TMV
e sequências aleatórias) demonstra que a mesma possui uma ordem que é muito mais
parecida com o genoma humano do que os outros itens.
A análise do fitting também permitiu a construção de uma ferramenta que possibilitou
diferenciar o grau de similaridade entre genomas de diferentes entidades frente a um
mesmo banco de dados. Além disso, esta ferramenta permitiu diferenciar os graus de
similaridade entre sequências de uma determinada entidade. Os resultados obtidos com a
69
Macaca mulatta possibilitaram a classificação dos graus de similaridade dos outros itens
frente ao genoma humano.
De acordo com alguns trabalhos citados anteriormente, a integração pode ocorrer em
diversos trechos do genoma humano e o local de integração pode variar
consideravelmente. No presente estudo foram identificados diversos trechos de
similaridade entre a região LTR do genoma viral e o genoma humano e, apesar de não
possuir dados iguais aos publicados em outros trabalhos, a similaridade de sequências
ainda pode ser um fator que direciona a integração viral.
70
REFERÊNCIAS BIBLIOGRÁFICAS
Ariën KK, Verhasselt B. HIV Nef: role in pathogenesis and viral fitness. Current HIV
Research, 2008. May; 6(3):200-8.
Albanese A, Arosio D, Terreni M, Cereseto A. HIV-1 pre-integration complexes selectively
target decondensed chromatin in the nuclear periphery. PLoS ONE, 2008; Jun
11;3(6):e2413.
Altschul, SF et al. Basic local alignment search tool. Journal of Molecular Biology, 1990;
215(3): 403-10.
Altschul, SF et al. Gapped BLAST and PSI-BLAST: a new generation of protein database
search programs. Nucleic Acids Research, 1997; 25(17): 3389-402.
Bamford, D.H. Do viruses form lineages across different domains of life? Research in
Microbiology. 2003 May;154(4):231-6.
Breitbart M, Rohwer F. Here a virus, there a virus, everywhere the same virus? Trends in
Microbiology, 2005; 13(6):278-284
Chaston, TB; Lidbury BA. Genetic 'budget' of viruses and the cost to the infected host: a
theory on the relationship between the genetic capacity of viruses, immune evasion,
persistence and disease. Immunology and Cell Biology, 2001; 79(1): p. 62-6.
Ciuffi, A et al. A role for LEDGF/p75 in targeting HIV DNA integration. Nature Medicine,
2005; 11(12): 1287-9.
Claverie, JM. Viruses take center stage in cellular evolution. Genome Biology, 2006;7(6):110.
Coffin, JM et al. Retroviruses. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 1997;
N.Y. Disponível em: http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=rv.TOC
Craigie, R. HIV integrase, a brief overview from chemistry to therapeutics. Journal of
Biological Chemistry, 2001; 276(26): 23213-6.
Daubin V, Ochman H. Start-up entities in the origin of new genes. Current opinion in genetics
& development. 2004 Dec;14(6):616-9.
71
Davison, A. What sequence homology tells us about the functions and origins of viral genes.
Microbiology Today, 1999; 26, 160-161.
Domingo, EH; Holland, JJ. Mutation rates and rapid evolution of RNA viruses. In
Evolutionary Biology of Viruses, 1994; pp. 161–184. Edited by S. Morse. New York:
Raven Press.
Domingo E, Holland JJ. RNA virus mutations and fitness for survival. Annual Review of
Microbiology, 1997; 51:151–78.
Drake JW, Holland JJ. Mutation rates among RNA viruses. Proc Nat Acad Sci USA 1999;
96:13910–3.
Earl DJ; Deem, MW. Evolvability is a selectable trait. Proceedings of the National Academy of
Sciences, 2004; 101:11531–6.
Farrell, HE; Davis-Poynter, NJ. From sabotage to camouflage: viral evasion of
cytotoxic T lymphocyte and natural killer cell-mediated immunity. Seminars in Cell
and Developmental Biology, 1998; 9(3): p. 369-78.
Forterre, P. The origin of viruses and their possible roles in major evolutionary transitions.
Virus Research, 2006; 117(1):5-16.
Freed, EO. HIV-1 Gag Proteins: Diverse Functions in the Virus Life Cycle. Virology, 1998;
Nov 10;251(1):1-15.
Fricdberg, EC et al. DNA Repair and Mutagenesis. American Society for Microbiology,
1995; Washington. D.C.
Gao, F; Bailes, E. et al. Origin of HIV-1 in the chimpanzee Pan troglodytes troglodytes.
Nature, 1999; 397(6718): 436-41.
Goila-Gaur R, Strebel K. HIV-1 Vif, APOBEC, and intrinsic immunity. Retrovirology, 2008;
5:55.
Gotea, V; Veeramachaneni V; Makalowski W. (2003) Mastering seeds for genomic size
nucleotide BLAST searches. Nucleic Acids Research, 2003; Dec 1;31(23):6935-41.
Grenfell BT, Pybus OG, Gog JR, Wood JLN, Daly JM, Mumford JA, Holmes EC. Unifying the
epidemiological and evolutionary dynamics of pathogens. Science, 2004; 303:327–32.
72
Gurtler, L. G., P. H. Hauser, et al. A new subtype of human immunodeficiency virus type 1
(MVP-5180) from Cameroon. Journal of Virology, 1994; 68(3): 1581-5.
Hall, BK. Homoplasy and homology: Dichotomy or continuum? Journal of Human Evolution
Vol 52, Issue 5, May 2007, Pages 473-479
Hatfull, GF; Cresawn, SG; Hendrix, RW. Comparative genomics of the mycobacteriophages:
insights into bacteriophage evolution. Research in Microbiology, 2008. Jun;159(5):332-
9.
Heeney JL, Dalgleish AG, Weiss RA. Origins of HIV and the evolution of resistance to AIDS.
Science, 2006; Jul 28;313(5786):462-6. Review.
Holmes, EC. On the origin and evolution of the human immunodeficiency virus (HIV).
Biological Reviews of the Cambridge Philosophical Societ, 2001; May;76(2):239-54.
Jacquot, G; Le Rouzic, E; David, A; Mazzolini, J; Bouchet, J; Bouaziz, S; Niedergang, F;
Pancino, G; Benichou, S. Localization of HIV-1 Vpr to the nuclear envelope:
impact on Vpr functions and virus replication in macrophages. Retrovirology,
2007; Nov 26;4:84.
Karlin, S; Altschul, SF. Methods for assessing the statistical significance of molecular
features by using general scoring schemes. Proceedings of the Nacional Academy of
Science U S A, 1990; Mar;87(6):2264-8.
Kent, WJ. BLAT--the BLAST-like alignment tool. Genome Research, 2002; 12(4): 656-64.
Kim, S; Kim, Y; Liang, T; Sinsheimer, JS; Chow, SA. A high-throughput method for cloning
and sequencing human immunodeficiency virus type 1 integration sites. Journal of
Virology, 2006; Nov;80(22):11313-21.
Koonin, E; Galperin, MY. Sequence - Evolution - Function (2003). Disponível em:
www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=sef.section.23
Koonin, EV; Martin, W. On the origin of genomes and cells within inorganic compartments.
Trends in Genetics, 2005; 21(12):647-654.
Koonin, EV; Senkevich, TG; Dolja, VV. The ancient Virus World and evolution of cells.
Biology Direct, 2006; 1:29
73
Lecompte, O; Thompson, JD et al. Multiple alignment of complete sequences (MACS) in the
post-genomic era. Gene, 2001; 270(1-2): 17-30.
Lidbury, BA. Was exposure to directly antiviral cytokines during primary infection an
important selective pressure in the evolution of unique immune evasion strategies by
viruses? Immunology and Cell Biology, 1994; 72(4): p. 347-50.
Lipman, DJ; Pearson, WR. Rapid and sensitive protein similarity searches. Science, 1985;
227(4693): 1435-41.
Ma, B., J. Tromp, et al. PatternHunter: faster and more sensitive homology search.
Bioinformatics, 2002; 18(3): 440-5.
Manrubia, SC; Lázaro E. Viral evolution. Physics of Life Reviews 3, 2006; 65–92.
Matsuoka, S; Dam, E; Lecossier, D; Clavel, F; Hance, AJ. Modulation of HIV-1 infectivity and
cyclophilin A-dependence by Gag sequence and target cell type. Retrovirology, 2009;
Mar 2;6:21.
Morlese, J; Teo, IA et al. Identification of two mutually exclusive groups after long-term
monitoring of HIV DNA 2-LTR circle copy number in patients on HAART. Aids,
2003; 17(5): 679-83.
Nekhai, S; Jeang, KT. Transcriptional and post-transcriptional regulation of HIV-1 gene
expression: role of cellular factors for Tat and Rev. Future Microbiol, 2006;
Dec;1:417-26. Review.
Nomaguchi, M; Fujita, M; Adachi, A. Role of HIV-1 Vpu protein for virus spread and
pathogenesis. Microbes and Infection, 2008; Jul;10(9):960-7.
Pagni, M; Jongeneel, CV. Making sense of score statistics for sequence alignments. Brief
Bioinform, 2001; 2(1): 51-67.
Panaro, MA; Mitolo, V; Cianciulli, A; Cavallo, P; Mitolo, CI; Acquafredda, A. The HIV-1
Rev binding family of proteins: the dog proteins as a study model. Endocr
Metab Immune Disord Drug Targets, 2008 Mar; 8(1):30-46. Review.
Pauza, CD; Trivedi, P. et al. 2-LTR circular viral DNA as a marker for human
immunodeficiency virus type 1 infection in vivo. Virology, 1994; 205(2): 470-8.
74
Pedulla, ML. Origins of Highly Mosaic Mycobacteriophage Genomes. Cell. 2003 Apr
18;113(2):171-82.
Ramirez de Arellano, E; Soriano, V. et al. New findings on transcription regulation across
different HIV-1 subtypes. AIDS Rev, 2006; 8(1): 9-16.
Romani, B; Engelbrecht, S. Human immunodeficiency virus type 1 Vpr: functions and
molecular interactions. Journal of General Virology, 2009; 90, 1795–1805.
Sano, E; Carlson, S; Wegley, L; Rohwer, F. Movement of viruses between biomes. Applied and
Environmental Microbiology, 2004; 70(10):5842-5846.
Schroder, AR. et al. HIV-1 integration in the human genome favors active genes and local
hotspots. Cell, 2002; 110:521–529.
Sellers, PH. Pattern recognition in genetic sequences by mismatch density. Bulletin of
Mathematical Biology, 1984; 46:501-514.
Simon, F et al. Identification of a new human immunodeficiency virus type 1 distinct from
group M and group O. Nature Medicine, 1998; 4(9): 1032-7.
Smith, TF; Waterman, MS. Identification of common molecular subsequences. Journal of
Molecular Biology, 1981; 147:195-197.
Sucupira, MCA; Janini, LMR. Subtipos do HIV. Tendências em HIV- AIDS, 2006; Volume 1,
Número 2, pp 7 - 14.
Taylor, JS; Raes, J. Duplication and divergence: the evolution of new genes and old ideas.
Annual review of genetics, 2004;38:615-43.
Ticona, WGC. Aplicação de Algoritmos Genéticos Multi-Objetivo para Alinhamento de
Sequências Biológicas. Dissertação de Pós-Graduação ICMC-USP, 2003.
Tosta, CE. Infectrons e coevolução. Revista da Sociedade Brasileira de Medicina Tropical,
2001. 34(1):1-3, jan-fev, 2001.
Tatusova, TA; Madden, TL. BLAST 2 Sequences, a new tool for comparing protein and
nucleotide sequences. FEMS Microbiology Letters, 1999; 174(2): 247-50.
75
Van Regenmortel, MHV; Fauquet, CM; Bishop, DHL; Carstens, EB; Estes, MK; Lemon, SM;
Maniloff, J; Mayo, MA; McGeoch, DJ; Pringle, CR; Wickner, RB. Emerging issues in
virus taxonomy. 7th Report of the International Committee on Taxonomy of Viruses.
San Diego, Academic Press; 2000.
Vanden Haesevelde MM, Peeters M, Jannes G, Janssens W, van der Groen G, Sharp PM, Saman
E. Sequence analysis of a highly divergent HIV-1-related lentivirus isolated from a
wild captured chimpanzee. Virology. 1996 Jul 15;221(2):346-50.
Yang, C; Dash, B et al. Predominance of HIV type 1 subtype G among commercial sex
workers from Kinshasa, Democratic Republic of Congo. AIDS Research and Human
Retroviruses, 2001; 17(4): 361-5.
Zhang, Z; Schwartz, S et al. (2000). A greedy algorithm for aligning DNA sequences. Journal
of Computational Biology 7(1-2): 203-14.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo