5.
´
Indice em camadas para poda din
ˆ
amica 25
c
1
juntamente com entradas adicionais.
5.2 Constru¸c˜ao do ´ındice em camadas
Em um indexador padr˜ao, as listas invertidas s˜ao geradas inicialmente como listas tempor´arias,
que s˜ao preenchidas at´e o limite da mem´oria dispon´ıvel e despejadas em disco, e posteriormente
´e feita a intercala¸c˜ao dessas listas tempor´arias para a gera¸c˜ao das listas invertidas finais[2]. As
listas tempor´arias s˜ao compostas por triplas que possuem, no sistema de busca utilizado para
os experimentos, o formato (id termo, id documento, posi¸c˜ao). Para o ´ındice em camadas, a
primeira altera¸c˜ao foi adicionar a informa¸c˜ao da camada onde esta entrada se encontra a estas
triplas, resultando em qu´adruplas no formato (id termo, id documento, posi¸c˜ao, camada). Desta
forma, na fase de intercala¸c˜ao destas listas tempor´arias para a gera¸c˜ao das listas invertidas finais,
basta que o crit´erio de ordena¸c˜ao das qu´adruplas (antigas triplas) seja modificado para levar em
considera¸c˜ao a informa¸c˜ao da camada, formando estas no interior de cada lista.
Para a determina¸c˜ao da camada a qual pertence cada entrada das listas invertidas, ´e utilizado
um m´etodo de poda est´atica integrado ao indexador, na fun¸c˜ao de gera¸c˜ao das listas tempor´arias.
S˜ao utilizados C −1 n´ıveis de compress˜ao decrescentes, onde C ´e o n´umero de camadas desejado,
e os n´ıveis de compress˜ao s˜ao determinados como
100 −
i ×
100
C
%, onde i ´e o n´umero da
camada. Como exemplo, supondo C = 5, para as camadas c
1
, c
2
, c
3
e c
4
os n´ıveis de compress˜ao
ser˜ao respectivamente 80%, 60%, 40% e 20%. A camada c
5
ser´a composta pelas entradas que
n˜ao fizerem parte de nenhuma camada, equivalendo a lista invertida completa (compress˜ao de
0%). Em um primeiro momento o n´ıvel m´aximo de compress˜ao ´e aplicado, 80%, e as passagens
obtidas com este n´ıvel ser˜ao indexadas na primeira camada do ´ındice; em seguida, ao inv´es de
repetir o processo integralmente, novas passagens s˜ao adicionadas ao fragmento de 80% at´e que
o n´ıvel de compress˜ao alcance 60%, e estas novas passagens ser˜ao indexadas na segunda camada.
O processo segue at´e o menor n´ıvel de compress˜ao, 20% no caso, e ap´os a aplica¸c˜ao deste as
passagens que restarem no documento ser˜ao indexadas como parte da ´ultima camada, c
5
. Se
todas as passagens forem selecionadas antes que todos os n´ıveis de compress˜ao sejam utilizados,
as camadas seguintes ser˜ao mapeadas para a camada corrente. Seguindo o exemplo atual, se
todas as passagens de um documento forem selecionadas na compress˜ao de 40% (c
3
), c
4
e c
5
seriam mapeadas para a mesma posi¸c˜ao de c
3
.