estes dois itens s˜ao descritos conjuntamente em cada uma das se¸c˜oes seguintes.
4.4.1 Escolha de medida de distˆancia
Nos testes para se determinar a melhor medida de distˆancia dentre a eucli-
deana entre os vetores correspondentes a dois documentos e o cosseno do ˆangulo φ
formado entre estes mesmo vetores, foram utilizadas as cinco bases de teste.
O algoritmo k-means ´e executado dez vezes nessa base, atrav´es do programa
Agrupamento01.m, tendo como entrada uma das trˆes matrizes documento-termo
(a matriz com todos os termos gerada pelo programa CriaMatriz.pl e as duas
matrizes geradas pelos programas SelecionaTermo01.m e SelecionaTermo02.m).
Os valores m´edios das medidas AA, RS, FM, SC e do tempo de processamento
s˜ao apresentados na tabela 4.3.
Cosseno Euclideana
Base Termos AA RS FM SC t AA RS FM SC t
R01 5666 68,14 79,52 52,86 0,08167 43,58 61,65 80,11 57,04 0,08149 1445,21
R01 38
A
79,64 84,41 66,85 0,56434 0,31 57,12 79,13 58,68 0,32966 1,32
R01 58
B
64,53 78,86 51,16 0,28977 0,49 36,09 70,57 40,55 0,29671 2,53
R02 7735 70,32 90,30 77,85 0,06089 133,26 34,32 70,73 51,01 0,06649 2367,65
R02 83
A
70,20 90,06 75,32 0,29976 0,65 29,33 65,22 47,99 0,15842 5,11
R02 169
B
78,28 92,93 82,65 0,15819 1,15 26,69 60,31 46,66 0,26226 16,25
R03 6316 79,43 94,04 81,55 0,07745 42,18 42,18 81,37 55,59 0,06725 1694,97
R03 55
A
79,81 94,31 82,54 0,49882 0,27 48,70 83,88 61,60 0,32102 4,11
R03 185
B
84,09 95,39 85,77 0,20796 0,74 32,83 74,62 48,57 0,20347 5,03
R04 3572 70,56 94,47 73,44 0,09562 16,23 42,35 87,62 54,07 0,08991 382,21
R04 33
A
59,88 92,46 65,08 0,58764 0,29 27,01 80,25 40,90 0,43281 0,79
R04 28
B
67,22 93,96 71,91 0,53424 0,45 33,11 83,72 46,67 0,31723 0,87
S01 7272 96,70 98,53 97,79 0,02974 45,41 93,44 97,06 95,59 0,02969 257,59
S01 116
A
70,52 85,87 79,21 0,12675 0,55 27,37 47,26 53,84 0,25970 1,19
S01 99
B
81,57 91,50 87,29 0,10299 0,34 34,74 60,81 54,85 0,25972 5,51
Tabela 4.3: Compara¸c˜ao das medidas de similaridade cosseno e euclideana (base
R04). (A) termos selecionados com o algoritmo iterativo. (B) termos selecionados
com o algoritmo guloso. Os valores das medidas de qualidade AA, RS e FM s˜ao
percentuais. Os tempo s˜ao medidos em segundos.
Esta tabela mostra que o agrupamento de documentos apresenta melhores
resultados quando a medida de similaridade cosseno ´e utilizada. Como estes re-
86