( PDF ) Estudo comparativo de algoritmos de classificação em bases de dados com atributos temporais

Download PDF

ads:

Idilio Drago

Estudo comparativo de algoritmos de classiﬁcação

em bases de dados com atributos temporais

Vitória - ES, Brasil

27 de setembro de 2007

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Idilio Drago

Estudo comparativo de algoritmos de classiﬁcação

em bases de dados com atributos temporais

Dissertação apresentada ao Programa de Pós-

Graduação em Informática da Universidade Fe-

deral do Espírito Santo para obtenção do título

de Mestre em Informática.

Orientador:

Flávio Miguel Varejão

PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

DEPARTAMENTO DE INFORMÁTICA

CENTRO TECNOLÓGICO

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO

Vitória - ES, Brasil

27 de setembro de 2007

ads:

Dados Internacionais de Catalogação-na-publicação (CIP)

(Biblioteca Central da Universidade Federal do Espírito Santo, ES, Brasil)

Drago, Idilio, 1980-

D759e Estudo comparativo de algoritmos de classiﬁcação em bases de dados

com atributos temporais / Idilio Drago. – 2007.

79 f. : il.

Orientador: Flávio Miguel Varejão.

Dissertação (mestrado) – Universidade Federal do Espírito Santo,

Centro Tecnológico.

1. Reconhecimento de padrões. 2. Análise de séries temporais

-Processamento de dados. 3. Árvores de decisão. I. Varejão, Flávio

Miguel. II. Universidade Federal do Espírito Santo. Centro Tecnológico.

III. Título.

CDU: 004

Dissertação de Mestrado sob o título “Estudo comparativo de algoritmos de classiﬁcação

em bases de dados com atributos temporais”, defendida por Idilio Drago e aprovada em 27 de

setembro de 2007, em Vitória, Estado do Espírito Santo, pela banca examinadora constituída

pelos doutores:

Prof. Dr. Flávio Miguel Varejão

Orientador

Prof. Ph.D. Thomas Walter Rauber

Examinador Interno

Prof. Dr. Alexandre Plastino

Examinador Externo

Sumário

Lista de Figuras

Lista de Tabelas

Resumo

Abstract

1 Introdução p.11

2 Vizinho mais próximo e medidas de similaridade p.16

2.1 O algoritmo do vizinho mais próximo . . . . . . . . . . . . . . . . . . . . . p.16

2.2 Medidas de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

2.2.1 Distância Euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

2.2.2 Correlação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

2.2.3 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . p.21

2.2.4 Distância de edição . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

2.2.5 DTW - Dynamic time warping . . . . . . . . . . . . . . . . . . . . . p.26

2.2.6 Métricas baseadas em transformações . . . . . . . . . . . . . . . . . p. 29

2.3 Combinando várias métricas em um mesmo classiﬁcador . . . . . . . . . . . p.32

3 Árvores de decisão com características temporais p.35

3.1 Árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35

3.2 Construção de árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . p.37

3.2.1 Tratamento de atributos temporais . . . . . . . . . . . . . . . . . . . p. 38

3.3 Poda e combinação de árvores de decisão . . . . . . . . . . . . . . . . . . . p. 41

4 Avaliação experimental p.44

4.1 Ajuste de parâmetros e estimativa do erro de classiﬁcação . . . . . . . . . . . p. 44

4.2 Comparação de algoritmos de classiﬁcação . . . . . . . . . . . . . . . . . . p. 46

4.2.1 Comparação de dois classiﬁcadores em um mesmo domínio . . . . . p. 47

4.2.2 Comparação de vários classiﬁcadores em múltiplos domínios . . . . . p. 48

4.3 Avaliação de métricas para determinação do vizinho mais próximo . . . . . . p. 52

4.4 Árvore aleatória com adaptação para dados temporais . . . . . . . . . . . . . p. 56

4.5 Árvore de decisão convencional com adaptação para dados temporais . . . . p.59

4.6 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.62

4.7 Indicação de consumidores de energia elétrica para inspeção . . . . . . . . . p. 64

5 Conclusões p.70

5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71

Referências Bibliográﬁcas p.73

Apêndice A -- Alguns experimentos adicionais p.77

Lista de Figuras

1.1 Um problema de classiﬁcação de séries temporais. Existem 3 classes, que se

distinguem pelo formato da série. O quarto exemplo tem classe desconhecida. p.13

2.1 Cálculo da distância Euclidiana. Uma pequena variação de fase pode ocasio-

nar diferença signiﬁcativa na medida. . . . . . . . . . . . . . . . . . . . . . p. 19

2.2 Duas seqüências com distorções locais no eixo do tempo. Por volta do ins-

tante t = 20 há uma inversão no atraso entre as séries. . . . . . . . . . . . . . p.25

2.3 Uma representação discreta das séries e o alinhamento produzido. . . . . . . p. 25

2.4 Seqüência de geração dos pesos na heurística criada para treinar o algoritmo

NN com várias métricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34

Lista de Tabelas

2.1 Limites para divisãoda Distribuição Normal Padrão em cinco intervaloseqüi-

prováveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.22

2.2 Computando DTW com janela de ajuste r = 2. Neste caso, o caminho na

tabela de cálculo não pode se afastar mais de 2 unidades da diagonal. . . . . . p.28

4.1 Taxa de erro média (percentual) do algoritmo do vizinho mais próximo com

métricas diversas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52

4.2 Valores-p e média dos postos da comparação de métricas contra a distância

Euclidiana. Valores ainda sem o ajuste requerido pela multiplicidade. . . . . p.54

4.3 Vizinho mais próximo com combinação de métricas e melhor resultado indi-

vidual. Taxa de erro média (percentual). . . . . . . . . . . . . . . . . . . . . p. 55

4.4 Taxa de erro média (percentual) da árvore aleatória com métricas temporais

em diversos problemas de classiﬁcação. O melhor desempenho em cada pro-

blema é escrito em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57

4.5 Valores-p e média dos postos da comparação entre a adaptação com métricas

e a versão original da árvore extremamente aleatória. Valores ainda sem o

ajuste requerido pela multiplicidade. . . . . . . . . . . . . . . . . . . . . . . p.58

4.6 Combinação de métricas e melhor resultado individual da árvore de decisão

aleatória adaptada. Taxa de erro média (percentual). . . . . . . . . . . . . . . p.58

4.7 Taxa de erro média (percentual) da árvore de decisão (podada) com métricas

temporais. O melhor desempenho em cada problema é escrito em negrito. . . p.60

4.8 Valores-p e média dos postos da comparação da árvore com adaptação tem-

poral contra a versão não adaptada da árvore extremamente aleatória. . . . . . p. 60

4.9 Taxa de erro média (percentual) da combinação por bagging de árvores de

decisão (sem poda) com métricas temporais. O melhor desempenho em cada

problema é escrito em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . p.61

4.10 Valores-p e média dos postos da comparação de um comitê de árvores com

adaptação temporal (combinadas por bagging) contra a versão não adaptada

da árvore extremamente aleatória. . . . . . . . . . . . . . . . . . . . . . . . p.62

4.11 Resultado da melhor métrica em cada uma das quatro formas de classiﬁcação

avaliadas. Melhor resultado de cada problema em negrito. . . . . . . . . . . . p.63

4.12 Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho

mais próximo avaliados com os dados normalizados. . . . . . . . . . . . . . p.67

4.13 Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho

mais próximo avaliados com os dados não normalizados. . . . . . . . . . . . p. 67

4.14 F-measure média (percentual) da árvore aleatória e do algoritmo do vizinho

mais próximo avaliados com os dados normalizados. . . . . . . . . . . . . . p.67

4.15 F-measure média (percentual) da árvore aleatória e do algoritmo do vizinho

mais próximo avaliados com os dados não normalizados. . . . . . . . . . . . p. 68

4.16 Matriz de confusão do algoritmo do vizinho mais próximo usando a distância

Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.69

4.17 Matriz de confusão do classiﬁcador bayesiano com características extraídas. . p. 69

A.1 Taxa de erro do algoritmo do vizinho mais próximo com métricas de simila-

ridade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.77

A.2 Taxa de erro da árvore aleatória com métricas temporais. . . . . . . . . . . . p.79

A.3 Taxa de erro da combinação por bagging de árvores de decisão (sem poda). . p.79

Resumo

Uma série temporalé um conjunto de dados que possuemalguma relação variávelno tempo.

O tipo mais simples de série temporal é representado por uma única variável amostrada em ins-

tantes regulares. Problemas de classiﬁcação supervisionada são deﬁnidos como a tarefa de

associar um rótulo a exemplos desconhecidos, a partir de informações obtidas de casos com

rótulos conhecidos. Quando os casos a classiﬁcar são compostos por características tempo-

rais, métodos especiais devem ser usados em algumas etapas da construção do classiﬁcador.

Extração de características estáticas que descrevem as temporais e adaptação de algoritmos de

classiﬁcação para manipulação direta deste tipo de atributo são as duas principais soluções ado-

tadas neste tipo de problema. Há duas formas usuais de adaptar algoritmos de classiﬁcação

para dados temporais: desenvolvendo modelos matemáticos para descrever as séries associadas

a cada classe; comparando diretamente as séries entre si ou as séries em relação a casos conside-

rados padrões. Este trabalho trata apenas de métodos de classiﬁcação baseados em comparação

de séries temporais. A questão central, neste caso, é deﬁnir medidas de semelhança entre as

séries. A partir de dois trabalhos, que enumeram um conjunto de métricas supostamente mais

apropriadas para comparação de séries temporais, versões adaptadas do algoritmo do vizinho

mais próximo e do algoritmo de treinamento de árvores de decisão são apresentadas. Sabendo

que, em problemas com dados não temporais, a combinação de várias árvores de decisão gera

classiﬁcadores mais precisos, é proposta uma nova versão, especial para dados temporais, do

método de treinamento de comitês de árvores extremamente aleatórias. Além disso, para ve-

riﬁcar a suposição de que várias medidas de similaridade diferentes produzem, em conjunto,

melhores classiﬁcadores, um método de combinação de medidas por ponderação é proposto.

Uma avaliação experimental é realizada em um conjunto de problemas reais para veriﬁcar a ex-

pectativa de melhoria da taxa de acerto dos classiﬁcadores adaptados, em relação aos mesmos

algoritmos sem adaptação. No caso do algoritmo do vizinho mais próximo e da nova adaptação

da árvore extremamente aleatória, os resultados experimentais mostram uma considerável me-

lhoria em relação às versões originais. Os resultados em um dos problemas reais - de seleção

de consumidores de energia elétrica para inspeção, são descritos em mais detalhes por se tratar

de um problema ainda pouco explorado.

Abstract

A time series is a sequence of data points taken at more or less regular intervals. Supervi-

sed classiﬁcation is deﬁned as the task of assigning a label to cases, based on the information

learned from examples with known labels. Special algorithms are needed when the examples

are represented by temporal features. The two main approaches to this kind of classiﬁcation

problem are the extraction of static (non-temporal) features from the time series and the de-

velopment of special learning algorithms to deal with temporal features. In general, there are

two ways for adapting learning algorithms to handle temporal data: developing a mathematical

model to represent the time series for each class; or comparing directly the series to each other

or to template cases. This work address only the classiﬁcation based on direct comparisons of

time series features. We focus on using similarity measures between series. Based on some me-

trics, suitable for temporal data, we adapted the nearest neighbor classiﬁer and the building step

of the decision tree algorithm. In order to improve the accuracy of the decision tree approach,

we evaluated the bagging meta-algorithm with the temporal tree and proposed a new training

algorithm for building a committee of extremely randomized trees. Furthermore, we veriﬁed

the assumption that various similarity metrics together may produce a more accurate classiﬁer

by proposing a new heuristic, based on weights, to combine the measures in the nearest neigh-

bor decision rule and a test with several metrics to the decision tree approach. We carried out a

set of experiments on real-world problems to verify the hypothesis that the new algorithms are

better than the classical ones. The results showed a considerable improvement over the original

versions, when evaluating the nearest neighbor algorithm and the new extremely randomized

tree. We also described the results obtained in a new temporal classiﬁcation problem - the fraud

detection on power distribution services.

1 Introdução

Uma série temporal pode ser deﬁnida como um conjunto de dados que têm entre si alguma

relação variável no tempo. Pode-se, portanto, chamar de série temporal quaisquer conjuntos

de dados reais amostrados no tempo. Por exemplo, o número de acidentes de trânsito por

mês, o número de batimentos cardíacos por minuto de um paciente durante uma internação e o

consumo mensal de energia elétrica de um cliente durante o ano são eventos representáveis na

forma de séries temporais.

Roddick & Spiliopoulou (2002) organizam as informações encontradas em situações reais

em quatro categorias, de acordo com o tipo de relação de temporalidade existente:

• Estáticas: nenhum contexto temporal é incluído e nenhum pode ser inferido.

• Seqüência: lista ordenada de eventos, sem marcação do tempo. Nesta categoria incluem-

se as coleções de eventos ordenados, mas sem marcos de tempo. Normalmente, pode-se

obter, a partir deste tipo de dados, somente relacionamentos do tipo “aconteceu antes”,

“aconteceu depois” etc.

• Com marcos de tempo (timestamped): representa uma seqüência programada de even-

tos, tomados em intervalos mais ou menos regulares, com marcação do tempo. Como

exemplos, pode-se citar: censos, dados de satélites meteorológicos, dados de vendas com

marcos de tempo e atividades da Internet.

• Inteiramente temporal: cada registro possui uma relação temporal variável, com marcos

de tempo e, possivelmente, mais de uma dimensão (informação multidimensional). Como

exemplos, pode-se citar os dados de medições de equipamentos (ou processos) realizadas

por vários sensores simultaneamente.

Normalmente, deﬁne-se classiﬁcação como um caso especial do aprendizado automático

em que se possui um conjunto de informações (atributos)sobre vários exemplosde algum objeto

do mundo real, e cada exemplo conhecido está associado a uma etiqueta (classe discreta). A

partir destes exemplos conhecidos, deseja-se construir um sistema que seja capaz de etiquetar

(atribuir a classe) a exemplos em que apenas os atributos são conhecidos.

A construção de um sistema de classiﬁcação é, geralmente, subdividida em algumas etapas:

obtenção dos dados, preparação dos dados (pré-processamento), seleção/extração de atributos,

escolha do algoritmo de classiﬁcação, treinamento do classiﬁcador e avaliação do classiﬁcador

treinado. Diversos algoritmos e técnicas existem em cada uma destas etapas, a maior parte des-

tinados a problemas com atributos estáticos. Theodoridis & Koutroumbas (2006) apresentam

alguns métodos aplicáveis às primeiras etapas, principalmente para seleção/extração de atribu-

tos (por exemplo, algumas heurísticas de seleção de características e o método de análise de

componentes principais para extração de novas características a partir das inicialmente existen-

tes). Sobre as demais etapas, Duda, Hart & Stork (2001) são a principal referência, por apre-

sentar boa parte dos algoritmos de classiﬁcação mais relevantes, dentre os quais, os modelos

baseados na teoria de Bayes, o algoritmo do vizinho mais próximo, o perceptron multicamadas

e as árvores de decisão.

Quando existem atributos não estáticos dentre os que representam os exemplos que se de-

seja classiﬁcar, técnicas alternativas devem ser usadas em algumas das etapas da construção

do classiﬁcador. As principais alterações acontecem nas fases de preparação dos dados, se-

leção/extração de atributos e escolha do algoritmo de classiﬁcação. O mais comum é criar

procedimentos nas etapas de preparação dos dados e seleção/extração de atributos para alterar o

formato das informações temporais (por exemplo, para converter, por interpolação, dados com

marcos de tempo para seqüências igualmente espaçadas) ou extrair características estáticas a

partir das temporais e, então, descartar os dados originais e utilizar somente as novas carac-

terísticas com os algoritmos “convencionais” de classiﬁcação. Existem, porém, algoritmos de

classiﬁcação que podem lidar diretamente com os dados temporais.

Embora seja comum encontrar problemas reais em que os atributos sejam dos três tipos

não estáticos, este trabalho aborda apenas problemas com atributos do tipo seqüência. A partir

deste ponto, os termos série temporal e atributo temporal estarão sempre se referindo a atribu-

tos desse tipo. Os problemas estudados serão sempre de classiﬁcação de séries temporais uni-

dimensionais, ou seja, toda a informação disponível para classiﬁcar resume-se a uma seqüência

de valores de uma mesma variável, tomados em intervalo constante de tempo. A tarefa será

etiquetar séries temporais (completas) com classe desconhecida, a partir de séries com classe

conhecida. A Figura 1.1 ilustra algumas séries temporais de um problema de classiﬁcação deste

tipo. Neste problema, há três classes de séries que se distinguem pela forma - os três primeiros

quadros da ﬁgura. O quarto quadro mostra uma nova série, cuja classe é desconhecida.

Exemplo 1 - classe A

Exemplo 2 - classe B

Exemplo 3 - classe C

Exemplo 4 - classe desconhecida

Figura 1.1: Um problema de classiﬁcação de séries temporais. Existem 3 classes, que se distin-

guem pelo formato da série. O quarto exemplo tem classe desconhecida.

Em problemas de classiﬁcação de séries temporais, quando há conhecimento especíﬁco

sobre o processo gerador dos dados a classiﬁcar que permita que características estáticas espe-

ciais sejam criadas para formação da base de aprendizado, a melhor opção parece ser usar este

conhecimento para extrair informações não temporais das séries e treinar classiﬁcadores “con-

vencionais”. Por exemplo, os padrões que deﬁnem as classes na Figura 1.1 são bastante nítidos.

Embora existam ruídos deformando e distorcendo as séries é possível modelar características

com forte poder de discriminação para esse problema - para distinguir entre a segunda e a ter-

ceira classe bastaria uma única característica que indicasse a tendência da série, por exemplo.

Todavia, nem sempre há esse tipo de informação sobre o processo gerador dos dados temporais

e, em muitos casos, somente os exemplos com os rótulos das classes estão disponíveis.

Em problemas com padrões fortemente relacionados à forma, como no caso da Figura 1.1,

é comum recorrer a um conjunto de extratores de características de propósito geral, para criar

a maior quantidade possível de informação sobre as séries, e posteriormente selecionar neste

conjunto as características mais relevantes para discernir as classes do problema. Nesta linha,

Mörchen (2003) utiliza características estáticas obtidas por meio das transformadas de Fourier

e de Wavelets. Nanopoulos, Alcock & Manolopoulos (2001) extraem estatísticas descritivas das

séries para compor a base de treinamento em problemas temporais. Ambos relatam resultados

melhores do que a solução, aparentemente ingênua, de treinar classiﬁcadores “convencionais”

fazendo com que cada ponto da variável no tempo seja uma característica não temporal.

Outros autores descrevem formas de classiﬁcação de séries temporais que, ao invés de ex-

traírem informações estáticas das séries, manipulam diretamente estes dados durante a constru-

ção do classiﬁcador. Nesta abordagem, duas linhas principais são geralmente seguidas: ou se

tenta gerar modelos matemáticos para descrever as séries associadas a cada classe do problema,

ou se tenta classiﬁcar através da comparação dos exemplos entre si ou através da comparação

dos exemplos a casos considerados padrões (template matching). Pode-se citar Murphy (2002),

Ge & Smyth (2000) e Abou-Moustafa, Cheriet & Suen (2004) como exemplos de trabalhos que

seguem a primeira linha.

Neste trabalho serão avaliadas somente formas de classiﬁcação baseadas na comparação

direta entre séries temporais. Nesta forma de classiﬁcação, a questão central é decidir quando

duas séries são consideradas semelhantes. Antunes & Oliveira (2001) e Savary (2002) listam

diversas maneiras de calcular a similaridade entre seqüências, que podem ser o ponto de partida

para a adaptação do algoritmo do vizinho mais próximo e para extensão do algoritmo de treina-

mento de árvores de decisão para manipulação de atributos temporais. O restante deste trabalho

tratará somente das adaptações desses dois algoritmos com algumas das métricas listadas por

esses autores.

São três as motivações principais para estudar estas adaptações:

• Antunes & Oliveira (2001) e Savary (2002) listam diversas medidas de comparação de

séries temporais e sugerem a utilização delas como fundamento do algoritmo do vizinho

mais próximo. Ambos não fazem, porém, nenhuma avaliação da qualidade do classiﬁca-

dor produzido com estas medidas em problemas reais.

• Yamada et al. (2003) mostram uma extensão do algoritmo de treinamento de árvores de

decisão que utiliza métricas de similaridade e comparação direta entre séries temporais.

Não há, entretanto, uma avaliação da qualidade desta adaptação em relação a do algoritmo

do vizinho mais próximo.

• O problema real de indicação de consumidores de energia elétrica para inspeção, apresen-

tado na seção 4.7, é um problema de classiﬁcação de séries temporais. Deseja-se veriﬁcar

se estes algoritmos são apropriados a ele. Neste caso, há também resultados obtidos por

classiﬁcadores “convencionais” com características estáticas triviais, que servirão como

base de comparação.

O Capítulo 2 apresenta resumidamente o método de classiﬁcação do vizinho mais próximo

e as medidas descritas em Antunes & Oliveira (2001) e Savary (2002). Além disso, parece ser

correto suporque métricas distintas possam produzir informações diferentes sobreas seqüências

e, eventualmente, gerar classiﬁcadores mais precisos se forem combinadas. Uma forma de

combinação de várias medidas através de ponderações é proposta neste capítulo.

No Capítulo 3 é apresentado um resumo do algoritmo de treinamento de árvores de deci-

são e a adaptação de Yamada et al. (2003) para manipulação de características temporais. Em

problemas com atributos não temporais, existem diversos trabalhos que mostram métodos que

combinam várias árvores de decisão para criação de classiﬁcadores mais precisos. O Capítulo 3

apresenta também o método de construção de comitês de árvores extremamente aleatórias, pro-

posto por Geurts, Ernst & Wehenkel (2006) para atributos não temporais. Baseado no trabalho

de Yamada et al. (2003), uma adaptação deste método é proposta para manipulação de atributos

temporais.

O Capítulo 4 faz uma avaliação experimental dos métodos de classiﬁcação apresentados e

propostos nos capítulos anteriores. Os principais objetivos desta avaliação são:

• Veriﬁcar a expectativa de melhoria da taxa de acerto do classiﬁcador com métricas de

similaridade especiais, dado um problemaqualquer de classiﬁcação com dados temporais,

considerando como base da comparação o vizinho mais próximo “convencional”, que

calcula a distância euclidiana entre os exemplos.

• Comparar o desempenho do algoritmo de treinamento de árvores de decisão e de treina-

mento de árvores extremamente aleatórias para atributos temporais, em relação ao desem-

penho das versões “convencionais” destes algoritmos e também em relação à adaptação

do vizinho mais próximo.

• Veriﬁcar se a combinação de diversas métricas de similaridade melhora a precisão dos

classiﬁcadores.

• Avaliar estes métodos de classiﬁcação usando os dados do problema real de indicação de

consumidores de energia elétrica para inspeção.

O Capítulo 5 resume os principais resultados obtidos e indica as possíveis continuações

deste trabalho.

2 Vizinho mais próximo e medidas de

similaridade

No contexto de classiﬁcação em que existam séries temporais como características, a abor-

dagem mais comum, ao lado da extração de novascaracterísticas estáticas, é adaptar o algoritmo

não paramétrico do vizinho mais próximo para manipulação dos dados temporais. Tal adapta-

ção consiste em selecionar uma medida de similaridade mais adequada ao problema em questão,

em substituição à distância Euclidiana.

Neste capítulo, o algoritmo é apresentado resumidamente. São apresentadas também al-

gumas medidas de similaridade utilizadas na comparação de séries temporais. As principais

fraquezas do algoritmo são brevemente discutidas e as conseqüências da alteração da medida

de comparação em relação a estas fraquezas são analisadas.

2.1 O algoritmo do vizinho mais próximo

O princípio do desenvolvimento da classiﬁcação usando a regra de decisão do vizinho mais

próximo é, normalmente, atribuído a Cover & Hart (1967). Neste trabalho, os autores iniciam

a apresentação do algoritmo listando os dois extremos distintos do problema de classiﬁcação:

ou conhece-se a distribuição conjunta dos dados e das classes do problema, caso em que uma

análise de Bayes leva à regra ótima de decisão e ao mínimo erro teórico, ou não se conhece

nada sobre a distribuição além daquilo que é possível extrair a partir de exemplos conhecidos

do problema em questão.

Enquanto no primeiro caso a regra de decisão é fortemente justiﬁcada, no segundo, ao

contrário, não se tem convicção sobre as regras criadas e a qualidade da classiﬁcação estará

diretamente relacionada à qualidade dos dados disponíveis.

Supondo que os exemplos conhecidos são independentes e identicamente distribuídos em

relação à distribuição original dos dados, uma heurística normalmente aceita para classiﬁcação

de casos desconhecidos é considerar que as observações suﬁcientemente próximas (de acordo

com alguma métrica preestabelecida) pertencerão à mesma classe.

Tal heurística, também chamada de NN (Nearest Neighbor), é formalizada por Cover &

Hart (1967) da seguinte maneira: seja o conjunto de pares S = {(x

),...,(x

)}, repre-

sentando as instâncias conhecidas do problema. Em cada par, x

= [x

,. . .,x

]

é o vetor de

atributos e

é a classe do exemplo i. Para os problemas de interesse neste trabalho, os valores

são todos pertencentes a um conjunto discreto {c

,...,c

}. Deseja-se determinar o valor

quando um novo par (x,

) for apresentado ao sistema de classiﬁcação. Neste novo par,

apenas os valores de x puderam ser observados. Chama-se x

′

∈ {x

,. . .,x

} de o vizinho

mais próximo de x se

′

,x) = min

,x) i = 1, 2, ..., n (2.1)

onde

) mede a similaridade entre dois exemplos quaisquer e é minimizada quanto mais

semelhantes eles forem. Atribui-se à classe

do exemplo desconhecido (x,

) o valor de

′

par (x

′

). Caso vários exemplos estejam à mesma distância do novo exemplo a classiﬁcar,

atribui-se a classe da maioria de seus vizinhos a

Uma extensão natural do classiﬁcador do vizinho mais próximo é considerar os k vizinhos

mais próximos do exemplo desconhecido. Esta variação, também chamada de kNN, aparen-

temente faz uso mais adequado dos dados do problema, decidindo por voto qual será a classe

escolhida. Neste caso, é desejável que k seja suﬁcientemente grande, a ﬁm de minimizar a pro-

babilidade de que poucos exemplos com classiﬁcação incorreta determinem a classe de outros,

mas é também desejável que k seja o menor possível, a ﬁm de evitar que exemplos de classes

distintas se misturem na regra de decisão.

A principal vantagem do algoritmo é a simplicidade, dado que não é necessária uma etapa

de treinamento. Breiman et al. (1984, p. 16) citam como seus principais pontos fracos:

1. A heurística é sensível à escolha da métrica de similaridade e, normalmente, não há uma

alternativa melhor que as demais em todas as situações.

2. A forma ingênua de implementação da heurística, que armazena todos os exemplos co-

nhecidos e busca exaustivamente pelo vizinho mais próximo, não é computacionalmente

interessante se a base de casos for numerosa.

3. Não há uma maneira satisfatória para tratamento de informações categóricas (simbóli-

cas) e a heurística é altamente sensível a valores ausentes, exemplos ruidosos, atributos

irrelevantes etc.

4. A heurística não gera informações extras (e possivelmente relevantes) a partir dos dados.

As próximas seções apresentam algumas medidas de similaridade alternativas, que têm sido

utilizadas por serem, supostamente, mais adequadas a problemas com dados temporais. A sub-

seção 2.2.6 fala, brevemente, sobre formas mais eﬁcientes do algoritmo, que são dependentes

da escolha da medida. As fraquezas relacionadas ao tipo dos dados (simbólicos, ruidosos etc.)

não serão discutidos neste trabalho. A geração de informações adicionais sobre os dados é uma

qualidade normalmente atribuída às árvores de decisão, tema do próximo capítulo.

2.2 Medidas de similaridade

Nesta seção são apresentadas as métricas mais comuns para mensuração da similaridade

entre os exemplos no algoritmo do vizinho mais próximo, quando os dados são temporais. No

restante deste capítulo, será assumido que o vetor de características é formado simplesmentepor

um único atributo e que este é uma série temporal de tamanho d (problema unidimensional).

2.2.1 Distância Euclidiana

A escolha inicial, e também a mais freqüente, para comparação de duas séries temporais, é

considerar que elas são vetores em um espaço com d dimensões e calcular a distância Euclidiana

entre estes. Dadas duas seqüências y e z quaisquer, Devijver & Kittler (1982, p. 232) deﬁnem a

distância como

(y,z) = [(y−z)

(y−z)]

1/2



∑

i=1

−z

)



1/2

. (2.2)

Há várias limitaçõesassociadas a esta medida para comparação de sériestemporais. Agrawal

et al. (1995) dizem que a distância é muito sensível a ruídos, a pequenas variações de fase entre

as seqüências e a translações e escalamentos horizontais. Como ilustração, a Figura 2.1 mos-

tra um exemplo extremo em que duas seqüências possuem exatamente os mesmos contornos,

porém com uma pequena defasagem no eixo do tempo. Na ﬁgura, a distância Euclidiana entre

estas duas instâncias é maior do que a distância Euclidiana delas em relação a linha reta pon-

tilhada, que representa o valor médio das séries. Se este fosse o caso em um problema real, o

algoritmo NN escolheria a linha pontilhada como vizinho mais próximo das duas seqüências.

No caso das limitações associadas às diferenças de escala e translações verticais, uma solu-

ção amplamente aceita é normalizar todas as seqüências antes do cálculo da similaridade. Cada

série é normalizada independentemente das demais e, geralmente, se usa a normalização linear

para um intervalo ﬁxo ou a normalização que converte a média e a variância da série para zero

Tempo

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Figura 2.1: Cálculo da distância Euclidiana. Uma pequena variação de fase pode ocasionar

diferença signiﬁcativa na medida.

e um, respectivamente. Na segunda alternativa, cada valor é substituído através da fórmula

′

−

, (2.3)

onde y é a média e

é o desvio padrão dos valores que compõem a seqüência. O segundo tipo

de normalização é mais apropriado por ser menos sensível a ruídos (HAN; KAMBER, 2001,

p. 115).

Se a média e a dispersão das séries contiverem padrões relevantes para a classiﬁcação, estas

informações podem ser adicionadas aos dados como novas características estáticas. Os algorit-

mos de classiﬁcação experimentados neste trabalho, porém, classiﬁcam sempre comparando os

exemplos entre si e não considerarão nenhuma característica estática. Em todos os casos expe-

rimentados, os dados foram normalizados usando a Equação 2.3 e a média e o desvio padrão

foram descartados.

As limitações associadas a ruídos e a variações de fase podem ser contornadas substituindo

a distância Euclidiana por alguma outra métrica mais soﬁsticada - nas próximas seções algumas

destas métricas são descritas.

Por ﬁm, sobre a distância Euclidiana, ainda é interessante notar que, exceto pela forma de

normalização das séries, que no caso de atributos não temporais é realizada considerando os

valores de todos os exemplos (no caso das séries cada exemplo é normalizado separadamente),

a forma de cálculo da similaridade produzirá o mesmo resultado que seria obtido caso cada

amostra da variável temporal fosse considerada uma característica não temporal. Assim, qual-

quer outra medida já usualmente empregada com o algoritmo NN pode substituir a Euclidiana.

Por exemplo, Devijver & Kittler (1982) apresentam algumas medidas de similaridade alternati-

vas: Manhattan, Chebychev, quadrática etc. Nenhuma delas, porém, parece possuir formulação

mais apropriada a dados temporais. Nos experimentos do Capítulo 4 a distância Manhattan,

deﬁnida por

(y,z) =



∑

i=1

−z



, (2.4)

também foi considerada. A expectativa é que o classiﬁcador com esta medida talvez seja me-

lhor do que o Euclidiano em alguns casos, mas que não será possível dizer que há diferença

signiﬁcante entre eles.

2.2.2 Correlação linear

No contexto de casamento de padrões, uma métrica utilizada com freqüência como medida

de similaridade é a correlação linear. Theodoridis & Koutroumbas (2006) citam, como exem-

plos de aplicação, problemas em que se deseja encontrar um padrão preestabelecido em um

conjunto de dados que pode contê-lo, por exemplo, um objeto em uma imagem ou um trecho

de uma série temporal (subseqüência) na série completa.

O coeﬁciente de correlação é uma medida estatística que determina a relação linear entre

duas variáveis aleatórias. É deﬁnido como

y,z

∑

i=1

−

y)(z

−z)



∑

i=1

−

∑

i=1

−



1/2

. (2.5)

O coeﬁciente de correlação possui valor no intervalo [−1,1], sendo que os extremos impli-

cam relação linear perfeita (no sentido positivo ou negativo) e zero implica que não há relação

linear entre as variáveis.

É importante observar que o vizinho mais próximo de um exemplo qualquer, determinado

pelo coeﬁciente de correlação, é o mesmo que o determinado pela distância Euclidiana, se as

séries estiverem normalizadas de acordo com a Equação 2.3. Neste caso, de acordo com a

Equação 2.5,

y,z

∑

i=1

, porque

= 1 e y = z = 0. Já a distância Euclidiana (ao

quadrado) entre as séries será

(y,z) =

∑

i=1

−z

)

(2.6)

(y,z) =

∑

i=1

−

−2

∑

i=1

∑

i=1

−

(2.7)

(y,z) = 2−2

∑

i=1

(2.8)

ou seja, o valor das duas métricas diferem apenas por soma e multiplicação de constantes e

pela função de raiz quadrada, que não interferem na ordem dos vizinhos dos exemplos. Em

problemas com dados já previamente normalizados, como os apresentados no Capítulo 4, a

classiﬁcação com estas medidas é idêntica.

Por ﬁm, a medida de correlação, como descrita acima, considera boa apenas a correlação

positiva. Considerar boa também a correlação negativa, fazendo com que a métrica seja igual

ao valor absoluto da Equação 2.5, é uma opção que pode ser útil se for de interesse considerar

iguais os exemplos simétricos em relação ao eixo temporal. Neste caso, a métrica não será mais

equivalente à distância Euclidiana, evidentemente.

2.2.3 Distância de Hamming

A distância de Hamming, introduzida por Hamming (1950), é deﬁnida como o número de

coordenadas nas quais dois vetores diferem. A distância é normalmente calculada quando as

seqüências possuem um alfabeto ﬁnito e é especialmente útil como uma forma de determinação

da similaridade entre cadeias de caracteres (strings).

A distância de Hamming entre os vetores de caracteres y e z é calculada por

(y,z) =

∑

i=1

t(y

), (2.9)

onde t(y

) = 1, se y

= z

e t(y

) = 0, caso contrário.

Para aplicação da distância de Hamming como medida de similaridade, as séries temporais

devem passar por duas tarefas de pré-processamento: normalização e discretização. O pro-

cesso de normalização é o mesmo já descrito na seção 2.2.1. Para discretização, deve-se deﬁnir

um número ﬁxo de símbolos válidos (alfabeto) e converter cada valor da série para um destes

símbolos. Normalmente, criam-se intervalos de larguras iguais ou intervalos que contenham

a mesma quantidade de pontos (freqüências iguais). A primeira forma é considerada inferior

por dividir os pontos da série de maneira muito desigual, especialmente se os dados contiverem

ruídos (HAN; KAMBER, 2001, p.131).

Caso seja possível assumir que a distribuição dos pontos das séries siga uma distribuição

especial (por exemplo a Normal), Lin et al. (2003) utilizam uma forma de discretização que tem

a propriedade adicional, computacionalmente bastante desejável, de varrer cada seqüência ape-

nas uma vez. Para tal, considerando que a série foi normalizada, basta recorrer a uma tabela de

probabilidades para determinação dos pontos de cortes que deﬁnem os intervalos. Por exemplo,

a Tabela 2.1 lista os limites para criação de 5 intervalos eqüiprováveis, assumindo a Distribuição

Normal Padrão. Caso se queira discretizar as séries em 5 intervalos, basta substituir cada valor

numérico pelo caractere associado ao intervalo que o contém.

Alfabeto a b c d e

Limites (−∞,−0.84] (−0.84,−0.25] (−0.25,0.26] (0.26,0.85] (0.85, ∞)

Tabela 2.1: Limites para divisão da Distribuição Normal Padrão em cinco intervalos eqüiprová-

veis.

Em relação à distância Euclidiana, a combinação da discretização das séries e do cálculo

da distância de Hamming só é vantajosa pelo processo de discretização, que pode reduzir o

ruído ao remover as variações abruptas (altas freqüências) das séries. O processo de discretiza-

ção, porém, trata de maneira insatisfatória pontos que estejam muito próximos, mas que foram

discretizados como símbolos diferentes devido à posição dos limites dos intervalos. No caso

da distância de Hamming, estes pontos aumentam o valor da distância, quando na prática a

diferença real entre eles pode ser muito menor do que a largura dos intervalos.

Uma possível alternativa, implementada por Bozkaya, Yazdani & Özsoyoglu (1997) em

conjunto com a distância de edição (apresentada na próxima seção), é considerar que os pontos

são iguais se a distância entre eles for menor do que um limite

. Tal variação parece fazer uso

mais apropriado dos valores numéricos sem sacriﬁcar a desejável característica de redução do

ruído. O valor de

, neste caso, deve ser ajustado e inﬂuenciará decisivamente no valor ﬁnal da

métrica (e possivelmente na precisão da classiﬁcação). Em todos os experimentos apresentados

nos próximos capítulos, esta foi a forma de discretização escolhida.

2.2.4 Distância de edição

A distância de edição, introduzida por Levenshtein (1966) e por isto também chamada de

distância de Levenshtein, é deﬁnida como a quantidade mínima de operações necessárias para

transformar uma cadeia de caracteres em outra qualquer. As operações permitidas para tal são

a substituição, a adição e a remoção de caracteres.

Assim como no caso da distância de Hamming, para aplicação da distância de edição na

comparação de séries temporais numéricas, é preciso que estas sejam normalizadas e discreti-

zadas para um alfabeto ﬁnito de símbolos.

A distância de edição entre dois vetores de caracteres y e z de tamanho d pode ser en-

contrada através de programação dinâmica, a partir da relação de recorrência apresentada, por

exemplo, em Gusﬁeld (1997, p.218). A deﬁnição é feita com base na função D(i, j), que re-

presenta o menor número de operações que transformam os primeiros i caracteres de y nos

primeiros j caracteres de z. Os casos bases da relação são deﬁnidos como

D(i,0) = i (2.10)

D(0, j) = j. (2.11)

Intuitivamente, o primeiro caso signiﬁca que para transformar i caracteres de y em zero

caracteres de z são necessárias i operações de exclusão. De forma semelhante, para transformar

zero caracteres de y em j caracteres de z são necessárias j operações de inclusão. Para i > 0 e

j > 0, a distância é deﬁnida como

D(i, j) = min











D(i, j−1) + 1

D(i−1, j) + 1

D(i−1, j−1) +t(i, j)

(2.12)

onde t(i, j) = 0, se y

= z

e t(i, j) = 1, caso contrário. Neste caso, o número de operações será

o mínimo entre três opções:

• Transformar i caracteres de yem j−1 caracteres de z usando a menor quantidade possível

de operações e então incluir z

em y.

• Transformar i−1 caracteres de y em j caracteres de z usando a menor quantidade possível

de operações e então excluir y

• Transformar i −1 caracteres de y em j −1 caracteres de z usando a menor quantidade

possível de operações e então substituir y

por z

se eles forem diferentes.

A prova de que D(i, j) realmente calcula a menor quantidade de operações necessárias para

executar a transformação pode ser encontrada em Gusﬁeld (1997, p.218-219) e não será aqui

transcrita. Como se deseja computar a distância de edição das seqüências y e z completas, a

medida de similaridade será

(y,z) = D (d,d). (2.13)

A implementação ingênua (recursiva) da relação acima produz uma árvore com número

de nós exponencial em relação a dimensão d dos vetores. Porém, usando a forma tradicional

de computação tabular da programação dinâmica, pode-se encontrar a distância de edição em

O(d

) operações. Para tal, usa-se uma matriz de dimensões d + 1, que é preenchida e avaliada

de acordo com o Algoritmo 1.

Algoritmo 1 Computa a distância de edição entre dois vetores de caracteres y e z

Entrada: M, uma matriz quadrada com dimensões d + 1;

y e z, as séries temporais.

Saída: distância de edição entre y e z

1: para i = 0 até d faça

2: m

i,0

← i

3: m

0,i

← i

4: ﬁm para

5: para i = 1 até d faça

6: para j = 1 até d faça

7: se y

= z

então

8: t ← 0

9: senão

10: t ← 1

11: ﬁm se

12: m

i, j

← min(m

i, j−1

+ 1,m

i−1, j

+ 1,m

i−1, j−1

+t)

13: ﬁm para

14: ﬁm para

15: retorne m

d,d

Em relação à distância Euclidiana, a estratégia de discretização das séries e cálculo da dis-

tância de edição possui algumas vantagens relevantes. Em primeiro lugar, assim como no caso

da distância de Hamming, o processo de discretização diminui o efeito de variações abruptas e

pode reduzir a inﬂuência de ruídos. Se a forma de discretização de Bozkaya, Yazdani & Öz-

soyoglu (1997) for utilizada, a condição da linha 7 do Algoritmo 1 é alterada para |y

−z

| <

e o algoritmo passa a receber séries apenas normalizadas para o cálculo.

Ainda em relação à distância Euclidiana, as operações de inserção e exclusão realizadas

durante o cálculo da distância de edição corrigem variações de fase entre as seqüências. Além

de casos onde o desalinhamento de fase ocorre nas séries completas, como o ilustrado na Figura

2.1, a distância de edição corrige variações locais no eixo do tempo, permitindo que séries com

pequenas distorções temporais transitórias sejam alinhadas e tenham menor valor de distância

entre si. Por exemplo, a Figura 2.2 mostra duas seqüências com distorções locais no eixo do

tempo.

Usando o método de discretização em cinco intervalos, descrito na seção 2.2.3, a partir

destas séries seriam geradas as seqüências da Figura 2.3. Como ilustração, as duas seqüências

estão alinhadas com traços verticais, que marcam os caracteres que coincidiriam durante o

cálculo da distância, e com traços horizontais, que marcam os pontos onde ocorreriam inserções

ou exclusões de caracteres. A distância de edição neste exemplo é 6. Casos extremos como os

da Figura 2.1 são menos prováveis nesta situação.

Tempo

0 5 10 15 20 25 30 35 40 45 50

-2

-1

Figura 2.2: Duas seqüências com distorções locais no eixo do tempo. Por volta do instante

t = 20 há uma inversão no atraso entre as séries.

Figura 2.3: Uma representação discreta das séries e o alinhamento produzido.

Diversas variações da distância de edição podem ser encontradas na literatura. As mais

comuns são geradas a partir da introdução de custos para realização de cada operação. Gusﬁeld

(1997, p.224) apresenta a seguinte recorrência como forma geral da distância de edição com

pesos nas operações

D(i,0) = p

×i (2.14)

D(0, j) = p

× j (2.15)

D(i, j) = min











D(i, j−1) + p

D(i−1, j) + p

D(i−1, j−1) +t(i, j)

(2.16)

onde t(i, j) = p

, se y

= z

e t(i, j) = p

, caso contrário. Nesta formalização, as operações

de inclusão e exclusão de caracteres são simétricas e possuem peso igual a p

, a operação de

substituição de caracteres possui peso p

e o casamento de caracteres possui peso p

. Na versão

da distância proposta por Levenshtein p

= 0 e p

= p

= 1.

A partir desta formalização, é possível deduzir que a distância de Hamming é um caso

especial da distância de edição, no qual a operação de substituição de caracteres possui custo

unitário, as operações de inserção e exclusão de caracteres possuem custo inﬁnito e a operação

de casamento de caracteres possui custo zero.

Outra variação muitopopular é o algoritmo que calcula a maior subseqüênciacomum (LCSS

- Longest common subsequence). Neste caso, deseja-se maximizar o total de concordâncias

entre as duas seqüências. A LCSS é calculada de maneira semelhante à distância de edição

através da seguinte recorrência

L (i,0) = L (0, j) = 0 (2.17)

L (i, j) =











L (i−1, j −1) + 1 se y

= z

L (i−1, j) se L (i−1, j) ≥ L (i, j−1)

L (i, j−1) caso contrário

(2.18)

Porque se deseja uma métrica para minimização, a distância entre duas seqüências será

(y,z) = d −L (d,d) (2.19)

Apesar da formulação um pouco diferente, quando computado entre duas seqüências, o va-

lor da maior subseqüência comum também pode ser obtido a partir da distância de edição com

pesos nas operações. Para tal, basta conﬁgurar a formulação geral de maneira que a operação de

substituição de caracteres possua custo inﬁnito, as operações de inserção e exclusão de carac-

teres possuam custo unitário e a operação de casamento de caracteres possua custo zero. Após

calcular a distância de edição com esta conﬁguração de pesos, o valor da LCSS pode ser obtido

através da relação a seguir, cuja prova é apresentada, por exemplo, por Bozkaya, Yazdani &

Özsoyoglu (1997).

D(d,d) = 2[d −L (d,d)] (2.20)

2.2.5 DTW - Dynamic time warping

No contexto de reconhecimento de padrões, umas das primeiras aplicações que necessitou

de técnicas que tratassem o casamento aproximado de séries temporais foi o reconhecimento

de palavras faladas. Sakoe & Chiba (1978) são citados como os primeiros autores a terem

utilizado uma solução baseada em alinhamento de séries e programação dinâmica neste tipo de

aplicação. A medida de similaridade, conhecida como DTW (Dynamic time warping), procura

remover distorções locais entre as séries antes de calcular a distância entre elas. Esta última

característica é a principal diferença entre a distância de edição e DTW: enquanto a primeira,

de certa forma, conta os pontos que não se equivalem após alinhar as seqüências da melhor

maneira possível, o algoritmo DTW calcula a distância entre as seqüências (usando os valores

numéricos originais) após também alinhá-las da melhor maneira possível. No algoritmo DTW,

as operações de inserção e exclusão de caracteres realizadas pela distância de edição podem ser

interpretadas como alongamentos realizados nas séries.

A forma de cálculo da similaridade pelo algoritmo DTW é deﬁnida através da seguinte

recorrência

DTW(i, j) =

) + min











DTW(i, j −1)

DTW(i−1, j)

DTW(i−1, j −1)

(2.21)

onde DTW(i, j) é uma função que calcula a similaridade entre os i primeiros pontos de y e os

j primeiros pontos de z após alinhá-los e

) é uma função que computa a distância entre

dois pontos (normalmente, usa-se a distância Euclidiana).

Sakoe & Chiba (1978) descrevem ainda algumas possíveis melhorias a serem realizadas no

algoritmo com o objetivo de evitar que os alongamentos produzam distorções exageradas entre

as séries. Em primeiro lugar, deseja-se que as distorções diminuam a distância total, através da

eliminação das diferenças de fase. Porém, as séries alinhadas serão maiores que as originais.

Uma forma mais justa de avaliar a similaridade é fazer uma ponderação da distância em relação

ao tamanho das seqüências. Desta forma, seria escolhido o alinhamento que produzisse a menor

distância média por ponto e não a menor distância total. Embora aparentemente benéﬁca, tal al-

teração favorece que grandes diferenças de fase sejam desconsideradas pelo algoritmo, situação

não desejada em problemas reais.

A segunda melhoria visa exatamente restringir a maior diferença de fase (local) que pode

ser corrigida pelo algoritmo. Tal melhoria é obtida impondo uma restrição adicional ao método

de cálculo, para que apenas um número máximo de distorções em uma direção seja permitido.

Este valor máximo de operações permitidas é chamado de janela de ajuste. O Algoritmo 2

descreve os passos para o cálculo da distância com esta nova restrição.

O efeito da janela de ajuste pode ser melhor visualizado através da matriz de cálculo usada

para computar a distância. Considere a Tabela 2.2, que representa a matriz M do Algoritmo

2. As linhas da matriz representam os pontos da série y e as colunas representam os pontos da

série z. Cada célula (i, j) contém a distância entre y

e z

. O algoritmo DTW busca o caminho

com a menor distância total para chegar ao ponto (d,d), a partir do ponto (1, 1). A partir de

um ponto qualquer, o algoritmo pode seguir em três direções, sendo que um passo na diagonal

indica que os pontos estão alinhados, um passo a baixo indica que a série z foi alongada e um

passo à direita indica que a série y foi alongada. A restrição da janela de ajuste força que o total

de alongamentos em uma direção nunca seja maior que uma constante (r). Neste caso, apenas

uma parte da matriz é avaliada e nas células das fronteiras da janela algumas direções não são

mais permitidas. Na Tabela 2.2, apenas as células que seriam avaliadas estão preenchidas com

a indicação dos caminhos possíveis.

Algoritmo 2 Computa a distância entre duas séries temporais y e z usando o algoritmo DTW

com janela de ajuste.

Entrada: M, uma matriz quadrada com dimensões d + 1;

r, o tamanho da janela de ajuste;

y e z, as séries temporais.

Saída: a distância entre as séries y e z alinhadas

1: m

i, j

← ∞ ∀[(0 ≤ i ≤d) ∧(0 ≤ j ≤ d)]

2: m

0,0

← 0 // Inicialização da matriz

3: para i = 1 até d faça

4: se (i−r) > 0 então

5: j ← i−r

6: senão

7: j ← 1

8: ﬁm se

9: repita

10: m

i, j

←

) + min(m

i, j−1

i−1, j

i−1, j−1

)

11: j ← j+ 1

12: enquanto [( j ≤ d) ∧( j < i+ r)]

13: ﬁm para

14: retorne m

d,d

i, j

.. . z

d−3

d−2

d−1

→

↓ց

→

↓ց

→

↓ց

→

↓ց

→

↓ց

→

↓ց

→

↓ց

→

↓ց

.. .

→

↓ց

→

↓ց

.. . .. .

.. . .. . .. . .. . .. . . ..

d−3

.. . .. .

→

↓ց

→

↓ց

d−2

.. .

→

↓ց

→

↓ց

→

↓ց

↓

d−1

→

↓ց

→

↓ց

↓

→ →

d,d

Tabela 2.2: Computando DTW com janela de ajuste r = 2. Neste caso, o caminho na tabela de

cálculo não pode se afastar mais de 2 unidades da diagonal.

Alguns trabalhos já têm analisado a variação do desempenho do classiﬁcador do vizinho

mais próximo com DTW em função do tamanho da janela de ajuste. Xi et al. (2006) mostram

que a inﬂuência do parâmetro na precisão do classiﬁcador é relevante e que as melhores con-

ﬁgurações são obtidas com janelas relativamente pequenas. Nesta situação, a normalização da

distância de acordo com o tamanho das séries alongadas não causa diferença signiﬁcativa. A

restrição de janela também pode ser aplicada às medidas da seção anterior (distância de edição

e LCSS). As três medidas, portanto, possuem um parâmetro em comum, que deve ser ajustado,

com provável inﬂuência no resultado da classiﬁcação. Um detalhe interessante é que janelas

menores aceleram o cálculo das medidas. O caso extremo, com janela de tamanho zero, im-

plica em tempo de cálculo linear, e não mais quadrático.

Uma característica importante do algoritmo DTW é que ele calculará exatamente a distân-

cia Euclidiana, caso nenhum alongamento aconteça (ou seja, se as séries já estiverem completa-

mente em fase). Assim como no caso da distância Euclidiana, é necessário normalizar as séries

para remoção de diferenças de escala e deslocamentos verticais.

Em comparação à distância de edição, a medida dispensa o passo de discretização. Como

conseqüência, o algoritmo parece mais apropriado a dados numéricos, embora, teoricamente,

ele seja mais vulnerável a inﬂuências de ruídos. Na prática, conforme mostrado no Capítulo

4, ambos geram bons resultados, superiores ao do algoritmo do vizinho mais próximo com a

distância Euclidiana.

2.2.6 Métricas baseadas em transformações

Uma estratégia para determinar a similaridade entre seqüências é realizar uma transforma-

ção dos dados originais para um novo domínio e então calcular a semelhança entre elas de

acordo com esta nova representação. Por exemplo, o método de discretização e utilização de

medidas de casamento aproximado de strings segue essa estratégia.

Antunes & Oliveira (2001) e Savary (2002) citam trabalhos que utilizam as transformadas

de Fourier e Wavelets para representação das seqüências. A principal referência de ambos é

o trabalho de Agrawal, Faloutsos & Swami (1993), que trata de uma estratégia para recupe-

ração eﬁciente de seqüências em bancos de dados, baseada em propriedades da Transformada

Discreta de Fourier.

A Transformada Discreta de Fourier de um sinal x de tamanho d é a seqüência X de núme-

ros complexos, também de tamanho d, deﬁnida por

√

d−1

∑

t=0

−i2

k = 0, 1, . . .,d −1 (2.22)

onde i é a unidade imaginária (i =

√

−1). Como x é um sinal real, X

será um número real

com valor proporcional à média de x (X

= 0, no caso de séries normalizadas como nas seções

anteriores).

A principal observação de Agrawal, Faloutsos & Swami (1993) é que o Teorema de Parse-

val e a característica linear da transformação garantem que, dadas duas séries x e y quaisquer,

d−1

∑

t=0

−y

d−1

∑

k=0

−Y

. (2.23)

Em palavras, a distância Euclidiana dos coeﬁcientes obtidos pela transformação é a mesma

distância das séries originais. Tal observação permite que os coeﬁcientes sejam usados na cons-

trução de estruturas de dados para recuperação eﬁciente do vizinho mais próximo.

A consulta pelo vizinho mais próximo, implementada da forma mais ingênua, exige que

cada um dos exemplos conhecidos da base de treinamento seja comparado ao exemplo des-

conhecido para determinação do vizinho. Este procedimento pode ser acelerado por meio de

índices, através de alguma estrutura de dados de particionamento do espaço de características,

como k-d-tree (BENTLEY, 1975; FREIDMAN; BENTLEY; FINKEL, 1977), r-tree (GUTT-

MAN, 1984), entre outras. Estes índices podem ser usados em problemas com dados de (prati-

camente) qualquer tipo, mas têm uma limitação conhecida de não funcionarem bem com muitas

dimensões (características) - por exemplo, Bentley (1975) sugere que a k-d-tree só é útil se o

número de casos a indexar for maior do que 2

, onde m é o total de características da base de

dados.

Em problemas com dados temporais, se cada ponto da série for considerado uma dimensão,

as estruturas de indexação não proporcionarão ganhos de desempenho. Para resolver esta ques-

tão, em problemas com séries de variação suave, Agrawal, Faloutsos & Swami (1993) observam

que a Transformada de Fourier concentra a maior parte do sinal (energia) em alguns poucos co-

eﬁcientes de baixa freqüência. Utilizando apenas alguns coeﬁcientes para construção do índice,

é possível recuperar de maneira eﬁciente séries temporais longas. As consultas ao índice, po-

rém, não retornam mais o mesmo conjunto de exemplos retornado pela busca exaustiva, uma

vez que parte da informação foi descartada. Agrawal, Faloutsos & Swami (1993) mostram que

o resultado das consultas ao índice contém o resultado da busca exaustiva. Assim, as consultas

são realizadas em duas etapa: na primeira, usa-se o índice para recuperar uma aproximação do

resultado ﬁnal; na segunda, o resultado aproximado é ﬁltrado no domínio original.

Embora o procedimento original tenha sido desenhado para recuperação de exemplos a

partir da distância Euclidiana, algumas extensões existem para indexação de outras medidas

de similaridade. Por exemplo, Keogh & Ratanamahatana (2005) apresentam uma aproximação

que permite indexar DTW usando as mesmas estruturas de dados. Algumas outras estruturas,

como metrics trees (UHLMANN, 1991), podem ser usadas para indexar medidas que respeitem

as propriedades de um espaço métrico (inigualdade triangular, simetria etc.), como a distância

de edição.

Todos estes métodos são exatos, ou seja, produzirão classiﬁcadores idênticos aos obtidos

originalmente. A utilidade deles, portanto, limita-se a melhorar o tempo dos algoritmos e não

a precisão da classiﬁcação. A Transformada de Fourier, neste caso, serve apenas como uma

ferramenta para compactar a informação existente nos dados, e não para formular uma nova

medida de similaridade.

É possível, porém, usar as propriedades da Transformada de Fourier para formular novas

métricas de comparação. Por exemplo, ao representar os coeﬁcientes (complexos) na forma

polar, translações do eixo do tempo nos dados originais não alteram o módulo dos valores no

domínio transformado. Esta propriedade é usada com freqüência na extração de características

estáticas (ou invariantes a translações) de séries temporais.

Os experimentos do Capítulo 4, porém, se limitarão a avaliar o desempenho da classiﬁcação

usando apenas os primeiros coeﬁcientes da transformada. Agindo assim, somente a informação

de baixa freqüência (que deﬁne as variações suaves das séries) é considerada. Um possível

ganho deste tratamento é desprezar os ruídos de alta freqüência, que distorcem o formato das

seqüências. Nesta abordagem, o número de coeﬁcientes a considerar durante o cálculo da dis-

tância é um parâmetro da métrica que deve ser ajustado, com provável inﬂuência na precisão

da classiﬁcação. Ao permitir que o número de coeﬁcientes da medida varie, a nova métrica po-

derá ser ajustada para que todos sejam utilizados, situação em que a classiﬁcação será a mesma

obtida com a distância Euclidiana.

Agrawal, Faloutsos & Swami (1993) observam ainda que qualquer transformação que pre-

serve a distância Euclidiana pode substituir a Transformada de Fourier na tarefa de compactar

as séries para indexação. Dependendo do problema, outras transformadas podem compactar

mais informação em menos coeﬁcientes, acelerando ainda mais a busca pelo vizinho mais pró-

ximo. A família de Transformadas Discretas de Wavelets (DAUBECHIES, 1992) são as mais

utilizadas neste contexto (por exemplo, por Struzik & Siebes (1999), Chan & Fu (1999)).

A Transformada Discreta de Wavelet de um sinal x de tamanho d (neste caso, d deve ser

potência de 2) é a seqüência c de coeﬁcientes obtida por

j,k

d−1

∑

t=0

j,k

(t). (2.24)

onde a Wavelet Mãe, chamada de

(t), será transformada por escalamentos e translações pela

relação

j,k

(t) = 2

j/2

t −k) (2.25)

com j determinando o fator de escala diático (produto por uma potência de 2), k determinando

a translação e j = 0,.. .log

(d) −1 e, para cada resolução j, k = 0. . .2

−1.

A Wavelet de Haar é o exemplo mais elementar de base wavelet. A Wavelet Mãe desta

família é deﬁnida como:

Haar

(t) =











1, 0 ≤t < 0.5

−1, 0.5 ≤ t < 1

0, caso contrário

(2.26)

No caso da utilização da Transformada Discreta de Wavelet para compactação das séries,

Wu, Agrawal & Abbadi (2000) mostram que o desempenho do índice produzido é semelhante

ao obtido com a Transformada de Fourier, com o desempenho variando de acordo com o tipo

do dado a ser indexado.

Assim como no caso da Transformada de Fourier, as Transformadas Wavelets podem ser

usadas para criação de medidas de similaridade. Nos experimentos do Capítulo 4, foi explo-

rado o aspecto da análise em múltiplas resoluções da transformada. Considerando apenas os

coeﬁcientes das primeiras resoluções (parâmetro j), pode-se observar o sinal de acordo com um

nível de detalhe diferenciado. Assim como no caso da Transformadas de Fourier, ao utilizar

somente as primeiras resoluções, apenas a parte suave da série é considerada e os detalhes (altas

freqüências) são desprezados. O número de resoluções é um parâmetro da métrica que deve ser

ajustado. Caso todas as resoluções estejam no cálculo da distância, o valor será o mesmo que

o da distância Euclidiana e o classiﬁcador não sofrerá alteração. Espera-se que a métrica seja

mais adequada por remover distorções (ruídos), que alteram a forma das seqüências.

2.3 Combinando várias métricas em um mesmo classiﬁcador

Dado que existem várias medidas de similaridade disponíveis, uma possível extensão do

algoritmo do vizinho mais próximo é implementar a regra de decisão com base em um conjunto

de medidas. Yao &Ruzzo (2006), em uma aplicação prática diferente, utilizam o algoritmo com

várias medidas de similaridade e realizam uma etapa de treinamento, através de métodos de

regressão, para determinar pesos associados às métricas no cálculo da distância entre exemplos.

Tal abordagem pode ser imediatamente relacionada ao problema de seleção de características,

no qual há um conjunto de atributos, dentre os quais são selecionados alguns para treinamento

do classiﬁcador. No problema de seleção de características, pode-se apenas aceitar pesos 0 ou

1, situação em que as características apenas são incluídas ou não no conjunto ﬁnal, ou ainda

pesos diversos, dando maior importância para as que pareçam ser mais relevantes.

Kohavi, Langley & Yun (1997) apresentam um método simples e relativamente eﬁciente

de seleção de características por distribuição de pesos, que pode ser empregado para o caso

de ponderação das métricas. Ao invés de considerar os pesos como valores reais, apenas

um subconjunto de pesos discretos são avaliados. Na implementação de Kohavi, Langley &

Yun (1997), o intervalo [0,1] é dividido k em partes iguais, com cada valor discreto separado

por uma constante de divisão d = 1/k. Os valores possíveis para os pesos serão, portanto,

0,1/k, 2/k,...,(k−1)/k,1. A busca pela melhor conﬁguração de pesos é feita através de uma

heurística e a qualidade dos pesos é determinada pelo erro médio do algoritmo do vizinho mais

próximo no conjunto de treinamento com cada conﬁguração. O método de busca segue uma

estratégia gulosa para alterar os pesos e persiste na busca até que, em um número consecutivos

de passos, não haja melhoria no erro de classiﬁcação.

A forma de distribuição de pesos de Kohavi, Langley & Yun (1997), porém, aceita que

conﬁgurações redundantes sejam avaliadas. Suponha que existam apenas duas características

e que os pesos possíveis sejam determinados por d = 0,2. O vizinho mais próximo de um

exemplo considerando pesos 0,2 e 0,4, é o mesmo que o determinado pelos pesos 0,4 e 0,8, por

exemplo.

Para evitar essa redundância, uma nova heurística de distribuição de pesos e busca pela

melhor conﬁguração foi criada. O Algoritmo 3 descreve a heurística, que prevê a soma dos

pesos distribuídos entre as medidas de similaridade sempre igual a 1 e cada métrica recebendo

um valor discreto nos moldes da heurística de Kohavi, Langley & Yun (1997).

No Algoritmo 3, a função que estima o erro de classiﬁcação (linha 4) recebe como parâ-

metros o vetor de pesos, o conjunto de métricas e os dados de treinamento. Cada métrica está

relacionada a um peso de acordo com a posição deste no vetor. A estimativa do desempenho é

feita usando o procedimento de validação leave-one-out, que consiste em realizar n execuções

do algoritmo de classiﬁcação, nas quais apenas um dos n exemplos da base de treinamento é

reservado para teste de validação. O erro total será a soma de elementos classiﬁcados incorre-

tamente.

A restrição de que a soma dos pesos seja sempre igual a 1 faz com que existam

|M|+k−1



|M|+k−1



(2.27)

combinações possíveis para os pesos, onde |M|é o total de métricas que podem ser combinadas.

Tal relação pode ser provada supondo que existam k unidades de peso (iguais a d) para serem

distribuídas entre |M| compartimentos e que alguns destes podem ﬁcar vazios. Há, portanto, k

símbolos com |M|−1 separadores, que determinam quais dos símbolos pertencem a cada um

dos compartimentos. Como os símbolos e os separadores não são distintos, o total de maneiras

de organizá-los é determinado pela equação 2.27.

Algoritmo 3 Faz busca pela conﬁguração de pesos que maximiza o desempenho do algoritmo

do vizinho mais próximo com diversas métricas.

Entrada: S, o conjunto de instâncias de treinamento;

M, o conjunto de métricas de similaridade;

d, o grão mínimo dos pesos a distribuir.

Saída: P, vetor de tamanho m contendo a conﬁguração de pesos melhor avaliada.

1: me ← ∞ // Menor erro obtido.

2: Q

← 1 e Q

1...m−1

← 0 // Inicializa o vetor de pesos para avaliação.

3: repita

4: e ← estime_erro(Q,M, S) // Estima o erro da conﬁguração de pesos.

5: se e < me então

6: Atualize P e me

7: ﬁm se

8: i ← m−1 // A variável i indicará se ainda há mais conﬁgurações a testar.

9: repita

10: i ← i−1

11: enquanto [(i ≥ 0) ∧(Q

= 0)]

12: se i ≥ 0 então // Ainda há conﬁguração a testar. Gera a próxima conﬁguração.

13: tmp ← Q

m−1

14: Q

m−1

← 0

15: Q

i+1

←tmp+ d

16: Q

← Q

−d

17: ﬁm se

18: enquanto [(me > 0.0) ∧(i ≥ 0)]

19: retorne P

O Algoritmo 3 enumera todas as C

|M|+k−1

combinações possíveis de pesos, seguindo uma

ordem semelhante à lexicográﬁca. Por exemplo, suponha que existam apenas 3 métricas e que

k = 2. Neste caso, há 6 formas possíveis de combinar as métricas, sendo que em 3 apenas uma

métrica terá 100% do peso e nas demais duas métricas terão 50% do peso cada. O Algoritmo 3

enumeraria os pesos deste exemplo de acordo com a ordem da Figura 2.4.

Figura 2.4: Seqüência de geração dos pesos na heurística criada para treinar o algoritmo NN

com várias métricas.

3 Árvores de decisão com características

temporais

Neste capítulo outra técnica de classiﬁcação amplamente conhecida, as árvores de decisão,

é apresentada e adaptada a dados temporais. Em relação ao método do vizinho mais próximo,

a classiﬁcação por árvores é reconhecida, principalmente, por ser mais ﬂexível a dados hetero-

gêneos, por ser mais rápida durante a fase de consulta e por, em teoria, produzir classiﬁcadores

interpretáveis.

A adaptação do algoritmo de construção de árvores apresentada neste capítulo também

é baseada na utilização de métricas de similaridade entre séries temporais. Conforme será

mostrado, o algoritmo permite que características não temporais sejam usadas juntamente com

as séries na construção da árvore e, exceto por considerações de desempenho, os pontos fracos

do método são os mesmos da versão não adaptada.

3.1 Árvores de decisão

Uma árvore de decisão é um classiﬁcador formado por testes organizados em uma estrutura

de dados em forma de árvore, na qual cada nó terminal (folha) é associado a uma classe e cada

nó interno (galho) é associado a um teste que dividirá o universode um atributoem subconjuntos

disjuntos. A classiﬁcação de exemplos desconhecidos é feita percorrendo a árvore a partir da

raiz, avaliando os atributos do exemplo desconhecido de acordo com os testes dos nós internos,

até que uma folha seja atingida. Ao exemplo desconhecido é dada a classiﬁcação da folha

encontrada (DUDA; HART; STORK, 2001, p. 394).

A principal característica que fomenta a popularidade das árvores de decisão é a relativa

simplicidade de interpretação do classiﬁcador criado. A partir de uma árvore de decisão, pode-

se criar regras que descrevem o problema unindo os nós que levam até as folhas de mesma

classiﬁcação em expressões lógicas, através de disjunções e conjunções. Na prática, as árvores

de decisão criadas a partir de problemas reais complexos são também complexas, e as regras

extraídas necessitam de reduções e processamento adicional para interpretação.

Além disso, em comparação a outros algoritmos de classiﬁcação mais soﬁsticados, o trei-

namento de uma árvore de decisão é eﬁciente e o método não faz nenhuma suposição adicional

sobre os dados do problema. O algoritmo de construção pode lidar tanto com dados contínuos

como discretos, possui adaptações para manipulação de dados com valores ausentes e os testes

dos nós intermediários podem acomodar expressões complexas como, por exemplo, combina-

ções lineares de diversos atributos. Por ser ﬂexível, a inclusão de testes para manipulação de

atributos temporais é simples, conforme apresentado nas próximas seções.

Apesar de muito maleáveis, as árvores de decisão são sabidamente inferiores a outros algo-

ritmos de aprendizado, como as redes neurais artiﬁciais, quando considerada apenas a precisão

do classiﬁcador construído. Geurts (2002, p. 5) atribui esta deﬁciência à alta variância existente

no método de construção da árvore. Ao criar testes que separam os exemplos de treinamento

em conjuntos disjuntos, o método de construção pode prosseguir até que, em cada folha, exis-

tam apenas elementos de mesma classiﬁcação. Este método de construção, porém, é instável

em relação aos exemplos do treinamento: pequenas alterações nos exemplos podem levar a

árvores completamente diferentes. Além de decrescer a precisão, tal instabilidade prejudica a

interpretação da árvore, uma vez que não é mais possível conﬁar plenamente nas regras criadas.

Uma maneira de melhorar a precisão de uma árvore de decisão é simpliﬁcar a sua estrutura,

removendonós que prejudiquem a classiﬁcação. Tal método, conhecido como poda, idealmente

tem a sua disposição um conjunto de dados independente da amostra de treinamento - para

estimar o erro de cada sub-árvore após a remoção (ou não) de seus ﬁlhos - e a árvore obtida

após o processo será, possivelmente, mais precisa que a original (QUINLAN, 1993, p. 40).

Além da poda, métodos que agregam diversas árvores construídas para o mesmo problema

são comumente usados com resultados mais signiﬁcativos na melhoria da precisão. Tais mé-

todos, porém, implicam em mais custo computacional e menos clareza na interpretação do

problema.

Nas próximas seções serão apresentados alguns algoritmos para construção de árvores de

decisão. Apesar de existirem diversas variações possíveis tanto para construção quanto para

poda ou combinação de árvores, foram implementados apenas alguns dos melhores algoritmos,

de acordo com a avaliação experimental de Geurts (2002). Tal restrição foi imposta porque

o desejado é avaliar somente a adaptação para características temporais do algoritmo e não

variações nas partes comuns dos algoritmos antes e depois da adaptação.

3.2 Construção de árvores de decisão

O Algoritmo 4 descreve o método de construção de árvores de decisão usado por Geurts

(2002), que produz somente árvores de decisão binárias. O algoritmo é iniciado com o conjunto

completo de exemplos conhecidos, que é separado em subconjuntos de acordo com uma medida

que qualiﬁca a divisão, até que uma condição de parada seja atingida.

Algoritmo 4 Construção iterativa de uma árvore de decisão binária.

Entrada: S = {(x

),.. ., (x

)}, o conjunto de instâncias de treinamento.

Saída: árvore de decisão a partir de S

1: Crie o nó raiz R

2: R.ls ← S // Conjunto de exemplos do nó raiz

3: L ← {R} // Lista de nós a explorar

4: enquanto L = /0 faça

5: Selecione e remova um nó N de L

6: se nao_expandir(N) então

7: N.tipo ← folha

8: N.

← calcule_

(N)

9: senão

10: N.tipo ← galho

11: Crie o nó N.esquerda

12: Crie o nó N.direita

13: Divida N.ls entre N.esquerda e N.direita de acordo com uma função de divisão

14: L ←L∪N.esquerda∪N.direita

15: ﬁm se

16: ﬁm enquanto

17: retorne R

Duas funções auxiliares do Algoritmo 4 não dependem do tipo dos atributos da base de

dados: a função que veriﬁca se o nó ainda deve ser expandido (linha 6) e a função que atualiza

a classe associada às folhas (linha 8). No primeiro caso, a função permite que a árvore seja

expandida até que todos os elementos das folhas pertençam à mesma classe ou até que todos os

atributos dos exemplos do nó sejam constantes. No segundo caso, a função associa a classe da

maioria dos exemplos à folha em questão.

A função que divide o conjunto de exemplos entre os nós ﬁlhos (linha 13) é a que deve

considerar o tipo dos atributos (numérico, simbólico, temporal etc.) durante a construção da

árvore de decisão. A versão original de Geurts (2002, p. 86) está preparada somente para

manipular atributos numéricos e é formada por duas partes principais: uma rotina que gera os

testes para dividir os exemplos e uma rotina que avalia a qualidade da divisão.

A rotina que gera os testes utiliza os exemplos do nó para determinar dois parâmetros: um

atributo de referência a e um valor limiar

. Os exemplos x

são divididos de forma que o

primeiro ﬁlho conterá os casos em que x

e o segundo ﬁlho os casos em que x

≥

Para determinação dos parâmetros, uma busca exaustiva é feita considerando todos os atribu-

tos e, para cada atributo, todos os valores possíveis dos exemplos. O atributo e o valor que

maximizarem a rotina de avaliação são escolhidos como referência para divisão do nó.

Para avaliar a qualidade da divisão, foi utilizado somente o ganho de informação. Quinlan

(1993, p. 22) deﬁne o ganho de informação G(S,R) como sendo a redução da entropia das

classes após a divisão dos exemplos do nó. Formalmente, é deﬁnido como

G(S, R) = I(S) −

∑

i=1

|S|

×I(R

) (3.1)

onde S é o conjunto de instâncias pertencentes ao nó, R = {R

,. . .,R

} contém os exemplos

pertencentes a cada ﬁlho após aplicação do teste de divisão (k = 2 no Algoritmo 4), |R

| e |S|

são as cardinalidades dos conjuntos e I(T) é a entropia no conjunto T, deﬁnida como

I(T) = −

∑

i=1

|T|

×log



|T|



(3.2)

sendo que l é a quantidade de classes do problema e N

é o número de exemplos da classe i no

conjunto T. É interessante observar que o valor de I(T) é máximo quando a razão N

/|T| = 1/l

para todas as classes i, e é mínimo quando apenas uma classe está contida em T. Isso faz com

que o ganho de informação seja máximo quando cada conjunto R

contiver somente elementos

de mesma classiﬁcação. Quinlan (1993, p. 23) deﬁne ainda a taxa de ganho, que é a razão entre

o ganho de informação e a entropia dos conjuntos divididos. Tal normalização é introduzida

para penalizar as divisões que gerarem muitos conjuntos contendo poucos exemplos - situação

especialmente desinteressante quando o número de ﬁlhos for ilimitado. Dado que o Algoritmo

4 constrói apenas árvores binárias, a normalização torna-se desnecessária.

3.2.1 Tratamento de atributos temporais

Assim como no caso dos atributos numéricos, a função que divide o conjunto de exemplos a

partir de atributos temporais é também formada por duas rotinas: uma que cria os testes e outra

que avalia a divisão. Como no caso de dados numéricos, o ganho de informação é utilizado

como medida de qualidade. Desta forma, a qualidade da divisão gerada por atributos tempo-

rais pode ser diretamente comparada à gerada por atributos de outro tipo qualquer, e árvores

de decisão podem ser construídas a partir de base de dados mistas sem nenhuma adaptação

adicional.

Yamada et al. (2003) constroem um teste para atributos temporais a partir de um exemplo

pertencente a lista de casos do nó a ser dividido, chamado de exemplo padrão x

. A divisão é

feita com base em uma medida de distância entre duas séries temporais

(y,z), um atributo tem-

poral a e um valor limiar

. Um exemplo x

é inserido no primeiro ﬁlho do nó se

) <

e no segundo, caso contrário.

O Algoritmo 5 ilustra o método de busca pelo exemplo padrão x

e pelo valor limiar

um atributo temporal. O algoritmo faz busca exaustiva, considerando todos os exemplos como

candidatos a exemplo padrão. O algoritmo deve ser repetido para cada atributo temporal, caso

existam vários na mesma base de dados.

Algoritmo 5 Determina o exemplo padrão e o limiar que maximizam o ganho de informação,

dado um atributo temporal.

Entrada: S = {(x

),.. ., (x

)}, conjunto de instâncias de treinamento do nó;

a, índice do atributo temporal.

Saída: x

, o exemplo padrão;

, o limiar.

1: mg ← −∞ // Melhor ganho de informação

2: md ← −∞ // Maior distância no corte

3: para todo x

∈ S faça

4: D ← /0 // Lista pares (exemplo, distância)

5: para todo x

∈ S faça

6: D ← D∪(x

))

7: ﬁm para

8: Ordene D usando a distância como chave

9: para i = 2 até n faça

10: R

← D[1...(i−1)] e R

← D[i...n]

11: g ← calcule_ganho(S,R) // R = {R

}

12: d ← (distancia(D[i]) −distancia(D[i−1]))

13: se (g > mg) ∨[(g = mg) ∧(d > md)] então

14: mg ← g, md ← d e x

← x

15:

← (distancia(D[i]) +distancia(D[i−1]))/2

16: ﬁm se

17: ﬁm para

18: ﬁm para

19: retorne x

Caso mais de um teste seja avaliado com o mesmo ganho de informação, o Algoritmo 5

considera melhor o teste que deixar os exemplos mais distantes das fronteiras das regiões dos

ﬁlhos do nó. Assim, o desempate é feito a partir da distância entre o exemplo mais distante

do exemplo padrão inserido no primeiro ﬁlho e o exemplo mais próximo do exemplo padrão

inserido no segundo ﬁlho (linhas 12 e 13). É importante notar também que o exemplo padrão

não é descartado na divisão, sendo inserido sempre no primeiro ﬁlho. Neste caso, o mesmo

exemplo pode ser a referência em mais de um nível da árvore.

Em relação à medida de distância do Algoritmo 5, apesar de Yamada et al. (2003) usarem

apenas DTW, qualquer uma das apresentadas no Capítulo 2 pode ser escolhida como métrica

de referência. Os experimentos apresentados no Capítulo 4 mostram que a escolha da métrica

inﬂuencia a precisão do classiﬁcador em problemas distintos, o que sugere imediatamente que,

ao escolher o atributo e o teste que irá dividir os exemplos em um nó, é importante considerar

várias medidas de similaridade. O Algoritmo 5 pode ser parametrizado para receber também a

métrica de similaridade, e a escolha da melhor métrica é feita diretamente com base no ganho

de informação.

Em relação à complexidade computacional, o Algoritmo 5 é mais ineﬁciente que o similar

para atributos numéricos. No caso de atributos numéricos, cada valor possível de cada atributo é

considerado um candidato a limiar de corte. Para cada candidato, deve ser computado o ganho

de informação, que é obtido em O(l) (l é o número de classes do problema) se existir uma

tabela com a freqüência de cada classe em cada conjunto da divisão. Tal tabela pode ser criada

em O(n) operações e, para cada candidato, atualizada em tempo constante, se os valores dos

atributos forem ordenados antes da avaliação. Assim, para avaliar n valores candidatos em um

atributo, é necessário ordenar os exemplos (O(n log n)) e, para cada valor, atualizar as tabelas de

freqüências dos nós e calcular o ganho de informação. Assim, supondo que existam m atributos

numéricos, gasta-se tempo O(mn log n) + O(mnl) para descobrir o melhor teste em um nó.

Neste caso, como o número de exemplos é geralmente muito maior do que o número de classes,

o tempo do algoritmo é dominado pelo tempo de ordenação de m vetores de tamanho n.

No caso do Algoritmo 5, também será necessário ordenar vetores de tamanho n (um para

cada atributo temporal, se o problema for multidimensional) e calcular o ganho de informação

para cada corte possível. O tempo do algoritmo, porém, é dominado pela formação dos vetores

de distâncias D, que demandará O(n

) para cada métrica em cada atributo temporal, onde t

é o tempo para calcular a distância entre duas séries temporais. Supondo que as séries temporais

sejam longas e que várias métricas estejam sendo avaliadas (algumas com complexidade qua-

drática em relação ao tamanho da série temporal), o tempo para determinação do melhor corte

torna-se excessivo e o treinamento com características temporais será bem mais ineﬁciente que

o treinamento apenas com características numéricas. Estas considerações de desempenho, po-

rém, não inviabilizam o algoritmo, visto que as exigências de tempo na etapa de treinamento

são menos rígidas e que o classiﬁcador produzido é bastante eﬁciente no momento da consulta.

3.3 Poda e combinação de árvores de decisão

O algoritmo de construção de árvores de decisão apresentado na seção anterior segue o

método tradicional, que divide os exemplos até que cada folha seja pura, ou seja, contenha

apenas elementos de mesma classiﬁcação

. Este procedimento, porém, produz classiﬁcadores

que, normalmente, não classiﬁcam bem conjuntos de dados independentes, devido ao ajuste

excessivo aos dados de treinamento.

Uma maneira de tentar reduzir o ajuste da árvore aos dados de treinamento é, após construí-

la da forma convencional, podar os nós que não contribuirão para classiﬁcar dados independen-

tes. Apesar de existirem diversas formas de poda, apenas a heurística apresentada por Quinlan

(1993, p. 40) foi considerada. A heurística constrói a árvore a partir do conjunto completo

de treinamento, sem reservar dados para a etapa de poda, e elimina uma sub-árvore caso uma

métrica, chamada erro esperado, seja reduzida após a operação.

O erro esperado é calculado a partir dos limites do intervalo de conﬁança de uma distri-

buição binomial, dados um valor ﬁxo de conﬁança desejado, o número N de tentativas (total de

elementos pertencentes à sub-árvore) e o número E de sucessos (elementos com classiﬁcação

incorreta). O método de poda parte das folhas até a raiz, avaliando o erro esperado de cada

sub-árvore antes e depois da poda e eliminando os ramos nos quais houve redução da métrica.

Apesar de melhorar o desempenho da classiﬁcação em alguns casos, os métodos de poda

não são os mais apropriados quando o objetivo é exclusivamente melhorar a precisão da árvore

de decisão. Para este ﬁm, métodos que combinem vários classiﬁcadores e decidam (normal-

mente) por voto a classe ﬁnal dos exemplos desconhecidos são mais recomendados.

Dentre as várias opções possíveis - por exemplo boosting (SCHAPIRE, 1990), random

forests (BREIMAN, 2001) etc., apenas dois algoritmos de combinação de classiﬁcadores foram

considerados na análise experimental: o método original de bagging (bootstrap aggregating)

de Breiman (1996), por apresentar bons resultados e ser um dos primeiros propostos para tal

ﬁm; e o algoritmo extra-tree (extremely randomized trees - árvores extremamente aleatórias)

de Geurts, Ernst & Wehenkel (2006), por ser simples, computacionalmente eﬁciente e produzir

resultados comparáveis aos melhores algoritmos de combinação disponíveis.

O método de bagging procura reduzir a variância de um algoritmo de classiﬁcação instável

É normal, principalmente quando os atributos são simbólicos, que algumas folhas não sejam puras, mas que

não seja possível separar os exemplos, porque todos têm atributos iguais. Neste caso, a folha é associada à classe

da maioria dos exemplos.

O algoritmo do vizinho mais próximo não é instável e, por isto, o seu desempenho de classiﬁcação, normal-

mente, não é melhorado através da combinação por bagging.

criando classiﬁcadores distintos a partir de conjuntos diferentes de treinamento e decidindo a

classe dos exemplos desconhecidos através do voto da maioria dos classiﬁcadores. Como na

prática, geralmente, não há dados suﬁcientes para criar vários conjuntos aleatórios independen-

tes de treinamento, recorre-se ao processo de amostragem por bootstrap: criam-se T conjuntos

de treinamento selecionando, com reposição, N casos no conjunto de exemplos original. O mé-

todo de bagging usado durante os experimentos apresentados no Capítulo 4 combinam sempre

árvores de decisão construídas de acordo com o algoritmo da seção anterior, sem a etapa de

poda.

Ao contrário do método de bagging, que tenta reduzir a variância do algoritmo de classiﬁ-

cação instável modiﬁcando o conjunto de treinamento, o algoritmo extra-tree busca o mesmo

objetivo, porém combinando por voto árvores construídas de forma (extremamente) aleatória.

O algoritmo extra-tree segue o mesmo procedimento do Algoritmo 4, distinguindo-se apenas

pelo processo de seleção do atributo e formação do teste que dividirá os exemplos em cada nó

da árvore.

A versão apresentada em Geurts, Ernst & Wehenkel (2006) está preparada somente para

dados numéricos e escolhe o atributo que formará o teste a partir de um subconjunto de atribu-

tos, selecionado de forma aleatória. Para cada atributo do subconjunto, o limiar que deﬁnirá o

corte do teste também é escolhido aleatoriamente. A função que avalia a qualidade dos cortes

é usada apenas para decidir a melhor opção neste subconjunto, evitando que testes comple-

tamente ineﬁcazes sejam criados. Desta forma, o algoritmo extra-tree, assim como a versão

determinística da construção de árvores de decisão, tolera dados com algumas características

inúteis ou redundantes.

Como a seleção dos testes de divisão é aleatória, árvores construídas a partir do mesmo

conjunto de dados serão diferentes e, portanto, não é necessário usar amostras distintas (ou

criadas por bootstrap) para treinamento de cada uma das árvores.

O Algoritmo 6 apresenta um método de construção de árvores extremamente aleatórias

capaz de manipular atributos numéricos e atributos temporais. O algoritmo é uma junção da

versão para atributos numéricos de Geurts, Ernst & Wehenkel (2006) com o Algoritmo 5 de

cortes determinísticos para atributos temporais. No caso dos atributos temporais, somente a

seleção do exemplo de referência em cada nó é feita aleatoriamente. A seleção do valor limiar

é sempre realizada com base no exemplo que divide os casos em dois conjuntos de tamanhos

iguais, após ordená-los de acordo com a distância em relação ao exemplopadrão. Esta heurística

foi adotada para evitar que cortes ineﬁcazes fossem criados (cortes que concentrem os exemplos

apenas em um dos ﬁlhos). O algoritmo pode ainda ser estendido para que sejam consideradas

várias métricas durante a criação de testes em atributos temporais. Neste caso, após escolher

aleatoriamente o exemplo padrão, é preferida a métrica que maximizar o ganho de informação,

usando sempre a mesma heurística para determinação da distância de corte.

Algoritmo 6 Extra-tree: divide um nó considerando atributos numéricos e temporais.

Entrada: S = {(x

),.. ., (x

)}, conjunto de instâncias de treinamento do nó.

Saída: R

, divisão dos exemplos para os nós ﬁlhos.

1: mg ← −∞ // Melhor ganho de informação

2: Selecione aleatoriamente K atributos A = {a

,...,a

}

3: para todo a

∈ A faça

4: Selecione aleatoriamente um exemplo x

5: se a

é um atributo numérico então

6: R

← {x

< x

} e R

← {x

≥ x

}

7: senão // a

é um atributo temporal

8: D ← /0 // Lista pares (exemplo, distância)

9: para todo x

∈ S faça

10: D ←D∪(x

))

11: ﬁm para

12: Ordene D usando a distância como chave

13: R

← D[1...(

−1)] e R

← D[

...n]

14: ﬁm se

15: g ← calcule_ganho(S, R) // R = {R

}

16: se (g > mg) então

17: mg ← g e R

= {R

}

18: ﬁm se

19: ﬁm para

20: retorne R

Em relação à complexidade computacional da criação do corte em um atributo temporal

no Algoritmo 6, a forma aleatória de escolha do exemplo padrão exige apenas uma chamada à

função de distância para cada exemplo em cada atributo avaliado. Como resultado, o tempo total

para construir uma árvore usando este algoritmo é da mesma ordem que o tempo de construção

de uma árvore determinística com características numéricas.

Por ﬁm, é importante ressaltar que o algoritmo de construção e combinação de árvores alea-

tórias contribui apenas para melhoria da precisão do classiﬁcador e da eﬁciência computacional

do método. A facilidade de interpretação atribuída às árvores de decisão, neste caso, é bas-

tante sacriﬁcada. Como o foco da avaliação experimental nos capítulos seguintes é somente a

precisão, nenhuma medida para compensar o dano à interpretação das árvores será avaliada.

4 Avaliação experimental

Neste capítulo é feita uma avaliação experimental dos algoritmos apresentados nas seções

anteriores. Inicialmente, o desempenho dos algoritmos de classiﬁcação adaptados é comparado

ao das versões originais, tanto no caso do método do vizinho mais próximo, quanto no caso das

árvores de decisão. Após isto, as formas de combinação de diversasmétricas de similaridadesão

avaliadas e comparadas entre si. Nos dois casos, a comparação é feita com base em uma amostra

de problemas exemplos, apresentada a seguir. Por ﬁm, as técnicas são aplicadas ao problema

real de indicação de consumidores suspeitos de fraudes na distribuição de energia elétrica e os

resultados são comparados aos obtidos a partir de bases com características estáticas extraídas

das séries temporais de consumo de energia.

Antes de apresentar os resultados, as próximas seções descrevem os procedimentos segui-

dos durante a experimentação. Em especial, são descritos o método de ajuste dos algoritmos

parametrizáveis e o procedimento empregado para comparação de dois ou mais algoritmos.

4.1 Ajuste de parâmetros e estimativa do erro de classiﬁca-

ção

Os procedimentos de comparação descritos na próxima seção requerem que as médias (e,

em alguns casos, a variância) do erro de classiﬁcação dos algoritmos sejam estimadas para cada

problema avaliado. Em situações em que o tamanho da amostra de exemplos conhecidos é

limitado, o procedimento de validação cruzada é o mais empregado para este tipo de estima-

tiva (DIETTERICH, 1998). Para determinar a taxa de erro por validação cruzada, os exemplos

conhecidos são divididos aleatoriamente em k conjuntos disjuntos, e o procedimento de treina-

mento e aferição é repetido durante k rodadas, nas quais o conjunto k é usado para aferição do

erro e os demais para treinamento do algoritmo. A taxa de erro ﬁnal será a média das obtidas

nas k repetições do experimento.

Nos capítulos 2 e 3 foram apresentadas as técnicas de classiﬁcação do vizinho mais próximo

e de árvores de decisão. Ambas possuem parâmetros ajustáveis que, possivelmente, alteram a

precisão do classiﬁcador. Esta interferência normalmente varia de acordo com o problema,

o que exige uma etapa de ajuste em cada avaliação. No caso das versões conjugadas com

métricas de similaridade, novos parâmetros são introduzidos para conﬁguração das métricas.

Por exemplo, a métrica DTW tem o tamanho da janela como valor a ser ajustado.

A busca pela melhor conﬁguração é um passo a ser realizado na etapa de treinamento do

classiﬁcador. Quando o procedimento de validação cruzada é utilizado para estimativa do erro

de classiﬁcação, a busca pela melhor conﬁguração deve ser realizada em cada passo da valida-

ção, considerando somente os k −1 conjuntos reservados para o treinamento naquele passo -

considerar todos os dados durante o ajuste dos parâmetros pode subestimar o erro de classiﬁca-

ção.

A busca pela melhor conﬁguração dos parâmetros em uma base de exemplosé normalmente

feita através de alguma heurística, dado que o espaço de soluções possíveis (conﬁgurações

válidas dos parâmetros) é extenso e que a aferição do erro para cada conﬁguração (função

objetivo do problema de minimização) pode ser bastante árdua, já que requer o treinamento de

um classiﬁcador. Em um ensaio com validação cruzada, a heurística de busca deve ser ainda

mais eﬁciente, ou o procedimento de estimativa torna-se computacionalmente inviável.

O Algoritmo 7, que segue a estrutura geral do método de avaliação sugerido por Salzberg

(1997), resume o processo de estimativa do erro de classiﬁcação implementado, considerando

a etapa de ajuste de parâmetros.

Algoritmo 7 Estimativa do erro de classiﬁcação com ajuste de parâmetros.

Entrada: S = {(x

),.. ., (x

)}, conjunto de instâncias de treinamento;

P = {p

,. . .,p

}, os vetores de valores a explorar de cada parâmetro.

Saída: e

, o erro médio nas k execuções da validação cruzada.

1: Faça Y ← {Y

,...,Y

} // Subconjuntos disjuntos e aleatórios de S para validação cruzada

2: para todoY

∈Y faça

3: T ←Y −{Y

} // Conjunto de treinamento da rodada

4: Faça R ← {R

,...,R

} // Subconjuntos disjuntos e aleatórios de T

5: Determine p

, a conﬁguração que minimizou o erro médio de classiﬁcação aferido por

validação cruzada em R

6: Treine o classiﬁcador conﬁgurado por p

usando todo o conjunto T

7: Atualize e

de acordo com o erro do classiﬁcador em Y

8: ﬁm para

9: retorne e

O método de busca pela melhor conﬁguração (linha 5) recebe como entrada o conjunto de

valores a explorar dos parâmetros e avalia todas as |p

|×|p

|. . . ×|p

| combinações possíveis

destes valores. No caso dos parâmetros numéricos, apenas alguns pontos discretos são passados

ao método para avaliação. Este procedimento não atende ao requisito de eﬁciência, caso o

número de valores possíveis seja alto. Para contornar esta limitação, apenas os parâmetros das

métricas foram ajustados. Tal decisão é aceitável porque o principal objetivo dos experimentos

é veriﬁcar a inﬂuência da escolha da métrica de similaridade na precisão dos classiﬁcadores e

comparar o classiﬁcador original ao adaptado. Ao apresentar os resultados, serão descritos os

parâmetros mantidos constantes e os intervalos dos parâmetros das métricas explorados durante

a validação cruzada.

Ainda sobre o Algoritmo 7, em cada rodada da validação cruzada, o conjunto de treina-

mento foi dividido sempre em três subconjuntos disjuntos (q = 3 na linha 4), usados para esti-

mar a qualidade das conﬁgurações. A conﬁguração escolhida foi a que minimizou o erro médio

na validação cruzada nestes três subconjuntos. Este pequeno número de divisões na avaliação

também se deve às restrições computacionais impostas pelo ajuste exaustivo adotado.

4.2 Comparação de algoritmos de classiﬁcação

Conforme descrito no Capítulo 1, a avaliação experimental apresentada a seguir tem como

objetivos principais: avaliar se as versões dos algoritmos do vizinho mais próximo e árvores

de decisão, combinados com medidas de similaridade, em geral, são mais precisas do que as

versões originais em problemas de classiﬁcação com dados temporais; avaliar se a combina-

ção de métricas proporciona algum ganho de precisão relevante; veriﬁcar se estas adaptações

são adequadas ao problema especial de classiﬁcação de possíveis fraudadores do sistema de

distribuição de energia elétrica.

Embora muito relacionadas, as três avaliações demandam métodos de comparação diferen-

tes. Dietterich (1998) descreve uma hierarquia de questões de natureza estatística encontradas

em trabalhos de aprendizado automático, que podem ser relacionadas às avaliações desejadas.

Nos dois primeiros casos, há um algoritmo base (a versão original) e vários alternativos (as ver-

sões adaptadas com cada uma das métricas). Havendo uma amostra aleatória de problemas de

classiﬁcação de domínios que respeitem as restrições enumeradas no Capítulo 1 (ou seja, dados

temporais, unidimensionais etc.), deseja-se saber qual algoritmo, possivelmente, irá produzir o

classiﬁcador mais preciso, dado um novo problema qualquer do mesmo tipo. No terceiro caso,

há apenas um problema de classiﬁcação e há uma amostra relativamente pequena de dados com

rótulos conhecidos. Deseja-se saber qual dos algoritmos disponíveis produzirá o classiﬁcador

mais preciso neste problema selecionado. Por possuir, em princípio, resposta mais simples, a

terceira questão é discutida antes das demais.

4.2.1 Comparação de dois classiﬁcadores em um mesmo domínio

Para comparar o desempenho de dois classiﬁcadores em um mesmo domínio há diversas

alternativas. Provavelmente, o teste mais utilizado em artigos sobre mineração de dados é o

teste-t para dados pareados. Neste teste, o conjunto de dados rotulados é usado para estimar a

média e a variância de uma medida de qualidade dos classiﬁcadores. Como não há dados em

abundância, a estimativa é, normalmente, feita por validação cruzada, na qual os subconjuntos

de cada etapa necessariamente devem ser os mesmos para os dois classiﬁcadores.

A diferença entre as duas medidas aferidas em cada etapa da validação é calculada e

assume-se que esta diferença seja uma amostra aleatória de uma distribuição normal, com mé-

dia e variância desconhecidas. Chamando estas diferenças de p

= p

− p

e assumindo ainda

que os dois classiﬁcadores são iguais (hipótese nula), a estatística

√



∑

i=1

−

k−1

, (4.1)

onde k é o número de conjuntos da validação cruzada e p =

∑

, seguirá uma distribuição

t com k−1 graus de liberdade. A hipótese nula é rejeitada se a probabilidade do valor |t

| ser

obtido (valor-p) for menor do que um limite

% preestabelecido - usa-se com freqüência 5%.

Neste caso, ahipótese alternativa diz que há diferença entre os classiﬁcadores, com signiﬁcância

% (DEGROOT; SCHERVISH, 2001).

Dietterich (1998) mostra que o teste-t para dados pareados, formulado como na equa-

ção 4.1, possui debilidades que o torna pouco seguro em avaliações de mineração de dados,

especialmente se as medidas de desempenho tiverem sido estimadas por validação cruzada.

Durante a validação, cada par de conjuntos de treinamento compartilha 80% dos exemplos, o

que prejudica a capacidade do teste em estimar a variância causada por diferenças nos dados

do treinamento. Na prática, a estimativa da variância será subestimada e o valor de |t

| será

artiﬁcialmente grande, fazendo com que a hipótese nula seja mais facilmente rejeitada. Diette-

rich (1998) sugere como alternativas o teste de McNemar, que veriﬁca se a diferença entre os

classiﬁcadores é signiﬁcante contanto o número de acertos e de erros em comum dos métodos,

e uma correção para o teste-t para dados pareados, que ele chama de 5x2cv.

Embora o teste de McNemar seja muito seguro, ele é pouco ﬂexível, pois não permite que

outras métricas de classiﬁcação, além da taxa de erro, sejam usadas na comparação. Em relação

à correção do teste-t para dados pareados, Nadeau & Bengio (2003) avaliam algumas possí-

veis alternativas (inclusive o 5x2cv) e sugerem uma correção conservadora para a estimativa da

variância, baseada no total de sobreposição entre os conjuntos da validação. Supondo que ape-

nas uma validação cruzada seja feita, o teste-t corrigido para dados pareados é deﬁnido pela

seguinte equação:





k−1



, (4.2)

onde k é o número de conjuntos da validaçãocruzada e

∑

i=1

−

k−1

. Como no caso anterior,

segue uma distribuição t com k−1 graus de liberdade e, em relação à equação 4.1, o valor de

é menos sensível ao valor de k. O procedimento para rejeição da hipótese nula é análogo ao

da formulação anterior.

4.2.2 Comparação de vários classiﬁcadores em múltiplos domínios

Métodos estatísticos de comparações múltiplas são mais apropriados quando o desejado é

avaliar diversas variáveisaleatórias simultaneamente (no caso o erro médio dos classiﬁcadores).

Salzberg (1997) mostra que realizar comparações de todos os algoritmos par a par (por exemplo,

usando o teste-t para dados pareados) e reportar diferenças sem considerar a multiplicidade do

experimento é uma falácia estatística. Mesmo realizando múltiplas comparações, ao reportar

os resultados, espera-se mostrar que existem diferenças entre os algoritmos com signiﬁcância

%. Tal nível de signiﬁcância pode ser interpretado como sendo a probabilidade de uma

amostra de dados aleatória gerar o resultado atual, supondo que os algoritmos classiﬁquem

igual (hipótese nula). Se o valor

for baixo (geralmente menor que 5%), rejeita-se a hipótese

nula. O nível de signiﬁcância pode ser também interpretado como sendo a probabilidade de

rejeitar a hipótese nula quando ela era verdadeira (ou probabilidade de cometer um erro do Tipo

I). O problema, ao realizar múltiplas comparações individuais, é que o valor da signiﬁcância

em cada um dos experimentos deve ser ajustado para garantir que o conjunto completo de testes

tenha probabilidade baixa de erro do Tipo I.

Demsar (2006) faz um resumo de métodos estatísticos para comparação de algoritmos em

múltiplos domínios. Neste tipo de comparação, vários problemas são avaliados por todos os

classiﬁcadores envolvidos. Demsar (2006) sugere como mais adequados o Teste ANOVA para

medidas repetidas e o similar não-paramétrico Teste de Friedman. Para evitar as suposições do

Teste ANOVA sobre normalidade da distribuição e igualdade de variância das variáveis aleató-

rias, o autor elege o Teste de Friedman como o mais apropriado para a situação. O requisito do

teste é que exista uma amostra aleatória de problemas de classiﬁcação. Ao contrário do teste-t,

que requer a estimativa da variância do erro, apenas a estimativa da média do erro é necessária

em cada um dos problemas. A fonte de variabilidade, neste caso, é o comportamento do erro

dos classiﬁcadores em problemas distintos (e supostamente independentes).

O Teste de Friedman, cuja descrição detalhada pode ser encontrada, por exemplo, em

(SHESKIN, 2000), testa a hipótese nula de que em c ≥ 2 experimentos diferentes e depen-

dentes (também chamados de tratamentos), pelo menos dois representem variáveis aleatórias

com medianas diferentes. No caso da comparação de classiﬁcadores, os c tratamentos são evi-

dentemente dependentes, dado que todos os classiﬁcadores tiveram a precisão aferida, em cada

um dos problemas, a partir da mesma amostra de dados e ainda a partir da mesma divisão du-

rante a validação cruzada. Para realização do teste, o erro apurado dos classiﬁcadores, em cada

problema, é ordenado e recebe um posto, que variará de 1 até c. O melhor algoritmo recebe o

índice 1 e o pior o índice c. Em caso de empates, é atribuída aos classiﬁcadores empatados a

média dos postos que estes deveriam receber.

O Teste de Friedman compara o valor médio dos postos obtidos pelos classiﬁcadores em

todos os problemas avaliados. Se a hipótese nula for verdadeira e os classiﬁcadores forem equi-

valentes, as médias dos postos dos classiﬁcadores devem ser iguais. Chamando estas médias

de R

, com j = 1, . .., c, o teste mede uma estatística derivada do quadrado dos desvios de R

em relação

R (a média esperada, caso a hipótese nula seja verdadeira). Sob estas condições, a

estatística de Friedman, deﬁnida como

12N

c(c+ 1)



∑

j=1

−

c(c+ 1)



(4.3)

segue uma distribuição

com (c−1) graus de liberdade, se os valores de c e N forem suﬁci-

entemente grandes - na Equação, N representa o tamanho da amostra que, no caso, é o número

de problemas independentes avaliados. Demsar (2006) sugere N > 10 e c > 5 como uma boa

aproximação. O autor apresenta ainda a seguinte deﬁnição, derivada da estatística de Friedman,

para corrigir o excesso de conservadorismo da versão original:

(N −1)

N(c−1) −

, (4.4)

onde F

segue uma distribuição F com (c−1) e (c−1)(N −1) graus de liberdade.

Se o valor encontrado de F

indicar baixa probabilidade do resultado experimental ser ob-

tido, rejeita-se a hipótese nula. A hipótese alternativa é a sua negação, ou seja, o teste indica que

pelo menos um par de classiﬁcadores é diferente, de acordo com a signiﬁcância deﬁnida. Neste

caso, inicia-se a segunda parte do teste, para determinar quais são os pares de classiﬁcadores

diferentes. Para isto, computa-se

z =

−R

)



c(c+ 1)

(4.5)

para determinar se a diferença entre os classiﬁcadores i e j é signiﬁcante. O valor de |z| é usado

para encontrar a probabilidade do resultado (valor-p) considerando uma distribuição normal.

O valor limite para considerar a diferença signiﬁcante deve ser, porém, ajustado de acordo

com o número de comparações realizadas. Se todos os c classiﬁcadores forem avaliados par a

par, c(c−1)/2 comparações são efetuadas. Quando existe um classiﬁcador referência, c −1

comparações são feitas. Dois métodos de ajuste do valor limite foram usados: a Correção de

Bonferroni e o Método de Holm.

A Correção de Bonferroni divide o valor limite pelo número de comparações realizadas

e considera signiﬁcante apenas as comparações que apresentarem valor-p menor que esta ra-

zão. Por exemplo, caso cinco comparações estejam sendo realizadas e o nível de signiﬁcância

desejado seja 5%, serão signiﬁcantes apenas as comparações com valor-p menor que 1%.

Embora bastante segura, a Correção de Bonferroni é muito conservadora, especialmente

quando todos os classiﬁcadores são comparados par a par. É normal, nestas situações, que o

Teste de Friedman reporte a existência de diferenças, mas que a segunda etapa, com a Correção

de Bonferroni, não consiga identiﬁcá-las. O Método de Holm é menos conservador por ajustar

o valor limite seqüencialmente, de acordo com o número de análises já realizadas. Nesta forma

de ajuste, todas as comparações são feitas e os valores-p encontrados são ordenados. O menor

valor-p é contraposto ao valor limite dividido pelo total de comparações realizadas - por exem-

plo, c−1 se existir um classiﬁcador referência. Caso o resultado seja signiﬁcante, passa-se ao

segundo menor valor-p, que é contraposto ao valor limite dividido pelo total de comparações

menos 1 (c−2 no exemplo anterior). O procedimento continua até que o valor-p não permita

mais rejeitar a hipótese de que o par de classiﬁcadores é igual. Todas as demais comparações

(que não foram analisadas) também falham e os classiﬁcadores envolvidos são considerados

similares. Tanto o Método de Holm quanto a Correção de Bonferroni podem ser usados em

outros tipos de comparações múltiplas, para correção do nível de signiﬁcância em repetições

de experimentos em um mesmo conjunto de dados (por exemplo, várias repetições do teste-t

para dados pareados). Combiná-los com o Teste de Friedman, porém, aumenta as chances de

encontrar diferenças nos dados quando elas, de fato, existem.

O ponto mais crítico ao comparar vários classiﬁcadores em diversos domínios é o processo

de amostragem. Para que o resultado do Teste de Friedman seja realmente válido, a amostra

de dados do experimento, que neste caso são problemas diferentes de classiﬁcação, deve ser

necessariamente aleatória. A diﬁculdade em conseguir tal amostra é evidente. Nas avaliações

apresentadas a seguir, foram usados todos os problemas (vinte) disponíveis no repositório orga-

nizado por Keogh et al. (2006), além de mais dois problemas disponibilizados por Geurts (2002)

e Ligteringen et al. (1997). No caso do repositório de Keogh et al. (2006), mesmo oriundos de

diversos autores, vários problemas são formados por dados sintéticos, provavelmente desenha-

dos para validação de alguma nova técnica de interesse do autor original

. Em alguns casos,

os dados, embora reais, são variações de um mesmo problema, pré-processado de maneiras

diferentes.

Além desta falta de aleatoriedade, a comparação que segue está dividida em blocos, cada

um para avaliar a adaptação de um algoritmo diferente (NN, árvore aleatória etc.). Em uma

conﬁguração ideal, cada um destes blocos deveria ser avaliado a partir de uma amostra aleatória

distinta. Dada a limitação do número de problemas disponíveis, isto é evidentemente impossí-

vel. Embora seja possível corrigir os limites de signiﬁcância (por exemplo, usando o Método

de Holm) levando em conta também esta repetição da amostra em experimentos que, em princí-

pio, não deveriam estar relacionados, a quantidade total de comparações realizadas exigiria um

ajuste muito severo, que ocultaria completamente as possíveis diferenças em cada conjunto de

experimentos.

Este tipo de deﬁciência em análises experimentais parece ser recorrente em trabalhos da

área de mineração de dados. Prechelt (1996), Salzberg (1997) e, mais recentemente, Keogh

& Kasetty (2003) atestam o quanto a falta de avaliações mais abrangentes e, em muitos casos,

também a ausência de metodologia adequada, comprometem parte dos trabalhos publicados na

área. A avaliação de Demsar (2006), de trabalhos ainda mais recentes, mostra uma boa evolução

em relação aos métodos experimentais que, mesmo assim, ainda podem ser melhorados de

acordo com os procedimentos descritos pelo autor (e aqui adotados). Porém, a deﬁciência em

relação aos repositórios de dados para experimentação parece não resolvida.

Mesmo com estas restrições, é importante ressaltar que a amostra usada nos experimentos

apresentados a seguir é, possivelmente, a maior e mais completa disponível - especialmente

quando considerados apenas problemas de classiﬁcação no formato de interesse. Embora esta

deﬁciência na amostragem imponha um limite em relação à abrangência das conclusões perante

o universo de problemas de classiﬁcação, ela não impede que, no mínimo, fortes indícios sejam

atestados.

Não serão descritos os detalhes da preparação de cada uma destas bases. Keogh et al. (2006) listam as publi-

cações nas quais é possível encontrar tais descrições.

4.3 Avaliaçãode métricaspara determinaçãodo vizinhomais

Esta seção descreve os resultados da classiﬁcação usando o algoritmo do vizinho mais pró-

ximo com as métricas descritas no Capítulo 2. A Tabela 4.1 lista a média do erro de classiﬁcação

em cada um dos 22 problemas disponíveis nos repositórios públicos sobre o assunto. A primeira

coluna contém o nome do problema no repositório

. O melhor resultado em cada problema é

escrito em negrito.

Tabela 4.1: Taxa de erro média (percentual) do algoritmo do vizinho mais próximo com métri-

cas diversas.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 31,27 27,74 29,95 28,73 20,77 18,90 19,78 30,50

Adiac 32,91 35,59 33,67 34,31 34,19 44,29 44,81 44,04

Beef 40,00 46,67 45,00 45,00 41,67 28,33 28,33 43,33

CBF 1,18 1,83 0,00 0,00 0,11 0,22 0,32 1,72

CBF_tr 2,38 2,58 0,08 0,08 0,10 0,38 0,22 3,10

Coffee 0,00 0,00 0,00 1,82 0,00 0,00 1,82 0,00

ECG200 9,50 6,50 9,00 1,00 10,50 13,50 11,00 12,00

Face/All 5,02 3,82 4,93 4,18 1,64 0,89 1,11 4,31

Face/Four 5,34 2,65 7,95 7,15 5,34 1,78 1,78 2,65

Fish 18,57 20,29 18,57 18,57 15,43 8,86 10,00 19,14

Gun/Point 6,50 4,50 6,50 8,00 2,50 2,00 1,50 3,00

Lighting 2 24,73 19,73 23,93 21,47 13,10 27,20 19,73 25,60

Lighting 7 35,05 29,38 31,55 27,34 23,13 26,58 30,17 36,45

Olive Oil 11,67 11,67 16,67 23,33 10,00 51,67 51,67 51,67

OSU Leaf 34,40 34,16 36,42 37,10 27,36 13,80 16,29 37,56

Pump 0,00 0,00 2,50 0,00 0,00 0,00 0,00 0,00

S. Leaf 18,13 17,24 15,82 16,89 13,07 8,89 9,42 16,00

S. Control 7,83 9,67 0,83 1,00 0,83 4,00 3,17 13,50

Trace 15,00 12,50 15,00 11,50 0,50 5,50 1,00 14,50

Two Pat. 1,52 0,34 0,48 0,72 0,00 0,02 0,02 0,08

Wafer 0,08 0,13 0,15 0,14 0,14 0,13 0,14 0,07

Yoga 6,27 6,39 6,27 6,39 5,12 2,97 3,55 8,55

Todos os resultados foram obtidos por validação cruzada com ajuste de parâmetros como

descrito na Seção 4.1. No caso das bases disponíveis em (KEOGH et al., 2006), o organizador

do repositório disponibiliza os dados separados em dois conjuntos distintos, para treinamento e

teste. Os resultados deste capítulo foram obtidos por validação cruzada no conjunto completo,

aleatoriamente embaralhado. O Apêndice A mostra os resultados com a divisão original, que

Todas as bases podem ser encontradas através deste nome em (KEOGH et al., 2006), exceto CBF_tr, encon-

trada em (GEURTS, 2002), e Pump, em (LIGTERINGEN et al., 1997).

não alteram as conclusões deste capítulo.

Conforme já mencionado, apenas os parâmetros das métricas foram ajustados. Todos os

resultados foram obtidos com o número de vizinhos (possível parâmetro do classiﬁcador) cons-

tante e igual a 1. No caso das métricas, como todos os parâmetros são numéricos e contínuos,

foram deﬁnidos os limites de um intervalo e um incremento com os quais foram gerados os

valores discretos avaliados no processo de busca.

A primeira e a segunda métricas da tabela não possuem parâmetros ajustáveis. Tratam-

se da distância Euclidiana (coluna sob o título Euc.) e da distância Manhattan (coluna sob o

título Man.). Para a métrica DTW, o parâmetro existente é o tamanho da janela de ajuste, que

foi avaliado para todos os valores naturais entre 0 e 100 (unidades percentuais em relação ao

tamanho da série).

No caso da distância de edição (coluna sob o título E.D. na Tabela 4.1) e da LCSS, os

parâmetros a ajustar são o tamanho da janela e o limiar

que indica se dois valores representam

o mesmo caractere (usado em substituição ao processo de discretização). Os valores buscados

para a janela de ajuste foram os mesmo usados com DTW. Para

, foram considerados os valores

entre 0,1 e 1,0 com incremento 0,1, sendo que este intervalo foi eﬁciente porque todos os dados

foram previamente normalizados (para média 0 e desvio padrão 1). Os mesmo valores de

foram avaliados para a distância de Hamming (coluna sob o título Ham.), que possui apenas

este parâmetro a ajustar.

As distâncias calculadas a partir dos primeiros k coeﬁcientes da Transformada de Fourier

(coluna sob o título Fou.) ou das j primeiras resoluções da Transformada Wavelet (coluna sob

o título Wav. na tabela) possuem o número k de coeﬁcientes e o número j de resoluções como

parâmetros, respectivamente. Ambos foram avaliados para todos os valores naturais entre 1 e

100 (unidades percentuais em relação ao total de coeﬁcientes/resoluções).

Sobre os resultados na Tabela 4.1, a primeira constatação é que nenhuma métrica é melhor

em todas as situações. É também importante notar que a melhor métrica foi, em 16 dentre os

22 problemas, ou DTW ou a distância de edição. Além disto, quando comparadas apenas estas

duas medidas, a diferença entre os resultados obtidos em vários problemas é numericamente

bastante relevante. Esta diversidade de resultados era esperada e indica que cada métrica se

adaptou melhor a alguns problemas, possivelmente por suas características individuais, como

correção de defasagens, ﬁltragem de ruídos etc.

A partir desta tabela de resultados, a primeira pergunta a responder é se há alguma evi-

dência de que pelo menos dois classiﬁcadores são diferentes - hipótese alternativa do Teste de

Friedman. A hipótese nula é que todas as variações são iguais e que os resultados na tabela

são apenas obra do acaso. Para esta tabela de dados, o Teste de Friedman reporta probabilidade

de 0,05% deste resultado ocorrer, supondo que a hipótese nula seja verdadeira - é, portanto,

bastante seguro rejeitá-la.

Neste caso, a questão passa a ser determinar quais classiﬁcadores são diferentes entre si.

Apenas 7 comparações foram feitas, sempre contrapondo uma métrica à forma normal do algo-

ritmo (distância Euclidiana). A Tabela 4.2 mostra os valores-p encontrados, ainda sem nenhum

ajuste para comparações múltiplas, e as médias dos postos obtidos pelos classiﬁcadores a partir

dos dados da Tabela 4.1. O classiﬁcador de referência obteve posto médio de 5,32.

Tabela 4.2: Valores-p e média dos postos da comparação de métricas contra a distância Eucli-

diana. Valores ainda sem o ajuste requerido pela multiplicidade.

Man. Fou. Wav. DTW E.D. LCSS Ham.

Valor-p% 62,2 71,2 55,9 0,1 0,7 2,1 42,4

Média (ref. 5,32)

4,95 5,05 4,89 2,93 3,34 3,61 5.91

Considerando o nível de signiﬁcância usual de 5% e a Correção de Bonferroni, o resultado

na Tabela 4.2 é signiﬁcante se o valor for menor que 0,71%. Assim, os resultados com a

distância de edição e DTW podem ser considerados signiﬁcantes. O resultado com LCSS apenas

ﬁca perto do limite quando analisado com o Método de Holm com nível de signiﬁcância de

10%, ou seja, é difícil aﬁrmar que a medida é melhor do que a distância Euclidiana, embora

haja algumas evidências. Em relação às demais métricas, não há nenhuma evidência de que elas

sejam mais adequadas a este tipo de problema, embora, em alguns casos, o classiﬁcador seja

mais preciso do que o original.

A partir destes resultados, pode-se concluir que é possível obter, em geral, classiﬁcadores

melhores variando a métrica do algoritmo. Em especial, as melhores escolhas são a distância

de edição e DTW. Como análise ﬁnal, a Tabela 4.3 mostra os resultados obtidos através da

combinação de várias métricas, de acordo com o procedimento descrito na Seção 2.3. A tabela

mostra também o melhor resultado de cada linha da Tabela 4.1.

Paragerar os resultados da Tabela 4.3, apenas os pesos das métricas foram variados. Usando

o método de busca do Algoritmo 3, com 8 métricas, pesos variando entre 0 e 1, passo 0,1 e soma

total dos pesos distribuídos entre as métricas sempre igual a 1, foram testadas aproximadamente

20.000 conﬁgurações distintas de pesos em cada problema. Como seria claramente inviável

testar todas as combinações possíveis de parâmetros das métricas para cada conﬁguração de

pesos, foi usado um ajuste ﬁxo em cada problema. O ajuste escolhido foi um dos 10 obtidos

durante a validação cruzada do experimento anterior - em geral, a conﬁguração das métricas foi

Tabela 4.3: Vizinho mais próximo com combinação de métricas e melhor resultado individual.

Taxa de erro média (percentual).

Combinação Individual Combinação Individual

50 Words 18,56 18,90 Lighting 2 14,00 13,10

Adiac 35,98 32,91 Lighting 7 25,99 23,13

Beef 30,00 28,33 Olive Oil 13,33 10,00

CBF 0,00 0,00 OSU Leaf 14,02 13,80

CBF_tr 0,08 0,08 Pump 0,00 0,00

Coffee 0,00 0,00 S. Leaf 9,60 8,89

ECG200 1,00 1,00 S. Control 1,17 0,83

Face/All 1,02 0,89 Trace 0,50 0,50

Face/Four 2,65 1,78 Two Pat. 0,00 0,00

Fish 11,43 8,86 Wafer 0,07 0,07

Gun/Point 5,00 1,50 Yoga 3,30 2,97

bastante estável nos passos da validação cruzada em um mesmo problema.

Os resultados da Tabela 4.3 mostram que o procedimento não foi bem sucedido. Em apenas

1 problema foi obtido resultado melhor do que o anterior. Em 8 problemas o resultado foi

exatamente o mesmo: a conﬁguração de pesos escolhida, nestes casos, marcou peso máximo

para a melhor métrica individual e peso zero para todas as demais.

Nos 13 problemas em que o resultado foi inferior houve distribuiçãode pesos entre algumas

métricas. Portanto, no conjunto de treinamento de cada passo da validação cruzada, a distribui-

ção de pesos parecia ser mais precisa do que a opção (também avaliada) de apenas uma métrica

com peso máximo. Isso sugere que, além da provável inﬂuência negativa da falta de ajuste

dos parâmetros das métricas, a suposta melhoria no conjunto de treinamento era causada por

super-ajuste aos dados.

Além destas duas possíveis explicações, é ainda bastante seguro supor que combinar estas

medidas de similaridade não gera resultados melhores porque elas são fortemente correlacio-

nadas. Em alguns casos, tal correlação é evidente: DTW e a distância dos k coeﬁcientes de

Fourier, por exemplo, podem ser conﬁguradas para retornar exatamente o mesmo valor que a

distância Euclidiana. Em alguns problemas, ﬁltrar os ruídos, como faz a distância dos k coeﬁci-

entes de Fourier, pode ser mais vantajoso. Em outros, remover as distorções no eixo do tempo,

como faz DTW, é mais adequado. É difícil, porém, imaginar que exista muita informação extra

na distância original (Euclidiana), após veriﬁcar que tais transformações eram mais vantajosas.

Após estes experimentos, o procedimento que parece ser mais adequado para utilização

do classiﬁcador do vizinho mais próximo em problemas temporais é realizar um treinamento

com cada uma das métricas isoladamente e escolher a que minimizou o erro no conjunto de

treinamento. Se há alguma restrição em experimentar todas as métricas, a escolha mais acertada

é optar ou por DTW ou pela distância de edição. Nos dois casos, é necessária uma etapa de

ajuste de parâmetros, dado que eles inﬂuenciam decisivamente na precisão do classiﬁcador.

4.4 Árvore aleatória com adaptação para dados temporais

Nesta seção é feita uma avaliação da inﬂuência da escolha da métrica na construção de ár-

vores de decisão aleatórias. Assim como no caso da avaliação do algoritmo do vizinho mais

próximo, inicialmente serão apresentados os resultados da validação com cada uma das métrica

isoladamente. Após isto, é apresentado o resultado do algoritmo com várias métricas combina-

das. Na próxima seção são apresentados os mesmos resultados, porém para árvores de decisão

convencionais (com poda).

A Tabela 4.4 mostra os resultados do algoritmo nos 22 problemas disponíveis para vali-

dação experimental. Em relação à Tabela 4.1, há uma nova coluna, chamada de “Num.”, que

contém o resultado da avaliação considerando cada valor da variável temporal uma caracte-

rística numérica. Os resultados desta coluna não utilizaram, portanto, nenhuma métrica para

comparação dos exemplos. Esta coluna será a base das comparações que seguem, uma vez que

trata-se da forma convencional do algoritmo.

Os resultados na Tabela 4.4 também foram obtidos por validação cruzada, como descrito na

Seção 4.1. Os resultados foram gerados combinando por voto 50 árvores aleatórias, treinadas

de acordo com o Algoritmo 6. Para os experimentos com métricas de similaridade, como todas

as bases são temporais e unidimensionais, apenas 1 atributo é avaliado em cada nó durante a

construção das árvores. No caso dos experimentos da coluna “Num.”, o Algoritmo 6 tratará

cada valor das séries como uma característica numérica e independente das demais.

O total de árvores participantes da decisão ﬁnal (50) foi escolhido arbitrariamente e man-

tido ﬁxo durante todos os experimentos. Possivelmente, o número de árvores necessário para

obtenção do mesmo resultado é menor para a maioria dos problemas - Breiman (1996) chega

a uma conclusão semelhante em sua avaliação experimental sobre o procedimento de bagging.

Usar menos árvores é relevante porque reduz o esforço computacional do treinamento (por um

fator proporcional ao número de árvores). Os experimentos, porém, avaliam apenas a precisão,

por isso não vem ao caso determinar o número mínimo de árvores necessárias para produção do

resultado.

Sobre os parâmetros das métricas, nesta avaliação foi feita uma busca pela melhor con-

ﬁguração nos mesmos intervalos (e incrementos) da busca com o algoritmo do vizinho mais

Tabela 4.4: Taxa de erro média (percentual) da árvore aleatória com métricas temporais em

diversos problemas de classiﬁcação. O melhor desempenho em cada problema é escrito em

negrito.

Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 35,36 32,49 31,93 32,49 30,50 25,08 26,96 23,32 35,47

Adiac 33,29 35,85 39,05 35,85 37,00 32,26 32,65 33,29 39,94

Beef 38,33 36,67 46,67 48,33 38,33 40,00 40,00 35,00 50,00

CBF 1,08 0,32 0,32 0,00 0,00 0,11 0,00 0,00 0,00

CBF_tr 2,78 0,88 0,66 0,14 0,16 0,16 0,20 0,08 0,52

Coffee 1,67 0,00 7,12 0,00 0,00 0,00 0,00 1,82 1,82

ECG200 13,50 11,00 13,00 11,50 1,00 12,00 12,50 10,50 11,50

Face/All 8,71 8,76 7,78 8,04 7,07 2,62 1,29 1,60 9,42

Face/Four 5,42 6,25 8,89 9,80 10,67 7,98 2,69 1,78 5,38

Fish 22,57 19,71 24,57 20,57 19,43 19,43 11,43 13,43 23,14

Gun/Point 2,00 5,00 6,50 7,50 6,50 3,00 1,50 2,00 6,00

Lighting 2 18,90 22,23 22,93 20,60 20,63 13,87 19,70 18,03 22,17

Lighting 7 32,83 30,74 27,24 28,70 32,29 20,32 27,96 27,91 31,53

Olive Oil 8,33 10,00 13,33 10,00 18,33 15,00 63,33 63,33 65,00

OSU Leaf 38,00 37,54 36,86 33,94 38,68 29,17 21,69 20,11 38,22

Pump 7,50 0,00 0,00 2,50 0,00 0,00 0,00 5,00 0,00

S. Leaf 12,36 15,11 14,31 13,87 15,20 11,38 9,24 8,71 13,51

S. Control 4,17 2,83 2,83 0,83 0,67 0,83 1,83 1,67 3,83

Trace 14,50 7,50 12,00 8,50 8,50 0,50 5,50 4,00 12,00

Two Pat. 17,28 3,10 1,16 1,56 1,92 0,00 0,10 0,00 0,48

Wafer 0,21 0,17 0,17 0,20 0,21 0,21 0,13 0,15 0,13

Yoga 6,46 7,76 8,42 7,67 7,61 6,73 4,27 4,91 9,67

próximo.

Os resultados da Tabela 4.4 mostram que não há uma melhor escolha para todos os pro-

blemas, também no caso das árvores aleatórias. DTW, distância de edição e LCSS apresentam

o melhor resultado em 19 dos 22 problemas. As diferenças entre as medidas em um mesmo

problema, novamente, variam bastante e, na maioria dos casos, é numericamente relevante.

Para determinar se há alguma evidência de que pelo menos dois classiﬁcadores nesta tabela

são diferentes, foi aplicado o Teste de Friedman. A hipótese nula de que todos os classiﬁcadores

são iguais pode ser rejeitada com segurança, dado que o teste reporta que a probabilidade do

resultado ocorrer, supondo que a hipótese nula seja verdade, é menor que 0,001%.

A Tabela 4.5 mostra os valores-p encontrados nas 8 comparações, que contrapõem as adap-

tações com métricas de similaridade à versão original, que supõe características numéricas. Na

tabela é mostrada também a média dos postos obtida por cada classiﬁcador. O classiﬁcador de

referência obteve posto médio igual a 6,34.

Tabela 4.5: Valores-p e média dos postos da comparação entre a adaptação com métricas e a

versão original da árvore extremamente aleatória. Valores ainda sem o ajuste requerido pela

multiplicidade.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

Valor-p% 34,9 89,1 21,5 21,5 0,1 0,0 0,0 82,6

Média (ref. 6,34) 5,57 6,45 5,32 5,32 3,50 3,18 2,80 6,52

Considerando o nível de signiﬁcância de 5% e a Correção de Bonferroni, os resultados

da Tabela 4.5 são signiﬁcantes se o valor for menor que 0,625%. Desta forma, neste tipo de

problema, é possível aﬁrmar que a árvore aleatória adaptada com as métricas DTW, distância de

edição e LCSS é melhor do que a versão original do algoritmo. Não é possível dizer o mesmo

das demais métricas, dado que nenhuma é signiﬁcante, mesmo se a análise fosse feita pelo

Método de Holm com nível de signiﬁcância relaxado.

Os resultados conﬁrmam que a adaptação é melhor do que a versão original neste tipo de

problema, porém somente para algumas medidas de similaridade. A partir desta conclusão, o

Algoritmo 6 foi executado mais uma vez, porém considerando todas as medidas de similaridade

ao mesmo tempo. Nesta versão, após determinar aleatoriamente o exemplo de referência, é

escolhida a métrica que maximizar o ganho de informação na divisão dos exemplos do nó. Dado

que o número de combinações possíveis de conﬁgurações de parâmetros é extremamente alto,

foi usado um ajuste ﬁxo para todas as métricas em cada problema (um dos 10 ajustes produzidos

durante a validação cruzada no experimento anterior). A Tabela 4.6 mostra o melhor resultado

obtido usando apenas uma métrica por vez e o resultado da combinação de todas as medidas de

similaridade.

Tabela 4.6: Combinação de métricas e melhor resultado individual da árvore de decisão aleató-

ria adaptada. Taxa de erro média (percentual).

Combinação Individual Combinação Individual

50 Words 21,33 23,32 Lighting 2 17,17 13,87

Adiac 29,32 32,26 Lighting 7 18,87 20,32

Beef 43,33 35,00 Olive Oil 18,33 10,00

CBF 0,00 0,00 OSU Leaf 21,02 20,11

CBF_tr 0,12 0,08 Pump 0,00 0,00

Coffee 0,00 0,00 S. Leaf 8,36 8,71

ECG200 0,50 1,00 S. Control 0,50 0,67

Face/All 1,78 1,29 Trace 0,50 0,50

Face/Four 2,69 1,78 Two Pat. 0,02 0,00

Fish 12,86 11,43 Wafer 0,13 0,13

Gun/Point 2,50 1,50 Yoga 5,27 4,27

O resultado da Tabela 4.6 mostra que, ao combinar as métricas, em 6 problemas houve

melhoria, em 11 o resultado foi inferior e em 5 foi exatamente o mesmo que o melhor re-

sultado individual. É provável que, se fosse viável realizar o mesmo ajuste de parâmetros na

versão combinada, os resultados seriam mais próximos da melhor métrica individual. O custo

computacional do ajuste dos parâmetros de várias métricas (em conjunto) inviabiliza a solução

combinada.

A conclusão ﬁnal é que o mais adequado parece ser escolher, usando o conjunto de trei-

namento, apenas a melhor métrica individual. Para cada métrica disponível, é necessária uma

etapa de ajuste dos parâmetros. Se não é possível avaliar um grande número de métricas, as

melhores escolhas são LCSS, DTW e a distância de edição. Os resultados podem ser também

comparados ao melhor resultado do algoritmo do vizinho mais próximo, mas antes disto serão

apresentados os resultados da árvore de decisão convencional.

4.5 Árvore de decisão convencional com adaptação para da-

dos temporais

Nesta seção são apresentados alguns resultados usando a árvore de decisão com o teste

de divisão especial para tratamento de atributos temporais, descritos nos algoritmos 4 e 5. Os

resultados a seguir foram gerados de forma semelhante aos das seções anteriores, porém há uma

diferença relevante: nos experimentos anteriores, foi possível realizar um ajuste de parâmetros

detalhado, dado que os algoritmos eram eﬁcientes. O teste de divisão do Algoritmo 5 é bastante

ineﬁciente o que inviabiliza o ajuste na forma como ele foi concebido.

Yamada et al. (2003), autores originais do teste do Algoritmo 5, em sua avaliação experi-

mental, utilizam somente uma métrica (DTW) e uma conﬁguração de parâmetros ﬁxa em todos

os problemas avaliados. Os resultados da Tabela 4.7 foram obtidos de forma semelhante, po-

rém, para cada problema, uma conﬁguração diferente foi gerada. O ajuste escolhido para cada

problema foi o melhor obtido em uma das execuções da validação cruzada dos experimentos

com a árvore aleatória (o mesmo que gerou os resultados da Tabela 4.6).

Na Tabela 4.7, a coluna “Num.” contém o resultado da validação com a árvore extrema-

mente aleatória sem nenhuma adaptação temporal. Mesmo sem o auxílio de nenhuma ferra-

menta estatística, é fácil notar que a árvore com adaptação temporal classiﬁca pior do que a

árvore aleatória convencional. Em apenas 6 problemas uma das várias adaptações consegue

taxa de erro menor do que a versão original. Considerando o procedimento de comparação das

seções anteriores, todas as métricas são consideradas estatisticamente diferentes do algoritmo

de referência pelo Método de Holm com 5% de signiﬁcância (pela Correção de Bonferroni,

Tabela 4.7: Taxa de erro média (percentual) da árvore de decisão (podada) com métricas tem-

porais. O melhor desempenho em cada problema é escrito em negrito.

Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 35,36 56,35 57,68 58,79 56,91 50,28 54,92 55,91 59,78

Adiac 33,29 56,21 57,10 56,98 57,87 52,61 46,73 48,27 62,09

Beef 38,33 56,67 50,00 56,67 46,67 50,00 53,33 51,67 53,33

CBF 1,08 6,13 3,87 3,33 2,90 5,16 3,76 3,44 2,80

CBF_tr 2,78 21,22 15,08 13,92 12,68 11,56 7,74 6,48 13,88

Coffee 1,67 3,64 1,82 5,30 5,30 10,61 14,39 14,39 14,39

ECG200 13,50 15,50 14,50 16,00 0,50 15,50 18,00 21,00 15,50

Face/All 8,71 38,40 35,47 41,51 34,13 20,27 17,60 20,76 37,82

Face/Four 5,42 30,24 18,70 19,72 16,01 12,41 11,62 21,42 15,18

Fish 22,57 36,86 41,43 36,57 38,57 35,43 29,14 26,29 43,43

Gun/Point 2,00 15,00 12,00 17,00 17,00 9,00 13,50 9,00 20,00

Lighting 2 18,90 26,50 25,53 26,43 28,10 23,80 18,97 24,73 23,03

Lighting 7 32,83 44,75 35,67 42,61 45,39 36,28 33,62 38,50 39,11

Olive Oil 8,33 16,67 18,33 16,67 16,67 25,00 31,67 35,00 33,33

OSU Leaf 38,00 54,52 50,43 53,64 53,83 53,17 35,50 40,24 58,38

Pump 7,50 0,00 0,00 5,00 5,00 0,00 5,00 12,50 5,00

S. Leaf 12,36 31,02 31,82 32,00 31,02 30,93 23,02 24,62 34,84

S. Control 4,17 11,83 11,83 2,50 3,67 5,67 6,83 7,50 12,83

Trace 14,50 23,50 27,00 23,50 25,00 4,00 6,00 10,50 22,50

Two Pat. 17,28 47,82 37,30 43,54 44,90 16,02 16,80 21,32 30,78

Wafer 0,21 2,46 1,70 2,11 2,26 1,72 1,48 1,12 1,56

Yoga 6,46 19,85 24,12 20,30 20,55 29,15 19,39 28,33 20,76

somente a distância de edição não é diferente). Dado que a média dos postos das adaptações

é maior do que a média dos postos da referência, todas são piores do que a versão original. A

Tabela 4.8 mostra os valores-p e as médias dos postos obtidos a partir dos resultados da Tabela

4.7. A média dos postos da referência é 1,73 e está escrita na primeira coluna da tabela.

Tabela 4.8: Valores-p e média dos postos da comparação da árvore com adaptação temporal

contra a versão não adaptada da árvore extremamente aleatória.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

Valor-p% 0,0 0,0 0,0 0,0 0,4 1,5 0,0 0,0

Média (ref. 1,73)

6,50 5,59 6,16 5,64 4,14 3,73 4,98 6,50

Estes resultados indicam que a árvore adaptada não é uma boa escolha para este tipo de

problema. Yamada et al. (2003) reportam bons resultados, inclusive em comparações com o

algoritmo do vizinho mais próximo. Os experimentos deles, porém, são feitos em menos pro-

blemas e todos multidimensionais. Dado que os problemas aqui avaliados são, em princípio,

mais simples (por serem unidimensionais), não é prudente dizer que a adaptação não tem utili-

dade em nenhuma situação. É certo, porém, que de todas as alternativas avaliadas esta foi a de

pior desempenho.

Uma vez que a construção de apenas uma árvore de decisão adaptada e podada parece

não ser uma boa alternativa, o mesmo procedimento foi experimentado para um comitê de

árvores adaptadas, porém não podadas e combinadas por voto. Neste caso, como o algoritmo

é determinístico, foram feitas amostras por bagging nos conjuntos de treinamento durante a

validação. Como a construção de cada árvore é ineﬁciente, apenas 15 foram construídas para

composição do comitê. Novamente, não foi feito ajuste de parâmetros e foram utilizadas as

mesmas conﬁgurações que produziram a tabela anterior.

A Tabela 4.9 mostra o erro médio obtido em cada problema. A primeira coluna contém,

novamente, o resultado da árvore aleatória sem adaptação temporal.

Tabela 4.9: Taxa de erro média (percentual) da combinação por bagging de árvores de decisão

(sem poda) com métricas temporais. O melhor desempenho em cada problema é escrito em

negrito.

Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 35,36 39,23 37,90 38,34 38,23 28,40 32,49 29,50 40,22

Adiac 33,29 40,98 44,17 40,46 42,25 37,77 34,82 36,36 47,11

Beef 38,33 45,00 46,67 45,00 46,67 48,33 46,67 40,00 46,67

CBF 1,08 1,40 1,08 0,97 0,86 0,86 0,97 0,54 0,75

CBF_tr 2,78 2,34 1,50 1,04 1,10 0,70 0,72 0,60 0,98

Coffee 1,67 3,49 8,94 3,49 3,49 7,12 5,30 3,49 5,30

ECG200 13,50 15,00 14,00 13,00 1,00 15,00 13,50 14,00 15,50

Face/All 8,71 12,98 11,73 12,49 10,40 5,96 3,20 3,91 13,78

Face/Four 5,42 16,96 14,35 14,27 15,14 10,67 5,34 7,98 5,34

Fish 22,57 25,71 31,14 25,71 28,57 23,14 16,86 17,71 26,57

Gun/Point 2,00 11,00 9,50 12,00 12,00 6,00 8,00 4,00 8,00

Lighting 2 18,90 20,60 20,50 20,60 19,67 17,17 21,30 21,30 21,37

Lighting 7 32,83 38,47 30,79 31,48 32,19 25,15 29,36 27,27 32,24

Olive Oil 8,33 16,67 16,67 18,33 23,33 26,67 40,00 46,67 41,67

OSU Leaf 38,00 40,95 41,83 41,85 43,19 35,28 23,74 23,29 43,87

Pump 7,50 0,00 0,00 2,50 7,50 0,00 2,50 7,50 2,50

S. Leaf 12,36 17,51 17,78 18,22 18,22 16,18 11,56 12,27 18,22

S. Control 4,17 5,67 5,67 2,50 1,33 3,67 5,33 4,67 7,17

Trace 14,50 18,50 23,50 16,00 17,50 4,00 4,50 5,00 15,00

Two Pat. 17,28 9,60 3,80 4,74 5,90 0,06 0,30 0,16 1,72

Wafer 0,21 1,19 1,13 0,28 1,03 1,02 0,35 0,88 0,31

Yoga 6,46 9,18 9,24 9,79 9,49 18,00 17,97 17,30 11,52

Os resultados do comitê são visivelmente melhores do que o de uma árvore individual. Na

Tabela 4.9, apenas em sete oportunidades a versão original é melhor do que as adaptações.

Embora o melhor resultado apareça na maior parte dos casos entre as métricas DTW, LCSS e

distância de edição (13 casos dentre os 22), nestesexperimentos não há o mesmo domínio destas

métricas, como nos experimentos anteriores. Esta dispersão dos resultados ﬁca ainda mais clara

quando computados os valores-p da comparação de cada métrica contra a versão convencional

da árvore aleatória (o Teste de Friedman reporta probabilidade desprezível do resultado ocorrer,

supondo que todos classiﬁcadores são iguais). A Tabela 4.10 mostra os valores-p e a média dos

postos de cada classiﬁcador. A média dos postos do classiﬁcador de referência, neste caso, é

3,77.

Tabela 4.10: Valores-p e média dos postos da comparação de um comitê de árvores com adapta-

ção temporal (combinadas por bagging) contra a versão não adaptada da árvore extremamente

aleatória.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

Valor-p% 0,2 0,5 8,8 1,5 82,6 84,7 84,7 0,1

Média (ref. 3,77)

6,30 6,07 5,18 5,77 3,95 3,93 3,61 6,41

Os números da Tabela 4.10 mostram que em apenas 1 caso (LCSS) a média dos postos é

melhor do que a média do classiﬁcador de referência. Mesmo assim, a diferença não é sig-

niﬁcante. Em vários casos, é possível dizer que o classiﬁcador de referência é superior com

signiﬁcância de 5% (ajustado com o Método de Holm).

Dado que em apenas 7 casos o classiﬁcador de referência foi superior, é possível supor que

realizar o treinamento do bagging de versões adaptadas e escolher a métrica com menor erro

no conjunto de treinamento é mais vantajoso do que usar a árvore aleatória original. Porém,

olhando os resultados da adaptação da árvore aleatória (com métricas), e dada a diferença de

desempenho das duas adaptações, ﬁca claro que não vale a pena investir na versão da árvore de

decisão apresentada nesta seção.

4.6 Discussão

Nesta seção é apresentado um resumo dos resultados experimentais das adaptações dos al-

goritmos de classiﬁcação. Quatro formas de classiﬁcação foram adaptadas por meio de medidas

de similaridade supostamente mais adequadas ao tipo de problema de interesse: o algoritmo do

vizinho mais próximo, o algoritmo de construção de árvore de decisão com poda, a combinação

por bagging de árvores de decisão sem poda e a construção de árvores de decisão aleatórias.

A Tabela 4.11 mostra o melhor resultado obtido por cada forma de classiﬁcação em cada pro-

blema, dentre as várias métricas experimentadas. O resumo na tabela não inclui a versão não

adaptada da árvore aleatória.

A primeira constatação é que a adaptação da árvore de decisão podada e a combinação por

bagging destas árvores (sem poda) não produzem bons classiﬁcadores. Há alguns outros fatores

Tabela 4.11: Resultado da melhor métrica em cada uma das quatro formas de classiﬁcação

avaliadas. Melhor resultado de cada problema em negrito.

Árv. Temp. Bag. Árv. Temp. Árv. Aleatória Viz. mais Próx.

50 Words 50,28 28,40 23,32 18,90

Adiac 46,73 34,82 32,26 32,91

Beef 46,67 40,00 35,00 28,33

CBF 2,80 0,54 0,00 0,00

CBF_tr 6,48 0,60 0,08 0,08

Coffee 1,82 3,49 0,00 0,00

ECG200 0,50 1,00 1,00 1,00

Face/All 17,60 3,20 1,29 0,89

Face/Four 11,62 5,34 1,78 1,78

Fish 26,29 16,86 11,43 8,86

Gun/Point 9,00 4,00 1,50 1,50

Lighting 2 18,97 17,17 13,87 13,10

Lighting 7 33,62 25,15 20,32 23,13

Olive Oil 16,67 16,67 10,00 10,00

OSU Leaf 35,50 23,29 20,11 13,80

Pump 0,00 0,00 0,00 0,00

S. Leaf 23,02 11,56 8,71 8,89

S. Control 2,50 1,33 0,67 0,83

Trace 4,00 4,00 0,50 0,50

Two Pat. 16,02 0,06 0,00 0,00

Wafer 1,12 0,28 0,13 0,07

Yoga 19,39 9,18 4,27 2,97

que podem servir de justiﬁcativa para utilização destas técnicas, como a suposta facilidade de

interpretação das regras de classiﬁcação treinadas, porém, considerando apenas a precisão da

classiﬁcação, não há motivos para utilizar estes algoritmos nos problemas avaliados. Contra

estes algoritmos ainda há o fato deles serem os mais ineﬁcientes dentre os experimentados.

A junção da árvore aleatória de Geurts, Ernst & Wehenkel (2006) com um teste para atribu-

tos temporais, baseado no método de divisão de Yamada et al. (2003), mostra-se uma alternativa

relevante. Por exemplo, Xi et al. (2006) aﬁrmam que:

“Se o desejado é um classiﬁcador de séries temporais preciso, a combinação do

algoritmo do vizinho mais próximo com DTW é muito difícil de ser batida. [...]

1NN-DTW parece ser a melhor escolha para classiﬁcação de séries temporais.” (XI

et al., 2006, tradução nossa).

Se foram contrapostos os resultados da melhor métrica da árvore aleatória (na Tabela 4.11)

e os resultados do algoritmo do vizinho mais próximo com a métrica DTW (na Tabela 4.1), em

apenas 2 problemas a combinação 1NN-DTW venceria (e perderia em 15). Fica claro, portanto,

que a árvore aleatória com várias métricas (inclusive DTW) é um forte concorrente, contra a

parceria 1NN-DTW.

Considerando, porém, o melhor resultado do algoritmo do vizinho mais próximo com várias

métricas (Tabela 4.11), não há mais este domínio. Dentre os 22 problemas, em 4 o melhor

resultado foi obtido por uma árvore aleatória, em 8 pelo algoritmo do vizinho mais próximo e

em 10 por ambos. A partir destes resultados, não é possível dizer que um dos dois algoritmos

é absolutamente melhor, mas o vizinho mais próximo classiﬁca pior em menos situações. É

possível, portanto, concluir que o algoritmo do vizinho mais próximo composto com algumas

métricas (em especial, DTW, LCSS e a distância de edição) é realmente muito difícil de ser

batido, mas a árvore aleatória consegue, geralmente, igualar o desempenho.

Dado que os algoritmos produzem resultados semelhantes, uma possível justiﬁcativa para

escolher entre eles é o desempenho computacional. A versão ingênua do algoritmo do vizinho

mais próximo usada nos experimentos não realiza nenhuma tarefa de treinamento e faz busca

exaustiva pelo vizinho mais próximo na etapa de consulta. A árvore aleatória implementada

é mais vantajosa, porque realiza um treinamento (eﬁciente), que acelera também a etapa de

consulta. Não é justo, porém, concluir que a árvore seja a melhor escolha por este motivo, dado

que existem métodos para acelerar o algoritmo do vizinho mais próximo (citados no Capítulo

2), que devem ser considerados em uma comparação justa sobre desempenho.

4.7 Indicação de consumidores de energia elétrica para ins-

peção

O problema de indicação de consumidores de energia elétrica para inspeção surgiu da ne-

cessidade da concessionária do Estado doEspírito Santo de melhorar o processo de identiﬁcação

e ﬁscalização dos consumidores. O principal objetivo é diminuir os prejuízos ﬁnanceiros com

o desvio irregular da energia distribuída e diminuir os gastos no processo de inspeção de con-

sumidores, que hoje é feito sem apoio computacional suﬁciente para otimização da escolha dos

clientes que devem ser submetidos a estas inspeções.

O combate ao desvio irregular de energia é majoritariamente feito através de inspeções em

regiões geográﬁcas onde é detectado alto índice de perdas na comercialização da energia. Assim

que uma região é eleita para ser inspecionada, todas as unidadesconsumidorassão visitadas para

veriﬁcação de anomalias nas ligações elétricas. Este procedimento de inspeção é caro e pouco

eﬁciente porque visita diversas unidades sem evidências de desvio.

O objetivo da concessionária de energia elétrica ao estudar técnicas de classiﬁcação é me-

lhorar o processo de seleção de unidades consumidoras para inspeção, aumentando a probabi-

lidade da descoberta de irregularidades. Para isto, a concessionária tem disponível informações

dos clientes armazenadas em bancos de dados, que foram disponibilizadas para tarefas de mi-

neração. Estes dados já têm sido usados no treinamento de classiﬁcadores e indicação de casos

para inspeções em campo, conforme descrito em Cometti & Varejao (2005). Até então, as in-

formações mais relevantes para a criação dos classiﬁcadores têm sido extraídas do histórico

de consumo mensal de energia dos consumidores e do histórico de inspeções realizadas pela

concessionária.

Os dados das inspeções são compostos pela data da última visita e pelo resultado obtido.

Os resultados possíveis são agrupados em duas categorias: fraude ou normal. Os dados de

consumo são representados pelo mês e ano da medição e pelo valor apurado do consumo. A

partir destas informações, bases de dados com exemplos de consumidores inspecionados foram

criadas, contendo como características os valores dos últimos 24 meses de consumo antes da

última inspeção e o resultado obtido (a classe que se deseja inferir). O problema, assim es-

crito, torna-se um caso de classiﬁcação de séries temporais e os algoritmos apresentados neste

trabalho podem ser apropriados, se houver padrões a inferir a partir destas séries.

O objetivo principal dos experimentos desta seção é aplicar os métodos de classiﬁcação

avaliados nas seções anteriores e comparar o resultado aos obtidos com a estratégia convenci-

onal de extração (e seleção) de características estáticas descrita em Cometti & Varejao (2005).

A comparação apresentada a seguir irá contrapor os algoritmos das seções anteriores, treinados

usando apenas a série temporal do consumo de energia, contra os mesmo algoritmos, treinados

a partir de informações estáticas triviais, extraídas das séries. Deseja-se saber se estas técnicas,

focadas na seleção de protótipos e na forma das curvas, se ajustam melhor ao problema. Além

disso, uma rede bayesiana, disponível no sistema Weka de Witten & Frank (2005) e treinada

com a conﬁguração padrão do sistema, foi usada como medida de referência para avaliar a

relevância dos resultados.

Para realização dos experimentos foi criada uma única base de dados, formada por um

único atributo temporal - a série dos valores do consumo mensal de energia nos últimos 2 anos

antes da inspeção - de um conjunto de consumidores inspecionados recentemente em regiões

da periferia da Grande Vitória. No total, a base de dados contém 3.385 exemplos, sendo que

cada exemplo está marcado como Fraude ou Normal. A probabilidade a priori da classe mais

relevante (fraude) é de aproximadamente 16,5%.

Dado o desequilíbrio entre as classes e a maior importância da classe menos freqüente,

outras medidas são mais adequadas do que a taxa de erro para avaliar o desempenho dos classi-

ﬁcadores. Por exemplo, as medidas de desempenho por classe, derivadas da matriz de confusão

(MONARD; BARANAUSKAS, 2002), podem ser combinadas para formação de uma métrica

que avalie a capacidade do classiﬁcador em relação à classe menos freqüente.

As medidas - precisão, que representa o percentual corretamente classiﬁcado dentre os

elementos apontados como sendo da classe de interesse; e especiﬁcidade, que representa o

percentual dos elementos da classe de interesse que foram corretamente classiﬁcados - são

independentes e o desejado é que as duas sejam maximizadas simultaneamente. A função de

mérito, neste caso, deve preferir classiﬁcadores que equilibrem o valor das duas medidas. Para

esta tarefa, Rijsbergen (1979) sugere uma função, normalmente conhecida como F-measure,

que combina duas grandezas através da seguinte relação:

F(E

) =

(1−

0 ≤

≤ 1, (4.6)

onde E

representa a especiﬁcidade e P

a precisão da classe i. O valor

é um fator para

ponderar as duas grandezas e dar maior importância a uma delas, de acordo com a necessidade.

Para os casos em que

= 0.5, a F-measure é igual à média harmônica entre a precisão e a

especiﬁcidade. Nas avaliações a seguir, o valor

foi conﬁgurado para 0.7, fazendo com que a

precisão tenha contribuição um pouco maior para a métrica.

Para formação da base de dados com características estáticas, foram extraídas das séries as

seguintes informações: média, desvio padrão, curtose, assimetria, maior diferença de consumo

entre dois meses consecutivos (percentual e absoluta), menor diferença de consumo entre dois

meses consecutivos (percentual e absoluta). Além disso, os três últimos valores do consumo

antes da inspeção foram incluídos na base e utilizados como características numéricas (não

temporais). Todos os resultados apresentados a seguir foram obtidos por validação cruzada

(com 10 conjuntos)e os parâmetros das métricasforam ajustados de acordo com o procedimento

descrito na Seção 4.1.

A Tabela 4.12 mostra a taxa de erro dos classiﬁcadores do vizinho mais próximo e árvore

aleatória treinados com as diversas métricas. Neste caso, as séries de consumo foram normali-

zadas para que ﬁcassem com média igual a 0 e desvio padrão 1. O melhor resultado da árvore

aleatória na tabela ilustra o problema com o desbalanceamento das classes: o melhor resultado

foi obtido classiﬁcando a maioria dos exemplos na classe mais provável, conforme ﬁcará claro

nas tabelas seguintes.

A Tabela 4.13 mostra os resultados dos mesmos métodos de classiﬁcação, porém gerados

com os dados sem normalização. Avaliando somente a taxa de erro não ﬁca clara nenhuma

Tabela 4.12: Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho mais

próximo avaliados com os dados normalizados.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

1NN 26,56 26,68 26,88 26,26 26,38 22,96 21,00 23,60

Árv. Aleat.

16,90 16,66 22,07 22,81 17,02 16,95 16,84 16,75

diferença entre as duas tabelas, embora a taxa, na maioria dos casos, seja menor na Tabela

4.13. Nesta tabela também está escrita a taxa de erro dos classiﬁcadores treinados somente

com as características extraídas das séries. Como a taxa de erro é uma medida secundária neste

problema com classes desbalanceadas, nenhuma conclusão justa pode ser obtida a partir destes

resultados.

Tabela 4.13: Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho mais

próximo avaliados com os dados não normalizados.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham. Extração

1NN 23,19 22,78 24,82 24,55 23,25 21,60 21,48 21,48 24,67

Árv. Aleat. 16,87 16,90 20,92 19,38 16,78 16,63 16,69 16,63 17,76

As próximas tabelas listam os valores da F-measure média obtidos pelos classiﬁcadores

durante a validação cruzada. Ao contrário da taxa de erro, a F-measure é uma medida a ser

maximizada. Os melhores resultados nas tabelas, portanto, são os que apresentarem maior

valor percentual.

A Tabela 4.14 mostra a F-measure média obtida pelos classiﬁcadores com as métricas a

partir dos dados normalizados. Nesta tabela é interessante notar que o problema com a menor

taxa de erro da Tabela 4.12 é um dos piores pela avaliação com a F-measure. Além disto, é

possível concluir que a árvore aleatória classiﬁca muito pior do que o algoritmo do vizinho

mais próximo neste problema.

Tabela 4.14: F-measure média (percentual) da árvore aleatória e do algoritmo do vizinho mais

próximo avaliados com os dados normalizados.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

1NN 23,74 25,43 23,47 23,54 22,69 23,32 24,67 22,82

Árv. Aleat. 13,69 10,20 14,88 18,10 13,69 8,05 11,37 7,10

A Tabela 4.15 mostra os resultados dos mesmos classiﬁcadores, obtidos a partir dos dados

sem nenhuma normalização. A tabela mostra também a F-measure dos classiﬁcadores treinados

com as características extraídas das séries. No caso da árvore aleatória, o melhor resultado foi

obtido a partir destas características.

Ainda sobre os resultados nas tabelas 4.14 e 4.15, em apenas alguns casos (com a árvore

Tabela 4.15: F-measure média (percentual) da árvore aleatória e do algoritmo do vizinho mais

próximo avaliados com os dados não normalizados.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham. Extração

1NN 24,65 28,63 24,14 25,71 27,62 25,72 25,29 27,59 27,18

Árv. Aleat.

21,25 16,63 18,84 21,07 16,84 1,56 4,36 0,00 21,98

aleatória) o resultado não foi melhor com os dados sem normalização. Isto mostra que há

algum padrão a reconhecer nos dados relacionado ao valor médio e à dispersão do consumo.

Além disto, considerando um método que classiﬁque os exemplos de maneira completamente

aleatória, porém assinalando a classe fraude para 16,5% (probabilidade a priori) dos exemplos,

o valor esperado da F-measure deste classiﬁcador seria de aproximadamente 20,65%. Ou seja,

a maior parte dos resultados da árvore aleatória, neste problema, são piores do que os de um

classiﬁcador que retira dos dados apenas a informação sobre a probabilidade a priori das classes.

A partir destes resultados, e considerando apenas os dados sem normalização, deseja-se tes-

tar as hipóteses nulas de que os dois resultados obtidos com características extraídas são iguais

aos dois melhores resultados obtidos com métricas de similaridade - distância Manhattan, no

caso do algoritmo do vizinho mais próximo, e distância Euclidiana, no caso da árvore aleatória.

Caso não seja possível rejeitar estas hipóteses, a adaptação não trouxe ganho algum em relação

aos algoritmos originais. Além disto, deseja-se também testar a hipótese nula de que um algo-

ritmo bayesiano classiﬁca da mesma forma que o algoritmo do vizinho mais próximo com a

distância Manhattan, opção que obteve o melhor resultado neste problema.

Para testar as hipóteses foi utilizado o teste-t corrigido para dados pareados. Na primeira

comparação, a média das diferenças entre as F-measures do algoritmo do vizinho mais próximo

com a distância Manhattan e do mesmo algoritmo com as características estáticas é 1,45% e

o desvio padrão 6,49%. A partir destes valores, o teste reporta 63,76% de probabilidade do

resultado experimental acontecer, se a hipótese nula for verdadeira. Portanto, não há evidências

de que exista diferença entre as duas abordagens.

No caso da árvore aleatória, a média das diferenças entre o melhor resultado com métricas

e o resultado com características extraídas é 0,73% e o desvio padrão 11,32%. De acordo com

o teste-t corrigido, há 89,12% de probabilidade deste resultado ocorrer e, também neste caso,

não há evidências de que exista diferença entre as duas abordagens.

O classiﬁcador bayesiano do sistema Weka, com as características extraídas, obteve taxa de

erro média de 22,01% e F-measure média de 38,60% com desvio padrão de 3,34%. O valor

é bem maior do que o melhor obtido pelos demais classiﬁcadores (28,63%). O teste-t reporta

apenas 0,45% de probabilidade do resultado ocorrer: é bastante seguro rejeitar a hipótese nula

(já considerando os ajustes pelas múltiplas comparações) e, portanto, há diferença signiﬁcante

entre os algoritmos.

As Tabelas 4.16 e 4.17 mostram a matriz de confusão dos dois classiﬁcadores da última

comparação. O classiﬁcador bayesiano erra 2 casos normais a mais do que o vizinho mais

próximo com a métrica, porém acerta mais 87 casos de fraudadores.

Tabela 4.16: Matriz de confusão do algoritmo do vizinho mais próximo usando a distância

Manhattan.

Predita

N F

Real N 2.392 434

F 401 158

Tabela 4.17: Matriz de confusão do classiﬁcador bayesiano com características extraídas.

Predita

N F

Real N 2.390 436

F 314 245

A conclusão ﬁnal desta seção é que, no problema de seleção de consumidores de energia

elétrica para inspeção, apesar da principal informação disponível (consumo mensal) ser uma

série temporal, não há um padrão forte relacionado à forma desta série e, por isto, os algoritmos

com medidas de similaridade mais adequadas a dados temporais não têm desempenho satisfató-

rio. Apesar das versões com métricas dispensarem o conhecimento requerido para a criação das

características estáticas, somente alguns atributos triviais já bastam para que um classiﬁcador

convencional supere desempenho destas versões, neste problema.

5 Conclusões

Este trabalho apresentou um estudo experimental de métodos de classiﬁcação em problemas

com atributostemporais. Das várias formas possíveis de tratamento deste tipo de atributo, foram

estudados apenas algoritmos de classiﬁcação que manipulam diretamente as séries e classiﬁcam

com base em medidas de similaridade entre seqüências.

No caso da adaptação do algoritmo do vizinho mais próximo, pelo menos duas medidas

avaliadas (DTW e distância de edição) parecem ser sistematicamente melhores do que a usada

na versão original do algoritmo. As demais medidas não foram consistentemente melhores,

mas em alguns problemas apresentaram bons resultados. A proposta de combinação de várias

métricas neste algoritmo teve resultado inferior ao melhor obtido apenas com uma métrica,

provavelmente porque as medidas são muito correlacionadas e porque houve super-ajuste no

treinamento.

A avaliação das adaptações de árvores de decisão mostrou que apenas uma única árvore (po-

dada) não tem desempenho competitivo. O algoritmo de construção de árvores extremamente

aleatórias, por outro lado, produz classiﬁcadores com desempenho comparável ao do algoritmo

do vizinho mais próximo. No caso da árvore aleatória, três métricas (LCSS, DTW e distância

de edição) geraram classiﬁcadores consistentemente melhores do que a versão não adaptada

do algoritmo. As demais medidas classiﬁcaram melhor apenas em alguns casos isolados. A

combinação de várias métricas na árvore aleatória foi mais bem sucedida do que a combinação

no vizinho mais próximo, mas, mesmo assim, o desempenho foi geralmente inferior ao obtido

pela melhor métrica em cada problema.

Por ﬁm, os testes no problema real de seleção de consumidores de energia elétrica para

inspeção não produziram bons resultados. Isso sugere que não há padrão relacionado ao formato

das séries a descobrir nos dados. Os resultados com características estáticas extraídas das séries,

apesar de melhores, também não foram bons, o que evidencia a diﬁculdade de produzir bons

classiﬁcadores nesse problema.

5.1 Trabalhos futuros

A abrangência da avaliação experimental sobre classiﬁcação com características temporais

apresentada neste trabalho é visivelmente limitada. Em primeiro lugar, porque apenas alguns

poucos tipos de algoritmos de classiﬁcação foram considerados. Além disto, todos foram cons-

truídos a partir da mesma idéia de classiﬁcação por comparação com “modelos”, através de

alguma medida de similaridade.

Apesar de várias métricas de similaridade terem sido avaliadas, há um grande número de

medidas propostas que podem, eventualmente,ser melhores do que as estudadas, pelo menos em

alguns problemas especíﬁcos. Mesmo que apenas algumas poucas medidas avaliadas durante a

elaboração deste trabalho tenham sido constantemente melhores do que a trivial (Euclidiana), e

apesar da veriﬁcação de Keogh & Kasetty (2003) enumerar várias que também não a superam,

há, ainda, outras métricas que merecem análise mais apurada. Por exemplo, tanto Savary (2002)

quanto Antunes & Oliveira (2001) citam formas de criar modelos descritores das séries usando

métodos probabilísticos como Cadeias Ocultas de Markov (HMM - Hidden Markov Models) e

calcular a similaridade entre os exemplos através de distâncias computadas entre os modelos.

Abou-Moustafa, Cheriet & Suen (2004) e Ge & Smyth (2000) implementam classiﬁcadores

de séries temporais usando tal abordagem. Dado que a classiﬁcação de séries temporais tem

uma relação forte com o problema de reconhecimento de voz, e considerando que este tipo de

classiﬁcação é usado em reconhecimento de voz com sucesso (assim como DTW), é possível

que bons classiﬁcadores possam ser construídos também com esta abordagem.

Ainda em relação aos algoritmos avaliados, outros métodos, além das árvores de decisão

e do algoritmo do vizinho mais próximo, podem ser apropriados a problemas com dados tem-

porais e também precisam ser considerados. Por exemplo, as Redes Bayesianas Dinâmicas,

descritas por Murphy (2002), que estendem as Redes Bayesianas “convencionais” e englobam

as Cadeias Ocultas de Markov, não foram experimentadas. Alguns autores, como Bahlmann,

Haasdonk & Burkhardt (2002), mostram adaptações de Suport Vector Machines que se utilizam

de medidas como DTW no problema de classiﬁcação de caracteres manuscrito que, assim como

reconhecimento de voz, é intimamente ligado ao problema de classiﬁcação de séries temporais.

Sobre os algoritmos implementados e avaliados neste trabalho, os resultados obtidos com

a árvore aleatória adaptada e com o algoritmo do vizinho mais próximo com métricas de si-

milaridade foram bastante satisfatórios. Ambos podem ser facilmente estendidos para suportar

atributos temporais multidimensionais. Desta maneira, será possível reproduzir os resultados

experimentaisde Yamada et al. (2003) e veriﬁcar se, nesta situação, a árvore de decisão proposta

pelos autores é um pouco mais competitiva do que em problemas unidimensionais.

Além disso, os algoritmos implementados foram reconhecidamente bem sucedidos clas-

siﬁcando unicamente através da comparação de exemplos. Embora, exceto no problema de

indicação de consumidores de energia para inspeção, não tenha sido experimentada a estratégia

de extração de características estáticas, é certo que esta estratégia seria bem sucedida, se fosse

possível desenhar características especiais para cada problema. Uma possível linha de pesquisa

é investigar a criação de classiﬁcadores que combinem características extraídas das séries com

classiﬁcação baseada em exemplos (ou modelos).

A combinação de várias métricas em um mesmo classiﬁcador não se mostrou promissora

nos experimentos do Capítulo 4, especialmente no caso do vizinho mais próximo. Se novas

medidas de similaridade forem incluídas ao sistema de classiﬁcação, novas avaliações expe-

rimentais deverão ser realizadas. Um método mais eﬁciente de combinação das métricas é

necessário para que seja possível também ajustar os parâmetros das medidas.

No caso do algoritmo do vizinho mais próximo, ainda será preciso investir em formas de

integração do ajuste de parâmetros e da combinação (ou escolha) de métricas às estruturas

de dados para aceleração do algoritmo. No caso da árvore aleatória, o ajuste de parâmetros

não é problema, dada a eﬁciência do método de treinamento. É preciso, porém, avaliar outras

heurísticas para escolha das métricas nos nós da árvore, já que a apresentada no Capítulo 3 não

conseguiu repetir o desempenho da melhor métrica individual.

Referências Bibliográﬁcas

ABOU-MOUSTAFA, K. T.; CHERIET, M.; SUEN, C. Y. Classiﬁcation of time-series

data using a generative/discriminative hybrid. In: IWFHR ’04: Proceedings of the Ninth

International Workshop on Frontiers in Handwriting Recognition (IWFHR’04). Washington,

DC, USA: IEEE Computer Society, 2004. p. 51–56. ISBN 0-7695-2187-8.

AGRAWAL, R.; FALOUTSOS, C.; SWAMI, A. Efﬁcient Similarity Search in Sequence

Databases. Proceedings of the 4th International Conference on Foundations of Data

Organization and Algorithms, Chicago, USA, p. 69–84, 1993.

AGRAWAL, R. et al. Fast Similarity Search in the Presence of Noise, Scaling, and Translation

in Time-Series Databases. Proceedings of the 21th International Conference on Very Large

Data Bases, p. 490–501, 1995.

ANTUNES, C. M.; OLIVEIRA, A. L. Temporal Data Mining: An Overview. In: Proceedings

of the Workshop on Temporal Data Mining. San Francisco, EUA: [s.n.], 2001. Knowledge

Discovery and Data Mining (KDD 01).

BAHLMANN, C.; HAASDONK, B.; BURKHARDT, H. On-line handwriting recognition

with support vector machines: A kernel approach. In: IWFHR ’02: Proceedings of the Eighth

International Workshop on Frontiers in Handwriting Recognition (IWFHR’02). Washington,

DC, USA: IEEE Computer Society, 2002. p. 49. ISBN 0-7695-1692-0.

BENTLEY, J. L. Multidimensional binary search trees used for associative searching.

Communications of the ACM, ACM Press, New York, NY, USA, v. 18, n. 9, p. 509–517, 1975.

ISSN 0001-0782.

BOZKAYA, T.; YAZDANI, N.; ÖZSOYOGLU, M. Matching and Indexing Sequences of

Different Lengths. In: CIKM ’97: Proceedings of the sixth international conference on

Information and knowledge management. New York, NY, USA: ACM Press, 1997. p. 128–135.

ISBN 0-89791-970-X.

BREIMAN, L. Bagging Predictors. Machine Learning, Kluwer Academic Publishers,

Hingham, MA, USA, v. 24, n. 2, p. 123–140, 1996. ISSN 0885-6125.

BREIMAN, L. Random forests. Machine Learning, Kluwer Academic Publishers, Hingham,

MA, USA, v. 45, n. 1, p. 5–32, 2001. ISSN 0885-6125.

BREIMAN, L. et al. Classiﬁcation and Regression Trees. New York, N.Y: Chapman & Hall,

1984. ISBN 0412048418.

CHAN, K. pong; FU, A. W.-C. Efﬁcient time series matching by wavelets. In: ICDE ’99:

Proceedings of the 15th International Conference on Data Engineering. Washington, DC,

USA: IEEE Computer Society, 1999. p. 126. ISBN 0-7695-0071-4.

COMETTI, E. S.; VAREJAO, F. M. Melhoramento da identiﬁcação de perdas comerciais

através da análise computacional inteligente do perﬁl de consumo e dos dados cadastrais

de consumidores. Vitória, Brasil, 2005. Relatório ﬁnal de projeto de P&D ESCELSA/Aneel,

ciclos 2003/2004.

COVER, T.; HART, P. E. Nearest Neighbor Pattern Classiﬁcation. IEEE Transactions on

Information Theory, v. 13, n. 1, p. 21–27, Jan 1967.

DAUBECHIES, I. Ten Lectures on Wavelets. [S.l.]: SIAM, 1992. (CBMS-NSF Reg. Conf.

Series in Applied Math.).

DEGROOT, M. H.; SCHERVISH, M. J. Probability and statistics. 3nd. ed. [S.l.]: Addison

Wesley, 2001. ISBN 0321240753.

DEMSAR, J. Statistical Comparisons of Classiﬁers over Multiple Data Sets. Journal of

Machine Learning Research, v. 7, n. 1, p. 1–30, 2006.

DEVIJVER, P. A.; KITTLER, J. Pattern Recognition: A Statistical Approach. London:

Prentice Hall, 1982.

DIETTERICH, T. G. Approximate Statistical Test For Comparing Supervised Classiﬁcation

Learning Algorithms. Neural Computation, v. 10, n. 7, p. 1895–1923, 1998.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classiﬁcation. 2nd. ed. New York: John

Wiley and Sons, 2001.

FREIDMAN, J. H.; BENTLEY, J. L.; FINKEL, R. A. An Algorithm for Finding Best Matches

in Logarithmic Expected Time. ACM Transactions on Mathematical Software (TOMS), ACM

Press, New York, NY, USA, v. 3, n. 3, p. 209–226, 1977. ISSN 0098-3500.

GE, X.; SMYTH, P. Deformable markov model templates for time-series pattern matching.

In: KDD ’00: Proceedings of the sixth ACM SIGKDD international conference on Knowledge

discovery and data mining. New York, NY, USA: ACM Press, 2000. p. 81–90. ISBN

1-58113-233-6.

GEURTS, P. Contributions to decision tree induction: bias/variance tradeoff and time series

classiﬁcation. Tese (Doutorado) — Department of Electrical Engineering and Computer

Science, University of Liege, Belgium, May 2002.

GEURTS, P.; ERNST, D.; WEHENKEL, L. Extremely randomized trees. Machine Learning,

Kluwer Academic Publishers, Hingham, MA, USA, v. 63, n. 1, p. 3–42, 2006. ISSN

0885-6125.

GUSFIELD, D. Algorithms on strings, trees, and sequences: computer science and

computational biology. New York, NY, USA: Cambridge University Press, 1997. ISBN

0-521-58519-8.

GUTTMAN, A. R-trees: a dynamic index structure for spatial searching. In: SIGMOD ’84:

Proceedings of the 1984 ACM SIGMOD international conference on Management of data.

New York, NY, USA: ACM Press, 1984. p. 47–57. ISBN 0-89791-128-8.

HAMMING, R. W. Error detecting and error correcting codes. Bell System Technical Journal,

v. 29, n. 2, p. 147–160, 1950.

HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco, CA, USA:

Morgan Kaufmann Publishers Inc., 2001. ISBN 1558604898.

KEOGH, E.; KASETTY, S. On the Need for Time Series Data Mining Benchmarks: A Survey

and Empirical Demonstration. Data Mining and Knowledge Discovery, Springer, v. 7, n. 4, p.

349–371, 2003.

KEOGH, E.; RATANAMAHATANA, C. A. Exact indexing of dynamic time warping. Knowl.

Inf. Syst., Springer-Verlag New York, Inc., New York, NY, USA, v. 7, n. 3, p. 358–386, 2005.

ISSN 0219-1377.

KEOGH, E. et al. The UCR Time Series Classiﬁcation/Clustering. 2006.

Http://www.cs.ucr.edu/˜eamonn/time_series_data.

KOHAVI, R.; LANGLEY, P.; YUN, Y. The utility of feature weighting in nearest-neighbor

algorithms. In: 9th European Conference on Machine Learning. Prague, Czech Republic:

Springer-Verlag, 1997.

LEVENSHTEIN, V. I. Binary Codes Capable of Correcting Deletions, Insertions and

Reversals. Soviet Physics Doklady, v. 10, n. 8, p. 707–710, Feb 1966.

LIGTERINGEN, R. et al. Machine diagnostics by neural networks: experimental setup. In:

Proceedings of ASCI97. Heijen, The Netherlands: [s.n.], 1997. p. 185–190.

LIN, J. et al. A symbolic representation of time series, with implications for streaming

algorithms. In: DMKD ’03: Proceedings of the 8th ACM SIGMOD workshop on Research

issues in data mining and knowledge discovery. New York, NY, USA: ACM Press, 2003. p.

2–11.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina. In:

Sistemas Inteligentes. 1. ed. Barueri, SP: Manole, 2002. cap. 04, p. 35–53.

MURPHY, K. P. Dynamic bayesian networks: representation, inference and learning. Tese

(Doutorado) — UC Berkeley, Computer Science Division, Jul 2002. Chair-Stuart Russell.

MöRCHEN, F. Time series feature extraction for data mining using DWT and DFT. [S.l.], 2003.

Technical Report, Department of Mathematics and Computer Science Philipps-University

Marburg.

NADEAU, C.; BENGIO, Y. Inference for the Generalization Error. Machine Learning,

Springer, v. 52, n. 3, p. 239–281, 2003.

NANOPOULOS, A.; ALCOCK, R.; MANOLOPOULOS, Y. Feature-based Classiﬁcation of

Time-series Data. Nova Science Publishers, Inc., Commack, NY, USA, p. 49–61, 2001.

PRECHELT, L. A study of experimental evaluations of neural network learning algorithms:

Current research practice. Neural Networks, v. 9, n. 3, p. 457–462, Apr 1996.

QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan

Kaufmann Publishers Inc., 1993. ISBN 1-55860-238-0.

RIJSBERGEN, C. van. Information Retrieve. 2. ed. London: Butterworth, 1979.

RODDICK, J. F.; SPILIOPOULOU, M. A survey of temporal knowledge discovery paradigms

and methods. IEEE Transactions on Knowledge and Data Engineering, v. 14, n. 4, p. 750–767,

Jul/Aug 2002.

SAKOE, H.; CHIBA, S. Dynamic Programming Algorithm Optimization for Spoken Word

Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, v. 26, n. 1, p.

43–49, Feb 1978.

SALZBERG, S. L. On Comparing Classiﬁers: Pitfalls to Avoid and a Recommended

Approach. Data Mining and Knowledge Discovery, Kluwer Academic Publishers, Hingham,

MA, USA, v. 1, n. 3, p. 317–328, 1997.

SAVARY, L. Notion of Similarity in (Spatio-)Temporal Data Mining. In: ECAI’02 Workshop

on Knowledge Discovery from (Spatio-)Temporal Data. [S.l.: s.n.], 2002. p. 63–71.

SCHAPIRE, R. E. The Strength of Weak Learnability. Machine Learning, Kluwer Academic

Publishers, Hingham, MA, USA, v. 5, n. 2, p. 197–227, 1990. ISSN 0885-6125.

SHESKIN, D. J. Handbook of Parametric and Nonparametric Statistical Procedures. 2nd. ed.

[S.l.]: Chapman & Hall/CRC, 2000.

STRUZIK, Z. R.; SIEBES, A. The haar wavelet transform in the time series similarity

paradigm. Lecture Notes in Computer Science, v. 1704, p. 12–22, Jan 1999.

THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. Amsterdam: Else-

vier/Academic Press, 2006. ISBN 0123695317.

UHLMANN, J. K. Satisfying general proximity/similarity queries with metric trees.

Information processing letters, Elsevier Science, v. 40, n. 4, p. 175–179, 1991.

WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques.

2nd. ed. [S.l.: s.n.], 2005.

WU, Y.-L.; AGRAWAL, D.; ABBADI, A. E. A comparison of dft and dwt based similarity

search in time-series databases. In: CIKM ’00: Proceedings of the ninth international

conference on Information and knowledge management. New York, NY, USA: ACM Press,

2000. p. 488–495. ISBN 1-58113-320-0.

XI, X. et al. Fast time series classiﬁcation using numerosity reduction. In: ICML ’06:

Proceedings of the 23rd international conference on Machine learning. New York, NY, USA:

ACM Press, 2006. p. 1033–1040. ISBN 1-59593-383-2.

YAMADA, Y. et al. Decision-tree Induction from Time-series Data Based on a Standard-

example Split Test. In: Proceedings of the 12th International Conference on Machine Learning.

[S.l.: s.n.], 2003. p. 840–847.

YAO, Z.; RUZZO, W. L. A Regression-based K nearest neighbor algorithm for gene function

prediction from heterogeneous data. BMC Bioinformatics, v. 7, n. Suppl 1, p. S11, Mar 2006.

APÊNDICE A -- Alguns experimentos adicionais

Neste apêndice são exibidos alguns resultados complementares aos apresentados no Capí-

tulo 4. Os dados de cada problema, disponíveis em (KEOGH et al., 2006), estão divididos em

dois arquivos: um para o treinamento e outro para o teste de validação. Para realizar os experi-

mentos apresentados no Capítulo 4, os dois conjuntos de dados foram fundidos e os exemplos

embaralhados antes da execução da validação cruzada. As tabelas A.1, A.2 e A.3 mostram o

resultado da classiﬁcação usando a divisão original dos dados.

Tabela A.1: Taxa de erro do algoritmo do vizinho mais próximo com métricas de similaridade.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 36.92 33.19 34.29 34.29 23.52 20.44 18.68 32.53

Adiac 38.88 40.15 40.15 39.64 39.13 49.87 50.38 50.38

Beef 33.33 36.67 33.33 33.33 30.00 26.67 23.33 33.33

CBF 14.78 11.11 3.22 6.78 0.22 3.22 3.11 11.11

Coffee 0.00 3.57 0.00 3.57 0.00 3.57 0.00 3.57

ECG200 12.00 11.00 13.00 2.00 12.00 11.00 10.00 12.00

Face/All 28.64 27.87 28.58 28.05 19.23 19.94 19.88 28.17

Face/Four 21.59 15.91 19.32 6.82 11.36 3.41 6.82 9.09

Fish 21.71 20.57 21.71 21.71 16.57 8.00 7.43 24.00

Gun/Point 8.67 4.67 8.67 10.00 8.67 3.33 2.67 6.00

Lighting 2 24.59 18.03 29.51 19.67 9.84 26.23 21.31 22.95

Lighting 7 42.47 28.77 36.99 35.62 28.77 34.25 34.25 30.14

Olive Oil 13.33 16.67 16.67 16.67 13.33 53.33 53.33 53.33

OSU Leaf 48.35 45.04 48.35 49.59 38.02 23.14 19.42 47.11

S. Leaf 21.12 21.12 18.40 17.76 15.36 9.44 11.04 20.00

S. Control 12.00 12.00 1.00 1.00 1.33 4.00 4.00 17.67

Trace 24.00 24.00 26.00 26.00 1.00 9.00 5.00 24.00

Two Pat. 9.33 3.88 4.60 5.93 0.00 0.00 0.00 1.88

Wafer 0.45 0.47 0.44 0.44 0.41 0.20 0.26 1.01

Yoga 16.97 17.10 17.77 17.43 15.67 13.43 13.93 19.93

Por terem usado validação cruzada ao invés de divisão percentual ﬁxa, os resultados do

Capítulo 4 são uma estimativa mais conﬁável do erro médio de classiﬁcação. Os resultados

deste apêndice, porém, podem ser diretamente comparados aos listados no repositório do qual

é possível obter os dados.

A Tabela A.1 mostra o erro obtido no conjunto de validação pelo algoritmo do vizinho

mais próximo com as métricas de similaridade. Os valores das colunas referentes à distância

Euclidiana e à DTW devem coincidir com os reportados por Keogh et al. (2006). Em alguns

casos, há diferenças insigniﬁcantes, provavelmente ocasionadas por detalhes da implementação

do ajuste de parâmetros.

As Tabelas A.2 e A.3 mostram os resultados, nos mesmos problemas, da árvore de decisão

aleatória e do bagging de árvores de decisão convencionais adaptadas aos dados temporais. Em

relação aos resultados do Capítulo 4, o erro apurado para as árvores com esta divisão ﬁxa parece

estar ainda mais distante do erro do algoritmo do vizinho mais próximo.

Este comportamento era esperado, especialmente no caso da árvore aleatória - Geurts, Ernst

& Wehenkel (2006) citam que a técnica é mais eﬁciente para conjuntos maiores porque nestas

situações o viés do procedimento de treinamento é reduzido. Esta é, inclusive, mais uma justiﬁ-

cativa para a utilização do conjunto completo dos dados no treinamento de cada uma das árvores

aleatórias, e não amostras obtidas pelo processo de bagging. A divisão percentual original dos

dados reserva, quase sempre, uma porcentagem menor para o treinamento. Isto faz com que

os resultados das árvores sejam mais afetados do que o resultado do algoritmo do vizinho mais

próximo.

Tabela A.2: Taxa de erro da árvore aleatória com métricas temporais.

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 34.95 34.07 34.51 34.29 27.25 27.91 27.03 34.73

Adiac 40.67 43.48 41.69 40.92 38.88 36.57 35.29 44.25

Beef 53.33 40.00 43.33 46.67 36.67 40.00 36.67 43.33

CBF 7.56 6.11 6.44 7.78 0.44 4.11 6.89 10.78

Coffee 0.00 7.14 3.57 3.57 7.14 0.00 7.14 3.57

ECG200 10.00 14.00 14.00 2.00 12.00 13.00 7.00 17.00

Face/All 30.77 31.42 30.65 31.72 19.11 22.78 19.76 32.13

Face/Four 26.14 29.55 26.14 14.77 18.18 6.82 6.82 22.73

Fish 24.00 31.43 25.71 25.71 24.00 14.86 13.71 22.29

Gun/Point 11.33 11.33 13.33 12.00 3.33 9.33 8.67 22.00

Lighting 2 29.51 22.95 21.31 19.67 14.75 21.31 19.67 22.95

Lighting 7 35.62 31.51 30.14 30.14 21.92 28.77 27.40 34.25

Olive Oil 13.33 20.00 16.67 16.67 20.00 66.67 66.67 66.67

OSU Leaf 48.35 47.93 50.00 47.11 41.32 31.82 27.27 48.35

S. Leaf 16.48 16.00 16.64 16.16 13.28 9.44 9.76 14.56

S. Control 5.33 6.00 0.67 1.00 1.67 3.33 3.00 6.33

Trace 22.00 30.00 21.00 24.00 2.00 14.00 6.00 27.00

Two Pat. 16.30 8.73 10.83 10.98 0.03 1.08 0.28 3.78

Wafer 0.78 0.50 0.55 0.49 0.60 0.36 0.62 0.42

Yoga 17.77 18.80 19.50 18.40 16.77 15.87 16.80 20.83

Tabela A.3: Taxa de erro da combinação por bagging de árvores de decisão (sem poda).

Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.

50 Words 41.10 41.54 42.64 39.56 30.77 35.39 33.19 42.42

Adiac 47.57 45.52 47.06 47.06 39.13 38.62 40.92 49.62

Beef 53.33 50.00 53.33 40.00 46.67 40.00 43.33 40.00

CBF 15.67 12.22 7.67 6.44 9.22 13.56 13.11 13.11

Coffee 10.71 21.43 10.71 10.71 17.86 14.29 10.71 14.29

ECG200 13.00 12.00 13.00 0.00 13.00 14.00 14.00 16.00

Face/All 38.17 38.34 38.82 35.74 26.63 21.83 22.43 38.34

Face/Four 26.14 44.32 38.64 36.36 25.00 10.23 28.41 28.41

Fish 32.00 36.00 32.00 32.00 27.43 15.43 17.71 31.43

Gun/Point 18.67 21.33 19.33 19.33 11.33 15.33 9.33 16.00

Lighting 2 27.87 29.51 22.95 21.31 16.39 22.95 26.23 24.59

Lighting 7 38.36 31.51 36.99 26.03 27.40 32.88 30.14 35.62

Olive Oil 16.67 23.33 13.33 13.33 36.67 33.33 40.00 40.00

OSU Leaf 49.17 48.35 48.35 49.59 49.59 38.84 37.19 52.07

S. Leaf 18.88 23.20 20.00 22.24 19.52 12.64 14.88 20.64

S. Control 10.00 10.00 2.00 2.00 1.67 8.33 6.00 7.67

Trace 33.00 41.00 31.00 35.00 5.00 7.00 18.00 23.00

Two Pat. 27.25 18.45 21.65 23.33 0.83 1.58 1.43 9.53

Wafer 1.62 1.57 0.99 1.09 1.25 1.40 1.06 1.35

Yoga 18.90 21.33 19.03 19.20 19.60 19.83 19.47 24.33

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo