( PDF ) Configuração heterogênea de ensembles de classificadores: investigação em Bagging, Boosting e MultiBoosting

Download PDF

ads:

FUNDAÇÃO EDSON QUEIROZ

UNIVERSIDADE DE FORTALEZA

MESTRADO EM INFORMÁTICA APLICADA

Conﬁguração Heterogênea de Ensembles de

Classiﬁcadores: Investigação em Bagging, Boosting e

MultiBoosting

Diego Silveira Costa Nascimento

Fortaleza – CE

Dezembro 2009

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Diego Silveira Costa Nascimento

Conﬁguração Heterogênea de Ensembles de

Classiﬁcadores: Investigação em Bagging, Boosting e

MultiBoosting

Dissertação apresentada como parte dos requisi-

tos para obtenção do título de Mestre em Infor-

mática Aplicada, pela Universidade de Fortaleza

– Unifor.

Orientador:

Prof. Dr. André Luís Vasconcelos Coelho

FUNDAÇÃO EDSON QUEIROZ

UNIVERSIDADE DE FORTALEZA

MESTRADO EM INFORMÁTICA APLICADA

Fortaleza – CE

Dezembro 2009

ads:

N244c Nascimento, Diego Silveira Costa.

Conﬁguração Heterogênea de Ensembles de Classiﬁcadores: Investigação em

Bagging, Boosting e MultiBoosting / Diego Silveira Costa Nascimento. - 2009.

110f.

Dissertação (mestrado) - Universidade de Fortaleza, 2009.

“Orientação: Prof. André Luís Vasconcelos Coelho.”

1. Aprendizagem - Máquinas. 2. Bagging. 3. Boosting. I. Título.

CDU 371.322.7:621

Conﬁguração Heterogênea de Ensembles de

Classiﬁcadores: Investigação em Bagging, Boosting e

MultiBoosting

Diego Silveira Costa Nascimento

PARECER:

DATA: / /

BANCA EXAMINADORA:

André Luís Vasconcelos Coelho, D. Sc.

Universidade de Fortaleza – UNIFOR

(Orientador)

Cicero Nogueira dos Santos, D. Sc.

Universidade de Fortaleza – UNIFOR

Rafael Duarte Coelho dos Santos, D. Sc.

Instituto Nacional de Pesquisas Espaciais – INPE

Este trabalho é dedicado aos meus pais, Petrú-

cio e Arlete, e a minha irmã Andreza.

Agradecimentos

A Deus pela dádiva da vida e por tudo que eu tenho. E como Católico, a Nossa Senhora de

Fátima minha protetora.

Aos meus amados pais, por me incentivarem na realização de mais um sonho, e por me

darem forças para superar novos desaﬁos. Pelo acompanhamento diário, mesmo que distantes,

de cada nova experiência vivida.

As minhas avós (em memória) pelos sábios ensinamentos de ter paciência, humildade e força

de vontada para que eu pudesse alcançar todos os meus ideais. Vocês vão sempre fazer parte da

minha vida, estejam onde estiverem.

À tia Alice, pois sempre que precisei de um apoio familiar, ela por dezenas de vezes cruzou

as imensas estradas de Alagoas ao Ceará para dar toda a assistência necessária. Também, não

poderia deixar de agradecer a ajuda nas correções de parte deste trabalho.

As minhas tias, aos meus tios, primos e primas por acreditarem que eu poderia fazer um

pouco mais.

Aos eternos amigos (irmãos) Iuseff Franklin, Duaran Farias, Thenny Farias e Angelina Costa

por fazerem parte da minha vida, e pelo compartilhamento de todos esses anos de alegrias e

tristezas.

À Irmã Cândida e à Socorro por todo cuidado, ajuda e atenção que a mim foram dedicados.

Vocês foram mais do que vizinhas, vocês foram a minha nova família por todos esses anos.

Aos amigos de laboratório Rafael Rocha, Hebert Aquino, Rutênio Sampaio e Everlândio Fer-

nandes pelo companheirismo durante os “intermináveis” trabalhos do mestrado e pela motivação

na busca de novos conhecimentos.

À querida Ana Carla, pela atenção, carinho e por compreender minha ausência durante o

tempo necessário para a dedicação exigida na realização da pesquisa.

Agradecimentos iii

Ao meu orientador André Coelho, pela conﬁança depositada em me receber como orien-

tando, pelo compartilhamento do conhecimento e paciência na condução dos estudos.

Aos Professores Dr. Cicero Santos e Dr. Rafael Santos por aceitarem o convite para partici-

parem da banca examinadora, e claro, pelas sábias críticas que contribuíram para o melhoramento

deste trabalho.

A todos aqueles que fazem a Unifor, especialmente, é claro, a toda a equipe do MIA.

À Funcap pela ajuda ﬁnanceira durante toda vigência do curso.

E a todos aqueles que contribuiram direta ou indiretamente para realização desse trabalho.

A todos vocês, MUITO OBRIGADO!!!!

Epígrafe

“Penso que só há um caminho para a ciência ou para a ﬁlosoﬁa:

encontrar um problema, ver a sua beleza e apaixonar-se por ele;

casar e viver feliz com ele até que a morte vos separe –

a não ser que encontrem um outro problema ainda mais fascinante,

ou, evidentemente, a não ser que obtenham uma solução.

Mas, mesmo que obtenham uma solução,

poderão então descobrir, para vosso deleite,

a existência de toda uma família de problemas-ﬁlhos,

encantadores ainda que talvez difíceis,

para cujo bem-estar poderão trabalhar, com um sentido,

até ao ﬁm dos vossos dias.”

Karl Popper

Resumo

Este trabalho apresenta um estudo quanto à caracterização e avaliação de seis novos algo-

ritmos de comitês de máquinas heterogêneos, sendo estes destinados à resolução de problemas

de classiﬁcação de padrões. Esses algoritmos são extensões de modelos já encontrados na lite-

ratura e que vêm sendo aplicados com sucesso em diferentes domínios de pesquisa. Seguindo

duas abordagens, uma evolutiva e outra construtiva, diferentes algoritmos de aprendizado de má-

quina podem ser utilizados para ﬁns de indução dos componentes do ensemble a serem treinados

por Bagging, Boosting ou MultiBoosting padrão sobre os dados reamostrados, almejando-se o

incremento da diversidade do modelo composto resultante. Como meio de conﬁguração auto-

mática dos diferentes tipos de componentes, adota-se um algoritmo genético customizado para

a primeira abordagem e uma busca de natureza gulosa para a segunda abordagem. Para ﬁns

de validação da proposta, foi conduzido um estudo empírico envolvendo 10 diferentes tipos de

indutores e 18 problemas de classiﬁcação extraídos do repositório UCI. Os valores de acuidade

obtidos via ensembles heterogêneos evolutivos e construtivos são analisados com base naqueles

produzidos por modelos de ensembles homogêneos compostos pelos 10 tipos de indutores utili-

zados, sendo que em grande parte dos casos os resultados evidenciam ganhos de desempenho de

ambas as abordagens.

Palavras-chave: Aprendizado de máquina, Comitês de máquinas, Bagging, Wagging, Bo-

osting, MultiBoosting, Algoritmo genético.

Abstract

This work presents a study on the characterization and evaluation of six new heterogene-

ous committees machines algorithms, which are aimed to solve pattern classiﬁcation problems.

These algorithms are extensions of models which are already found in the literature and have

been successfully applied in different ﬁelds of research. Following two approaches, evolutionary

and constructive, different machine learning algorithms can be used for induction of components

of the ensemble to be trained by standard Bagging, Boosting or MultiBoosting on the resampled

data, aiming at the increasing of the diversity of the resulting composite model. As a means of

automatic conﬁguration of different types of components, we adopt a customized genetic algo-

rithm for the ﬁrst approach and greedy search for the second approach. For purposes of validation

of the proposal, an empirical study has been conducted involving 10 different types of inductors

and 18 classiﬁcation problems taken from the UCI repository. The acuity values obtained by the

evolutionary and constructive heterogeneous ensembles are analyzed based on those produced

by models of homogeneous ensembles composed of the 10 types of inductors we have utilized,

and the majority of the results evidence a gain in performance from both approaches.

Keywords: Machine learning, Committee machines, Bagging, Wagging, Boosting, Multi-

Boosting, Genetic algorithm.

vii

Sumário

Lista de Abreviações x

Lista de Figuras xi

Lista de Tabelas xv

Trabalhos Publicados xix

1 Introdução 1

2 Aprendizado de Máquina 5

2.1 Paradigmas de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Simbólico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.3 Baseados em Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.4 Conexionista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.5 Evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2 Comitês de Máquinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Ensembles de Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3 Síntese do Capítulo e Considerações Finais . . . . . . . . . . . . . . . . . . . . 31

3 Conﬁguração Heterogênea de Ensembles de Classiﬁcadores 33

Sumário viii

3.1 Abordagem Evolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2 Abordagem Construtiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4 Síntese do Capítulo e Considerações Finais . . . . . . . . . . . . . . . . . . . . 43

4 Experimentos Computacionais 44

4.1 Framework WEKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Problemas de Classiﬁcação e Conﬁguração dos Experimentos . . . . . . . . . . 45

4.3 Algoritmos de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4 Conﬁgurações dos Parâmetros Genéticos . . . . . . . . . . . . . . . . . . . . . . 47

4.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5.1 Resultados dos Ensembles Homogêneos . . . . . . . . . . . . . . . . . . 48

4.5.2 Resultados dos Ensembles Heterogêneos Evolutivos . . . . . . . . . . . 53

4.5.3 Resultados dos Ensembles Heterogêneos Construtivos . . . . . . . . . . 66

4.6 Síntese do Capítulo e Considerações Finais . . . . . . . . . . . . . . . . . . . . 76

5 Considerações Finais e Trabalhos Futuros 77

5.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Referências Bibliográﬁcas 80

Apêndice A -- Problemas de Classiﬁcação 87

A.1 Descrições dos Problemas de Classiﬁcação . . . . . . . . . . . . . . . . . . . . 88

A.2 Características dos Problemas de Classiﬁcação . . . . . . . . . . . . . . . . . . 89

A.3 Gráﬁcos de Distribuição das Classes . . . . . . . . . . . . . . . . . . . . . . . . 90

Sumário ix

Apêndice B -- Conﬁgurações dos Componentes 95

B.1 Algoritmos de Aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Apêndice C -- Tabelas de Resultados 99

C.1 Bagging Homogêneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

C.2 Boosting Homogêneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

C.3 MultiBoosting Homogêneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Apêndice D -- Ranking dos Resultados 108

D.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

D.2 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

D.3 MultiBoosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Lista de Abreviações

AG – Algoritmo Genético

CONS – Construtivo

DS – Decision Stump

DT – Decision Table

ESTAT.-Q – Estatística-Q

EVOL – Evolutivo

KNN – K - Nearest Neighbors

ME – Mistura de especialista

MELHOR HOM. – Melhor Homogêneo

MLP – Multi-layer Perceptron

NB – Naïve Bayes

N. Comp. – Número de Componentes

RBF – Radial Basis Function

REP – Reduced Error Pruning

RT – REP Tree

SIA – Sistemas Imunológicos Artiﬁciais

SMO – Sequential Minimal Optimisation

SVM – Support Vector Machine

WEKA – Waikato Environment for Knowledge Analysis

Lista de Figuras

1 Hierarquia do aprendizado (REZENDE, 2003). . . . . . . . . . . . . . . . . . . 6

2 Conjunto de exemplos supervisionado (a) e não-supervisionado (b). . . . . . . . 7

3 Ilustração de uma árvore de decisão. . . . . . . . . . . . . . . . . . . . . . . . . 8

4 Ilustração de uma tabela de decisão. . . . . . . . . . . . . . . . . . . . . . . . . 10

5 Ilustração de uma classiﬁcação baseada em vizinhança. . . . . . . . . . . . . . . 11

6 Ilustração de uma rede neural artiﬁcial RBF. . . . . . . . . . . . . . . . . . . . . 12

7 Três razões pelas quais ensembles têm um melhor desempenho que um preditor

único. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

8 Arquitetura geral para um modelo de ensemble. . . . . . . . . . . . . . . . . . . 18

9 Processo de criação de um ensemble via algoritmo Bagging. . . . . . . . . . . . 25

10 Processo de criação de um ensemble via algoritmo Boosting. . . . . . . . . . . . 28

11 Processo de criação de um ensemble via algoritmo MultiBoosting. . . . . . . . . 31

12 Representação de uma população de indivíduos (Soluções). . . . . . . . . . . . . 35

13 Ilustração do operador de seleção (Roleta). . . . . . . . . . . . . . . . . . . . . . 35

14 Ilustração do operador de cruzamento de um ponto. . . . . . . . . . . . . . . . . 36

15 Ilustração do operador de mutação. . . . . . . . . . . . . . . . . . . . . . . . . . 36

16 Execução da abordagem construtiva. . . . . . . . . . . . . . . . . . . . . . . . . 39

17 Ilustração do particionamento dos dados para treinamento e teste. . . . . . . . . . 46

Lista de Figuras xii

18 Médias das taxas de erro de treinamento e teste do Bagging homogêneo para: (a)

base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . . . . . . 49

19 Níveis de diversidade do Bagging homogêneo segundo a métrica Estatística-Q

para: (a) base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . 50

20 Médias das taxas de erro de treinamento e teste do Boosting homogêneo para:

(a) base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . . . . 51

21 Níveis de diversidade do Boosting homogêneo segundo a métrica Estatística-Q

para: (a) base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . 51

22 Médias das taxas de erro de treinamento e teste do MultiBoosting homogêneo

para: (a) base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . 52

23 Níveis de diversidade do MultiBoosting homogêneo segundo a métrica Estatística-

Q para: (a) base anneal; e (b) base segment. . . . . . . . . . . . . . . . . . . . . 53

24 Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Bagging homogêneo e evolutivo para: (a) base ionosphere; e (b) base segment. . . 55

25 Frequência de ocorrência de tipos de componentes recrutados por Bagging evo-

lutivo para: (a) base diabetes; e (b) base heart-c. . . . . . . . . . . . . . . . . . . 55

26 Gráﬁcos de diversidade do Bagging homogêneo e evolutivo para: (a) base colic;

e (b) base hepatitis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

27 Gráﬁcos de convergência do Bagging evolutivo para: (a) base segment; e (b) base

vote. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

28 Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Boosting homogêneo e evolutivo para: (a) base colic; e (b) base zoo. . . . . . . . 59

29 Frequência de tipos de ocorrência dos componentes recrutados por Boosting evo-

lutivo para: (a) base anneal; e (b) base sick. . . . . . . . . . . . . . . . . . . . . 59

30 Gráﬁcos de diversidade do Boosting homogêneo e evolutivo para: (a) base bupa;

e (b) base diabetes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Lista de Figuras xiii

31 Gráﬁcos de convergência do Boosting evolutivo para: (a) base anneal; e (b) base

credit-a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

32 Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

MultiBoosting homogêneo e evolutivo para: (a) base ionosphere; e (b) base vote. 63

33 Frequência de ocorrência dos tipos de componentes recrutados por MultiBoos-

ting evolutivo para: (a) base colic; e (b) base heart-c. . . . . . . . . . . . . . . . 63

34 Gráﬁcos de diversidade do MultiBoosting homogêneo e evolutivo para: (a) base

diabetes; e (b) base iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

35 Gráﬁcos de convergência do MultiBoosting evolutivo para: (a) base colic; e (b)

base segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

36 Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Bagging homogêneo e construtivo para: (a) base ionosphere; e (b) base segment. . 67

37 Frequência de ocorrência dos tipos componentes recrutados por Bagging cons-

trutivo para: (a) base haberman; e (b) base sick. . . . . . . . . . . . . . . . . . . 68

38 Gráﬁcos de níveis de diversidade do Bagging homogêneo e construtivo para: (a)

base hepatitis; e (b) base segment. . . . . . . . . . . . . . . . . . . . . . . . . . 68

39 Gráﬁcos comparativos das médias das taxas de treinamento e teste entre Boosting

homogêneo e construtivo para: (a) base credit-a; e (b) base heart-c. . . . . . . . . 70

40 Frequência de ocorrência dos tipos de componentes recrutados por Boosting

construtivo para: (a) base glass; e (b) base vote. . . . . . . . . . . . . . . . . . . 71

41 Gráﬁcos de níveis de diversidade do Boosting homogêneo e construtivo para: (a)

base sonar; e (b) base vote. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

42 Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

MultiBoosting homogêneo e construtivo para: (a) base vote; e (b) base zoo. . . . 73

43 Frequência de ocorrência dos tipos de componentes recrutados por MultiBoos-

ting construtivo para: (a) base haberman; e (b) base vote. . . . . . . . . . . . . . 74

Lista de Figuras xiv

44 Gráﬁcos de níveis de diversidade do MultiBoosting homogêneo e construtivo

para: (a) base bupa; e (b) base diabetes. . . . . . . . . . . . . . . . . . . . . . . 74

45 Distribuição das classes para: (a) base anneal; e (b) base breast-cancer. . . . . . 90

46 Distribuição das classes para: (a) base bupa; e (b) base colic. . . . . . . . . . . . 90

47 Distribuição das classes para: (a) base credit-a; e (b) base diabetes. . . . . . . . . 91

48 Distribuição das classes para: (a) base glass; e (b) base haberman. . . . . . . . . 91

49 Distribuição das classes para: (a) base heart-c; e (b) base hepatitis. . . . . . . . . 92

50 Distribuição das classes para: (a) base ionosphere; e (b) base iris. . . . . . . . . . 92

51 Distribuição das classes para: (a) base sick; e (b) base sonar. . . . . . . . . . . . 93

52 Distribuição das classes para: (a) base sonar; e (b) base vehicle. . . . . . . . . . 93

53 Distribuição das classes para: (a) base vote; e (b) base zoo. . . . . . . . . . . . . 94

Lista de Tabelas

1 Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, nú-

mero de componentes, erro de teste do melhor modelo homogêneo e Teste-T

para o algoritmo Bagging heterogêneo evolutivo. . . . . . . . . . . . . . . . . . 57

2 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

Bagging heterogêneo evolutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3 Tabela com os valores de erro de treinamento, de teste, Estatística-Q, número

de componentes, erro de teste do melhor modelo homogêneo e Teste-T para o

algoritmo Boosting heterogêneo evolutivo. . . . . . . . . . . . . . . . . . . . . . 61

4 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

Boosting heterogêneo evolutivo. . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5 Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, nú-

mero de componentes, erro de teste do melhor modelo homogêneo e Teste-T

para o algoritmo MultiBoosting heterogêneo evolutivo. . . . . . . . . . . . . . . 65

6 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

MultiBoosting heterogêneo evolutivo. . . . . . . . . . . . . . . . . . . . . . . . 66

7 Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, nú-

mero de componentes, erro de teste do melhor modelo homogêneo e Teste-T

para o algoritmo Bagging heterogêneo construtivo. . . . . . . . . . . . . . . . . 69

8 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

Bagging heterogêneo construtivo. . . . . . . . . . . . . . . . . . . . . . . . . . 69

9 Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, nú-

mero de componentes, erro de teste do melhor modelo homogêneo e Teste-T

para o algoritmo Boosting heterogêneo construtivo. . . . . . . . . . . . . . . . . 72

Lista de Tabelas xvi

10 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

Boosting heterogêneo construtivo. . . . . . . . . . . . . . . . . . . . . . . . . . 72

11 Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, nú-

mero de componentes, erro de teste do melhor modelo homogêneo e Teste-T

para o algoritmo MultiBoosting heterogêneo construtivo. . . . . . . . . . . . . . 75

12 Tabela com os valores de ocorrência dos tipos de componentes recrutados por

MultiBoosting heterogêneo construtivo. . . . . . . . . . . . . . . . . . . . . . . 75

13 Conjunto de problemas de classiﬁcação. . . . . . . . . . . . . . . . . . . . . . . 88

14 Características de atributos, instâncias, classes e valores faltantes para os proble-

mas de classiﬁcação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

15 Algoritmo RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

16 Algoritmo J48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

17 Algoritmo SMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

18 Algoritmo Naïve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

19 Algoritmo IBk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

20 Algoritmo Rep Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

21 Algoritmo OneR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

22 Algoritmo PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

23 Algoritmo Decision Table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

24 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Bagging homogêneo formado por componentes

RBF e J48. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

25 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Bagging homogêneo formado por componentes

SMO e Naïve Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Lista de Tabelas xvii

26 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Bagging homogêneo formado por componentes

IBk e REP Tree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

27 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Bagging homogêneo formado por componentes

Decision Stump e OneR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

28 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Bagging homogêneo formado por componentes

PART e Decision Table. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

29 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Boosting homogêneo formado por componentes

RBF e J48. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

30 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Boosting homogêneo formado por componentes

SMO e Naïve Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

31 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Boosting homogêneo formado por componentes

IBk e REP Tree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

32 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Boosting homogêneo formado por componentes

Decision Stump e OneR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

33 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo Boosting homogêneo formado por componentes

PART e Decision Table. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

34 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo MultiBoosting homogêneo formado por compo-

nentes RBF e J48. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Lista de Tabelas xviii

35 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo MultiBoosting homogêneo formado por compo-

nentes SMO e Naïve Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

36 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo MultiBoosting homogêneo formado por compo-

nentes IBk e REP Tree. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

37 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo MultiBoosting homogêneo formado por compo-

nentes Decision Stump e OneR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

38 Tabela com os valores de erro médio de treinamento, erro médio de teste e

estatística-Q para o algoritmo MultiBoosting homogêneo formado por compo-

nentes PART e Decision Table. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

39 Ranking dos resultados de erro de treinamento para Bagging. . . . . . . . . . . . 108

40 Ranking dos resultados de erro de teste para Bagging. . . . . . . . . . . . . . . . 109

41 Ranking dos resultados de erro de treinamento para Boosting. . . . . . . . . . . . 109

42 Ranking dos resultados de erro de teste para Boosting. . . . . . . . . . . . . . . . 110

43 Ranking dos resultados de erro de treinamento para MultiBoosting. . . . . . . . . 110

44 Ranking dos resultados de erro de teste para MultiBoosting. . . . . . . . . . . . . 111

xix

Trabalhos Publicados

1. NASCIMENTO, D. S. C.; COELHO, A. L. V. Bagging heterogêneo evolutivo: Caracteri-

zação e análise comparativa com ensembles homogêneas de redes neurais RBF. Simpósio

Brasileiro de Automação Inteligente, 2009.

2. NASCIMENTO, D. S. C.; COELHO, A. L. V. Ensembling heterogeneous learning models

with boosting. In: Internacional Conference on Neural Information Processing. [S.l.]:

Lecture Notes in Computer Science, 2009. v. 5863, n. 512–519.

Capítulo 1

Introdução

“O impossível de hoje será o possível de

amanhã se ﬁzermos o possível de hoje.”

Paulo Freire

É inquestionável que, para todas as áreas do conhecimento humano, por melhor que seja

um proﬁssional, quanto ao seu domínio prático ou teórico, não é possível que este tenha co-

nhecimento completo da sua área de atuação. Isso é facilmente justiﬁcado porque o legado de

informações é muito extenso, e a cada dia antigos conhecimentos são aprimorados e novos são

descobertos. Logo, quando se deseja decidir sobre assuntos melindrosos, sejam eles de impacto

social ou econômico, pessoas com domínio no assunto reúnem-se na forma de comitês a ﬁm de

se capitalizar das várias experiências individuais de cada membro, na busca de se adotar a melhor

solução para o caso em questão.

Essa forma de almejar a melhor solução, a partir da exploração das potencialidades individu-

ais de um grupo dinâmico e comprometido com um objetivo comum, não é recente. Trata-se de

um assunto que recebe muita atenção por proﬁssionais de Administração e suas sub-áreas, cuja

CAPÍTULO 1. INTRODUÇÃO 2

denominação usual é Brainstorming

(OSBORN, 1953). Em ciências políticas, o modelo de júri

proposto por Condorcet (1758) foi concebido no ﬁnal do Século XVIII para estudar sob que

condições uma democracia como um todo seria mais efetiva que qualquer uma de suas partes

constituintes. Já na área de previsão de séries econométricas, tem sido cada vez mais advogada

a tese de que melhores resultados podem ser alcançados mediante a combinação das previsões

feitas por diferentes técnicas (CLEMEN, 1989). Finalmente, na disciplina de Engenharia de

Software, é comum se lançar mão de múltiplas versões redundantes de mesmo código com o

intuito de se atingir níveis mais seguros de tolerância a falhas (ECKHARDT; LEE, 1985).

Essa ideia tem sido bastante explorada nos últimos anos no contexto da Estatística, Apren-

dizado de Máquina, Reconhecimento de Padrões e Descoberta de Conhecimento, por se tratar

de uma abordagem simples e capaz de aumentar a capacidade de generalização de soluções ba-

seadas em aprendizado indutivo (TSOUMAKAS; ANGELIS; VLAHAVAS, 2005; COELHO,

2004, 2006).

A primeira motivação de combinar múltiplos estimadores está em obter maiores ganhos de

acuidade. Outra razão está relacionada à diﬁculdade de aplicação de algoritmos de indução a

conjuntos de dados extremamente grandes (HANSEN; SALAMON, 1990). Muitos desses algo-

ritmos são computacionalmente complexos e acabam não sendo aplicáveis devido às limitações

dos equipamentos computacionais disponíveis, estas geralmente associadas à memória e proces-

samento. Uma solução para este problema é o particionamento horizontal do conjunto de dados

original em pequenos fragmentos. Em seguida, treina-se um modelo preditivo numa parte menor

tratável e ﬁnalmente combina-se as predições de todos os modelos resultantes (TSOUMAKAS;

ANGELIS; VLAHAVAS, 2005).

É comum se categorizar métodos de combinação de classiﬁcadores (conhecidos por ensem-

bles) sob duas vertentes complementares (COELHO, 2004): uma baseada em seleção e outra

em fusão. O que se pressupõe, no primeiro caso, é que cada componente seja realmente um

especialista em alguma região local do espaço de atributos. Já os métodos ﬁrmados na fusão de

classiﬁcadores assumem que todos os componentes são bem indicados para lidarem com todo o

espaço de entrada e, por conseguinte, as decisões de todo o grupo devem ser levadas em con-

sideração. Um método da segundo classe largamente utilizado é o voto majoritário, segundo o

Palavra em inglês cuja tradução é “tempestade mental”. É uma metodologia de exploração de ideias, visando à

obtenção das melhores soluções a partir de um grupo de pessoas.

CAPÍTULO 1. INTRODUÇÃO 3

qual a saída de cada modelo é interpretada com o voto em uma das classes, sendo que a classe

que obtiver o voto da maioria será escolhida como decisão ﬁnal do ensemble. A variação é o

voto ponderado, que não trata a resposta de cada componente de forma equivalente, mas sim

atribuindo a cada modelo um coeﬁciente de peso de acordo com o seu nível de acuidade.

Modelos que são derivados de diferentes execuções de um mesmo algoritmo de aprendiza-

gem são comumente chamados de ensembles homogêneos. Tais modelos podem ser inferidos

mediante alterações dos parâmetros de controle do próprio algoritmo de aprendizagem ou atra-

vés de manipulação das instâncias de treinamento, atributos de entrada ou códigos das classes

de saída (DIETTERICH, 2000a). Por outro lado, modelos que são derivados de diferentes algo-

ritmos de aprendizagem são chamados de ensembles heterogêneos (TSOUMAKAS; ANGELIS;

VLAHAVAS, 2005; CANUTO et al., 2005).

Intuitivamente, a combinação de múltiplos componentes é vantajosa. No entanto, para que

a abordagem de ensembles seja capaz de promover melhorias de acuidade, cada elemento, tam-

bém conhecido por componente, deve apresentar bom desempenho individual e ao mesmo tempo

exibir comportamento diverso em relação aos demais. Tomando mais uma vez o exemplo do co-

mitê de pessoas, caso todos os indivíduos tenham as mesmas opiniões e pontos de vista sobre o

assunto em questão, diﬁcilmente surgirão discussões que contribuam para uma melhora signiﬁ-

cativa da decisão ﬁnal tomada por este comitê. Na literatura, podemos encontrar vários métodos

(meta-algoritmos) de geração de ensembles capazes de induzir a diferentes formas de diversi-

dade dos componentes. Dos algoritmos mais conhecidos, temos Bagging (BREIMAN, 1996a),

Boosting (FREUND; SCHAPIRE, 1996) e MultiBoosting (WEBB, 2000). Estes dizem respeito

a técnicas estatísticas poderosas que lançam mão do conceito de redistribuição dos dados (Bo-

otstrapping (EFRON; TIBSHIRANI, 1993)) como meio de gerar componentes diversos a serem

agregados por voto majoritário ou voto ponderado.

O presente trabalho tem como cerne de investigação a especiﬁcação de seis novos algoritmos

de comitês de máquinas dirigidos à resolução de problemas de classiﬁcação de padrões. A ideia

é gerar os componentes do ensemble combinando duas técnicas de diversidade complementares:

uma padrão, que é a reamostragem aleatória dos dados, e uma outra que utiliza algoritmos de

aprendizagem heterogêneos. Para o incremento da diversidade através de componentes heterogê-

neos, foram utilizados 10 diferentes tipos de indutores. Como meio de conﬁguração automática

destes componentes, adota-se uma abordagem evolutiva, utilizando um algoritmo genético cus-

CAPÍTULO 1. INTRODUÇÃO 4

tomizado, e uma abordagem construtiva, baseada em um algoritmo de busca gulosa. Para ﬁns de

avaliação do potencial desses novos algoritmos, foi conduzido um estudo empírico sistemático

sobre 18 problemas de classiﬁcação de diferentes níveis de diﬁculdade extraídos do repositório

UCI (ASUNCIóN; NEWMAN, 2007).

Os valores de acuidade obtidos via ensembles heterogêneos evolutivos e construtivos são

analisados com base naqueles produzidos por modelos de ensembles homogêneos compostos

pelos 10 tipos de indutores utilizados, sendo que os resultados obtidos evidenciam ganhos de

desempenho na maioria dos casos por parte de ambas as abordagens.

Este trabalho está dividido em mais quatro capítulos além deste, que cobrem aspectos teóri-

cos e práticos. No Capítulo 2, são discutidos os conceitos básicos da área de Aprendizado de Má-

quina, dando-se ênfase ao tema Comitês de Máquinas. Neste espaço, são discutidos em detalhes

os passos por trás dos métodos de construção de ensembles Bagging, Boosting e MultiBoosting.

No Capítulo 3, são descritas as abordagens evolutiva e construtiva propostas no âmbito desta

pesquisa para a indução de ensembles heterogêneos de componentes treinados via reamostragem

de dados. No Capítulo 4, são explicados os vários experimentos conduzidos dando detalhe sobre

as bases de treinamento e os algoritmos de aprendizado utilizados. É feita uma análise detalhada

dos resultados obtidos levando-se em conta diferentes índices de eﬁcácia, bem como a aplicação

de um teste estatístico. O Capítulo 5 é destinado à conclusão e à discussão de trabalhos futuros.

Capítulo 2

Aprendizado de Máquina

“Cérebros são computadores formados de

carne.”

Marvin Minsky

Cada vez mais estamos procurando resolver problemas do nosso dia-a-dia de forma compu-

tacional. Isso já é bastante visível nas diversas áreas de atuação do conhecimento humano, como

por exemplo: realização de operações bancárias pela internet, comunicação através de telefo-

nia móvel, compras com cartões de crédito e envio de mensagens eletrônicas. Motivadas cada

vez mais pelas facilidades provenientes das aplicações tecnológicas, novas pesquisas vêm sendo

desenvolvidas na tentativa de se utilizar máquinas para realizar tarefas que até então eram de ca-

pacidade exclusivas dos animais na natureza. Dentre elas, podemos mencionar: reconhecimento

visual, processamento de linguagem natural, controle motor, memória, capacidade de abstração

e raciocínio. Essas habilidades, no entanto, são impossíveis de serem alcançadas por técnicas

usuais. Uma das premissas é a necessidade do sistema aprender com o mundo externo, a ﬁm de

resolver um problema-alvo restrito.

Um caso com que frequentemente nos deparamos, mesmo sem que percebamos às vezes,

CAPÍTULO 2. APRENDIZADO DE MÁQUINA 6

é que estamos a todo momento classiﬁcando as coisas. Como exemplo, quando precisamos ir

ao supermercado comprar maçãs, sempre as escolhemos, de todas as disponíveis, avaliando um

conjunto de características ou atributos (tamanho, cor, textura e rigidez) de forma a levarmos as

melhores para casa. Apesar de “melhores maçãs” ser um critério subjetivo, na verdade o que

fazemos no supermercado é classiﬁcar as frutas em duas classes: aquelas que estão e aquelas

que não estão em um estado que satisfaça nossas necessidades. A cada um desses grupos dá-

se o nome de classe, que pode ser representada por valores categóricos

ou contínuos

, e ao

dispositivo responsável pelo processo de classiﬁcação dá-se o nome de classiﬁcador (que no

caso corresponde ao comprador no supermercado).

Aprendizado de Máquina é a sub-área da Inteligência Artiﬁcial destinada a estudar e de-

senvolver sistemas capazes de adquirir por si só o conhecimento de forma automática sobre um

dado domínio com base em experimentos acumulados por meio da resolução bem-sucedida de

problemas neste domínio (MITCHELL, 1997). De uma forma geral, pode-se considerar diferen-

tes tipos de aprendizado, tais como: indutivo, dedutivo, e o baseado em analogia (TAVARES;

LOPES; LIMA, 2007). A indução é a forma de inferência lógica que se caracteriza pelo raciocí-

nio originado em um conceito especíﬁco e que é, em seguida, generalizado, ou seja, caminha-se

da parte para o todo (REZENDE, 2003). A Figura 1 ilustra a hierarquia do aprendizado indutivo.

Figura 1: Hierarquia do aprendizado (REZENDE, 2003).

O aprendizado indutivo é comumente apresentado em duas formas: supervisionado e não-

supervisionado. No aprendizado supervisionado, assim como o próprio nome sugere, existe o

papel de um supervisor responsável por conduzir o aprendiz no decorrer da fase de treinamento.

Os rótulos das classes são indicados por valores textuais.

Os rótulos das classes são indicados por valores numéricos, sejam eles inteiros ou decimais.

2.1 Paradigmas de Aprendizado 7

Uma forma prática de se visualizar esse processo é a partir de um conjunto de exemplos D, Fi-

gura 2 (a), sendo que já se conhece previamente os rótulos das classes Y

∈ {y

,...,y

}. Essa

abordagem é tipicamente usada para resolver problemas de classiﬁcação dos dados, aproxima-

ção de função e modelagem de sistemas. Já no aprendizado não-supervisionado, o supervisor

não se faz presente na fase de treinamento, devendo então o próprio aprendiz ser autônomo e

tentar analisar os exemplos e determinar se alguns deles podem formar de alguma maneira agru-

pamentos ou clusters (CHEESEMAN; STUTZ, 1996). Uma forma prática de se visualizar esse

processo é a partir de um conjunto de exemplos em que os rótulos das classes Y

não são conhe-

cidos previamente, Figura 2 (b). Essa abordagem é comumente aplicada para resolver problemas

de categorização de dados.

Figura 2: Conjunto de exemplos supervisionado (a) e não-supervisionado (b).

2.1 Paradigmas de Aprendizado

A manifestação de inteligência pressupõe a aquisição, o armazenamento e a inferência de co-

nhecimento. Para que o conhecimento possa ser armazenado, é essencial que se possa representá-

lo (FERNANDES, 2005). Existe na literatura uma quantidade signiﬁcativa de ferramentas pode-

rosas para a aquisição automática do conhecimento. Esses algoritmos variam nos seus objetivos,

na disponibilidade de dados de treinamento, nas estratégias de aprendizagem e na linguagem que

empregam para representação do conhecimento. Embora cada algoritmo possua sua particula-

ridade, todos eles aprendem através de buscas em espaço de estados possíveis para encontrar

uma generalização aceitável (LUGER, 2004). Porém, deve-se observar qual o melhor método a

ser utilizado, visto que não existe um algoritmo que seja bom o suﬁciente para qualquer tipo de

problema.

2.1 Paradigmas de Aprendizado 8

Os paradigmas em Aprendizado de Máquina, segundo Mitchell (1997), podem ser organi-

zados em simbólico, estatístico, baseado em exemplos

, conexionista e evolutivo. Os algoritmos

citados nas subseções a seguir foram adotados para realização desta pesquisa.

2.1.1 Simbólico

A ideia geral consiste em construir representações simbólicas de um conceito através da aná-

lise de exemplos e contra-exemplos desse conceito. Existem dois tipos de métodos que atendem

a esse paradigma. Os algoritmos baseados em árvores de decisão, dentre os quais J48, REP Tree

e Decision Stump, e os baseados em regras, dentre os quais OneR, PART e Decision Table.

O algoritmo J48 é uma implementação em Java do algoritmo de árvore de decisão C4.5 (QUIN-

LAN, 1993). Trata-se de uma versão melhorada do algoritmo C4.5, a versão anterior a C5.0, que

é comercial. Gera um modelo em árvore via cálculo da entropia

dos atributos, sendo que cada

folha da árvore resultante representa uma classe e os demais nós especiﬁcam testes condicionais

a serem realizados em um determinado atributo. Cada possível valor de um atributo gera um

ramo na árvore, conforme o exemplo apresentado na Figura 3.

Figura 3: Ilustração de uma árvore de decisão.

O algoritmo REP Tree constrói de forma otimizada e rápida uma árvore de decisão com base

no ganho de informação (QUINLAN, 1992) ordenando os atributos durante o treinamento. Os

Instance based.

A entropia é usada para estimar a aleatoriedade dos valores dos atributos para as classes que eles representam.

2.1 Paradigmas de Aprendizado 9

nós representam decisões que dividem os dados em dois grupos, usando, de todos os atributos

ainda não considerados, o que leva a um ganho maior. As folhas da árvore representam pontos

em que uma classiﬁcação é atribuída. A árvore é então podada, com recurso à técnica de reduced

error pruning (REP), substituindo subárvores por folhas. Se essa substituição reduzir o erro

esperado, minimiza-se a adaptação aos erros (error ﬁtting) e reduz-se a complexidade da árvore.

A nova árvore é então o modelo de classiﬁcador, pronto para ser utilizado sobre novos dados.

O algoritmo Decision Stump constrói uma árvore de decisão simples com um nível binário

e produz classes de probabilidade (WITTEN; FRANK, 2005). Ele é baseado na ideia de ganho

de informação, utilizada no algoritmo C4.5 que divide os conjuntos de dados através do atributo

mais informativo. Este ganho de informação mede o erro após se ter dividido o conjunto de dados

de acordo com os valores do atributo utilizado no nó de decisão. Posteriormente o algoritmo é

avaliado mediante validação cruzada, e o valor obtido é utilizado como atributo para caracterizar

o conjunto de dados.

O algoritmo OneR produz regras simples, fundamentando-se na utilização do classiﬁcador

1R (HOLTE, 1993). O modelo OneR é usado em problemas de classiﬁcação e baseia-se no

pressuposto de que “frequentemente um atributo é suﬁciente para determinar a classe”. O atributo

escolhido pelo OneR é aquele que possuir menor erro. É considerado o algoritmo mais simples.

Como o nome sugere, este sistema “gera” uma regra (One Rule). Em algumas circunstâncias é

tão poderoso quanto algoritmos mais soﬁsticados, como o J48 e o PART.

O algoritmo PART (FRANK; WITTEN, 1998) é um indutor de modelos baseados em regras

de decisão, e utiliza internamente o algoritmo C4.5. Ele constrói árvores de decisão parciais a

cada iteração e transforma a melhor folha da árvore atual em uma regra. Após escolher a melhor

folha, o algoritmo retira todas as instâncias que se encaixem na regra gerada pela folha para gerar

uma nova árvore, e, por conseguinte, uma nova regra. Esse processo é realizado iterativamente

até que não se tenha mais instâncias a serem utilizadas. Como não usa a base inteira para gerar

as árvores, este algoritmo, geralmente, incorre em um bom desempenho computacional quando

da indução do modelo de classiﬁcação.

O algoritmo Decision Table é um indutor de modelos baseados em regras que representam

o conhecimento na forma de tabela (KOHAVI, 1995). Uma tabela de decisão é um modelo

de representação de uma função. Ela permite uma visão tabular da lógica de decisão de um

2.1 Paradigmas de Aprendizado 10

problema. Indica qual o conjunto de condições que é necessário ocorrer para que um determinado

conjunto de ações deva ser executado. Uma tabela de decisão é basicamente composta de: uma

área de condições, onde são relacionadas as condições que devem ser veriﬁcadas para que seja

executado um conjunto de ações; uma área de ações, que exibe o conjunto de ações que deve ser

executado caso um determinado conjunto de condições ocorra; e regras de decisão, representadas

pelas colunas, que apresentam a combinação das condições com as ações a serem executadas.

A Figura 4 apresenta uma ilustração.

Figura 4: Ilustração de uma tabela de decisão.

2.1.2 Estatístico

Neste paradigma, são utilizados modelos estatísticos para encontrar uma boa aproximação

do conceito induzido. Vários desses métodos são paramétricos, assumindo alguma forma de

modelo, e então encontrando valores apropriados para os parâmetros do modelo a partir dos

dados. Um método representativo deste paradigma é o Naïve Bayes.

O algoritmo Naïve Bayes (JOHN; LANGLEY, 1995) é de cunho probabilístico, sendo ba-

seado na estatística bayesiana. O algoritmo assume que os atributos são condicionalmente in-

dependentes, ou seja, a informação representada por um atributo não é informativa sobre a de

nenhum outro. Diz-se que o atributo X

é condicionalmente independente da classe C, dado outro

atributo X

, se a distribuição de probabilidades de X

é independente do valor de C, dado o valor

de X

2.1 Paradigmas de Aprendizado 11

2.1.3 Baseados em Exemplos

A ideia geral consiste em usar a experiência passada, acumulando casos e tentando descobrir,

por analogia, soluções para outros problemas (FERNANDES, 2005). Um método representativo

desse paradigma é o algoritmo IBk, baseado nos conceitos de vizinhança e aprendizado local.

O algoritmo IBk (AHA; KIBLER; ALBERT, 1991) é uma implementação da abordagem

K - nearest neighbors (KNN), sendo classiﬁcado como um algoritmo de aprendizado “pregui-

çoso” (AHA, 1997), haja vista que não gera nenhum modelo a partir dos dados (utiliza apenas as

instâncias em si). Este algoritmo assume que instâncias similares possuam a mesma classiﬁcação

e dependem fortemente da métrica usada como distância. A Figura 5 ilustra uma classiﬁcação

baseada em vizinhança.

Figura 5: Ilustração de uma classiﬁcação baseada em vizinhança.

2.1.4 Conexionista

A ideia geral consiste em construir modelos matemáticos simpliﬁcados inspirados no modelo

biológico do sistema nervoso. O conhecimento é representado como padrões de atividades em

redes de pequenas unidades de processamento individuais. As redes conexionistas aprendem

modiﬁcando sua estrutura e pesos em resposta aos dados de treinamento. Em vez de realizar

uma busca entre as possíveis generalizações fornecidas por uma linguagem de representação

simbólica, os modelos conexionistas reconhecem padrões invariantes em dados e representam

estes padrões dentro da sua própria estrutura (LUGER, 2004). Dentre os métodos que se aplicam

a este paradigma, tem-se os algoritmos baseados em função numérica não linear: redes neurais

2.1 Paradigmas de Aprendizado 12

radial basis function (RBF) e máquinas de vetor suporte treinados via implementação sequential

minimal optimisation (SMO).

Redes neurais RBF constituem um tipo popular de rede neural de três camadas (HARPHAM;

DAWSON; BROWN, 2004). Cada nó da camada intermediária representa a região em torno

de um ponto no espaço de entrada. Sua saída para uma instância apresentada na camada de

entrada depende apenas da distância entre o seu ponto associado e a própria instância de entrada.

Quanto maior a distância, maior a força de ativação do neurônio (HAYKIN, 2001). A camada

intermediária utiliza uma função de ativação de base radial para converter a distância em uma

medida de similaridade. A camada de saída, por sua vez, é responsável por combinar linearmente

as saídas geradas na camada intermediária e gerar a estimação ﬁnal. A Figura 6 ilustra uma

conﬁguração típica dessa rede neural.

Figura 6: Ilustração de uma rede neural artiﬁcial RBF.

SMO é uma abordagem proposta por Platt (1999) para lidar, de maneira escalável, com o

treinamento de máquinas de vetores-suporte (SVM). É a implementação de SVM disponível no

WEKA (WITTEN; FRANK, 2005). Esse algoritmo transforma a saída do classiﬁcador SVM em

probabilidades através da aplicação de uma função sigmóide padrão que não é adaptada (ﬁtted)

aos dados. Essa implementação não é rápida com um espaço de fatores linear, nem com dados

esparsos. Substitui todos os valores que faltarem, transforma atributos nominais em binários e

normaliza todos os valores numéricos.

2.2 Comitês de Máquinas 13

2.1.5 Evolutivo

Este paradigma é derivado do modelo biológico de aprendizado (GOLDBERG, 1989). A

ideia toma como base que as populações evoluíram na natureza de acordo com os princípios de

seleção natural e sobrevivência dos mais aptos, postulados em Darwin (1859). Na natureza, a

combinação de boas características provenientes de diferentes indivíduos pode, às vezes, produ-

zir descendentes cuja adaptação é muito maior que a de seus ancestrais. Dessa forma, as espécies

evoluem características cada vez mais adaptadas ao ambiente em que vivem.

Os Algoritmos Genéticos estabelecidos por Holland (1975) são métodos adaptativos que po-

dem ser usados para resolver problemas de busca e otimização. Trabalham com uma população

de indivíduos, denominados cromossomos, os quais geralmente são gerados aleatoriamente, cada

qual representando uma possível solução para problema. A cada indivíduo se associa um grau

de aptidão (ﬁtness) que reﬂete quão boa é a solução que ele representa para o problema. Os me-

lhores indivíduos têm maior probabilidade de serem selecionados para se reproduzir (crossover)

e gerar descendentes, enquanto os menos aptos tendem a serem eliminados ao longo das gera-

ções. Durante a reprodução, modiﬁcações do material genético dos indivíduos podem acontecer

através de mutações nos valores(alelos) dos genes. Todo o processo se repete até que se alcance

um número limite de gerações.

2.2 Comitês de Máquinas

Comitês de máquinas é uma sub-área de Aprendizado de Máquina que estipula a fusão de

módulos independentes de estimação (denominados de componentes ou especialistas) em busca

de uma decisão global que seja potencialmente mais eﬁcaz. Um trabalho seminal nesta linha foi

conduzido por Hansen e Salamon (1990) envolvendo redes neurais feedforward em problemas

de classiﬁcação binária. Foram apresentadas justiﬁcativas teóricas para a combinação por voto

majoritário de diferentes modelos neurais. Basicamente, os autores apontaram que, se as taxas

de erro relativas a K modelos disponíveis são todas independentemente distribuídas e menores

que 50%, então a probabilidade de que a saída produzida pela fusão esteja errada será menor que

a menor das taxas de erro dos classiﬁcadores atuando isoladamente. Testes empíricos atestaram

os efetivos ganhos de generalização incorridos pela combinação.

2.2 Comitês de Máquinas 14

Embora já encontremos na literatura uma quantidade considerável de algoritmos de apren-

dizagem, Hansen e Salamon (1990) sugerem ainda a utilização desta abordagem mesmo no caso

do comitê inicialmente apresentar um desempenho igual ou inferior a um estimador único. Isso

porque um melhor desempenho ainda pode ser alcançado mediante uma combinação mais apro-

priada dos parâmetros de conﬁguração ou provendo treinamentos individuais com diferentes

sub-conjuntos de dados para cada componente.

Outros autores também justiﬁcam os benefícios da utilização de comitês de máquinas. Como

podemos encontrar em Dietterich (2000a), existem três razões fundamentais pelas quais se deve

utilizar essas técnicas, conforme ilustradas na Figura 7. Um algoritmo de aprendizagem opera

realizando uma busca no espaço H de hipóteses, na tentativa de alcançar uma função objetivo

f desejada. O primeiro motivo é estatístico. Ele acontece quando o tamanho do conjunto de

dados de treinamento é inferior ao tamanho do espaço de hipóteses. Sem um conjunto suﬁciente

de dados, o algoritmo de aprendizagem pode encontrar diferentes hipóteses em H. Na Figura 7

(a) o modelo é treinado pelo subconjunto formado apenas pelas observações restritas à marcação

linear interna. Portanto, várias hipóteses individuais dão a mesma acuidade para base de trei-

namento. Utilizando ensembles com bons classiﬁcadores, o algoritmo pode realizar uma média

das diferentes respostas obtidas pelos classiﬁcadores, reduzindo, dessa forma, o risco de escolher

hipóteses errôneas. O segundo motivo é computacional. Muitos algoritmos trabalham no reﬁ-

namento de uma busca limitada, restringindo-se apenas a um ótimo local. Em casos onde exista

um conjunto de dados de treinamento de tamanho e qualidade suﬁcientes e considerando o pro-

blema estatístico ausente, pode ser muito difícil, em termos computacionais, que o algoritmo de

aprendizado encontre a melhor hipótese. Em redes neurais artiﬁciais, isso ocorre principalmente

pelo fato do treinamento ser NP-Difícil (BLUM; RIVEST, 1988). Na Figura 7 (b), conforme a

linha tracejada, mostra-se a diﬁculdade e os diversos caminhos para um algoritmo de classiﬁca-

ção encontrar a melhor hipótese em H. Com ensembles, a busca é iniciada em diferentes pontos,

permitindo uma melhor aproximação da função objetivo não conhecida. E por ﬁm, há o motivo

representacional. Em muitos algoritmos de aprendizado, uma função f verdadeira não pode ser

representada fora do conjunto de hipóteses em H. Na Figura 7 (c), mostra-se a diﬁculdade de

generalização além dos dados treinados. Ensembles prometem evitar que a representação ﬁque

restrita ao conjunto ﬁnito de hipóteses.

Outras situações em que a utilização de comitês de máquinas são justiﬁcáveis incluem o me-

2.2 Comitês de Máquinas 15

Figura 7: Três razões pelas quais ensembles têm um melhor desempenho que um preditor único.

2.2 Comitês de Máquinas 16

lhor entendimento por parte do projetista do sistema e a questão de tolerância a falhas, visto que

módulos corrompidos podem ser substituídos ou eliminados sem danos maiores para o sistema

como um todo (COELHO, 2004).

Mesmo apresentando essas justiﬁcativas, para se obter os melhores resultados da utilização

de ensembles, faz-se necessário que todos os estimadores tenham perícia na resolução de um

tipo de problema especíﬁco, e que cada um deles mostre-se diverso em relação aos demais, pois

desta forma, surgirá algum tipo de contribuição para a composição da decisão ﬁnal. Neste caso

a diversidade se refere à variação do erro apresentado por cada componente de forma a tratar as

novas instâncias de entrada.

Embora já possamos encontrar várias pesquisas nesta linha, a mesma ainda pode ser consi-

derada recente, e, portanto, existem certas divergências quanto à taxonomia a ser adotada para o

tema. No trabalho de Haykin (2001), o autor sugere uma sub-divisão das abordagens de Comitês

de Máquinas em relação ao tipo de estrutura:

1. Estruturas estáticas – As respostas dos diversos estimadores são combinadas por meio de

um mecanismo que não recebe o sinal de entrada do sistema. Neste grupo são encontrados

os métodos de ensembles, como, por exemplo, Bagging, Boosting e MultiBoosting; e

2. Estruturas dinâmicas – O sinal de entrada está adiante envolvido na atuação do mecanismo

que integra as saídas dos especialistas individuais em uma saída global. Ou seja, os sinais

de entrada são utilizados de forma a determinar quais especialistas são melhores para tratar

as novas entradas. Neste grupo são encontrados a arquitetura mistura de especialistas (ME)

e sua versão hierárquica.

Já em Coelho (2004), são mencionadas duas classes de abordagens muito comuns a serem

discriminadas na literatura:

1. Ensemble de estimadores – Segue a lógica de se fundir apropriadamente o conhecimento

adquirido pelos vários módulos-especialistas, denominados componentes, para se chegar

a uma decisão geral que seja supostamente de qualidade superior àquela alcançável por

qualquer um dos membros do grupo em separado; e

2.2 Comitês de Máquinas 17

2. Sistemas modulares – Uma tarefa complexa passa a ser decomposta em um certo número

de subtarefas, cada uma delas alocada a um subgrupo de especialistas. Isso leva a exigência

de que, para se gerar a solução ﬁnal, será necessário que se produza, primeiramente, as

soluções para todas as subtarefas.

Outros autores como Kuncheva (2000), Valentini e Masulli (2002) consideram os vários

modelos apenas como variações do conceito de ensemble.

Estudos nessa linha de pesquisa vêm ganhando notoriedade nos últimos anos, sendo que

Comitês de Máquinas vêm sendo aplicados com sucesso na resolução de problemas em áreas

de pesquisa distintas, como por exemplo: classiﬁcação de padrões (HUANG et al., 2000), re-

conhecimento de caracteres (HANSEN; LIISBERG; SALAMON, 1992; MAO, 1998), análise

de imagens (CHERKAUER, 1996), diagnóstico médico (ZHOU et al., 2000), regressão de fun-

ção (HASHEM; SCHMEISER, 1995; LIMA; COELHO; ZUBEN, 2002) e predição de séries

temporais (INOUE; NARIHISA, 2004).

2.2.1 Ensembles de Estimadores

Ensemble é um paradigma de aprendizado em que um grupo ﬁnito de propostas alternativas

para a solução de um dado problema, denominados componentes do ensemble, é empregado

em conjunto na proposição de uma única solução para o problema (SOLLICH; KROGH, 1996).

A Figura 8 ilustra uma arquitetura geral para um modelo de ensemble. A partir dessa estrutura,

cada novo padrão de entrada é tratado de forma redundante por diferentes módulos-componentes

(redes neurais, árvores de decisão, etc), os quais produzem individualmente suas estimativas.

Esses resultados, então, são coletados e passados para um módulo de combinação, para dar

origem à decisão consensual ﬁnal. Para se combinar as respostas individuais, é comumente

utilizado, em problemas de classiﬁcação de padrões, o voto majoritário ou ponderado; já em

problemas de regressão, a média simples.

Embora os resultados obtidos das aplicações de ensembles tenham se mostrado bastante

atraentes, vale ressaltar, ainda, que muitos desses resultados provêm de resultados de análises

empíricas. Portanto, algumas explanações teóricas vêm conﬁrmando formalmente o porquê de

se combinar estimadores para proporcionar resultados satisfatórios em termos de acuidade. Um

2.2 Comitês de Máquinas 18

Figura 8: Arquitetura geral para um modelo de ensemble.

dos estudos teóricos foi originalmente conduzido por Naftaly, Intrator e Horn (1997) e citado

por Haykin (2001), tem analisado o ganho de acuidade proporcionado pela combinação dos com-

ponentes em termos de polarização e variância. Tanto a polarização quanto a variância podem

ser vistas como componentes do erro de um estimador. Polarização, também conhecida como

bias, se constitui de certa forma a escolha efetuada pelos indutores na busca de uma hipótese. Ou

seja, a resposta adotada pelos algoritmos de forma a generalizar os dados de treinamento. Já a

variância captura as variações aleatórias de desempenho do algoritmo, de uma amostra para ou-

tra. A variação pode ser devida aos diferentes conjuntos de treinamento, ou pelo comportamento

aleatório do próprio algoritmo de aprendizado.

Considere um único componente que tenha sido treinado sobre um determinado conjunto

de dados D, sendo que F(x) representa a sua função de entrada-saída. Então, com base no

dilema bias-variância (GEMAN; BIENENSTOCK; DOURSAT, 1992; UEDA; NAKANO, 1996;

KOHAVI; WOLPERT, 1996; BREIMAN, 1996b), podemos decompor o erro médio quadrático

entre F(x) e o valor esperado condicional E(y

|x), conforme a Equação (2.1):

[(F(x) −E(y

|x))

] = B

(F(x)) +V

(F(x)) (2.1)

onde B

(F(x)) denota o bias ao quadrado conforme a Equação (2.2), V

(F(x)) denota a

variância, conforme a Equação (2.3).

2.2 Comitês de Máquinas 19

(F(x)) = (E

(F(x)) −E(y

|x))

(2.2)

(F(x)) = E

((F(x) −E

(F(x)))

) (2.3)

Considere a situação em que os componentes tenham conﬁgurações idênticas, mas são trei-

nados a partir de condições iniciais diferentes. Seja I o espaço de todas as condições iniciais e

Ω(x) a média das funções de entrada-saída dos componentes sobre um número “representativo”

de condições iniciais. Podemos representar por analogia o dilema do bias-variância segundo

a Equação (2.4).

[Ω(x) −E(y

|x)

] = B

(F(x)) +V

(F(x)) (2.4)

onde B

(F(x)) denota o bias ao quadrado conforme a Equação (2.5), V

(F(x)) denota a

variância, conforme a Equação (2.6).

(F(x)) = (E

(Ω(x)) −E(y

|x))

(2.5)

(F(x)) = E

((Ω(x) −E

(F(x)))

) (2.6)

Da mesma forma, podemos deﬁnir para um espaço remanescente D



, conforme a Equação

(2.7):



[Ω(x) −E(y

|x)

] = B



(F(x)) +V



(F(x)) (2.7)

onde B



(F(x)) denota o bias ao quadrado sobre o espaço remanescente D



conforme a Equa-

ção (2.8), V



(F(x)) denota a variância, conforme a Equação (2.9).



(F(x)) = (E



(Ω(x)) −E(y

|x))

(2.8)

2.2 Comitês de Máquinas 20



(F(x)) = E



((Ω(x) −E



(F(x)))

) (2.9)

Neste desenvolvimento é importante perceber que E



(Ω(x)) = E

(F(x)). Desta forma

a Equação (2.8) pode ser reescrita conforme a Equação (2.10).



(Ω(x)) = (E

(F(x)) −E(y

|x))

= B

(F(x)) (2.10)

Uma vez que a variância de uma variável aleatória é igual ao valor médio quadrático daquela

variável aleatória menos o seu bias ao quadrado, podemos reescrever a Equação (2.9) como

apresentado na Equação (2.11).



(Ω(x)) = E



((Ω(x))

) −(E



(Ω(x)))

= E



((Ω(x))

) −(E

(F(x)))

(2.11)

De modo similar, podemos redeﬁnir a Equação (2.3) como exibido na Equação (2.12).

(Ω(x)) = E

((Ω(x))

) −(E

(F(x)))

(2.12)

Note que o valor médio quadrático de F(x) sobre o espaço D



é igual ou maior que o valor

médio quadrático de Ω(x) sobre o espaço remanescente D



, ou seja, E

((F(x))

) ≥ E



((Ω(x))

Com base nessa desigualdade, a comparação entre as Equações (2.11) e (2.12) revela que:



(Ω(x)) ≤ V

(F(x)) (2.13)

Podemos concluir das Equações (2.10) e (2.13): (1) o bias da função Ω(x) relativo a uma

máquina de comitê é exatamente o mesmo da função F(x) relativo a um único componente; e (2)

a variância da função Ω(x) é menor que aquela da função F(x).

Na medida em que se considera os componentes individuais, o bias é reduzido às custas da

variância. Consequentemente, a variância é reduzida pela média de ensemble dos componentes

sobre as condições iniciais, deixando o bias invariável.

2.2 Comitês de Máquinas 21

Outras pesquisas (BREIMAN, 1996b; KONG; DIETTERICH, 1995; KOHAVI; WOLPERT,

1996; FRIEDMAN, 1997) propõem diferentes formulações de polarização e variância para o

problema de classiﬁcação, contrapondo que os termos anteriores são apropriados para regressões

numéricas. A não ser que tais problemas de classiﬁcação possam ser reformulados ou adaptados

como problemas de regressão (COELHO, 2006).

Diversidade em Ensembles

Sempre que se menciona o termo ensemble, a questão da diversidade passa a ser obrigato-

riamente relevante. Isso se deve, principalmente, ao fato da diversidade ser um fator primordial

para que o modelo resultante do ensemble proporcione ganho de generalização. Para isso, cada

componente tem que apresentar um bom desempenho quando aplicado isoladamente. Mas por

outro lado, um componente deve apresentar dissimilaridade do erro entre as demais em regiões

distintas do problema, de forma que a diversidade das respostas possam contribuir ou inﬂuenciar

na melhor hipótese. É notável, que se todos os componentes forem treinados de forma seme-

lhante, todos por sua vez, apresentarão também o mesmo comportamento, acarretando penas,

em um aumento no custo computacional, sem resultados práticos de incremento de desempenho.

Existem várias técnicas propostas para se obter a diversidade em ensembles. Na literatura as

mais citadas são:

• Métodos que manipulam os dados de treinamento, ou seja, variam a apresentação dos

dados via estratégias de reamostragem;

• Métodos que atuam sobre o ponto de partida no espaço de hipóteses, ou seja, variam o

ponto de partida no espaço de hipóteses;

• Métodos que manipulam a arquitetura dos componentes, ou seja, variam a arquitetura de

cada componente de forma que diferentes conjuntos de hipóteses estejam acessíveis a cada

um deles;

– Ensembles heterogêneos: cada componente é construído a partir de diferentes algo-

ritmos de aprendizagem (CANUTO et al., 2005, 2007); e

2.2 Comitês de Máquinas 22

• Métodos que atuam sobre a exploração do espaço de hipóteses, ou seja, alteram a explora-

ção do espaço de hipóteses.

Essa pesquisa se propõe a combinar duas das técnicas de diversidade já mencionadas anteri-

ormente: (1) manipulação dos dados de treinamento; e (2) utilização de componentes heterogê-

neos. A combinação de diversidade é aplicada via métodos de ensembles bastante conhecidos:

Bagging, Boosting e MultiBoosting. É válido reforçar ainda que não existem pesquisas que ava-

liem o impacto de se combinar várias técnicas de diversidade em um único modelo de geração

de ensemble.

Diferentes métricas de avaliação do grau de diversidade em ensembles já foram propostas,

podendo estas pertencerem a duas classes distintas (KUNCHEVA; WHITAKER, 2003): Métri-

cas baseadas em medidas par-a-par, que consistem em tomar a média de uma dada métrica de

distância calculada sobre partes de componentes do ensemble, e métricas baseadas em medidas

sobre todo o grupo, que se baseiam em entropia ou na correlação de cada componente com a

saída média do grupo.

Entre as métricas par-a-par, encontra-se a Estatística-Q. Para sua aplicação, a saída de cada

classiﬁcador k é representada por um vetor binário n-dimensional V = {v

,...,v

}, sendo n

correspondente ao tamanho do conjunto de exemplos D. Se a instância D

for classiﬁcada corre-

tamente, então V

= 1, caso contrário, V

= 0. O grau de divergência entre dois classiﬁcadores k

e k



pode ser mensurado mediante a Equação (2.14). O valor de N

corresponde ao número de

amostras classiﬁcadas corretamente por k e k



. N

é o número de amostras classiﬁcadas incorre-

tamente por k e k



. N

é o número de amostras classiﬁcadas corretamente por k e incorretamente

classiﬁcadas pelo classiﬁcador k



. Já N

corresponde ao número de amostras classiﬁcadas in-

corretamente por k e corretamente classiﬁcadas pelo classiﬁcador k



. A Estatística-Q assumirá

valores entre [−1,1].

k,k



− N

+ N

(2.14)

Já a diversidade do ensemble Q(Ω) é dada pela média sobre todos os possíveis acoplamentos

entre pares de componentes (COELHO, 2004), sendo calculado como na Equação (2.15).

2.2 Comitês de Máquinas 23

Q(Ω) =

K(K − 1)

K−1

∑

k=1

∑



=k+1

Q(k, k



) (2.15)

Construção dos Componentes

A construção dos componentes do ensemble preocupa-se em como todos os preditores se-

rão construídos de forma a manterem um nível signiﬁcativo de diversidade entre eles. Dentre

os vários métodos publicados e consagrados na literatura, os algoritmos Bagging e Boosting,

propostos por Breiman (1996a) e Freund e Schapire (1996), respectivamente, são os mais menci-

onados. Eles têm apresentado sucesso na melhoria da acuidade de determinados classiﬁcadores

quando aplicados a conjuntos de testes reais e artiﬁciais. Também podemos encontrar pesqui-

sas recentes que utilizam como objeto de estudo o algoritmo MultiBoosting (WEBB, 2000), que

combina algumas características dos algoritmos antes mencionados.

O algoritmo Bagging é baseado na ideia de Bootstrap Aggregating (EFRON; TIBSHIRANI,

1993). Ele provê a diversidade, lançando-se mão do conceito de redistribuição aleatória dos

dados. Ou seja, para um conjunto de dados de treinamento D de tamanho n, é gerado, por

reamostragem uniforme, um sub-conjunto de dados D



de tamanho n



, sendo que n



é igual a

n. Desse modo, uma instância do conjunto de dados de treinamento tem uma probabilidade de

1 − (1− 1/n)

de ser selecionada, permitindo assim que 63.2% do novo conjunto de dados seja

composto de amostras únicas e o restante de valores duplicados (BAUER; KOHAVI, 1998). Não

há praticamente nenhuma chance dos conjuntos de dados gerados serem idênticos.

Mesmo garantindo a diversidade através da reamostragem, Breiman (1996a) ainda sugere

para o melhor desempenho do ensemble via algoritmo Bagging, a utilização de estimadores ins-

táveis, como por exemplo: modelos neurais, árvores de decisão, árvores de regressão, e modelos

de regressão linear (HASTIE; TIBSHIRANI; FRIEDMAN, 2001). Esses algoritmos são consi-

derados instáveis pelo fato de serem sensíveis a pequenas mudanças nos dados de treinamento.

O Algoritmo 1 detalha seu funcionamento. Na linha 1, é iniciado o contador da iteração,

que representa o índice do componente. Na linha 2, a execução é mantida até que se complete

o número de componentes pré-determinado K. Na linha 3, é iniciado o contador auxiliar para

construção do sub-conjunto de treinamento. Na linha 4, a execução é mantida até que se com-

2.2 Comitês de Máquinas 24

plete o tamanho de amostras do conjunto original de treinamento. Na linha 5, é escolhida uma

amostra do conjunto original de treinamento de forma aleatória. Na linha 6, a amostra escolhida

é adicionada ao sub-conjunto de treinamento. Na linha 7, a variável de controle i é incremen-

tada. Na linha 9, o componente γ

é treinado com o sub-conjunto de dados gerado D



. E por

ﬁm, na linha 10, a variável de controle de iteração k é incrementada. A saída é a resposta dos

componentes que tiver o maior número de votos.

Algoritmo 1 Bagging

Entrada: Γ (indutor instável), D (repositório de dados de tamanho n), C = {Y

,...,Y

} (con-

junto de rótulos das classes) e K (número de iterações).

Saída: Ω(z) = arg max

∑

k=1

(z,y) para y ∈ C , onde γ

(z,y) =



1 se γ (z)

= y

0 caso contrário

(voto ma-

joritário).

Computação:

1: k ← 1;

2: while (k ≤ K) do

3: i ← 1;

4: while (i ≤ n) do

5: t ← AMOSTRAGEM_ALEATÓRIA(D);

6: D



← D





{t};

7: i ← i + 1;

8: end while

9: γ

← Γ(D



);

10: k ← k + 1;

11: end while

A Figura 9 ilustra graﬁcamente a execução do processo de criação de um ensemble homogê-

neo via algoritmo Bagging.

Bagging tem se mostrado estável quando aplicado em conjunto de dados ruidosos, e também

tem se mostrado atrativo no que se refere à questão de diminuição da variância (COELHO,

2004; KOTSIANTIS; PINTELAS, 2004). Um outro ponto a receber atenção com a utilização

desta técnica é que a construção dos componentes pode ser realizada paralelamente, podendo ser

beneﬁciada pelos recursos provenientes da computação distribuída.

O algoritmo Boosting, concebido por Schapire (1990) e também referenciado por Breiman

(1998) como Arcing

, é semelhante ao Bagging no quesito reamostragem dos dados. Porém,

Derivado de adaptive resampling and combining.

2.2 Comitês de Máquinas 25

Figura 9: Processo de criação de um ensemble via algoritmo Bagging.

apresenta um diferencial sutil. Ele não utiliza um conjunto de dados de treinamento via rea-

mostragem aleatória uniforme. Isso caracteriza, portanto, que a distribuição de probabilidade

associada a cada um dos novos conjuntos passa a ser ajustada adaptativamente e é dita ser uma

representação viesada

da distribuição original (COELHO, 2004). À medida que casos de trei-

namento forem preditos incorretamente, os mesmos passam a ter maior probabilidade de serem

integrados a um novo conjunto de dados para geração do próximo componente, de modo que os

últimos estimadores na sequência, geralmente, deverão arcar com regiões mais complicadas do

espaço de atributos (COELHO, 2004).

Existem diferentes variações da ideia de Boosting. De acordo com Haykin (2001), elas se

distinguem em três modos de implementação:

1. Filtragem – É uma abordagem, originalmente descrita por Schapire (1990), que envolve

ﬁltrar as instâncias de treinamento por diferentes versões de um algoritmo de aprendizado

fraco (KEARNS; VALIANT, 1988). Essa abordagem assume a disponibilidade de uma

grande (em teoria, inﬁnita) fonte de instâncias, com as instâncias sendo descartadas ou

mantidas durante o treinamento. Uma vantagem é a baixa requisição de memória compa-

rada às outras abordagens.

Citados em alguns artigos como Overrepresentation.

2.2 Comitês de Máquinas 26

2. Subamostragem – É uma abordagem que trabalha com uma instância de treinamento de

tamanho ﬁxo. As instâncias são amostradas novamente durante o treinamento, de acordo

com uma determinada distribuição de probabilidade. O erro é calculado em relação à

amostra de treinamento ﬁxo.

3. Ponderação – É uma abordagem que trabalha com uma amostra de treinamento ﬁxo, mas

assume que o algoritmo de aprendizagem fraca pode receber exemplos “ponderados”. O

erro é calculado em relação às instâncias ponderadas. O algoritmo AdaBoost

(FREUND;

SCHAPIRE, 1995) se enquadra nesse contexto.

No algoritmo AdaBoost.M1 (FREUND; SCHAPIRE, 1996, 1999), para um conjunto de da-

dos de treinamento D de tamanho n, cada instância d recebe um peso inicial w

= 1/n. O primeiro

classiﬁcador é treinado com todas as amostras. Em seguida, é testado utilizando as mesmas ins-

tâncias. Às amostras que forem classiﬁcadas erroneamente, é acrescido o valor do seu peso, e

para as classiﬁcadas corretamente, os pesos são mantidos. O classiﬁcador que acertar as ins-

tâncias mais difíceis receberá um peso maior. Esse procedimento ocorrerá até se completar K

componentes (valor informado previamente), ou quando ε

≤ 0 ou ε

≥ 0,5, sendo ε

o erro

agregado. O resultado ﬁnal é obtido por um voto ponderado de todos os componentes.

O Algoritmo 2 detalha seu funcionamento. Na linha 1, é iniciado o contador da iteração,

que representa a quantidade de componentes. Nas linhas 2 a 4, cada amostra d

recebe um

peso w

inicial igual a 1/n. Na linha 5, a execução é mantida até que se complete o número

de componentes pré-determinado K. Na linha 6, o componente γ

é construído e treinado com

o conjunto de treinamento completo. Na linha 7, é calculado o erro ε

baseado nas amostras

classiﬁcadas erroneamente. Na linha 8, é tratada uma condição de parada: caso o erro ε

≤ 0 ou

≥ 0,5 a construção dos componentes é interrompida antes de se completar o total de iterações

K. Na linha 11, é calculado o peso α

do componente k. Nas linhas 12 a 14, os pesos das amostras

estimadas erroneamente w

são ajustados. A função I(.) retorna 1 se a condição for verdadeira,

ou 0 caso contrário. É importante observar que o peso da amostra é ajustado com base no peso

do componente α

. Ou seja, se o componente for muito bom e não acertar determinada amostra

d, isso indica que a amostra é muito difícil, e sofrerá um ajuste mais signiﬁcativo.

Derivado de Adaptive Boosting.

2.2 Comitês de Máquinas 27

Algoritmo 2 AdaBoost.M1

Entrada: Γ (indutor fraco), D (repositório de amostras {(x

)}

i=1

), C = {Y

,...,Y

} (con-

junto de rótulos das classes) e K (número de iterações).

Saída: Ω(z) = arg max

∑

k:γ

k(z)

(voto ponderado).

Computação:

1: k ← 1;

2: for i = 1 to n do

3: w

;

4: end for

5: while (k ≤ K) do

6: γ

← Γ(D,{w

,...,w

});

7: ε

←

∑

i=1

I(y

=γ

))

∑

i=1

;

8: if 0 ≤ ε

≥ 0.5 then

9: break;

10: end if

11: α

← log(

1−ε

);

12: for i = 1 to n do

13: w

i(k+1)

= w

.exp[α

.I(y

= γ

))];

14: end for

15: end while

2.2 Comitês de Máquinas 28

A Figura 10 ilustra graﬁcamente a execução do processo de criação de um ensemble homo-

gêneo via algoritmo Boosting.

Figura 10: Processo de criação de um ensemble via algoritmo Boosting.

O algoritmo Boosting, assim como Bagging, apresenta uma redução signiﬁcativa em ter-

mos da variância; porém, o seu desempenho quando aplicado a dados ruidosos geralmente não

é bom (DIETTERICH, 2000b). Isso já era esperado, visto que, como os estimadores individuais

são treinados hierarquicamente (COELHO, 2004) ao passo que são construídos, os mesmos vão

se especializando em áreas do espaço de atributos que provavelmente dispõem de valores cor-

rompidos, levando à perda de acuidade. Por outro lado, Boosting geralmente apresenta, quando

o problema de ruído é ausente, ganhos signiﬁcativos em termos de controle do bias (COELHO,

2004; KOTSIANTIS; PINTELAS, 2004).

Contrastando as vantagens e limitações de cada algoritmo mencionado, um dos pontos posi-

tivos mais citados para Bagging é a redução da variância, ao passo que para Boosting é a redução

tanto da variância como do bias. Já um ponto negativo bastante questionado para Boosting é o

fato dele se mostrar sensível a conjuntos de dados ruidosos. Na tentativa de se combinar as van-

tagens e ao mesmos tempo tentar minimizar as limitações desses métodos, Webb (1998) propôs

a ideia de se combinar Bagging e Boosting para a formação de sub-comitês, cuja denominação

atribuída foi a de Boosting Múltiplos (ZHENG; WEBB, 1998).

2.2 Comitês de Máquinas 29

O algoritmo MultiBoostAB (WEBB, 2000) é uma técnica que combina AdaBoost e Wagging.

Wagging é uma variação do Bagging que utiliza instâncias de treinamento com diferentes pesos

gerados a partir de uma distribuição de posição contínua. Cada instância d recebe um valor

aleatório, conforme a Equação (2.16):

Poisson(d) = −log(

Random(1...999)

1000

) (2.16)

Todo o processo de construção e combinação dos votos é semelhante ao AdaBoost; apenas

os pesos das instâncias é que são calculados aleatoriamente inicialmente para cada sub-comitê.

O Algoritmo 3 detalha o seu funcionamento. Nas linhas 3 a 5, indica-se que inicialmente os

pesos w

das instâncias são calculados aleatoriamente. Na linha 10, é realizado o controle do

sub-comitê mantendo o tamanho de acordo com o parâmetro S. Ou seja, caso o contador s atinja

o tamanho máximo de sub-comitês discriminado por S, o peso w

das instâncias é re-gerado

conforme apresentado nas linhas de 11 a 13. E logo em seguida, o contador s é iniciado para o

valor 1, como ilustrado na linha 14. Enquanto a condição da linha 10 não for satisfeita, novos

componentes serão construídos para um novo sub-comitê. É utilizado o ajuste do peso w

das

amostras semelhante ao algoritmo AdaBoosting.M1. Conforme representado nas linhas 16 a 18.

Já na linha 19, é incrementado o tamanho do sub-comitê.

A Figura 11 ilustra graﬁcamente a execução do processo de criação de um ensemble homo-

gêneo via algoritmo MultiBoosting.

MultiBoosting tende a apresentar maior acuidade em relação ao Bagging, pelo fato de prover

o incremento da diversidade e ainda ampliar a independência dos membros do comitê. Ao mesmo

tempo, mostra-se mais estável que Boosting; isso porque MultiBoosting quebra o processo de

criação dos componentes em processos menores, no caso, em sub-comitês (ZHENG; WEBB,

1998). Assim como Bagging, MultiBoosting é propício de ser utilizado de forma distribuída.

2.2 Comitês de Máquinas 30

Algoritmo 3 MultiBoostAB

Entrada: Γ (indutor fraco), D (repositório de amostras {(x

)}

i=1

), C = {Y

,...,Y

} (con-

junto de rótulos das classes), K (número de iterações) e S (Tamanho do sub-comitê).

Saída: Ω(z) = arg max

∑

k:γ

k(z)

(voto ponderado).

Computação:

1: k ← 1;

2: s ← 1;

3: for i = 1 to n do

4: w

= −log(

Random(1...999)

1000

);

5: end for

6: while (k ≤ K) do

7: γ

← Γ(D,{w

,...,w

});

8: ε

←

∑

i=1

I(y

=γ

))

∑

i=1

;

9: α

← log(

1−ε

);

10: if s = S then

11: for i = 1 to n do

12: w

i(k+1)

= −log(

Random(1...999)

1000

);

13: end for

14: s ← 1;

15: else

16: for i = 1 to n do

17: w

i(k+1)

= w

.exp[α

.I(y

= γ

))];

18: end for

19: s ← s + 1;

20: end if

21: end while

2.3 Síntese do Capítulo e Considerações Finais 31

Figura 11: Processo de criação de um ensemble via algoritmo MultiBoosting.

2.3 Síntese do Capítulo e Considerações Finais

O objetivo principal deste capítulo é permitir que o leitor se familiarize sobre o tema de

Aprendizado de Máquina. Foi discutido o conceito de aprendizado indutivo supervisionado para

resolver problemas de classiﬁcação de padrão (TAVARES; LOPES; LIMA, 2007).

Na sequência, mencionamos cinco paradigmas de aprendizado de máquina: simbólico, es-

tatístico, baseado em exemplos, conexionista e evolutivo (MITCHELL, 1997). No paradigma

simbólico foram discutidos os algoritmos baseados em árvores de decisão, dentre eles: J48; REP

Tree e Decision Stump; e os algoritmos baseados em regras: OneR, PART e Decision Table. Para

o paradigma de aprendizado estatístico foi discutido o algoritmo Naïve Bayes que é baseado em

estatística bayesiana. Já para o paradigma baseado em exemplos foi apresentado o algoritmo

IBK que segue os conceitos de vizinhança e aprendizado local. Para o paradigma conexionista,

os métodos aplicados são baseados em algoritmos de função numérica não linear, dentre eles: re-

des neurais RBF e máquinas de vetores suporte. E por ﬁm, o paradigma evolutivo que menciona

conceitos sobre Algoritmos genéticos.

Por último, discutimos o tema ensembles (HANSEN; SALAMON, 1990), bem como uma

métrica de cálculo de níveis de diversidade dos componentes mediante Estatística-Q. Dos méto-

2.3 Síntese do Capítulo e Considerações Finais 32

dos de construção adotados, foram mencionados os algoritmos Bagging, Boosting e MultiBoos-

ting.

Todos os algoritmos de aprendizagem aqui estudados serviram de objeto de estudo, e serão

aplicados no Capítulo 3, onde discutiremos em detalhes duas abordagens propostas (evolutiva e

construtiva) para conﬁgurações heterogêneas de ensembles de classiﬁcadores.

Capítulo 3

Conﬁguração Heterogênea de Ensembles de

Classiﬁcadores

“As nossas necessidades nos unem, mas

as nossas opiniões nos separam.”

Marquês de Maricá

Este capítulo é dedicado à apresentação das propostas dessa pesquisa para a conﬁguração

automática de modelos heterogêneos de ensembles de classiﬁcadores a serem induzidos por três

métodos conhecidos baseados em reamostragem dos dados: Bagging, Boosting e o MultiBoos-

ting. Como a conﬁguração adequada de M = 10 diferentes tipos de algoritmos de aprendizado

que se pode adotar em um ensemble de K componentes depende do problema de estimação em

questão, passou-se a modelá-la como um problema típico de otimização combinatória (particu-

larmente, como um problema de alocação). Dado que o espaço de busca de conﬁgurações fac-

tíveis é de grandeza exponencial (O(K

)), a resolução desse problema via métodos tradicionais

torna-se intratável computacionalmente, o que nos motivou a lançar mão de duas abordagens:

uma abordagem evolutiva e uma outra construtiva.

3.1 Abordagem Evolutiva 34

3.1 Abordagem Evolutiva

Algoritmos evolutivos, dentre os quais Algoritmos Genéticos (AG) (EIBEN; SMITH, 2003),

representam uma classe de métodos meta-heurísticos de busca e otimização inspirados nos me-

canismos evolutivos naturais. Seguem de perto os princípios do Neodarwinismo, que advoga

“quanto melhor um indivíduo se adaptar ao seu meio ambiente, maior será à sua chance de so-

breviver e gerar descendentes”. A aplicação de técnicas evolutivas no contexto de ensembles

vem aumentando nos últimos anos, sendo que uma revisão de diferentes abordagens pode ser

encontrada em Coelho (2004).

No que segue, são descritos os componentes conceituais do AG modiﬁcado proposto aqui.

Cada indivíduo (solução) da população é composto por K genes, sendo que o valor assumido

pelo k-ésimo gene indica qual dos indutores será usado para gerar o k-ésimo componente do

ensemble sobre o k-ésimo conjunto de dados produzido via reamostragem, conforme represen-

tado na Figura 12. A codiﬁcação dos indivíduos é, portanto, vetorial e inteira, sendo que cada

elemento assume um valor (alelo) dentre M + 1 possíveis. Os valores são representados de 1 a

10, os quais indicam, respectivamente, os indutores: RBF, J48, SMO, Naïve Bayes, IBk, REP

Tree, Decision Stump, OneR, PART e Decision Table. Além de um alelo representando cada um

dos M(= 10) tipos de indutor, existe um reservado, indicado pelo valor 0, para a possibilidade de

poda; ou seja, caso esse alelo especial apareça na k-ésima posição, isso indicará que o k-ésimo

componente não será gerado. Essa ideia de poda de componentes (INOUE; NARIHISA, 2004)

é comumente usada em uma etapa posterior à geração dos componentes, denominada de sele-

ção — por exemplo, Kim e Oh (2008) utilizaram um AG híbrido para esse ﬁm. A abordagem

adotada aqui, por sua vez, é diferente, uma vez que realiza as etapas de geração e seleção (poda)

conjuntamente via um único AG.

Para ﬁns de avaliação da qualidade dos indivíduos, adotou-se como função de ﬁtness uma

combinação linear convexa entre dois termos: o primeiro relativo à taxa de erro de validação

cruzada, produzida pelo modelo de ensemble resultante (como descrito no Capítulo 4), e o se-

gundo relativo à complexidade do modelo. Assim, quanto menor for o erro de validação cruzada

e o número de componentes de um dado modelo de ensemble, maior será o seu grau de aptidão

(trata-se, por tanto, de um problema de minimização). O que se espera é que, ao ﬁnal do processo

evolutivo, ensembles diversos e parcimoniosos sejam obtidos (COELHO, 2004).

3.1 Abordagem Evolutiva 35

Figura 12: Representação de uma população de indivíduos (Soluções).

Com relação à população inicial, esta é gerada aleatoriamente. Tanto para ﬁns de seleção de

indivíduos para reprodução em uma geração, como para substituição dos indivíduos entre gera-

ções, foi utilizado o operador da roleta, ilustrado na Figura 13, que é de natureza estocástica (EI-

BEN; SMITH, 2003). Por outro lado, para a geração de novos indivíduos via recombinação,

adotou-se o operador de crossover de um ponto, conforme representado na Figura 14.

Figura 13: Ilustração do operador de seleção (Roleta).

O operador de mutação simples (creep) foi adotado para ﬁns de modiﬁcação do material

genético dos novos indivíduos produzidos, como meio de se garantir diversidade na população.

A Figura 15 apresenta seu funcionamento (EIBEN; SMITH, 2003). O critério de parada usado

foi o de se atingir um número máximo preﬁxado de gerações.

3.1 Abordagem Evolutiva 36

Figura 14: Ilustração do operador de cruzamento de um ponto.

Figura 15: Ilustração do operador de mutação.

O Algoritmo 4 detalha o funcionamento da abordagem evolutiva para conﬁguração de en-

semble heterogêneo. Na linha 1, o contador de iterações é iniciado. Na linha 2, são gerados todos

os indivíduos da população de forma aleatória. As linhas 3 e 6 são responsáveis pela geração da

população de modelos heterogêneos de ensembles. Mais especiﬁcamente, na linha 4 um ensem-

ble é construído a partir da conﬁguração representada pelo cromossomo associado, enquanto,

na linha 5, o indivíduo (ensemble) é avaliado através de validação cruzada (cross validation) do

modelo resultante. As linhas 7 a 16 representam as iterações do processo evolutivo. Na linha

9, é aplicado o operador de seleção, que escolhe probabilisticamente os indivíduos mais aptos a

serem combinados. Na linha 10, é aplicado o operador de cruzamento sobre os indivíduos seleci-

onados. Na linha 11, é aplicado o operador de mutação sobre alguns indivíduos aleatoriamente.

Da linha 12 a 15, todos os indivíduos são reavaliados quanto à sua aptidão. O processo é repetido

até que se consiga chegar ao número máximo de gerações.

3.1 Abordagem Evolutiva 37

Algoritmo 4 Algoritmo ensemble evolutivo

Informação: Seja P(t) a população de tamanho I na geração t, em que cada indivíduo é repre-

sentado por um cromossomo Γ (vetor de inteiros) de tamanho K.

Saída: Modelo de ensemble heterogêneo Γ que apresentou melhor acuidade (Problema de mini-

mização).

Computação:

1: t ← 1;

2: GERAR_POPULAÇÃO_INICIAL(P(t));

3: for i = 1 to I do

4: γ

← CONSTRUÇÃO_ENSEMBLE(Γ(i));

5: AVALIAR(γ

);

6: end for

7: while (t ≤ T ) do

8: t ← t + 1;

9: SELEÇÃO(P(t));

10: CRUZAMENTO(P(t));

11: MUTAÇÃO(P(t));

12: for i = 1 to I do

13: γ

← CONSTRUÇÃO_ENSEMBLE(Γ(i));

14: AVALIAR(γ

);

15: end for

16: end while

3.2 Abordagem Construtiva 38

3.2 Abordagem Construtiva

A Teoria Psicológica Construtivista, proposta por Piaget (1979) e citada em Bastos (2007),

deﬁne o conhecimento como fruto de ações mútuas indissociáveis entre sujeito e meio. Nesta

concepção, não há ênfase nas experiências adquiridas (empirismo) e nem na bagagem hereditária

(inatismo), mas sim na relação e interação entre esses dois elementos.

O desenvolvimento do conhecimento construtivista de Piaget tem base nos mecanismos co-

nhecidos como assimilação e acomodação. A assimilação constitui em uma tentativa de integrar

as novas experiências do sujeito em suas estruturas cognitivas previamente construídas. Já a

acomodação consiste na modiﬁcação progressiva de suas estruturas cognitivas, uma vez que a

organização do sujeito não é capaz de lidar com uma determinada situação que o meio impõe.

Portanto, o sujeito está a todo instante realizando assimilações e acomodações, na busca por um

equilíbrio cognitivo.

Esta concepção construtivista da inteligência foi reconhecidamente trazida ao campo cien-

tíﬁco da Inteligência Artiﬁcial no trabalho de Drescher (1991). A IA Construtivista, como é

denominada na literatura, em linhas gerais, engloba todo os trabalhos que fazem referência à

Teoria Psicológica Construtivista. Recentemente, vários esforços foram realizados na concepção

de ensembles segundo este paradigma, como, por exemplo, em Liu et al. (2005) e Akhand e

Murase (2007).

Na abordagem construtiva, a maneira mais fácil de se implementar uma busca heurística

é através de um procedimento comumente adotado na literatura com a denominação de Busca

Gulosa (LUGER, 2004). É um método baseado na ideia de que o objetivo deve ser atingido com

o menor número de passos possíveis (FERNANDES, 2005), ou seja, é capturado um bom estado

vizinho sem decidir com antecedência para onde irá em seguida.

Os algoritmos gulosos frequentemente funcionam muito bem, visto que progridem com

grande rapidez em direção a uma solução melhor (RUSSELL; NORVIG, 2004). É notável per-

ceber a facilidade no funcionamento de um algoritmo guloso porque, normalmente, é bem mais

fácil melhorar um estado atual. Por outro lado, em alguns casos, esta técnica ﬁca limitada a

máximos locais e platôs.

Com base nesses conceitos, foram criados nesta pesquisa três novos modelos de comitês de

3.2 Abordagem Construtiva 39

máquinas, os quais denominamos de Bagging Construtivo, Boosting Construtivo e MultiBoosting

Construtivo. Diferentemente da abordagem evolutiva, esta abordagem tenta construir um comitê

de forma incremental e determinística; ou seja, o modelo de ensemble inicia com apenas um

componente e, à medida que o acréscimo de novos elementos levar a um ganho de desempenho,

o processo continuará. Se durante a inclusão de um novo componente obtem-se um desempenho

inferior ao da estrutura atual, o processo é interrompido, e a conﬁguração anterior é restaurada

(backtracking). A Figura 16 ilustra o funcionamento. Na iteração 1, é construído um ensemble

com apenas um componente. O modelo é testado individualmente com os 10 tipos de algoritmo

de aprendizagem utilizados nesta pesquisa. O tipo de algoritmo de aprendizagem que apresen-

tar melhor desempenho será escolhido para ser mantido na posição corrente, que, na primeira

iteração, corresponde ao primeiro componente. Na iteração 2, segue-se a mesma ideia do caso

anterior para a escolha do tipo de componente. Mas, nesse caso, o teste é realizado com um

ensemble formado por 2 componentes, mantendo-se sempre o componente escolhido na iteração

anterior. Esse processo ocorrerá até se completar a quantidade pré-determinada de iterações K,

ou até quando não conseguir melhorar mais o desempenho adicionando um novo componente.

Figura 16: Execução da abordagem construtiva.

O Algoritmo 5 apresenta um pseudocódigo para construção de um ensemble heterogêneo

construtivo. Na linha 1, é iniciado um vetor para tipos de componentes. Da linha 2 a 16, é

realizada uma iteração para construir um novo modelo de ensemble composto por mais um com-

ponente. Na linha 3, a variável tipo guarda o tipo de componente k a ser escolhido. Na linha 4,

a variável cross guarda o valor da validação cruzada do ensemble resultante. Da linha 5 a 14, é

3.2 Abordagem Construtiva 40

iniciada uma iteração para testar os modelos de ensembles formados pela inclusão do k-ésimo

componente a ser induzido pelos 10 tipos de algoritmos de aprendizagem. Na linha 7, o vetor

de componentes recebe o tipo de algoritmo de aprendizagem que vai ser usado na posição k.

Na linha 8, é construído um ensemble com o novo componente adicionado. Na linha 9, é cal-

culado o erro de validação cruzada obtido pelo modelo gerado. Na linha 10, é veriﬁcado se a

escolha do componente apresentou maior ganho de acuidade. Caso aﬁrmativo, nas linhas 11 e

12 são armazenados o tipo e valor de erro da validação cruzada relativos ao modelo. E por ﬁm,

na linha 15, o tipo de componente que proporcionou melhor acuidade, dentre os 10 algoritmos

de aprendizagem, é guardado na posição k do vetor de componentes. O tipo do algoritmo de

aprendizagem alocado em uma posição k não pode mais ser alterado quando se for construir o

componente relativo à posição k + 1.

Algoritmo 5 Algoritmo ensemble construtivo

Informação: Seja o modelo de ensemble Γ representado por um vetor inteiro de tamanho K.

Saída: Modelo de ensemble heterogêneo Γ que apresentou melhor acuidade (Problema de mini-

mização).

Computação:

1: componentes[];

2: for k = 1 to K do

3: tipo = 0;

4: cross = -1;

5: for i = 1 to 10 do

6: // i corresponde aos possíveis tipos de algoritmos de aprendizagem.

7: componentes[k] ← i;

8: γ

← CONSTRUÇÃO_ENSEMBLE(componentes);

9: ε

← VALIDAÇÃO_CRUZADA(γ

);

10: if (ε

< cross) or (ε

= −1) then

11: tipo ← i;

12: cross ← ε

;

13: end if

14: end for

15: componentes[k] ← tipo;

16: end for

3.3 Trabalhos Relacionados 41

3.3 Trabalhos Relacionados

Estudos com ensembles heterogêneos apontam que o uso de diferentes tipos de algoritmos de

aprendizagem podem levar a componentes com diferentes especialidades e níveis de acuidade,

explorando diferentes regiões do espaço. Uma vez que dois sistemas cuja representação do

problema e busca sejam diferentes, os mesmos podem apresentar diferentes desempenhos, e

com isso, diferentes padrões de generalização (COELHO, 2006).

No trabalho de Woods, Jr. e Bowyer (1997), os autores utilizaram como componentes redes

neurais, classiﬁcadores do tipo k-nearest neighbour, árvores de decisão e classiﬁcadores quadrá-

ticos bayesianos. Para cada componente, utilizaram a estimativa de sua precisão local no espaço

de atributos para escolher qual desses componentes seriam responsáveis pela resposta para uma

nova entrada. Em Wang, Jones e Partridge (2000), os autores utilizaram como componentes redes

neurais e árvores de decisão, chegando à conclusão de que os melhores desempenhos são obtidos

com um número de redes neurais maior que o de árvores de decisão, mas com pelo menos uma

árvore no ensemble. Langdon, Barrett e Buxton (2002) também utilizaram redes neurais e árvo-

res de decisão em seus experimentos, mas aplicaram Programação Genética (KOZA, 1992) para

evoluir uma regra de combinação dos indivíduos. Já Tsoumakas, Angelis e Vlahavas (2005) pro-

põem o uso de um modelo estatístico de seleção de componentes em um ensemble submetidos à

combinação por voto ponderado. Foram utilizados dez tipos de indutores, entre eles tabela de de-

cisão, classiﬁcadores baseados em regras (JRip e PART), classiﬁcadores baseados em vizinhança

(IBk e K*), Naïve Bayes, máquinas de vetor suporte via algoritmo SMO, redes neurais do tipo

RBF e MLP. No trabalho de Soares et al. (2006), os autores utilizaram como componentes redes

neurais do tipo MLP, redes neurais do tipo RBF, classiﬁcadores Naïve Bayes, máquinas de ve-

tores suporte e classiﬁcadores baseados em aprendizado de regras proposicionais, e propuseram

duas técnicas de seleção de componentes (baseadas em algoritmo de agrupamento e k-nearest

neighbours respectivamente) que buscam não apenas reduzir o erro do ensemble, mas também

aumentar a diversidade de seus componentes. Em Canuto et al. (2005), foi realizado um estudo

em relação aos níveis de desempenhos e de diversidade de modelos híbridos e não-híbridos de

ensemble. Foram utilizados indutores de redes neurais artiﬁciais (MLP), Naïve Bayes, k-nearest

neighbours, máquinas de vetor suporte e Fuzzy MLP. Os valores de desempenho também são

analisados via cinco técnicas de combinação, entre métodos de fusão e métodos de seleção. Em

3.3 Trabalhos Relacionados 42

outra pesquisa, Canuto et al. (2007) realizaram uma investigação da inﬂuência na escolha de

tipos de componentes, tamanho e diversidade de modelos de ensemble híbridos e não-híbridos.

Foram utilizados sete tipos de indutores: redes neurais artiﬁciais do tipo MLP; Fuzzy MLP; redes

neurais do tipo RBF; máquinas de vetor suporte; (k-nearest neighbours), árvore de decisão J48,

e o algoritmo baseado em regras proposicionais JRip. Finalmente, o trabalho de Bian e Wang

(2007) avalia níveis de diversidade e acuidade de tipos genéricos de ensembles homogêneos e

heterogêneos. Foram utilizados dez tipos de indutores: árvores de decisão C4.5 e Random Forest,

Naïve Bayes e Bayes network, redes neurais do tipo MLP e RBF, máquinas de vetor suporte, clas-

siﬁcadores baseados em vizinhança IBk e classiﬁcadores baseados em regras PART e Decision

table.

Todos os trabalhos aqui citados abordam, assim como este, o tema ensemble heterogêneo.

Já nos trabalhos de Woods, Jr. e Bowyer (1997), Langdon, Barrett e Buxton (2002), Tsoumakas,

Angelis e Vlahavas (2005, 2005), Soares et al. (2006), de uma forma geral, os autores apresen-

tam diferentes métodos para seleção de componentes, diferindo do aqui apresentado. Os métodos

propostos neste trabalho realizam conjuntamente as etapas de geração e seleção (poda). No tra-

balho de Wang, Jones e Partridge (2000), os autores também utilizam um modelo evolutivo para

combinação de diferentes tipos heterogêneos de indutores. Mas, por outro lado, só foram utili-

zados dois tipos de indutores, enquanto neste trabalho foram utilizados 10 diferentes tipos. No

trabalho de Canuto et al. (2005, 2007), os autores realizaram vários estudos em relação à esco-

lha de tipos de componentes e métodos de combinação para modelos híbridos e não-híbridos,

porém, a escolha dos componentes é realizada manualmente. Neste trabalho, aplicam-se duas

abordagens, uma evolutiva e uma outra construtiva, para conﬁguração automática dos compo-

nentes do ensemble. E por ﬁm, o trabalho de Bian e Wang (2007), que também realiza um estudo

de avaliação de diversidade e acuidade de modelos de ensemble, mas por outro lado, assim como

os demais trabalhos relacionados, não realiza nenhum estudo de avaliação dos benefícios de se

combinar diferentes abordagens de geração de diversidade via algoritmo Bagging, Boosting e

MultiBoosting como apresentado neste trabalho. As novas abordagens apresentadas nesta pes-

quisa lançam mão do conceito de redistribuição dos dados, combinado ao uso de componentes

heterogêneos.

3.4 Síntese do Capítulo e Considerações Finais 43

3.4 Síntese do Capítulo e Considerações Finais

Este capítulo apresenta as contribuições deste trabalho. Foram desenvolvidas duas aborda-

gens para conﬁguração heterogênea de ensembles de classiﬁcadores, sendo uma evolutiva e uma

construtiva. Todas essas abordagens combinam em um só arcabouço conceitual duas estratégias

destinadas à geração de diversidade nos modelos de ensemble a serem induzidos via Bagging,

Boosting e MultiBoosting. A primeira estratégia está relacionada à redistribuição dos dados, já a

segunda, ao uso de componentes heterogêneos.

A abordagem evolutiva lança mão de um Algoritmo Genético (AG) customizado para com-

binar K módulos-componentes inferidos a partir da aplicação de 10 diferentes tipos possíveis de

indutores. Algoritmos evolutivos, dentre os quais os AGs, representam uma classe de métodos

meta-heurísticos de busca e otimização inspirados nos mecanismos evolutivos naturais.

A abordagem construtiva difere da abordagem evolutiva por tenta construir um comitê he-

terogêneo de forma incremental e determinístico, ou seja, os componentes são adicionados ao

ensemble à medida que se consiga aumentar o ganho de acuidade. Essa ideia é comumente re-

ferenciada na literatura pela denominação de Busca Gulosa (LUGER, 2004). Parte do princípio

que um objetivo deve ser alcançado com um número reduzido de passos possíveis (FERNAN-

DES, 2005), ou seja,é capturado um bom estado vizinho sem decidir com antecedência para onde

irá em seguida.

E por ﬁm, discutimos alguns trabalhos relacionados ao tema de ensembles heterogêneos e

também os comparamos ao que foi desenvolvido nesta pesquisa. As comparações revelam que

nenhum dos trabalhos relacionados se dedica à análise de combinar diferentes abordagens de

geração de diversidade.

O Capítulo 4, apresentado a seguir, descreve os experimentos computacionais realizados para

validar as novas abordagens propostas.

Capítulo 4

Experimentos Computacionais

“Você nunca sabe que resultados virão da

sua ação. Mas se você não ﬁzer nada, não

existirão resultados.”

Mahatma Gandhi

Este capítulo é dedicado à apresentação dos experimentos computacionais de validação das

novas abordagens de ensemble heterogêneos apresentadas no capítulo anterior. Um protótipo

de uma abordagem heterogênea evolutiva e construtiva destinado à síntese de ensembles de

classiﬁcadores via Bagging, Boosting e MultiBoosting foi implementado usando linguagem de

programação Java, lançando-se mão dos insumos providos pelo framework WEKA (WITTEN;

FRANK, 2005).

Em um primeiro momento, foram realizados testes utilizando-se 10 diferentes tipos homogê-

neos de indutores. Esses experimentos iniciais reﬂetem a abordagem que é bastante difundida e

encontrada na literatura. Já em um segundo momento, os testes foram conduzidos objetivando a

caracterização e avaliação empírica da geração de diversidade do modelo heterogêneo resultante,

por meio de conﬁguração automática para diferentes tipos de componentes.

4.1 Framework WEKA 45

4.1 Framework WEKA

O WEKA (WITTEN; FRANK, 2005) é uma coleção de algoritmos de aprendizado de má-

quina que foi desenvolvida pela University of Waikato na Nova Zelândia. Esse ambiente inclui

uma variedade de ferramentas para transformação de dados, tais como algoritmos de discreti-

zação, bem como implementações de métodos para mineração de dados (classiﬁcação, agru-

pamento, regras de associação). É válido mencionar, ainda, que esse framework vem sendo,

recentemente, bastante adotado como base de desenvolvimento e validação de novas abordagens

de aprendizado de máquina, notadamente, aquelas baseadas em comitês de máquinas (SOARES

et al., 2006; CANUTO et al., 2007). As conﬁgurações de todos os algoritmos utilizados estão

dispostas em tabelas no Apêndice B.

4.2 Problemas de Classiﬁcação e Conﬁguração dos Experi-

mentos

Para ﬁns de validação da proposta, foram conduzidos experimentos sobre 18 problemas de

classiﬁcação extraídos do repositório UCI (ASUNCIóN; NEWMAN, 2007). A maioria desses

problemas, se não todos, também já serviu de alvo de investigação em trabalhos correlatos na li-

nha de comitês de máquinas (OPITZ; MACLIN, 1999; DIETTERICH, 2000b; CANUTO et al.,

2007). As bases de dados relativas a esses problemas, assim como uma descrição das suas pro-

priedades em termos de número de amostras, número e tipos de atributos, número e distribuição

das classes, e existência de atributos faltantes, podem ser encontradas no Apêndice A.

Tendo em mente a obtenção de resultados estatisticamente signiﬁcantes, para cada um dos

problemas, foram criados aleatoriamente (i.e. mediante diferentes seeds para o gerador de nú-

meros aleatórios) 10 conjuntos de partições de treinamento e teste, observando-se a divisão de

66,6% e 33,4%, respectivamente. A Figura 17 ilustra o processo de particionamento dos dados.

O particionamento feito foi do tipo estratiﬁcado, ou seja, respeitando as proporções originais

das classes em cada partição. Sobre os dados de treinamento, foram conduzidos tanto o processo

evolutivo como o construtivo referente às novas abordagens heterogêneas, além das gerações dos

10 tipos de ensembles homogêneos via Bagging, Boosting e MultiBoosting padrão. Em todos os

4.3 Algoritmos de Aprendizagem 46

Figura 17: Ilustração do particionamento dos dados para treinamento e teste.

casos, adotou-se validação cruzada estratiﬁcada de 10 folds (WITTEN; FRANK, 2005). Já os

dados de teste foram usados para se avaliar a generalização dos modelos de ensembles resultantes

da fase de treinamento, estes por sua vez, treinados sobre toda a partição de treinamento.

4.3 Algoritmos de Aprendizagem

Neste estudo, foram adotados M = 10 diferentes algoritmos de aprendizagem (apresentados

na Seção 2.1), representativos de cinco classes distintas de indutores (WITTEN; FRANK, 2005):

i) o algoritmo Naïve Bayes (NB) simples, baseado em estatística bayesiana; ii) redes neurais RBF

e máquinas de vetores-suporte treinadas via algoritmo SMO, que se baseiam em funções numé-

ricas não-lineares; iii) algoritmos J48 e REP Tree (RT), baseados em árvores de decisão; iv)

algoritmo IBk, baseado nos conceitos de vizinhança e aprendizado local; e v) algoritmos De-

cision Stump (DS), OneR, PART e Decision Table (DT), os quais se baseiam em regras. Esse

repertório abrange indutores simples e complexos; além disso, abarca indutores notadamente

instáveis (redes neurais RBF, J48) como também os de certa estabilidade (SVM) e os reconheci-

damente estáveis (Naïve Bayes). O objetivo dessa escolha é o de avaliar se a fusão de indutores

simples com complexos, instáveis com estáveis, via Bagging, Boosting e MultiBoosting hetero-

4.4 Conﬁgurações dos Parâmetros Genéticos 47

gêneo evolutivo e construtivo produzem ganhos em termos de eﬁcácia. Todas as conﬁgurações

dos parâmetros de controle desses algoritmos que foram utilizadas para os experimentos estão

disponíveis no Apêndice B.

4.4 Conﬁgurações dos Parâmetros Genéticos

Nos experimentos, os valores dos parâmetros de conﬁguração do Algoritmo genético adota-

dos foram:

• Tamanho da população de 20 indivíduos;

• Probabilidade de cruzamento de 80%;

• Probabilidade de mutação de 10%; e

• Número máximo de 20 gerações.

Esses valores foram obtidos a partir de experimentos preliminares.

4.5 Análise dos Resultados

Neste seção, apresentamos e discutimos os resultados obtidos a partir dos algoritmos pro-

postos no presente trabalho. Como já mencionada, a ideia principal por trás de um ensemble

heterogêneo evolutivo ou construtivo é a de combinar K módulos-componentes inferidos a partir

de diferentes tipos de indutores. Estes componentes, por sua vez, aplicados sobre o conjunto

de dados do repositório original de amostras obtidos via reamostragem aleatória com reposição.

Desse modo, nossas abordagens combinam, em um só arcabouço conceitual, duas estratégias

distintas para geração de ensembles diversos, conforme discutido no capítulo anterior. Vários

testes foram realizados de forma que pudéssemos mensurar e conﬁrmar os ganhos decorridos

dos novos modelos. Em um primeiro momento, apresentamos para os ensembles homogêneos

os valores das taxas de acuidade para teste, treino e estatística-Q. Posteriormente, exibimos em

separado os valores de desempenho para as abordagens evolutiva e construtiva, respectivamente.

4.5 Análise dos Resultados 48

4.5.1 Resultados dos Ensembles Homogêneos

Nesta seção, os resultados obtidos para cada tipo de algoritmo homogêneo (Bagging, Bo-

osting e MultiBoosting) serão apresentados separadamente de modo a se facilitar a comparação

com as respectivas versões heterogêneas discutidas nas próximas subseções.

No Apêndice C estão disponíveis os valores referentes ao desempenho dos modelos homo-

gêneos para Bagging, Boosting e MultiBoosting aplicados aos 18 problemas de classiﬁcação.

Cada algoritmo foi testado para cada um dos 10 diferentes tipos de indutores.

Bagging Homogêneo

Os índices de acuidade exibidos pelo Bagging homogêneo apontam para variações de de-

sempenho em termos da taxa de erro de teste decorrentes da escolha de diferentes tipos de indu-

tores. Por exemplo, no problema anneal, o indutor que apresentou melhor desempenho foi De-

cison Table (0,0208± 0,0116), para a base credit-a o melhor indutor foi J48 (0,1488± 0, 0108),

para a base diabetes o melhor indutor foi SMO (0,2379 ± 0,0110), para a base hepatitis o me-

lhor indutor foi Naïve Bayes (0,1471 ± 0,0307), para a base iris o melhor indutor foi RBF

(0,0495 ± 0,0111), para a base segment o melhor indutor foi PART (0,0460 ± 0,0111), e por

ﬁm, para a base zoo o melhor indutor foi IBk (0,0833 ± 0,0217). A Figura 18 exibe graﬁca-

mente os desempenhos de treinamento e teste para duas bases investigadas. Como podemos

observar nas representações gráﬁcas, nenhum dos algoritmos de aprendizagem não apresenta-

ram valores de acuidade semelhantes, tanto no processo de treinamento quanto no de teste. As

barras nos gráﬁcos representam as médias de desempenho do Bagging homogêneo. Cada cor

atribuída as colunas indica o tipo de indutor utilizado, enquanto que as barras nas extremidades

das colunas vêm informar o desvio padrão. Em média, o tipo de indutor que apresentou melhor

desempenho em 30% dos 18 problemas de classiﬁcação, foi o PART.

Um outro ponto importante a ser observado está relacionado à utilização de indutores fracos

a serem combinados via Bagging (BREIMAN, 1996a; COELHO, 2004). Para alguns proble-

mas (haberman, heart-c, hepatitis, sonar e zoo), os melhores índices de desempenho foram

alcançados adotando-se algoritmos que refutam esse conceito. Provavelmente, se o ensemble for

construído manualmente, essas conﬁgurações seriam descartadas imediatamente pelo projetista

4.5 Análise dos Resultados 49

(a) (b)

Figura 18: Médias das taxas de erro de treinamento e teste do Bagging homogêneo para: (a) base

anneal; e (b) base segment.

de sistema.

A questão da diversidade em Bagging também é diretamente inﬂuenciada pela escolha do

tipo de indutor em se tratando de problemas distintos, conforme pode ser visualizado na Figura

19. O nível de diversidade foi avaliado mediante o cálculo de estatística-Q (vide Subseção 2.2.1).

É válido reforçar mais uma vez que a diversidade é um fator primordial para se obter ganhos de

generalização em ensembles (KUNCHEVA; WHITAKER, 2003). Outro aspecto relevante se

refere à escolha dos tipos de indutores (CANUTO et al., 2007). Por exemplo, para a base anneal

o tipo de indutor que se mostrou mais diverso foi o IBk, já para a base bupa foi o indutor Decision

Table, para a base colic foi o indutor PART, e por ﬁm, para base vehicle foi o indutor OneR.

4.5 Análise dos Resultados 50

(a) (b)

Figura 19: Níveis de diversidade do Bagging homogêneo segundo a métrica Estatística-Q para:

(a) base anneal; e (b) base segment.

Boosting Homogêneo

Podemos observar também que as variações de desempenho dos modelos de ensemble ob-

tidos via Boosting homogêneo podem ser provenientes da escolha do tipo de indutor. Para o

problema anneal, o indutor que apresentou melhor desempenho em termos da taxa média de

erro de teste foi Decison Table (0,0284 ± 0,0174), para a base credit-a foi o indutor PART

(0,1670±0,0121), para a base diabetes foi o indutor SMO (0,2330±0,0085), para a base hepa-

titis foi o indutor RBF (0,1627±0,0340), para a base iris foi o indutor SMO (0,0485± 0, 0177),

para a base segment foi o indutor J48 (0,0355 ± 0,0049), e por ﬁm, para a base zoo SMO

(0,0682 ± 0,0250). A Figura 20 exibe graﬁcamente os desempenhos de treinamento e teste

para duas bases investigadas. Em média, o tipo de indutor que apresentou melhor desempenho

em 28% dos 18 problemas de classiﬁcação, foi o J48.

Analisando os resultados disponíveis no Apêndice C, podemos observar que no Boosting

homogêneo o impacto da escolha do tipo de indutor foi ainda maior, quando comparado ao

Bagging, já que o ganho em relação à diversidade é bem mais signiﬁcativo, conforme ilustrado

na Figura 21. Para o problema annneal, o tipo de indutor que apresentou maior diversidade foi

o Decision Table, para o problema breast-cancer foi o indutor PART, para o problema colic foi

o indutor RBF, para o problema haberman foi o indutor SMO, para o problema hepatitis foi o

4.5 Análise dos Resultados 51

(a) (b)

Figura 20: Médias das taxas de erro de treinamento e teste do Boosting homogêneo para: (a)

base anneal; e (b) base segment.

indutor Naïve Bayes, e por ﬁm, para o problema vote foi o indutor Decision Stump.

(a) (b)

Figura 21: Níveis de diversidade do Boosting homogêneo segundo a métrica Estatística-Q para:

(a) base anneal; e (b) base segment.

4.5 Análise dos Resultados 52

MultiBoosting Homogêneo

Finalmente, analisamos o impacto da escolha do tipo de indutor sobre o desempenho dos

ensembles obtidos via MultiBoosting homogêneo. Para o problema anneal, o indutor que apre-

sentou melhor desempenho foi Decison Table (0,0272±0,0171), para base credit-a foi o indutor

Decison Table (0, 1481 ± 0,0090), para a base diabetes foi o indutor SMO (0,2330 ± 0,0079),

para a base hepatitis foi o indutor Naïve Bayes (0,1529 ± 0,0262), para a base iris foi o indutor

RBF (0, 0434 ± 0,0107), para a base segment foi o indutor PART (0, 0425 ± 0,0037), e por ﬁm,

a base zoo foi o SMO (0,0682 ± 0,0250). A Figura 22 exibe graﬁcamente os desempenhos de

treinamento e teste para duas bases investigadas. Em média, o tipo de indutor que apresentou

melhor desempenho em 28% dos 18 problemas de classiﬁcação, também como Boosting, foi o

J48.

(a) (b)

Figura 22: Médias das taxas de erro de treinamento e teste do MultiBoosting homogêneo para:

(a) base anneal; e (b) base segment.

Os valores de Estatística-Q disponíveis no Apêndice C conﬁrmam mais uma vez que o tipo

de indutor afeta a diversidade do modelo produzido por MultiBoosting homogêneo, conforme

exibido na Figura 23. Para o problema anneal o tipo de indutor que se mostrou mais diverso

foi o PART, para o problema bupa foi o indutor Decision Stump, para o problema credit-a foi o

indutor J48, para o problema iris foi o indutor SMO, e por ﬁm, para o problema zoo foi o indutor

OneR.

De um modo geral, os três modelos de ensembles homogêneos que apresentaram melhores

4.5 Análise dos Resultados 53

(a) (b)

Figura 23: Níveis de diversidade do MultiBoosting homogêneo segundo a métrica Estatística-Q

para: (a) base anneal; e (b) base segment.

resultados de generalização foram aqueles que utilizaram os indutores PART, RBF, J48 e De-

cision Table. Em contrapartida, os modelos que utilizaram os indutores Naïve Bayes, OneR e

Decision Stump apresentaram baixos desempenhos de generalização. Os demais tipos de induto-

res (SMO, REP Tree e IBK), em média, apresentam resultados de acuidade satisfatórios, ou seja,

não apresentaram os melhores índices de desempenho, mas por outro lado foram bem melhores

que os os indutores Naïve Bayes, OneR e Decision Stump. Já a adoção de indutores J48 e RBF,

também conﬁrmada em Bian e Wang (2007), incorreu em incremento da diversidade, enquanto

o Naïve Bayes e Decision Stump não favoreceram ganhos de acuidade.

4.5.2 Resultados dos Ensembles Heterogêneos Evolutivos

Esta subseção se dedica à apresentação dos resultados provenientes da nova abordagem he-

terogênea evolutiva para os algoritmos Bagging, Boosting e MultiBoosting. A ideia principal

é a de combinar diferentes tipos de indutores automaticamente, através de um algoritmo gené-

tico customizado, proporcionando incremento de diversidade tanto pela redistribuição dos dados

como pela manipulação da arquitetura dos componentes.

Os testes foram conduzidos com os mesmos 18 problemas de classiﬁcação utilizados pe-

los experimentos da abordagem homogênea. As Tabelas (1, 3 e 5) exibem os valores médios

4.5 Análise dos Resultados 54

das taxas de erro de desempenho da aplicação da nova abordagem para os algoritmos Bagging,

Boosting e MultiBoosting, respectivamente.

Bagging Evolutivo

O resultado das médias das taxas de erro de teste obtido pelo Bagging heterogêneo evolutivo

foi comparado ao melhor modelo de ensemble homogêneo em termos de erro de teste, dentre

os 10 tipos de indutores. Na Tabela 1, apresentamos as médias das taxas de desempenho para o

Bagging heterogêneo evolutivo. As três primeiras colunas exibem: às médias das taxas de erro

de treinamento; as médias das taxas de erro de teste, e os níveis de diversidade segundo a métrica

Estatística-Q. A antepenúltimo coluna exibe os valores de quantidade de componentes utilizados

pela abordagem evolutiva, a penúltima apresenta os valores de erro do melhor modelo homogê-

neo, enquanto a última contém os valores de signiﬁcância (p-values) resultantes da aplicação do

Teste-T pareado sobre as taxas médias de erro de teste produzidas por ambas as abordagens para

os 10 conjuntos de partições. Esse teste estatístico tem como objetivo testar a equivalência entre

duas médias amostrais, supondo independência e normalidade das observações — no caso, das

taxas de erro (WITTEN; FRANK, 2005). No nosso caso, adotou-se um nível de conﬁabilidade

de 95%; ou seja, se o valor de signiﬁcância ﬁcar abaixo de 5%, então a hipótese nula

é rejeitada.

Como indicado pelo Teste-T, a abordagem evolutiva foi superior para os casos ionosphere

e segment, como ilustrada na Figura 24. Porém, não conseguiu ser melhor quando aplicada às

bases anneal e habermen. Por outro lado, para o restante dos casos, ela se mostra equivalente.

Isso é bastante vantajoso, visto que Bagging evolutivo conseguiu se mostrar estável em 80% dos

casos de testes de complexidade diversa ao qual foi aplicado.

Vale também notar que os vários tipos de componentes foram recrutados com diferentes

frequências para os diferentes problemas, não havendo um único tipo que prevalecesse sobre

os demais. Isso reforça o papel do algoritmo genético em localizar os tipos mais adequados de

componentes de acordo com as nuances do problema-alvo. É interessante perceber que em geral

o algoritmo de aprendizagem que apresentou melhor rendimento quando aplicado a um modelo

homogêneo de ensemble teve em média maior ocorrência ao ﬁnal do processo evolutivo. Por

exemplo, o melhor ensemble homogêneo aplicado à base diabetes foi aquele proporcionado pelo

Equivalência de desempenho entre as abordagens.

4.5 Análise dos Resultados 55

(a) (b)

Figura 24: Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Bagging homogêneo e evolutivo para: (a) base ionosphere; e (b) base segment.

algoritmo SMO; já para a base heart-c, foi aquele usando Naïve Bayes. Como forma de visu-

alização, a Figura 25 ilustra a taxa de ocorrência dos componentes recrutados pela abordagem

evolutiva aos dois problemas de classiﬁcação mencionados. Os valores relativos às demais bases

estão disponíveis na Tabela 2.

(a) (b)

Figura 25: Frequência de ocorrência de tipos de componentes recrutados por Bagging evolutivo

para: (a) base diabetes; e (b) base heart-c.

Em 70% dos casos de testes, quando-se compara o modelo evolutivo ao melhor modelo

4.5 Análise dos Resultados 56

homogêneo, um incremento da diversidade foi proporcionada pela nova abordagem, conforme

apresentado na Figura 26. Esses resultados conﬁrmam o ganho na combinação das técnicas de

geração de diversidade proporcionado pelo Bagging heterogêneo evolutivo. Isso é relevante, uma

vez que, Kuncheva e Whitaker (2003) advogam que a diversidade é primordial para um melhor

desempenho do sistema como um todo.

(a) (b)

Figura 26: Gráﬁcos de diversidade do Bagging homogêneo e evolutivo para: (a) base colic; e (b)

base hepatitis.

Como meio de se observar como a conﬁguração automática de componentes é tipicamente

conduzida pelo algoritmo genético ao longo de suas gerações, a Figura 27 exibe o seu processo

de convergência para duas bases investigadas.

No que se refere à poda de componentes, a abordagem evolutiva apresentou uma modesta

diminuição da quantidade original de componentes, ﬁcando em apenas 10 a 20%.

4.5 Análise dos Resultados 57

(a) (b)

Figura 27: Gráﬁcos de convergência do Bagging evolutivo para: (a) base segment; e (b) base

vote.

Tabela 1: Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo Bagging

heterogêneo evolutivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0251±0,0059 0,0289±0,0109 0,3042 9,1±1,1 0,0208±0,0116 0,03

breast-cancer 0,2224±0,0333 0,2798±0,0309 0,7039 9,4±0,7 0,2803±0,0207 0,96

bupa 0,3102±0,0302 0,3458±0,0313 0,2799 8,9±0,3 0,3414±0,0479 0,90

colic 0,1206±0,0284 0,1591±0,0178 0,7394 9,5±0,5 0,1508±0,0135 0,17

credit-a 0,1128±0,0156 0,1435±0,0111 0,7734 8,9±0,3 0,1488±0,0108 0,15

diabetes 0,2237±0,0270 0,2375±0,0126 0,6065 8,9±0,3 0,2379±0,0110 0,95

glass 0,3000±0,0326 0,3305±0,0362 0,3543 8,9±0,3 0,3291±0,0330 0,84

haberman 0,2333±0,0197 0,2677±0,0155 0,7210 9,0±0,0 0,2498±0,0070 0,00

heart-c 0,1413±0,0231 0,1658±0,0197 0,6185 8,9±0,3 0,1698±0,0290 0,61

hepatitis 0,1132±0,0487 0,1490±0,0239 0,5004 8,7±0,5 0,1471±0,0307 0,86

ionosphere 0,0650±0,0146 0,0693±0,0121 0,5332 9,0±0,0 0,0883±0,0228 0,02

iris 0,0294±0,0139 0,0455±0,0109 0,2986 8,9±1,2 0,0495±0,0111 0,10

segment 0,0380±0,0034 0,0412±0,0070 0,6754 9,0±0,0 0,0460±0,0111 0,04

sick 0,0157±0,0031 0,0178±0,0023 0,5821 9,4±0,7 0,0176±0,0030 0,86

sonar 0,1746±0,0416 0,2241±0,0457 0,0436 8,8±0,4 0,2212±0,0330 0,85

vehicle 0,2497±0,0170 0,2857±0,0158 0,4628 9,1±0,9 0,2780±0,0158 0,38

vote 0,0385±0,0115 0,0415±0,0074 0,6940 8,9±0,3 0,0401±0,0110 0,58

zoo 0,0886±0,0250 0,0773±0,0338 0,0991 8,9±0,3 0,0833±0,0217 0,61

4.5 Análise dos Resultados 58

Tabela 2: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Bagging

heterogêneo evolutivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,0659 0,0659 0,0989 0,1319 0,0549 0,0989 0,0659 0,0440 0,0659 0,3077

breast-cancer 0,1170 0,0851 0,0638 0,1596 0,1064 0,0745 0,0957 0,1170 0,0957 0,0851

bupa 0,0787 0,0787 0,1011 0,0787 0,0787 0,1910 0,1236 0,0562 0,1124 0,1011

colic 0,0947 0,1474 0,0947 0,0737 0,0947 0,1368 0,0842 0,0632 0,0842 0,1263

credit-a 0,0899 0,0787 0,0899 0,1236 0,1124 0,0562 0,0787 0,1461 0,1011 0,1236

diabetes 0,0787 0,0899 0,1573 0,1573 0,1011 0,0787 0,1011 0,0449 0,1124 0,0787

glass 0,1910 0,1236 0,0787 0,1011 0,1236 0,0787 0,0449 0,0787 0,0674 0,1124

haberman 0,1111 0,1000 0,0889 0,0778 0,1111 0,0889 0,1556 0,1444 0,0444 0,0778

heart-c 0,1573 0,0674 0,0449 0,2022 0,0674 0,1236 0,0449 0,0899 0,0899 0,1124

hepatitis 0,0805 0,0345 0,1034 0,2184 0,0575 0,0805 0,1149 0,1034 0,1149 0,0920

ionosphere 0,1573 0,0674 0,0787 0,1910 0,0449 0,1124 0,0674 0,1124 0,1011 0,0674

iris 0,1461 0,1011 0,1011 0,0899 0,1461 0,1236 0,0787 0,0337 0,1124 0,0674

segment 0,0556 0,1444 0,1000 0,0444 0,1333 0,0778 0,0778 0,0333 0,1444 0,1889

sick 0,0957 0,2128 0,0532 0,0957 0,0532 0,1277 0,0957 0,0851 0,1383 0,0426

sonar 0,1477 0,1136 0,1250 0,0682 0,2045 0,0795 0,0682 0,0795 0,0568 0,0568

vehicle 0,1319 0,1099 0,1319 0,0220 0,0879 0,1429 0,0549 0,0440 0,2198 0,0549

vote 0,1011 0,1011 0,0562 0,0225 0,1348 0,1461 0,0899 0,0787 0,1348 0,1348

zoo 0,1236 0,0899 0,1685 0,1236 0,1236 0,1124 0,0449 0,1124 0,0674 0,0337

Boosting Evolutivo

Na sequência, modelos de ensemble heterogêneos produzidos via Boosting, através de um al-

goritmo genético customizado, serão caracterizados e analisados empiricamente, tomando como

referência os modelos de ensembles homogêneos. Em geral, os resultados da nova abordagem

conﬁrmam ganhos em termos de acuidade, generalização e diversidade.

Na Tabela 3 são apresentados os valores de erro de treino (validação cruzada), de teste,

Estatística-Q, quantidade de componentes e uma avaliação estatística (Test-T) em comparação ao

melhor modelo de ensemble homogêneo para o Boosting. A partir desta comparação, constatou-

se que Boosting evolutivo foi melhor quando aplicado à base colic. Apresentou menor desempe-

nho quando aplicado às bases diabetes, segment, sick, sonar e vehicle. Por outro lado, se mostrou

equivalente ao melhor modelo homogêneo no restante dos casos. A Figura 28 apresenta graﬁca-

mente uma comparação, em termos de erro de treinamento e de teste, entre Boosting heterogêneo

evolutivo e Boosting homogêneo.

Na evolução do Boosting heterogêneo, no modelo resultante ﬁnal, os tipos de indutores que

apresentaram maiores ocorrências foram aqueles que alcançaram melhores desempenhos no mo-

delo homogêneo. Isso conﬁrma mais uma vez que o GA consegue encontrar os componentes

adequados para compor o ensemble, o que pode ser visualizado na Figura 29.

4.5 Análise dos Resultados 59

(a) (b)

Figura 28: Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Boosting homogêneo e evolutivo para: (a) base colic; e (b) base zoo.

(a) (b)

Figura 29: Frequência de tipos de ocorrência dos componentes recrutados por Boosting evolutivo

para: (a) base anneal; e (b) base sick.

4.5 Análise dos Resultados 60

Boosting heterogêneo evolutivo apresentou aumento no incremento de diversidade em 66.67%

dos problemas de classiﬁcação de padrões. A Figura 30 ilustra graﬁcamente a comparação de

diversidade do Boosting heterogêneo evolutivo com a versão homogênea para dois problemas

investigados.

(a) (b)

Figura 30: Gráﬁcos de diversidade do Boosting homogêneo e evolutivo para: (a) base bupa; e

(b) base diabetes.

Como meio de se observar como a conﬁguração automática de componentes para o Boosting

é tipicamente conduzida pelo algoritmo genético ao longo de suas gerações, a Figura 31 exibe o

seu processo de convergência para duas bases investigadas.

4.5 Análise dos Resultados 61

(a) (b)

Figura 31: Gráﬁcos de convergência do Boosting evolutivo para: (a) base anneal; e (b) base

credit-a.

Tabela 3: Tabela com os valores de erro de treinamento, de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo Boosting

heterogêneo evolutivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0165±0,0042 0,0262±0,0111 0,3249 8,9±0,3 0,0284±0,0174 0,59

breast-cancer 0,1245±0,0243 0,3160±0,0347 0,1205 8,9±0,3 0,3080±0,0200 0,60

bupa 0,2076±0,0249 0,3489±0,0752 0,0150 8,9±0,3 0,3463±0,0292 0,92

colic 0,1286±0,0316 0,1727±0,0249 0,2712 9,0±0,0 0,2037±0,0284 0,01

credit-a 0,1069±0,0170 0,1653±0,0153 -0,0727 8,7±0,7 0,1670±0,0121 0,74

diabetes 0,2147±0,0197 0,2559±0,0239 0,1773 8,9±0,3 0,2330±0,0085 0,01

glass 0,2047±0,0234 0,3489±0,0432 0,2068 8,9±0,3 0,3340±0,0309 0,38

haberman 0,1205±0,0095 0,2726±0,0246 0,2231 8,9±0,3 0,2711±0,0165 0,87

heart-c 0,1030±0,0182 0,1889±0,0322 0,2862 8,9±0,3 0,1905±0,0259 0,78

hepatitis 0,0917±0,0280 0,1637±0,0217 -0,1408 8,7±0,7 0,1627±0,0340 0,94

ionosphere 0,0617±0,0185 0,0879±0,0220 -0,2867 8,9±0,7 0,0792±0,0138 0,30

iris 0,0167±0,0104 0,0505±0,0151 0,1563 8,6±0,7 0,0485±0,0177 0,77

segment 0,0000±0,0000 0,0426±0,0046 -0,0766 8,9±0,9 0,0355±0,0049 0,00

sick 0,0000±0,0000 0,0182±0,0014 -0,1622 8,8±0,4 0,0165±0,0027 0,01

sonar 0,0000±0,0000 0,2423±0,0354 0,2239 8,7±0,5 0,2168±0,0353 0,02

vehicle 0,2142±0,0129 0,2971±0,0245 -0,0927 8,8±0,4 0,2661±0,0103 0,01

vote 0,0311±0,0107 0,0467±0,0104 -0,2637 9,3±1,1 0,0453±0,0070 0,71

zoo 0,0400±0,0113 0,0712±0,0258 0,6747 8,9±0,3 0,0682±0,0250 0,74

4.5 Análise dos Resultados 62

Tabela 4: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Boosting

heterogêneo evolutivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,1236 0,0674 0,1348 0,1124 0,0562 0,1124 0,0562 0,0899 0,1011 0,1461

breast-cancer 0,0449 0,0674 0,0562 0,0899 0,1348 0,0562 0,1011 0,2247 0,1124 0,1124

bupa 0,1461 0,1236 0,0899 0,1011 0,0225 0,1461 0,1236 0,0787 0,1124 0,0562

colic 0,0333 0,1556 0,0333 0,1000 0,1333 0,0556 0,1333 0,1333 0,1222 0,1000

credit-a 0,0345 0,0805 0,1149 0,0345 0,0805 0,1379 0,1609 0,1149 0,1609 0,0805

diabetes 0,0787 0,1124 0,1236 0,1573 0,0674 0,0787 0,1011 0,0899 0,1348 0,0562

glass 0,2159 0,0682 0,0909 0,0909 0,1250 0,1023 0,0682 0,0795 0,1023 0,0568

haberman 0,0562 0,1011 0,1236 0,1573 0,0337 0,1124 0,0449 0,1461 0,0674 0,1573

heart-c 0,0562 0,0899 0,0899 0,1124 0,1573 0,1011 0,1124 0,1573 0,0449 0,0787

hepatitis 0,1279 0,0698 0,1163 0,0930 0,0465 0,1279 0,1279 0,0930 0,0698 0,1279

ionosphere 0,1461 0,0674 0,0562 0,1236 0,0449 0,0899 0,1348 0,1011 0,0674 0,1685

iris 0,1839 0,1379 0,1149 0,1034 0,0575 0,0690 0,0575 0,1149 0,0920 0,0690

segment 0,1758 0,1319 0,1209 0,0769 0,0110 0,1319 0,0330 0,0220 0,1868 0,1099

sick 0,1136 0,2045 0,0795 0,0909 0,0227 0,0568 0,0682 0,1136 0,1364 0,1136

sonar 0,1149 0,0690 0,0805 0,1494 0,1494 0,1264 0,1379 0,0690 0,0690 0,0345

vehicle 0,0682 0,1477 0,0909 0,0568 0,0682 0,1477 0,0455 0,0795 0,1932 0,1023

vote 0,1087 0,1848 0,1413 0,0652 0,1087 0,0652 0,0543 0,1087 0,0761 0,0870

zoo 0,0787 0,0562 0,1236 0,0449 0,1461 0,1011 0,1236 0,0674 0,1236 0,1348

MultiBoosting Evolutivo

A nova abordagem evolutiva de geração de ensembles considerando duas técnicas de gera-

ção de diversidade também foi aplicada ao algoritmo MultiBoosting. MultiBoosting é um meta-

algoritmo similar ao algoritmo Boosting, diferindo apenas na geração de sub-comitês durante a

indução dos componentes. Na Tabela 5, MultiBoosting heterogêneo evolutivo é avaliado em ter-

mos de erro de treinamento, erro de teste, níveis de diversidade segundo a métrica Estatística-Q,

quantidade de componentes e estatística Teste-T. A partir destes resultados é possível comparar

a abordagem evolutiva heterogênea de ensembles à versão homogênea de MultiBoosting, em ter-

mos de melhor desempenho sobre a partição de teste. A nova abordagem foi superior quando

aplicada ao problema ionosphere; inferior para a base anneal; por outro lado, ela se mostrou

equivalente nos demais problemas de classiﬁcação. Esse resultado conﬁrma que os modelos ge-

rados pelo algoritmo genético se mostraram estáveis a qualquer tipo de problema. A Figura 32

ilustra graﬁcamente o desempenho em termos de erro de treinamento e teste do MultiBoosting

evolutivo aplicado a dois dos problemas investigados.

O algoritmo MultiBoosting heterogêneo evolutivo também apresentou variação na taxa de

ocorrência dos tipos de componentes. Os tipos de indutores que apresentaram melhores desem-

penhos quando aplicados na versão homogênea, foram aqueles que obtiveram maior ocorrência

na composição do modelo heterogêneo evolutivo em geral. A Figura 33 ilustra a frequência de

4.5 Análise dos Resultados 63

(a) (b)

Figura 32: Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

MultiBoosting homogêneo e evolutivo para: (a) base ionosphere; e (b) base vote.

ocorrência dos tipos de indutores para dois problemas analisados.

(a) (b)

Figura 33: Frequência de ocorrência dos tipos de componentes recrutados por MultiBoosting

evolutivo para: (a) base colic; e (b) base heart-c.

Quanto aos ganhos incorridos da combinação das duas técnicas de diversidade, ou seja, rea-

mostragem aleatória dos dados e uso de componentes heterogêneos, a nova abordagem heterogê-

nea via MultiBoosting conﬁrma mais uma vez que o modelo apresentou ganho de diversidades.

Em 44% dos casos, a nova abordagem trouxe incremento de diversidade mediante Estatística-

4.5 Análise dos Resultados 64

Q em relação à abordagem homogênea. A Figura 34 ilustra o ganho de diversidade para dois

problemas analisados.

(a) (b)

Figura 34: Gráﬁcos de diversidade do MultiBoosting homogêneo e evolutivo para: (a) base

diabetes; e (b) base iris.

Também podemos analisar na Figura 35 o processo de convergência do MultiBoosting evo-

lutivo na busca de encontrar o melhor arranjo de componentes em termos de acuidade. É impor-

tante observar que, com a abordagem evolutiva, é possível se obter bons modelos de ensemble

em um número reduzido de gerações.

4.5 Análise dos Resultados 65

(a) (b)

Figura 35: Gráﬁcos de convergência do MultiBoosting evolutivo para: (a) base colic; e (b) base

segment.

Tabela 5: Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo MultiBo-

osting heterogêneo evolutivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0000±0,0000 0,0405±0,0132 0,0366 9,0±0,0 0,0272±0,0171 0,03

breast-cancer 0,2112±0,0297 0,3064±0,0479 0,3563 7,8±0,9 0,2968±0,0295 0,46

bupa 0,2420±0,0244 0,3467±0,0369 0,1189 8,8±0,4 0,3414±0,0346 0,79

colic 0,0702±0,0178 0,1744±0,0266 0,2822 8,5±1,3 0,1612±0,0151 0,13

credit-a 0,1132±0,0158 0,1490±0,0144 0,2524 8,6±1,0 0,1481±0,0090 0,87

diabetes 0,2191±0,0296 0,2476±0,0210 0,4694 8,8±0,9 0,2330±0,0079 0,09

glass 0,2282±0,0350 0,3390±0,0397 0,3790 8,8±0,4 0,3163±0,0312 0,25

haberman 0,2219±0,0119 0,2701±0,0237 0,3636 7,9±1,1 0,2637±0,0110 0,41

heart-c 0,1346±0,0198 0,1754±0,0356 0,4953 8,5±1,0 0,1709±0,0240 0,47

hepatitis 0,1019±0,0455 0,1471±0,0296 0,1679 8,1±1,0 0,1529±0,0262 0,37

ionosphere 0,0317±0,0090 0,0645±0,0159 0,0753 8,9±0,3 0,0775±0,0116 0,02

iris 0,0178±0,0093 0,0525±0,0115 0,1757 8,9±0,3 0,0434±0,0107 0,05

segment 0,0250±0,0035 0,0417±0,0076 0,4934 8,8±0,4 0,0425±0,0037 0,79

sick 0,0142±0,0024 0,0174±0,0024 0,4909 8,9±0,3 0,0159±0,0019 0,07

sonar 0,1690±0,0465 0,2394±0,0424 0,5257 8,9±1,0 0,2168±0,0353 0,14

vehicle 0,1299±0,0075 0,2837±0,0214 0,3500 8,8±0,6 0,2717±0,0192 0,26

vote 0,0176±0,0069 0,0470±0,0103 0,2523 9,0±0,0 0,0418±0,0073 0,19

zoo 0,0560±0,0184 0,0848±0,0337 0,8000 8,8±0,4 0,0682±0,0250 0,19

4.5 Análise dos Resultados 66

Tabela 6: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Multi-

Boosting heterogêneo evolutivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,1461 0,0899 0,1124 0,0899 0,0787 0,1011 0,1348 0,0449 0,0337 0,1685

breast-cancer 0,1034 0,0920 0,0575 0,0805 0,1264 0,1264 0,1264 0,1494 0,0805 0,0575

bupa 0,0964 0,0964 0,0843 0,1205 0,0361 0,1084 0,1446 0,1084 0,0964 0,1084

colic 0,0353 0,1294 0,0824 0,0941 0,0471 0,1059 0,1059 0,2000 0,1059 0,0941

credit-a 0,0814 0,0930 0,0814 0,1395 0,0581 0,0581 0,1279 0,1512 0,1279 0,0814

diabetes 0,0899 0,1124 0,1236 0,0787 0,1011 0,0899 0,1124 0,1236 0,0674 0,1011

glass 0,1910 0,1124 0,1124 0,0787 0,0449 0,1011 0,0449 0,1461 0,1461 0,0225

haberman 0,1149 0,0575 0,1264 0,1494 0,0690 0,1264 0,1034 0,1264 0,0115 0,1149

heart-c 0,1364 0,1136 0,1023 0,1136 0,1250 0,0795 0,1250 0,0227 0,1250 0,0568

hepatitis 0,0795 0,0909 0,1023 0,0341 0,0682 0,1023 0,1364 0,1023 0,1477 0,1364

ionosphere 0,1348 0,0449 0,1573 0,1236 0,0562 0,0562 0,0787 0,1573 0,0674 0,1236

iris 0,1111 0,0778 0,0889 0,1444 0,0667 0,0222 0,1111 0,1222 0,1111 0,1444

segment 0,0909 0,1477 0,1250 0,0568 0,0455 0,1591 0,0341 0,0114 0,2386 0,0909

sick 0,1124 0,1236 0,0674 0,0787 0,0337 0,1685 0,1124 0,0787 0,1348 0,0899

sonar 0,1222 0,1000 0,1222 0,1444 0,0556 0,1000 0,1111 0,0667 0,0333 0,1444

vehicle 0,1461 0,1910 0,0899 0,0562 0,0337 0,1124 0,0449 0,1011 0,1685 0,0562

vote 0,1023 0,1364 0,1477 0,0795 0,0455 0,0682 0,0909 0,0909 0,1477 0,0909

zoo 0,0899 0,0899 0,0787 0,0899 0,1461 0,1236 0,1236 0,0674 0,1011 0,0899

4.5.3 Resultados dos Ensembles Heterogêneos Construtivos

Esta subseção é dedicada à apresentação dos resultados provenientes da nova abordagem he-

terogênea construtiva para os algoritmos Bagging, Boosting e MultiBoosting. A ideia principal

é a de combinar diferentes tipos de indutores, automaticamente, através de uma geração cons-

trutiva de cada componente. A geração de diversidade é formada pela redistribuição aleatória

dos dados (padrão) e pela combinação de 10 diferentes tipos de algoritmos de aprendizagem. Os

testes foram conduzidos com 18 problemas de classiﬁcação apresentados no Apêndice A.

4.5 Análise dos Resultados 67

Bagging Construtivo

Bagging heterogêneo construtivo não apresentou ganho direto quando comparado ao modelo

homogêneo, porém, em 55,56%, dos problemas analisados ele se mostrou equivalente. Esse

ainda é um resultado animador, visto que a abordagem construtiva se mostrou estável a diferentes

domínios. A Figura 36 ilustra graﬁcamente a comparação das taxas de erro de treinamento e

teste da abordagem construtiva ao ensemble formada por componentes homogêneos. Os demais

resultados estão disponíveis na Tabela 7.

(a) (b)

Figura 36: Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

Bagging homogêneo e construtivo para: (a) base ionosphere; e (b) base segment.

Na abordagem construtiva, a ocorrência dos tipos de componentes está ligada àqueles que

apresentaram um bom desempenho quando aplicados na versão homogênea. Por outro lado, nem

todos os tipos de componentes foram utilizados para compor o ensemble heterogêneo. A Figura

37 exibe as diferentes ocorrências dos 10 tipos de indutores aplicados a dois problemas estuda-

dos.

Em termos de diversidade, a abordagem construtiva para Bagging conseguiu proporcionar

maiores incrementos. A Figura 38 exibe os níveis de diversidade do modelo construtivo compa-

rado àquele formado por componentes homogêneos para dois casos estudados.

4.5 Análise dos Resultados 68

(a) (b)

Figura 37: Frequência de ocorrência dos tipos componentes recrutados por Bagging construtivo

para: (a) base haberman; e (b) base sick.

(a) (b)

Figura 38: Gráﬁcos de níveis de diversidade do Bagging homogêneo e construtivo para: (a) base

hepatitis; e (b) base segment.

4.5 Análise dos Resultados 69

Tabela 7: Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo Bagging

heterogêneo construtivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0291±0,0094 0,0326±0,0130 0,4090 2,7±1,6 0,0208±0,0116 0,00

breast-cancer 0,2316±0,0433 0,3043±0,0120 0,8893 2,3±1,1 0,2803±0,0207 0,01

bupa 0,3085±0,0463 0,3687±0,0443 0,5629 3,5±1,8 0,3414±0,0479 0,07

colic 0,1357±0,0165 0,1740±0,0237 0,8408 3,0±1,6 0,1508±0,0135 0,00

credit-a 0,1191±0,0142 0,1519±0,0117 0,8781 2,0±1,3 0,1488±0,0108 0,35

diabetes 0,2389±0,0268 0,2571±0,0248 0,8302 1,9±1,1 0,2379±0,0110 0,07

glass 0,3438±0,0644 0,4014±0,0453 0,6363 2,1±1,1 0,3291±0,0330 0,00

haberman 0,2314±0,0311 0,2776±0,0282 0,8746 1,7±0,7 0,2498±0,0070 0,02

heart-c 0,1462±0,0282 0,1794±0,0244 0,9210 2,0±0,8 0,1698±0,0290 0,44

hepatitis 0,1170±0,0452 0,1706±0,0213 0,5294 2,3±1,2 0,1471±0,0307 0,05

ionosphere 0,0733±0,0151 0,0926±0,0255 0,6904 3,3±0,9 0,0883±0,0228 0,62

iris 0,0255±0,0186 0,0576±0,0234 0,6000 1,4±0,5 0,0495±0,0111 0,31

segment 0,0419±0,0121 0,0451±0,0104 0,7102 4,6±2,2 0,0460±0,0111 0,83

sick 0,0157±0,0035 0,0191±0,0027 0,9079 2,9±1,1 0,0176±0,0030 0,11

sonar 0,1958±0,0467 0,2591±0,0519 0,5266 2,5±1,4 0,2212±0,0330 0,03

vehicle 0,2750±0,0334 0,3084±0,0199 0,6906 2,3±1,5 0,2780±0,0158 0,01

vote 0,0345±0,0129 0,0456±0,0099 0,9574 2,2±0,9 0,0401±0,0110 0,12

zoo 0,0857±0,0233 0,1379±0,0252 0,9091 1,6±0,5 0,0833±0,0217 0,00

Tabela 8: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Bagging

heterogêneo construtivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,1111 0,0741 0,0370 0,1111 0,0370 0,0370 0,0000 0,0000 0,0000 0,5926

breast-cancer 0,0435 0,3478 0,0435 0,1304 0,1304 0,0435 0,0870 0,1739 0,0000 0,0000

bupa 0,1515 0,0909 0,0606 0,0303 0,0909 0,0909 0,1515 0,0606 0,2424 0,0303

colic 0,1333 0,3333 0,0000 0,0333 0,0667 0,1333 0,0333 0,0667 0,1000 0,1000

credit-a 0,0952 0,0952 0,1429 0,0476 0,0476 0,0952 0,3333 0,0476 0,0952 0,0000

diabetes 0,1053 0,1579 0,2632 0,2632 0,0526 0,0000 0,0526 0,0000 0,0526 0,0526

glass 0,0476 0,2381 0,0476 0,0952 0,2857 0,2381 0,0000 0,0000 0,0000 0,0476

haberman 0,2353 0,1176 0,0588 0,1765 0,0000 0,0000 0,0588 0,1176 0,1765 0,0588

heart-c 0,3500 0,0000 0,2500 0,3500 0,0000 0,0000 0,0500 0,0000 0,0000 0,0000

hepatitis 0,2609 0,1304 0,0435 0,3913 0,0000 0,0870 0,0435 0,0000 0,0000 0,0435

ionosphere 0,3636 0,1212 0,1818 0,0909 0,0000 0,0606 0,0909 0,0000 0,0303 0,0606

iris 0,3571 0,0000 0,0714 0,1429 0,1429 0,0000 0,0714 0,0714 0,0000 0,1429

segment 0,0476 0,1429 0,0476 0,0238 0,2619 0,0476 0,0714 0,0000 0,1429 0,2143

sick 0,0690 0,3448 0,0000 0,1034 0,0345 0,2069 0,1034 0,0000 0,1379 0,0000

sonar 0,1200 0,0400 0,0400 0,0800 0,4000 0,0800 0,0400 0,0400 0,0800 0,0800

vehicle 0,0870 0,2174 0,2174 0,0435 0,0870 0,1304 0,0435 0,0000 0,1739 0,0000

vote 0,0909 0,3182 0,2727 0,0000 0,0000 0,1364 0,0909 0,0909 0,0000 0,0000

zoo 0,0625 0,0625 0,2500 0,3750 0,1875 0,0000 0,0625 0,0000 0,0000 0,0000

4.5 Análise dos Resultados 70

Boosting Construtivo

A aplicação da abordagem construtiva via Boosting mostrou-se mais estável em comparação

ao Bagging construtivo. Para os 18 problemas de classiﬁcação, o algoritmo foi melhor em três

deles, colic, credit-a e heart-c, o que pode ser visualizado na Figura 39. O algoritmo se mostrou

pior em cinco casos; por outro lado, foi equivalente no restante dos testes. Os demais resultados

podem ser obtidos na Tabela 9.

(a) (b)

Figura 39: Gráﬁcos comparativos das médias das taxas de treinamento e teste entre Boosting

homogêneo e construtivo para: (a) base credit-a; e (b) base heart-c.

Quanto à frequência de ocorrência dos tipos de componentes via Boosting heterogêneo cons-

trutivo, alguns dos tipos de algoritmos de aprendizagem não foram utilizados para formar o en-

semble, por outro lado, os indutores que apresentaram melhores resultados quando aplicados

ao modelo homogêneo passaram a ter um maior número de ocorrência. A Figura 40 exibe a

ocorrência dos componentes para dois problemas investigados. Os demais índices de ocorrência

estão disponíveis na Tabela 10.

Comparando os níveis de diversidade obtidos pelo Boosting heterogêneo construtivos ao

homogêneo, a nova abordagem heterogênea construtiva apresentou incremento de diversidade

em 11% dos problemas investigados. A Figura 41 exibe a comparação dos níveis de diversidade

entre Boosting heterogêneo construtivo e Boosting homogêneo.

4.5 Análise dos Resultados 71

(a) (b)

Figura 40: Frequência de ocorrência dos tipos de componentes recrutados por Boosting constru-

tivo para: (a) base glass; e (b) base vote.

(a) (b)

Figura 41: Gráﬁcos de níveis de diversidade do Boosting homogêneo e construtivo para: (a) base

sonar; e (b) base vote.

4.5 Análise dos Resultados 72

Tabela 9: Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo Boosting

heterogêneo construtivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0239±0,0060 0,0299±0,0192 0,8000 1,2±0,4 0,0284±0,0174 0,41

breast-cancer 0,2357±0,0457 0,3064±0,0277 0,8207 1,1±0,3 0,3080±0,0200 0,88

bupa 0,3059±0,0589 0,4026±0,0360 0,6484 2,0±1,8 0,3463±0,0292 0,00

colic 0,1437±0,0293 0,1525±0,0177 1,0000 1,1±0,3 0,2037±0,0284 0,00

credit-a 0,1264±0,0181 0,1560±0,0108 1,0000 1,0±0,0 0,1670±0,0121 0,04

diabetes 0,2454±0,0304 0,2480±0,0199 1,0000 1,0±0,0 0,2330±0,0085 0,03

glass 0,3575±0,0565 0,3468±0,0370 0,6193 1,3±0,7 0,3340±0,0309 0,40

haberman 0,2390±0,0198 0,2607±0,0194 1,0000 1,0±0,0 0,2711±0,0165 0,23

heart-c 0,1548±0,0266 0,1809±0,0271 1,0000 1,0±0,0 0,1905±0,0259 0,02

hepatitis 0,1264±0,0356 0,1676±0,0298 0,8000 1,1±0,3 0,1627±0,0340 0,71

ionosphere 0,0867±0,0219 0,0948±0,0131 0,6109 1,9±1,4 0,0792±0,0138 0,00

iris 0,0333±0,0208 0,0495±0,0121 1,0000 1,0±0,0 0,0485±0,0177 0,86

segment 0,0503±0,0094 0,0593±0,0103 0,7413 2,0±2,2 0,0355±0,0049 0,00

sick 0,0176±0,0037 0,0179±0,0022 0,8000 1,1±0,3 0,0165±0,0027 0,05

sonar 0,1901±0,0536 0,2518±0,0820 0,9172 1,1±0,3 0,2168±0,0353 0,21

vehicle 0,2844±0,0217 0,3237±0,0183 0,6637 2,0±2,0 0,2661±0,0103 0,00

vote 0,0392±0,0142 0,0470±0,0086 0,7409 1,2±0,4 0,0453±0,0070 0,40

zoo 0,0829±0,0284 0,0955±0,0417 1,0000 1,0±0,0 0,0682±0,0250 0,07

Tabela 10: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Boos-

ting heterogêneo construtivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,0833 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,9167

breast-cancer 0,0000 0,0909 0,0000 0,0909 0,0909 0,0909 0,3636 0,0909 0,0909 0,0909

bupa 0,1500 0,2000 0,0500 0,0500 0,0000 0,1500 0,2000 0,0000 0,1500 0,0500

colic 0,0000 0,6364 0,0000 0,0000 0,0909 0,0909 0,0000 0,0000 0,1818 0,0000

credit-a 0,0000 0,1000 0,4000 0,0000 0,0000 0,1000 0,3000 0,0000 0,0000 0,1000

diabetes 0,1000 0,0000 0,4000 0,4000 0,0000 0,1000 0,0000 0,0000 0,0000 0,0000

glass 0,3846 0,2308 0,0000 0,0769 0,2308 0,0769 0,0000 0,0000 0,0000 0,0000

haberman 0,2000 0,0000 0,1000 0,4000 0,0000 0,0000 0,1000 0,1000 0,0000 0,1000

heart-c 0,4000 0,0000 0,2000 0,3000 0,1000 0,0000 0,0000 0,0000 0,0000 0,0000

hepatitis 0,4545 0,0909 0,0909 0,1818 0,0000 0,0000 0,0000 0,0000 0,1818 0,0000

ionosphere 0,5789 0,0526 0,0526 0,0526 0,0000 0,1579 0,0000 0,0000 0,0000 0,1053

iris 0,5000 0,0000 0,2000 0,0000 0,1000 0,0000 0,0000 0,1000 0,0000 0,1000

segment 0,0000 0,2000 0,0500 0,0500 0,1500 0,1000 0,0000 0,0000 0,4500 0,0000

sick 0,0000 0,7273 0,0000 0,0000 0,0000 0,1818 0,0000 0,0000 0,0909 0,0000

sonar 0,0909 0,0000 0,0909 0,0000 0,6364 0,0000 0,0909 0,0909 0,0000 0,0000

vehicle 0,1500 0,1500 0,3500 0,0000 0,0500 0,1000 0,0000 0,0000 0,2000 0,0000

vote 0,0833 0,3333 0,2500 0,0000 0,0000 0,1667 0,0833 0,0000 0,0000 0,0833

zoo 0,2000 0,0000 0,4000 0,1000 0,3000 0,0000 0,0000 0,0000 0,0000 0,0000

4.5 Análise dos Resultados 73

MultiBoosting Construtivo

Por ﬁm, nesta pesquisa foi aplicada a abordagem heterogênea construtiva ao algoritmo Mul-

tiBoosting. Os resultados desta análise corroboram mais uma vez que o modelo construtivo

apresenta estabilidade no desempenho quando aplicado a vários problemas de classiﬁcação dis-

tintos. Embora não tenha se mostrado melhor em comparação ao modelo homogêneo, ele foi

equivalente em 61% dos problemas investigados. A Figura 42 exibe o desempenho apresentados

pela abordagem construtiva em contraste à abordagem modelo homogênea em dois casos inves-

tigados. Os demais índices em termo das taxas de erro de treinamento e teste estão disponíveis

na Tabela 11.

(a) (b)

Figura 42: Gráﬁcos comparativos das médias das taxas de erro de treinamento e teste entre

MultiBoosting homogêneo e construtivo para: (a) base vote; e (b) base zoo.

Os tipos de indutores que apresentaram melhores desempenhos no modelo homogêneo tive-

ram maior ocorrência na composição do ensemble heterogêneo. A Figura 43 ilustra a frequência

de ocorrência dos 10 tipos de classiﬁcadores aplicados a dois problemas investigados. A Tabela

12 apresenta os demais resultados de ocorrência dos tipos de componentes.

Já no que se refere ao ganho de diversidade, o modelo heterogêneo construtivo aplicado

ao algoritmo MultiBoosting não foi melhor em nenhum dos casos. A Figura 44 apresenta uma

comparação de duas bases investigadas entre as abordagens heterogênea e homogênea de Multi-

Boosting.

4.5 Análise dos Resultados 74

(a) (b)

Figura 43: Frequência de ocorrência dos tipos de componentes recrutados por MultiBoosting

construtivo para: (a) base haberman; e (b) base vote.

(a) (b)

Figura 44: Gráﬁcos de níveis de diversidade do MultiBoosting homogêneo e construtivo para:

(a) base bupa; e (b) base diabetes.

4.5 Análise dos Resultados 75

Tabela 11: Tabela com os valores de erro de treinamento, erro de teste, Estatística-Q, número de

componentes, erro de teste do melhor modelo homogêneo e Teste-T para o algoritmo MultiBo-

osting heterogêneo construtivo.

Base Treino Teste Estat.-Q N. Comp. Melhor Hom. Teste-T

anneal 0,0235±0,0051 0,0297±0,0174 0,8654 1,3±0,7 0,0272±0,0171 0,49

breast-cancer 0,2306±0,0400 0,3106±0,0325 0,9262 1,4±0,7 0,2968±0,0295 0,17

bupa 0,3144±0,0358 0,3978±0,0463 0,7138 2,4±1,6 0,3414±0,0346 0,04

colic 0,1389±0,0276 0,1595±0,0218 0,9806 1,6±1,3 0,1612±0,0151 0,84

credit-a 0,1247±0,0176 0,1589±0,0146 0,9581 1,2±0,4 0,1481±0,0090 0,08

diabetes 0,2336±0,0267 0,2478±0,0144 0,8784 2,2±1,5 0,2330±0,0079 0,03

glass 0,3521±0,0496 0,3404±0,0393 0,9431 1,6±1,3 0,3163±0,0312 0,08

haberman 0,2352±0,0229 0,2677±0,0283 0,7715 1,3±0,5 0,2637±0,0110 0,60

heart-c 0,1481±0,0315 0,1809±0,0291 0,9700 1,6±1,0 0,1709±0,0240 0,06

hepatitis 0,1189±0,0219 0,1667±0,0273 0,9185 1,5±1,0 0,1529±0,0262 0,23

ionosphere 0,0950±0,0158 0,0931±0,0112 0,9806 1,1±0,3 0,0775±0,0116 0,00

iris 0,0314±0,0189 0,0495±0,0121 1,0000 1,1±0,3 0,0434±0,0107 0,02

segment 0,0532±0,0073 0,0587±0,0092 0,9919 1,4±1,3 0,0425±0,0037 0,00

sick 0,0164±0,0035 0,0176±0,0022 0,9943 1,7±1,1 0,0159±0,0019 0,03

sonar 0,1915±0,0552 0,2518±0,0820 1,0000 1,0±0,0 0,2168±0,0353 0,21

vehicle 0,2823±0,0307 0,3226±0,0183 0,9013 1,8±1,5 0,2717±0,0192 0,00

vote 0,0378±0,0136 0,0470±0,0086 0,9972 1,4±0,5 0,0418±0,0073 0,08

zoo 0,0800±0,0263 0,0955±0,0417 1,0000 1,1±0,3 0,0682±0,0250 0,07

Tabela 12: Tabela com os valores de ocorrência dos tipos de componentes recrutados por Multi-

Boosting heterogêneo construtivo.

Base RBF J48 SMO Naïve Bayes IBk REP Tree Decision Stump OneR PART Decision Table

anneal 0,0769 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,9231

breast-cancer 0,1429 0,0714 0,0000 0,0714 0,0714 0,0714 0,3571 0,0714 0,0714 0,0714

bupa 0,0000 0,0833 0,2083 0,0000 0,0000 0,2083 0,2917 0,0417 0,1250 0,0417

colic 0,0625 0,5000 0,0625 0,0625 0,1250 0,0625 0,0000 0,0000 0,1250 0,0000

credit-a 0,0833 0,0833 0,3333 0,0000 0,0000 0,1667 0,2500 0,0000 0,0000 0,0833

diabetes 0,1818 0,0455 0,1818 0,3182 0,0000 0,1818 0,0000 0,0000 0,0000 0,0909

glass 0,3750 0,1875 0,0000 0,0000 0,1875 0,0625 0,0000 0,1250 0,0625 0,0000

haberman 0,2308 0,0000 0,0769 0,3077 0,0769 0,0000 0,1538 0,0769 0,0000 0,0769

heart-c 0,3125 0,0625 0,1250 0,3750 0,0625 0,0000 0,0625 0,0000 0,0000 0,0000

hepatitis 0,3333 0,1333 0,1333 0,2000 0,0000 0,0000 0,0667 0,0000 0,1333 0,0000

ionosphere 0,7273 0,0909 0,0000 0,0000 0,0000 0,1818 0,0000 0,0000 0,0000 0,0000

iris 0,5455 0,0000 0,1818 0,0000 0,0909 0,0000 0,0000 0,0909 0,0000 0,0909

segment 0,0000 0,2857 0,0714 0,0000 0,2143 0,0000 0,0000 0,0000 0,3571 0,0714

sick 0,0000 0,5882 0,0588 0,0000 0,0000 0,2353 0,0000 0,0000 0,1176 0,0000

sonar 0,1000 0,0000 0,1000 0,0000 0,7000 0,0000 0,1000 0,0000 0,0000 0,0000

vehicle 0,1111 0,3333 0,4444 0,0000 0,0556 0,0000 0,0000 0,0000 0,0556 0,0000

vote 0,2143 0,2857 0,2143 0,0000 0,0000 0,0714 0,0714 0,0000 0,0714 0,0714

zoo 0,1818 0,0000 0,4545 0,0909 0,2727 0,0000 0,0000 0,0000 0,0000 0,0000

4.6 Síntese do Capítulo e Considerações Finais 76

4.6 Síntese do Capítulo e Considerações Finais

Este capítulo apresentou ao leitor as descrições dos resultados obtidos pelos experimentos

computacionais, bem como, conﬁrmou, em geral, o aumento do ganho em termos de erro de

treinamento, erros de testes e incremento da diversidade decorrente da aplicação das abordagens

evolutiva e construtiva.

De certo modo, os resultados corroboram as conclusões do estudo conduzido por Canuto et

al. (2007), que atestam que a escolha dos tipos de componentes do ensemble pode ser também um

fator-chave para se garantir incrementos de desempenho do sistema. No nosso caso, essa escolha

foi feita de forma automática por meio de um AG customizado e de um algoritmo construtivo,

algo não explorado no trabalho de Canuto et al. (2007), uma vez que os arranjos heterogêneos

foram deﬁnidos manualmente pelos autores.

Para todos os 18 problemas de classiﬁcação de padrão, a abordagem evolutiva apresentou

melhor desempenho de acuidade em ralação à abordagem construtiva. Já comparando as duas

abordagens heterogêneas aos modelos homogêneos de ensemble, tanto a abordagem evolutiva

quanto a construtiva foram melhores em termos de erro de treinamento e erro de teste, conforme

ranking disponível no Apêndice D.

O Capítulo 5 faz as últimas considerações desse trabalho, e apresenta algumas possibilidades

de estender a pesquisa em alguns trabalhos futuros.

Capítulo 5

Considerações Finais e Trabalhos Futuros

“Existe uma coisa que uma longa

existência me ensinou: toda a nossa

ciência, comparada à realidade, é

primitiva e inocente; e, portanto, é o que

temos de mais valioso.”

Albert Einstein

Este capítulo é dedicado a apresentar as principais contribuições da pesquisa e algumas pos-

sibilidades de trabalhos futuros.

5.1 Contribuições

Lançar mão de um conjunto de estimadores para problemas de classiﬁcação e regressão de

função já foi comprovado na literatura, tanto na forma empírica quanto teórica, que proporciona

ganhos de acuidade quando comparado a modelos que utilizam estimadores independentes. Isto

está diretamente relacionado ao fato de que componentes diversos estão contribuindo para o

melhoramento do resultado ﬁnal desejado (KUNCHEVA; WHITAKER, 2003).

5.1 Contribuições 78

Dentro do estudo de comitês de máquinas e em especial nos modelos estáticos denominados

de ensemble (HAYKIN, 2001), foram estudados três algoritmos que implementam esses concei-

tos, são eles: Bagging, Boosting e MultiBoosting. Estes algoritmos constroem membros para um

ensemble lançando-se mão dos conceitos de redistribuição dos dados com reposição como meio

de se garantir a diversidade entre os membros participantes.

Nesta pesquisa duas novas abordagens destinadas à síntese de ensembles foram apresentadas.

Cada uma delas combina Bagging, Boosting e MultiBoosting com dois arcabouços de geração

de diversidade. Um dos métodos de incremento de diversidade está relacionado à redistribuição

aleatória dos dados, enquanto que o outro, está relacionado à utilização de componentes hete-

rogêneos. As abordagens, uma evolutiva e outra construtiva, foram utilizadas para a escolha de

10 possíveis tipos de componentes de forma automática. Na primeira abordagem é lançado mão

da utilização de um algoritmo genético customizável, enquanto que na segunda, é utilizado um

modelo construtivo baseado em busca gulosa.

Os modelos gerados pelas novas abordagens foram comparados aos modelos homogêneos.

Os resultados experimentais provenientes da utilização dos modelos de ensembles evolutivos

apontaram ganhos tanto em termos de índices de precisão (taxa de erro de validação e gene-

ralização) como de incremento de diversidade (Estatística-Q). Já os experimentos obtidos pela

abordagem construtiva não foram tão otimistas quanto os da evolutiva. Por outro lado, ambas

mostraram-se estáveis quando aplicadas a vários tipos de problemas de classiﬁcação de padrão

com diferentes níveis de complexidade. É válido mencionar também, que não se tem pesquisas

que avaliem os benefícios de se combinar técnicas de diversidades em ensembles.

Por ﬁm, o trabalho vem corroborar com a pesquisa de Canuto et al. (2007), que também ava-

lia o impacto da escolha de tipos diferentes de indutores em ensembles, sendo que a conﬁguração

dos modelos aqui foi de forma automática, mediante as abordagens evolutiva e construtiva.

Como fruto da pesquisa reportada nesta dissertação, foram publicados os artigos (NASCI-

MENTO; COELHO, 2009a) e (NASCIMENTO; COELHO, 2009b).

5.2 Trabalhos Futuros 79

5.2 Trabalhos Futuros

Como extensão da pesquisa realizada, em um primeiro momento, serão aplicados às aborda-

gens evolutiva e construtiva diferentes métodos de combinação das estimativas dos componentes

do ensemble. Sejam eles baseados em métodos de seleção e os baseados em fusão, também

analisados em Canuto et al. (2007). Em seguida, pretende-se adotar outras abordagens bio-

inspiradas para geração de ensembles diversos, tais como os Sistemas Imunológicos Artiﬁciais

(SIA) (DASGUPTA, 1998; CASTRO et al., 2005; COELHO, 2006). A motivação para seguir

esta investigação está associada, principalmente, pelo fato dos SIAs serem capazes de manter a

diversidade da população, uma vez que possuem módulos que desempenham funções semelhan-

tes às técnicas de niching e ﬁtness sharing; e uma outra seria, devido as soluções ótimas locais

tenderem a ser simultaneamente preservadas quando localizadas. E por ﬁm, a utilização do con-

ceito de meta-aprendizado (GIRAUD-CARRIER; VILALTA; BRAZDIL, 2004), que pode ser

deﬁnido como o processo de exploração dos conhecimentos sobre a aprendizagem, permitindo-

se compreender e melhorar o desempenho dos algoritmos de aprendizado. No campo de comitês

de máquinas, uma possível aplicação dessas abordagens seria a de aprender a escolher os pró-

prios tipos de indutores e o método de combinações mais adequado para composição do modelo

de ensemble, de forma a tratar cada problema em separado.

Referências Bibliográﬁcas

AHA, D. W. Lazy Learning. [S.l.]: Kwwer Academic, 1997.

AHA, D. W.; KIBLER, D.; ALBERT, M. K. Instance-based learning algorithms. Mach. Learn.,

Kluwer Academic Publishers, Hingham, MA, USA, v. 6, n. 1, p. 37–66, 1991. ISSN 0885-6125.

AKHAND, M. A. H.; MURASE, K. A minimal neural network ensemble construction method:

A constructive approach. Journal of Advanced Computational Intelligence and Intelligent

Informatics, v. 11, n. 6, 2007.

ASUNCIóN, A.; NEWMAN, D. J. UCI Machine Learning Repository.

, 2007.

BASTOS, E. N. F. Uma Rede Neural Auto-Organizável Construtiva para Aprendizado Perpétuo

de Padrões Espaço-Temporais. Dissertação (Mestrado) — Universidade Federal do Rio Grande

do Sul, 2007.

BAUER, E.; KOHAVI, R. An Empirical Comparison of Voting Classiﬁcation Algorithms:

Bagging, Boosting, and Variants. 1998.

BIAN, S.; WANG, W. On diversity and accuracy of homogeneous and heterogeneous ensembles.

Int. J. Hybrid Intell. Syst., IOS Press, Amsterdam, The Netherlands, The Netherlands, v. 4, n. 2,

p. 103–128, 2007. ISSN 1448-5869.

BLUM, A.; RIVEST, R. L. Training a 3–node neural network is NP–complete. Workshop on

Conputacional Learning Theory, p. 9–18, 1988.

BREIMAN, L. Bagging predictors. Mach. Learn., Kluwer Academic Publishers, Hingham, MA,

USA, v. 24, n. 2, p. 123–140, 1996. ISSN 0885-6125.

BREIMAN, L. Bias, Variance, and Arcing Classiﬁers. Berkeley, 1996.

BREIMAN, L. Arcing classiﬁers. The Annals of Statistics, v. 26, n. 3, p. 801–824, 1998.

Disponível em: <http://www.jstor.org/stable/120055>.

CANUTO, A. M. P.; ABREU, M. C. C.; OLIVEIRA, L. de M.; JR., J. C. X.; SANTOS, A. de

M. Investigating the inﬂuence of the choice of the ensemble members in accuracy and diversity

of selection-based and fusion-based methods for ensembles. Pattern Recognition Letters, v. 28,

n. 4, p. 472–486, 2007.

Referências Bibliográﬁcas 81

CANUTO, A. M. P.; OLIVEIRA, L. de M.; JR., J. C. X.; SANTOS, A. de M.; ABREU, M.

C. C. Performance and diversity evaluation in hybrid and non-hybrid structures of ensembles.

In: Procs. of the Fifth International Conference on Hybrid Intelligent Systems. [S.l.: s.n.], 2005.

p. 285–290.

CASTRO, P. D.; COELHO, G. P.; CAETANO, M. F.; ZUBEN, F. J. V. Designing Ensembles

of Fuzzy Classiﬁcation Systems: An Immune-Inspired Approach. [S.l.]: Springer Berlin, 2005.

469–482 p.

CHEESEMAN, P.; STUTZ, J. Bayesian classiﬁcation (autoclass): theory and results advances

in knowledge discovery and data mining. American Association for Artiﬁcial Intelligence,

Menlo Park, CA, USA, p. 153–180, 1996.

CHERKAUER, J. K. Human expert level performance on a scientiﬁc image analysis task by a

system using combined artiﬁcial neural networks. Proceedings of the AAAI–96 Workshop on

Integrating Multiple Learned Models for Improving and Scaling Machine Learning Algorithms,

p. 15–21, 1996.

CLEMEN, R. T. Combining forecasts: A review and annotated bibliography. International

Journal of Forecasting, v. 5, n. 4, p. 559–583, 1989.

COELHO, A. L. V. Evolução, simbiose e hibridismo aplicados à engenharia de sistemas

inteligentes modulares: Investigação em redes neurais artiﬁciais, comitês de máquinas e

sistemas multiagentes. Tese (Doutorado) — Universidade Estadual de Campinas, 2004.

COELHO, G. P. Geração, seleção e combinação de componentes para ensembles de redes

neurais aplicadas a problemas de classiﬁcação. Dissertação (Mestrado) — Universidade

Estadual de Campinas, 2006.

CONDORCET, M. L. M. de. Essai sur l’application de l’analyse á la probabilité des décisions

rendues á la pluralité des voix. [S.l.: s.n.], 1758.

DARWIN, C. On the Origin of Species, by Means of Natural Selection. London: [s.n.], 1859.

DASGUPTA, D. Artﬁcial Immune Systems and Their Applications. Secaucus, NJ, USA:

Springer – Verlag New York, Inc., 1998. ISBN 3540643907.

DIETTERICH, T. G. Ensemble methods in machine learning. In: Procs. of the First

International Workshop on Multiple Classiﬁer Systems. London, UK: Springer-Verlag, 2000. p.

1–15.

DIETTERICH, T. G. An experimental comparison of three methods for constructing ensembles

of decision trees: Bagging, boosting and randomization. Machine Learning, v. 40, n. 2, p.

139–158, 2000.

DRESCHER, G. L. Made-Up Minds: A Constructivist Approach to Artiﬁcial Intelligence. [S.l.:

s.n.], 1991.

Referências Bibliográﬁcas 82

ECKHARDT, D. E.; LEE, L. D. A theoretical basis for the analysis of multiversion software

subject to coincident errors. IEEE Trans. Softw. Eng., IEEE Press, Piscataway, NJ, USA, v. 11,

n. 12, p. 1511–1517, 1985. ISSN 0098-5589.

EFRON, B.; TIBSHIRANI, R. J. An Introduction to the Bootstrap. [S.l.: s.n.], 1993.

EIBEN, A.; SMITH, J. Introduction to Evolutionary Computing. 1. ed. [S.l.: s.n.], 2003.

FERNANDES, A. M. da R. Inteligência Artiﬁcial: Noções Gerais. Florianópolis - SC: [s.n.],

2005.

FRANK, E.; WITTEN, I. H. Generating accurate rule sets without global optimization. In:

ICML 98: Proceedings of the Fifteenth International Conference on Machine Learning.

San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998. p. 144–151. ISBN

1-55860-556-8.

FREUND, Y.; SCHAPIRE, R. E. A decision-theoretic generalization of on-line learning and an

application to boosting. In: EuroCOLT ’95: Proceedings of the Second European Conference

on Computational Learning Theory. London, UK: Springer-Verlag, 1995. p. 23–37. ISBN

3-540-59119-2.

FREUND, Y.; SCHAPIRE, R. E. Experiments with a New Boosting Algorithm. 1996.

FREUND, Y.; SCHAPIRE, R. E. A short introduction to boosting. Japonese So-

ciety for Artiﬁcial Intelligence, v. 14, n. 5, p. 771–780, 1999. Disponível em:

<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.5846>.

FRIEDMAN, J. H. On bias, variance, 0/1 – loss, and the curse-of-dimensionality. Data Mining

and Knowledge Discovery, v. 1, p. 55–77, 1997.

GEMAN, S.; BIENENSTOCK, E.; DOURSAT, R. Neural networks and the bias/variance

dilemma. Neural Comput., MIT Press, Cambridge, MA, USA, v. 4, n. 1, p. 1–58, 1992. ISSN

0899-7667.

GIRAUD-CARRIER, C.; VILALTA, R.; BRAZDIL, P. Introduction to the special issue on

meta-learning. Mach. Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 54, n. 3, p.

187–193, 2004. ISSN 0885-6125.

GOLDBERG, D. E. Genetic Algorithms in Search, Optimization and Machine Learning.

Boston, MA, USA: Addison – Wesley Longman Publishing Co., Inc., 1989. ISBN 0201157675.

HANSEN, L. K.; LIISBERG, L.; SALAMON, P. Ensemble methods for hadwritten digit

recognition. Em Proceedings of the IEEE Workshop on Neural Networks for Signal Processing,

p. 333–342, 1992.

HANSEN, L. K.; SALAMON, P. Neural network ensemble. IEEE Transactions on Pattern

Analysis and Machine Intelligence, v. 12, n. 10, October 1990.

Referências Bibliográﬁcas 83

HARPHAM, C.; DAWSON, W.; BROWN, R. A review of genetic algorithms applied to training

radial basis function networks. Neural Comput. Appl., Springer-Verlag, London, UK, v. 13, n. 3,

p. 193–201, 2004. ISSN 0941-0643.

HASHEM, S.; SCHMEISER, B. Improving model accuracy using optimal linear combinations

of trained neural networks. IEEE Transactions on Neural Networks, p. 792–794, 1995.

HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning: Data

Mining, Inference, and Prediction. [S.l.: s.n.], 2001.

HAYKIN, S. Redes Neurais, Princípios e Práticas. 2a. ed. [S.l.]: Editora Bookman, 2001.

HOLLAND, J. H. Adaptation in Natural and Artiﬁcial Systems. [S.l.: s.n.], 1975.

HOLTE, R. C. Very simple classiﬁcation rules perform well on most commonly used datasets.

Mach. Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 11, n. 1, p. 63–90, 1993.

ISSN 0885-6125.

HUANG, F. J.; ZHOU, Z.; ZHANG, H.-J.; CHEN, T. Pose invariant face recognition.

Proceedings of the 4th IEEE International Conference on Automatic Face and Gesture

Recognition, p. 245–250, 2000.

INOUE, H.; NARIHISA, H. Effective online pruning method for ensemble self-generating

neural networks. In: Procs. of the 47th Midwest Symposium on Circuits and Systems. [S.l.: s.n.],

2004. p. 85–88.

JOHN, G.; LANGLEY, P. Estimating continuous distributions in bayesian classiﬁers. In: In

Proceedings of the Eleventh Conference on Uncertainty in Artiﬁcial Intelligence. [S.l.]: Morgan

Kaufmann, 1995. p. 338–345.

KEARNS, M.; VALIANT, L. G. Learning Boolean Formulae or Finite Automata is as Hard as

Factoring. [S.l.], 1988.

KIM, Y.-W.; OH, I.-S. Classiﬁer ensemble selection using hybrid genetic algorithms. Pattern

Recognition Letters, v. 29, n. 6, p. 796–802, 2008.

KOHAVI, R. The power of decision tables. In: ECML ’95: Proceedings of the 8th European

Conference on Machine Learning. London, UK: Springer-Verlag, 1995. p. 174–189. ISBN

3-540-59286-5.

KOHAVI, R.; WOLPERT, D. H. Bias plus variance decomposition for zero-one less function.

Machine Learning, 1996.

KONG, E. B.; DIETTERICH, T. G. Error-correcting output coding corrects bias and variance.

Proceedings of the Twelfth International Conference on Machine Learning, p. 313–321, 1995.

KOTSIANTIS, S. B.; PINTELAS, P. E. Combining bagging and boosting. International Journal

of Computational Intelligence, v. 1, n. 4, p. 1304–2386, 2004.

Referências Bibliográﬁcas 84

KOZA, J. R. Genetic Programming: On the Programming of Computers by Means of Natural

Selection (Complex Adaptive Systems). [S.l.]: The MIT Press, 1992. Hardcover. ISBN

0262111705.

KUNCHEVA, L. I. Clustering-and-selection model for classiﬁer combination. In: Knowledge-

Based Intelligent Engineering Systems and Allied Technologies, 2000. Proceedings.

Fourth International Conference on. [s.n.], 2000. v. 1, p. 185–188 vol.1. Disponível em:

<http://dx.doi.org/10.1109/KES.2000.885788>.

KUNCHEVA, L. I.; WHITAKER, C. J. Measures of diversity in classiﬁer ensembles. Machine

Learning, v. 51, p. 181–207, 2003.

LANGDON, W. B.; BARRETT, S. J.; BUXTON, B. F. Combining decision trees and neural

networks for drug discovery. In: EuroGP ’02: Proceedings of the 5th European Conference on

Genetic Programming. London, UK: Springer-Verlag, 2002. p. 60–70. ISBN 3-540-43378-3.

LIMA, C. A. M.; COELHO, A. L. V.; ZUBEN, F. J. V. Ensembles of support vector machines

for regression problems. Em Proceedings of the IEEE International Joint Conference on Neural

Networks – IJCNN, p. 2381–2386, 2002.

LIU, Y.; LI, Y.; LI, G.; ZHANG, B.; WU, G. Constructive ensemble of RBF neural networks

and its application to earthquake prediction. Springer Berlin, p. 532–537, 2005.

LUGER, G. F. Inteligência Artiﬁcial:Estruturas e estratégias para a solução de problemas

complexos. 4. ed. [S.l.: s.n.], 2004.

MAO, J. A case study on bagging, boosting and basic ensembles of neural networks for ocr.

Em Proceedings of the IEEE International Joint Conference on Neural Networks – IJCNN, p.

1828–1833, 1998.

MITCHELL, T. M. Machine Learning. [S.l.: s.n.], 1997.

NAFTALY, U.; INTRATOR, N.; HORN, D. Optimal ensemble averaging of neural networks.

Network: Computation in Neural Systems, p. 283–296, 1997.

NASCIMENTO, D. S. C.; COELHO, A. L. V. Bagging heterogêneo evolutivo: Caracterização e

análise comparativa com ensembles homogêneas de redes neurais RBF. Simpósio Brasileiro de

Automação Inteligente, 2009.

NASCIMENTO, D. S. C.; COELHO, A. L. V. Ensembling heterogeneous learning models with

boosting. In: Internacional Conference on Neural Information Processing. [S.l.]: Lecture Notes

in Computer Science, 2009. v. 5863, n. 512–519.

OPITZ, D.; MACLIN, R. Popular ensemble methods: An empirical study. Journal of Artiﬁcial

Intelligence Research, v. 11, p. 169–198, 1999.

OSBORN, A. F. Applied Imagination. [S.l.: s.n.], 1953.

Referências Bibliográﬁcas 85

PIAGET, J. A construção do real na criança. Terceira edição. [S.l.]: Zahar, 1979.

PLATT, J. C. Fast training of support vector machines using sequential minimal optimization.

MIT Press, Cambridge, MA, USA, p. 185–208, 1999.

QUINLAN, J. R. Learning with continuous classes. In: . [S.l.]: World Scientiﬁc, 1992. p.

343–348.

QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, CA, USA: Morgan

Kaufmann Publishers Inc., 1993. ISBN 1-55860-238-0.

REZENDE, S. O. Sistemas Inteligentes: Fundamentos e aplicações. Baurueri - SP: [s.n.], 2003.

RUSSELL, S.; NORVIG, P. Inteligência Artiﬁcial. Segunda edição. [S.l.]: Elsevier, 2004.

SCHAPIRE, R. E. The strength of weak learnability. Machine Learning, v. 5, p. 197–227, 1990.

SOARES, R. G. F.; SANTANA, A.; CANUTO, A. M. P.; SOUTO, M. C. P. de. Using accuracy

and diversity to select classiﬁers to build ensembles. In: Procs. of the IEEE International Joint

Conference on Neural Networks. [S.l.: s.n.], 2006. p. 2289–2295.

SOLLICH, P.; KROGH, A. Learning with ensembles: How overﬁtting can be useful. Advances

in Neural Information Processing Systems, v. 8, p. 190–196, 1996.

TAVARES, L. G.; LOPES, H. S.; LIMA, C. R. E. Estudo comparativo de métodos de

aprendizado de máquina na detecção de regiões promotoras de genes de escherichia coli. Anais

do I Simpósio Brasileiro de Inteligência Computacional, p. 8–11, 2007.

TSOUMAKAS, G.; ANGELIS, L.; VLAHAVAS, I. Selective fusion of heterogeneous

classiﬁers. Intelligent Data Analysis, IOS Press, v. 9, n. 6, p. 511–525, 2005.

UEDA, N.; NAKANO, R. Generalization error of ensemble estimators. In: . Washington, DC,

USA: [s.n.], 1996. v. 1, n. 90–95.

VALENTINI, G.; MASULLI, F. Ensembles of learning machines. Springer, v. 2486, p. 3–19,

2002.

WANG, W.; JONES, P.; PARTRIDGE, D. Diversity between neural networks and decision trees

for building multiple classiﬁer systems. In: MCS ’00: Proceedings of the First International

Workshop on Multiple Classiﬁer Systems. London, UK: Springer-Verlag, 2000. p. 240–249.

WEBB, G. I. Idealized models of decision committee performance and their application to

reduce committee error. [S.l.], 1998.

WEBB, G. I. Multibooosting: A technique for combining boosting and wagging. Machine

Learning, v. 40, p. 159–39, 2000.

Referências Bibliográﬁcas 86

WITTEN, I. H.; FRANK, E. Data Mining: Pratical Machine Learning Tools and Techniques.

Second. San Francisco - CA: [s.n.], 2005.

WOODS, K.; JR., W. P. K.; BOWYER, K. Combination of multiple classiﬁers using local

accuracy estimates. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE

Computer Society, Los Alamitos, CA, USA, v. 19, n. 4, p. 405–410, 1997. ISSN 0162-8828.

ZHENG, Z.; WEBB, G. I. Multiple boosting: A combination of boosting and bagging. In:

Proceedings of the 1998 International Conference on Parallel and Distributed Processing

Techniques and Applications. [S.l.]: CSREA Press, 1998. p. 1133–1140.

ZHOU, Z. H.; JIANG, Y.; YANG, Y. B.; CHEN, S. F. Lung cancer cell identiﬁcation based on

neural network ensembles. Artiﬁcial Intelligence in Medicine, v. 24, p. 25–36, 2000.

APÊNDICE A -- Problemas de Classiﬁcação

A Tabela 13 exibe a descrição dos conjuntos de problemas de classiﬁcação utilizados nos

testes retirados do repositório UCI (ASUNCIóN; NEWMAN, 2007), enquanto que Tabela 14

exibe as características entre atributos, instâncias, classes e valores faltantes para os problemas

de classiﬁcação. As Figuras (45 a 53) exibem as distribuições entre as classes.

A.1 Descrições dos Problemas de Classiﬁcação 88

A.1 Descrições dos Problemas de Classiﬁcação

Tabela 13: Conjunto de problemas de classiﬁcação.

Nome Descrição

anneal Avalia características da têmpera em metais.

breast-cancer Busca identiﬁcar a presença de tumores em mamas, que pode ser benignos ou malignos.

bupa Avaliação de exames de sangue que se pensa ser sensível aos problemas hepáticos que possam

surgir a partir do consumo excessivo de álcool em homens.

colic Avalia se cólicas em cavalos são provenientes de lesões cirúrgicas ou não.

credit-a Aprovar ou não o crédito a um dado cliente mediante a análise de seu perﬁl de crédito.

diabetes Diagnosticar a presença ou não de diabetes a partir de várias medidas ﬁsiológicas e testes

clínicos.

glass Identiﬁcar o tipo de vidro com base nas características físicas da amostra.

haberman Analisa a sobrevida de pacientes submetidos à cirurgia de câncer de mama.

heart-c Diagnosticar a presença ou ausência de risco de doença coronária (enfarto) a partir dos resul-

tados de vários testes clínicos.

hepatitis Dentre pacientes com hepatite, indicar quais deles irão falecer ou não.

ionosphere Classiﬁcar sinais de radar provenientes da ionosfera.

iris Predizer a classe de uma planta (Íris) de acordo com o formato de sua folha.

segment Analisa pixels de imagens tiradas ao ar livre classiﬁcando os tipos de segmentos que podem

ser tijolo, céu, folhagem, cimento, janela, caminho e capim.

sick Classiﬁca a presença ou ausência de tireoidiana.

sonar Distinguir entre materiais metálicos ou rochosos de acordo com os níveis de intensidade de

sinais de sonar enviados sob diferentes condições (ângulos, freqüências, etc.)

vehicle Classiﬁcar uma dada silhueta 2D em um dentre quatro tipos de veículos usando um conjunto

de atributos físicos.

vote Avalia os votos da Câmara de Representantes nos E.U.A. se foram realizados por um repu-

blicano ou um democrata.

zoo Conjunto de dados artiﬁcial em que diferentes espécies devem ser categorizadas de acordo

com suas características ﬁsiológicas, etológicas e ecológicas.

A.2 Características dos Problemas de Classiﬁcação 89

A.2 Características dos Problemas de Classiﬁcação

Tabela 14: Características de atributos, instâncias, classes e valores faltantes para os problemas

de classiﬁcação.

Nome Atributos Instâncias Classes V. Faltantes

anneal 38 798 6 Sim

breast-cancer 9 286 2 Sim

bupa 7 345 2 Não

colic 28 368 2 Sim

credit-a 15 690 2 Sim

diabetes 8 768 2 Não

glass 10 214 7 Não

haberman 3 306 2 Não

heart-c 13 303 5 Sim

hepatitis 19 115 2 Sim

ionosphere 34 351 2 Não

iris 4 150 3 Não

segment 19 2310 7 Não

sick 29 3772 2 Sim

sonar 60 208 2 Não

vehicle 18 946 4 Não

vote 16 435 2 Sim

zoo 17 101 7 Não

A.3 Gráﬁcos de Distribuição das Classes 90

A.3 Gráﬁcos de Distribuição das Classes

(a) (b)

Figura 45: Distribuição das classes para: (a) base anneal; e (b) base breast-cancer.

(a) (b)

Figura 46: Distribuição das classes para: (a) base bupa; e (b) base colic.

A.3 Gráﬁcos de Distribuição das Classes 91

(a) (b)

Figura 47: Distribuição das classes para: (a) base credit-a; e (b) base diabetes.

(a) (b)

Figura 48: Distribuição das classes para: (a) base glass; e (b) base haberman.

A.3 Gráﬁcos de Distribuição das Classes 92

(a) (b)

Figura 49: Distribuição das classes para: (a) base heart-c; e (b) base hepatitis.

(a) (b)

Figura 50: Distribuição das classes para: (a) base ionosphere; e (b) base iris.

A.3 Gráﬁcos de Distribuição das Classes 93

(a) (b)

Figura 51: Distribuição das classes para: (a) base sick; e (b) base sonar.

(a) (b)

Figura 52: Distribuição das classes para: (a) base sonar; e (b) base vehicle.

A.3 Gráﬁcos de Distribuição das Classes 94

(a) (b)

Figura 53: Distribuição das classes para: (a) base vote; e (b) base zoo.

APÊNDICE B -- Conﬁgurações dos Componentes

As tabelas a seguir disponibilizam as conﬁgurações dos parâmetros de controle dos algorit-

mos de aprendizagem que foram utilizados para realização dos experimento. Esses algoritmos

estão disponíveis no ambiente WEKA (WITTEN; FRANK, 2005).

B.1 Algoritmos de Aprendizagem

Tabela 15: Algoritmo RBF

RBF

Parâmetro(s) Valor

clusteringSeed – O seed aleatório para cada K-vizinhos 1

maxIts – Número máximo de iterações para a regressão logística a ser executada nos proble-

mas da classe discreta.

-1

minStdDev – Deﬁne o desvio padrão mínimo para os clusters. 0.1

numClusters – O número de clusters para K-vizinhos a ser gerado. 2

ridge – Deﬁna o valor para o cume de regressão linear. 1.0E-8

B.1 Algoritmos de Aprendizagem 96

Tabela 16: Algoritmo J48

J48

Parâmetro(s) Valor

binarySplits –Se usa divisões binárias em atributos nominais na construção das árvores. false

conﬁdenceFactor – O fator de conﬁança utilizado para a poda. 0.25

minNumObj – O número mínimo de instâncias por folha. 2

numFolds – Determina a quantidade de dados usada para poda de erro reduzida. Um fold é

usado para poda, o resto para o crescimento da árvore.

reducedErrorPruning – Se a redução de erro da poda a ser usada e o mesma do algoritmo

C.4.5.

false

seed – Seed utilizado para randomizar os dados quando a redução de erro da poda é utilizado. 1

subtreeRaising – Se considerar a sub-árvore na operação de poda. true

unpruned – Se é realizada poda. false

useLaplace – Se a contagem de folhas são suavizados com base em Laplace. false

Tabela 17: Algoritmo SMO

SMO

Parâmetro(s) Valor

buildLogisticModels – Adequa modelos logísticos para as saídas por

estimativas de probabilidade.

false

c – Parâmetro de complexidade C. 1.0

cacheSize – O tamanho do cache do kernel. 250007

epsilon – O epsilon para arredondar erro. 1.0E-12

exponent – O expoente para o kernel polinomial. 1.0

featureSpaceNormalization – Se o recurso de normalização espacial é

realizado.

false

ﬁlterType – Determina se os dados serão transformados. Normalize training data

gamma – O valor do parâmetro de gama para kernels RBF. 0.01

lowerOrderTerms – Se ordem mais baixa dos polinomiais ﬁnais são usa-

dos.

false

numFolds – O número de folds para validação cruzada utilizada para

gerar dados de treinamento para modelos logísticos.

-1

randomSeed – Seed Randômico para a validação cruzada. 1

toleranceParameter – Parâmetro de tolerância. 0.0010

useRBF – Se utiliza kernel RBF em vez de um polinômio. false

Tabela 18: Algoritmo Naïve Bayes

Naïve Bayes

Parâmetro(s) Valor

useKernelEstimator – Usar um estimador kernel para atributos numéricos ao invés de uma

distribuição normal.

false

useSupervisedDiscretization – Usar discretização supervisionada para converter atributos nu-

méricos para categóricos.

false

B.1 Algoritmos de Aprendizagem 97

Tabela 19: Algoritmo IBk

IBK

Parâmetro(s) Valor

KNN – Número de vizinhos. 1

crossValidate – Se a validação cruzada será utilizada para selecionar o

melhor valor de k.

false

distanceWeighting – Obtém o método de ponderação distância utilizado. No distance weighting

meanSquared – Se o erro quadrado médio é usado em vez de erro médio

absoluto ao fazer a validação cruzada para problemas de regressão.

false

noNormalization – Normalização atributo. false

windowSize – Obtém o número máximo de instâncias permitidas no

pool de treinamento.

Tabela 20: Algoritmo Rep Tree

Rep Tree

Parâmetro(s) Valor

maxDepth – A profundidade máxima da árvore. -1

minNum – O peso mínimo total dos casos em uma folha. 2.0

minVarianceProp – A proporção mínima de variância em todos os dados que precisa estar

presente em um nó.

0.0010

noPruning – Se a poda é realizada. false

numFolds – Determina a quantidade de dados utilizados para a poda. Um fold é usado para

poda, o resto para o aplicação das regras.

seed – O seed utilizadas para randomizar os dados. 1

Tabela 21: Algoritmo OneR

OneR

Parâmetro(s) Valor

minBucketSize – O tamanho mínimo de bucket usado para discretizar atributos numéricos. 6

Tabela 22: Algoritmo PART

PART

Parâmetro(s) Valor

binarySplits – Usar o divisão binária em atributos nominais ao construir as árvores parciais. false

conﬁdenceFactor – The conﬁdence factor used for pruning (smaller values incur more pru-

ning).

0.25

minNumObj – O fator de conﬁança utilizado para a poda. 2

numFolds – Determina a quantidade de dados usada para redução de erro de poda. 3

reducedErrorPruning – Usar redução de erro de poda ao invés da técnica utilizada no algo-

ritmo C.4.5.

false

seed – O seed utilizadas para randomizar os dados quando a redução de erro da poda é

utilizada.

unpruned – Se a poda é realizada. false

B.1 Algoritmos de Aprendizagem 98

Tabela 23: Algoritmo Decision Table

Decision Table

Parâmetro(s) Valor

crossVal – Deﬁne o número de folds para a validação cruzada. 1

maxStale – Deﬁne o número de tabelas de decisão para considerar antes de abandonar a

pesquisa.

useIBk – Utilizar IBk em vez de classe majoritária. false

APÊNDICE C -- Tabelas de Resultados

As tabelas a seguir apresentam os índices de desempenhos dos algoritmos Bagging, Boos-

ting e MultiBoosting em termos de erro de treinamento, erro de teste e Estatística-Q. Foram

analisados 10 tipos de indutores (apresentados no Apêndice B) aplicados a 18 problemas de

classiﬁcação de padrão discriminados no Apêndice A.

C.1 Bagging Homogêneo

Tabela 24: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Bagging homogêneo formado por componentes RBF e J48.

Base RBF J48

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0951±0,0236 0,0880±0,0236 0,8845 0,1310±0,0198 0,1105±0,0181 0,8087

breast-cancer 0,2755±0,0451 0,2803±0,0207 0,7977 0,2673±0,0413 0,2947±0,0207 0,8128

bupa 0,3975±0,0193 0,3630±0,0402 0,5395 0,3619±0,0546 0,3454±0,0343 0,3534

colic 0,2238±0,0376 0,2178±0,0105 0,8842 0,1556±0,0270 0,1545±0,0174 0,9590

credit-a 0,1855±0,0199 0,1969±0,0198 0,9693 0,1383±0,0238 0,1488±0,0108 0,8698

diabetes 0,2645±0,0315 0,2599±0,0173 0,8899 0,2714±0,0291 0,2542±0,0083 0,5288

glass 0,3795±0,0581 0,3348±0,0342 0,5774 0,3699±0,0483 0,3298±0,0318 0,5025

haberman 0,2619±0,0263 0,2522±0,0102 0,8474 0,2752±0,0217 0,2667±0,0097 0,7717

heart-c 0,1606±0,0317 0,1714±0,0260 0,9226 0,2250±0,0355 0,2095±0,0275 0,5415

hepatitis 0,1679±0,0449 0,1578±0,0301 0,6179 0,2019±0,0388 0,1824±0,0132 0,5883

ionosphere 0,1067±0,0207 0,0978±0,0189 0,9456 0,1092±0,0282 0,0883±0,0228 0,4040

iris 0,0451±0,0132 0,0495±0,0111 0,4344 0,0765±0,0351 0,0667±0,0136 0,8298

segment 0,1134±0,0079 0,1121±0,0104 0,9381 0,0552±0,0073 0,0516±0,0084 0,8925

sick 0,0373±0,0048 0,0364±0,0025 0,9793 0,0175±0,0040 0,0176±0,0030 0,9824

sonar 0,2437±0,0535 0,2460±0,0467 0,3855 0,3211±0,0434 0,2759±0,0494 0,0971

vehicle 0,3250±0,0241 0,3398±0,0188 0,8523 0,2868±0,0193 0,2812±0,0154 0,4481

vote 0,0622±0,0171 0,0672±0,0184 0,9620 0,0486±0,0123 0,0432±0,0077 0,8756

zoo 0,1457±0,0211 0,1303±0,0424 0,1741 0,1714±0,0301 0,1318±0,0441 0,5510

C.1 Bagging Homogêneo 100

Tabela 25: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Bagging homogêneo formado por componentes SMO e Naïve Bayes.

Base SMO Naïve Bayes

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1435±0,0223 0,1277±0,0205 0,9517 0,1722±0,0364 0,1853±0,0507 0,9679

breast-cancer 0,3061±0,0417 0,3043±0,0330 0,8114 0,2765±0,0480 0,2814±0,0197 0,9504

bupa 0,4263±0,0127 0,4163±0,0066 0,8298 0,4551±0,0429 0,4145±0,0593 0,5301

colic 0,1913±0,0288 0,1864±0,0208 0,8107 0,2040±0,0420 0,2112±0,0151 0,9844

credit-a 0,1357±0,0180 0,1532±0,0110 0,9763 0,2000±0,0179 0,2127±0,0164 0,9917

diabetes 0,2580±0,0297 0,2379±0,0110 0,9773 0,2546±0,0256 0,2524±0,0141 0,9813

glass 0,5027±0,0354 0,4745±0,0244 0,6318 0,5205±0,0387 0,4957±0,0769 0,8022

haberman 0,2819±0,0150 0,2746±0,0260 0,9306 0,2600±0,0110 0,2498±0,0070 0,9595

heart-c 0,1885±0,0193 0,1719±0,0239 0,9148 0,1712±0,0297 0,1698±0,0290 0,9810

hepatitis 0,1849±0,0469 0,1559±0,0224 0,7594 0,1358±0,0406 0,1471±0,0307 0,9490

ionosphere 0,1367±0,0294 0,1238±0,0193 0,9351 0,1925±0,0282 0,1978±0,0241 0,9840

iris 0,0686±0,0324 0,0535±0,0270 0,6144 0,0549±0,0180 0,0566±0,0203 0,9095

segment 0,0864±0,0094 0,0867±0,0064 0,9908 0,1927±0,0092 0,1947±0,0088 0,9943

sick 0,0616±0,0000 0,0611±0,0002 0,9997 0,0831±0,0174 0,0785±0,0148 0,9921

sonar 0,2775±0,0564 0,2511±0,0162 0,6565 0,3141±0,0420 0,3007±0,0489 0,8825

vehicle 0,3049±0,0218 0,3084±0,0134 0,9071 0,5441±0,0260 0,5608±0,0205 0,9172

vote 0,0480±0,0144 0,0436±0,0102 0,8910 0,0959±0,0272 0,1014±0,0130 0,9992

zoo 0,1429±0,0404 0,0985±0,0240 0,3159 0,1257±0,0276 0,0985±0,0486 0,4448

Tabela 26: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Bagging homogêneo formado por componentes IBk e REP Tree.

Base IBk REP Tree

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0794±0,0109 0,0745±0,0082 0,4229 0,1366±0,0194 0,1285±0,0231 0,8482

breast-cancer 0,3133±0,0627 0,3191±0,0400 0,2823 0,3031±0,0464 0,3160±0,0277 0,7074

bupa 0,4339±0,0450 0,4035±0,0260 0,3432 0,3839±0,0457 0,3419±0,0394 0,3993

colic 0,2167±0,0351 0,2190±0,0224 0,6957 0,1746±0,0259 0,1603±0,0271 0,8783

credit-a 0,1936±0,0340 0,2033±0,0209 0,5942 0,1332±0,0203 0,1563±0,0108 0,9258

diabetes 0,3057±0,0251 0,3182±0,0187 0,4396 0,2603±0,0382 0,2484±0,0103 0,6522

glass 0,4082±0,0573 0,3525±0,0338 0,3584 0,3863±0,0295 0,3546±0,0274 0,6190

haberman 0,3371±0,0443 0,3308±0,0337 0,3830 0,2838±0,0133 0,2677±0,0134 0,8026

heart-c 0,2317±0,0497 0,2186±0,0334 0,3340 0,2202±0,0358 0,2196±0,0365 0,5319

hepatitis 0,2340±0,0598 0,1892±0,0289 0,3245 0,2038±0,0278 0,1892±0,0343 0,6228

ionosphere 0,1808±0,0233 0,1489±0,0118 0,2949 0,1225±0,0239 0,0939±0,0258 0,6835

iris 0,0647±0,0307 0,0566±0,0179 0,3578 0,0647±0,0293 0,0606±0,0337 0,2758

segment 0,0587±0,0061 0,0533±0,0063 0,7474 0,0593±0,0067 0,0582±0,0098 0,9081

sick 0,0530±0,0049 0,0527±0,0042 0,8557 0,0182±0,0030 0,0189±0,0022 0,9889

sonar 0,2141±0,0643 0,2212±0,0330 0,1681 0,3085±0,0472 0,2920±0,0574 0,2800

vehicle 0,3382±0,0284 0,3441±0,0114 0,4561 0,2941±0,0257 0,3036±0,0187 0,5858

vote 0,0804±0,0258 0,0787±0,0225 0,2944 0,0466±0,0137 0,0429±0,0074 0,9810

zoo 0,0857±0,0269 0,0833±0,0217 0,4642 0,6000±0,0000 0,5803±0,0073 0,2545

C.1 Bagging Homogêneo 101

Tabela 27: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Bagging homogêneo formado por componentes Decision Stump e OneR.

Base Decision Stump OneR

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1810±0,0228 0,1780±0,0300 0,7966 0,1634±0,0000 0,1639±0,0000 0,9954

breast-cancer 0,2673±0,0446 0,3027±0,0221 0,8337 0,2837±0,0424 0,3005±0,0350 0,8366

bupa 0,3839±0,0555 0,4040±0,0255 0,3699 0,4542±0,0299 0,4110±0,0292 0,3122

colic 0,2000±0,0459 0,1810±0,0171 0,9022 0,2048±0,0543 0,2008±0,0414 0,7994

credit-a 0,1328±0,0199 0,1512±0,0103 1,0000 0,1358±0,0226 0,1542±0,0136 1,0000

diabetes 0,2897±0,0454 0,2642±0,0138 0,5493 0,3111±0,0400 0,2737±0,0201 0,6393

glass 0,5329±0,0362 0,5170±0,0545 0,3387 0,4562±0,0588 0,4745±0,0442 0,6449

haberman 0,2705±0,0255 0,2677±0,0084 0,8057 0,2800±0,0357 0,2816±0,0137 0,8048

heart-c 0,2644±0,0454 0,2558±0,0503 0,5090 0,2663±0,0501 0,2588±0,0378 0,4895

hepatitis 0,2000±0,0255 0,2127±0,0395 0,6452 0,2038±0,0415 0,2020±0,0441 0,6239

ionosphere 0,1833±0,0314 0,1697±0,0260 0,8016 0,1425±0,0250 0,1433±0,0316 0,5670

iris 0,1392±0,0854 0,0889±0,0879 0,0260 0,0647±0,0321 0,0545±0,0144 0,4521

segment 0,4603±0,0359 0,4516±0,0999 0,0265 0,3431±0,0225 0,3314±0,0174 0,6148

sick 0,0350±0,0039 0,0342±0,0020 1,0000 0,0365±0,0037 0,0357±0,0015 0,9940

sonar 0,3169±0,0658 0,2993±0,0474 0,5580 0,3183±0,0641 0,3569±0,0597 0,1683

vehicle 0,5854±0,0173 0,5907±0,0080 0,5571 0,4906±0,0214 0,4876±0,0120 0,7738

vote 0,0500±0,0150 0,0460±0,0105 0,9991 0,0466±0,0137 0,0443±0,0087 0,9991

zoo 0,3800±0,0235 0,3636±0,0567 0,8546 0,6000±0,0000 0,5864±0,0073 0,1292

Tabela 28: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Bagging homogêneo formado por componentes PART e Decision Table.

Base PART Decision Table

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1010±0,0143 0,0909±0,0153 0,8426 0,0252±0,0082 0,0208±0,0116 0,1243

breast-cancer 0,2816±0,0297 0,3037±0,0383 0,6404 0,3010±0,0110 0,2936±0,0055 0,6162

bupa 0,3280±0,0438 0,3414±0,0479 0,3256 0,3847±0,0423 0,4097±0,0167 0,5837

colic 0,1548±0,0231 0,1508±0,0135 0,9184 0,1905±0,0457 0,1880±0,0253 0,7024

credit-a 0,1323±0,0255 0,1519±0,0073 0,7692 0,1485±0,0222 0,1615±0,0191 0,8874

diabetes 0,2615±0,0325 0,2557±0,0115 0,4965 0,2668±0,0326 0,2419±0,0119 0,7602

glass 0,3822±0,0373 0,3291±0,0330 0,3709 0,4110±0,0475 0,4014±0,0336 0,6997

haberman 0,3038±0,0289 0,2851±0,0237 0,6756 0,2810±0,0181 0,2687±0,0112 0,8087

heart-c 0,2067±0,0406 0,1935±0,0372 0,5278 0,2115±0,0432 0,2131±0,0366 0,6267

hepatitis 0,2170±0,0438 0,1853±0,0267 0,3540 0,1943±0,0378 0,1980±0,0306 0,4972

ionosphere 0,1067±0,0251 0,0909±0,0249 0,5921 0,1358±0,0364 0,1195±0,0294 0,6355

iris 0,0765±0,0351 0,0667±0,0136 0,1953 0,0588±0,0346 0,0556±0,0109 0,3828

segment 0,0525±0,0087 0,0460±0,0111 0,8575 0,0706±0,0077 0,0684±0,0217 0,7878

sick 0,0178±0,0034 0,0187±0,0013 0,9287 0,0299±0,0041 0,0267±0,0026 0,9887

sonar 0,3197±0,0358 0,2664±0,0505 0,0532 0,3338±0,0552 0,2912±0,0408 0,2687

vehicle 0,2806±0,0189 0,2780±0,0158 0,4165 0,3333±0,0313 0,3409±0,0261 0,4805

vote 0,0486±0,0145 0,0401±0,0110 0,8422 0,0595±0,0262 0,0533±0,0107 0,5634

zoo 0,1714±0,0301 0,1318±0,0441 0,5050 0,2943±0,0953 0,2091±0,0710 0,2910

C.2 Boosting Homogêneo 102

C.2 Boosting Homogêneo

Tabela 29: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Boosting homogêneo formado por componentes RBF e J48.

Base RBF J48

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0477±0,0099 0,0443±0,0128 0,0333 0,0915±0,0143 0,0760±0,0096 -0,1688

breast-cancer 0,3173±0,0584 0,3330±0,0289 0,0748 0,3337±0,0444 0,3463±0,0500 -0,0886

bupa 0,3983±0,0607 0,3727±0,0427 0,1649 0,3458±0,0413 0,3590±0,0270 -0,1105

colic 0,2262±0,0460 0,2314±0,0194 -0,0044 0,2111±0,0482 0,2037±0,0284 -0,1538

credit-a 0,1872±0,0242 0,1890±0,0235 0,2123 0,1617±0,0254 0,1703±0,0169 -0,2283

diabetes 0,2672±0,0235 0,2735±0,0197 0,2046 0,2828±0,0372 0,2889±0,0106 -0,1871

glass 0,3808±0,0622 0,3560±0,0382 0,1888 0,3603±0,0505 0,3340±0,0309 -0,2957

haberman 0,2962±0,0226 0,2905±0,0268 0,2276 0,3371±0,0251 0,3159±0,0329 -0,0835

heart-c 0,1990±0,0342 0,1905±0,0259 0,0648 0,2240±0,0573 0,2251±0,0488 -0,2615

hepatitis 0,1604±0,0513 0,1627±0,0340 -0,3892 0,2113±0,0540 0,1971±0,0322 -0,3748

ionosphere 0,0892±0,0125 0,0792±0,0138 -0,0365 0,1058±0,0377 0,0892±0,0215 -0,6050

iris 0,0569±0,0299 0,0505±0,0117 0,5033 0,0784±0,0292 0,0667±0,0262 -0,6167

segment 0,0814±0,0078 0,0802±0,0129 0,5580 0,0394±0,0068 0,0355±0,0049 -0,4409

sick 0,0429±0,0047 0,0430±0,0033 0,5013 0,0177±0,0015 0,0165±0,0027 -0,4677

sonar 0,2465±0,0480 0,2190±0,0298 -0,2254 0,3211±0,0500 0,2664±0,0606 -0,3737

vehicle 0,3184±0,0328 0,3211±0,0176 0,5836 0,2684±0,0310 0,2661±0,0103 -0,2804

vote 0,0595±0,0177 0,0523±0,0106 -0,0036 0,0615±0,0210 0,0554±0,0154 -0,1055

zoo 0,1314±0,0335 0,1061±0,0378 1,0000 0,1571±0,0452 0,0894±0,0315 -0,7523

C.2 Boosting Homogêneo 103

Tabela 30: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Boosting homogêneo formado por componentes SMO e Naïve Bayes.

Base SMO Naïve Bayes

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1402±0,0268 0,1215±0,0240 0,3333 0,0886±0,0241 0,0828±0,0238 0,3940

breast-cancer 0,3561±0,0489 0,3441±0,0250 0,0728 0,3418±0,0642 0,3516±0,0402 0,2284

bupa 0,3975±0,0263 0,3639±0,0431 -0,0341 0,4025±0,0371 0,3652±0,0379 0,2164

colic 0,2563±0,0418 0,2438±0,0284 0,0220 0,2484±0,0485 0,2372±0,0160 0,0573

credit-a 0,1668±0,0096 0,1776±0,0169 0,1305 0,1906±0,0153 0,1936±0,0154 0,4578

diabetes 0,2561±0,0323 0,2330±0,0085 0,2866 0,2599±0,0307 0,2508±0,0163 0,4363

glass 0,4726±0,0480 0,4631±0,0519 0,5861 0,5082±0,0568 0,4752±0,0808 0,8582

haberman 0,2790±0,0250 0,2711±0,0165 0,0348 0,2819±0,0216 0,2781±0,0452 0,2674

heart-c 0,2048±0,0272 0,1940±0,0428 0,1758 0,2048±0,0395 0,2030±0,0330 0,2340

hepatitis 0,2000±0,0661 0,1755±0,0209 -0,0873 0,1717±0,0544 0,1755±0,0209 -0,0106

ionosphere 0,1442±0,0236 0,1260±0,0163 -0,0293 0,0967±0,0255 0,0879±0,0185 -0,0340

iris 0,0549±0,0289 0,0485±0,0177 -0,0621 0,0529±0,0227 0,0505±0,0178 -0,1312

segment 0,0863±0,0080 0,0854±0,0087 0,6854 0,1822±0,0169 0,1888±0,0235 0,7896

sick 0,0524±0,0077 0,0493±0,0107 0,2257 0,0657±0,0138 0,0655±0,0143 0,3442

sonar 0,2662±0,0655 0,2591±0,0204 -0,1294 0,2662±0,0635 0,2642±0,0516 -0,0797

vehicle 0,3059±0,0270 0,3057±0,0106 0,3052 0,5521±0,0320 0,5634±0,0236 0,9997

vote 0,0574±0,0232 0,0582±0,0150 -0,1327 0,0615±0,0179 0,0547±0,0108 0,1116

zoo 0,1086±0,0400 0,0682±0,0250 1,0000 0,1171±0,0250 0,0894±0,0360 0,4242

Tabela 31: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Boosting homogêneo formado por componentes IBk e REP Tree.

Base IBK REP Tree

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0791±0,0114 0,0736±0,0077 1,0000 0,1180±0,0114 0,1118±0,0210 0,2405

breast-cancer 0,3173±0,0407 0,3218±0,0387 0,2222 0,3276±0,0324 0,3223±0,0351 0,0895

bupa 0,4297±0,0479 0,4070±0,0240 1,0000 0,3822±0,0559 0,3639±0,0400 -0,1993

colic 0,2175±0,0373 0,2182±0,0195 1,0000 0,1992±0,0356 0,1843±0,0321 -0,0985

credit-a 0,1949±0,0341 0,2062±0,0209 1,0000 0,1651±0,0241 0,1644±0,0131 -0,0752

diabetes 0,3076±0,0231 0,3213±0,0162 1,0000 0,2813±0,0374 0,2743±0,0185 0,0102

glass 0,3973±0,0461 0,3525±0,0284 1,0000 0,4466±0,0399 0,3957±0,0514 0,6718

haberman 0,3400±0,0356 0,3313±0,0310 0,2222 0,2857±0,0185 0,3050±0,0252 -0,1509

heart-c 0,2423±0,0532 0,2211±0,0310 1,0000 0,2394±0,0459 0,2266±0,0478 -0,1095

hepatitis 0,2302±0,0525 0,1902±0,0274 1,0000 0,2396±0,0378 0,1980±0,0277 0,1400

ionosphere 0,1758±0,0259 0,1481±0,0119 1,0000 0,1333±0,0369 0,1160±0,0303 -0,0997

iris 0,0667±0,0323 0,0535±0,0158 1,0000 0,0608±0,0235 0,0566±0,0214 0,2302

segment 0,0593±0,0057 0,0528±0,0066 1,0000 0,0618±0,0100 0,0533±0,0068 0,2806

sick 0,0527±0,0051 0,0521±0,0034 1,0000 0,0206±0,0027 0,0204±0,0027 0,3307

sonar 0,2042±0,0648 0,2168±0,0353 1,0000 0,3296±0,0591 0,3007±0,0712 -0,0870

vehicle 0,3365±0,0257 0,3444±0,0131 1,0000 0,3163±0,0192 0,3134±0,0232 0,1902

vote 0,0777±0,0214 0,0749±0,0191 1,0000 0,0561±0,0180 0,0495±0,0115 0,1247

zoo 0,0829±0,0284 0,0773±0,0220 1,0000 0,6000±0,0000 0,5909±0,0000 1,0000

C.2 Boosting Homogêneo 104

Tabela 32: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Boosting homogêneo formado por componentes Decision Stump e OneR.

Base Decision Stump OneR

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1690±0,0182 0,1780±0,0318 0,0987 0,1542±0,0166 0,1508±0,0357 1,0000

breast-cancer 0,2816±0,0412 0,3080±0,0200 -0,0755 0,3092±0,0379 0,3191±0,0333 1,0000

bupa 0,3331±0,0488 0,3463±0,0292 -0,1172 0,4119±0,0346 0,4137±0,0390 1,0000

colic 0,2119±0,0454 0,2223±0,0414 -0,0792 0,2325±0,0394 0,2260±0,0232 1,0000

credit-a 0,1430±0,0189 0,1574±0,0130 -0,0761 0,2013±0,0437 0,2231±0,0224 1,0000

diabetes 0,2687±0,0363 0,2490±0,0155 -0,0748 0,3164±0,0284 0,3020±0,0196 1,0000

glass 0,5671±0,0429 0,5596±0,0169 1,0000 0,5068±0,0623 0,4745±0,0533 1,0000

haberman 0,2667±0,0584 0,2662±0,0252 -0,0910 0,2895±0,0440 0,3000±0,0148 1,0000

heart-c 0,2058±0,0315 0,1920±0,0337 -0,0496 0,2885±0,0418 0,2648±0,0266 1,0000

hepatitis 0,1962±0,0512 0,2020±0,0511 -0,1213 0,2245±0,0600 0,2245±0,0412 1,0000

ionosphere 0,1300±0,0371 0,1143±0,0173 -0,1213 0,1633±0,0281 0,1481±0,0217 1,0000

iris 0,0667±0,0348 0,0586±0,0242 -0,4072 0,0706±0,0348 0,0556±0,0137 1,0000

segment 0,7151±0,0022 0,7159±0,0008 1,0000 0,2304±0,0215 0,2231±0,0135 1,0000

sick 0,0283±0,0037 0,0281±0,0020 -0,0217 0,0419±0,0064 0,0405±0,0036 1,0000

sonar 0,3014±0,0598 0,2657±0,0382 -0,1464 0,3859±0,0560 0,3766±0,0531 1,0000

vehicle 0,5910±0,0133 0,5980±0,0063 1,0000 0,4948±0,0239 0,5025±0,0231 1,0000

vote 0,0547±0,0167 0,0481±0,0106 -0,0948 0,0514±0,0189 0,0453±0,0070 1,0000

zoo 0,4114±0,0200 0,4000±0,0106 0,6957 0,6000±0,0000 0,5803±0,0073 1,0000

Tabela 33: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo Boosting homogêneo formado por componentes PART e Decision Table.

Base PART Decision Table

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0837±0,0169 0,0794±0,0119 -0,2080 0,0245±0,0074 0,0284±0,0174 -0,1384

breast-cancer 0,3306±0,0412 0,3351±0,0459 -0,1146 0,3735±0,0865 0,3803±0,0602 0,0053

bupa 0,3619±0,0394 0,3674±0,0354 -0,1054 0,4051±0,0419 0,4198±0,0240 0,1809

colic 0,2127±0,0587 0,2050±0,0172 -0,1228 0,2437±0,0608 0,2492±0,0464 -0,2400

credit-a 0,1506±0,0177 0,1670±0,0121 -0,2227 0,1566±0,0264 0,1692±0,0182 -0,0358

diabetes 0,2802±0,0279 0,2787±0,0138 -0,1226 0,2786±0,0304 0,2682±0,0239 0,2687

glass 0,3740±0,0267 0,3191±0,0265 -0,2996 0,4712±0,0687 0,4397±0,0550 0,8315

haberman 0,3257±0,0353 0,3134±0,0285 -0,1102 0,2924±0,0397 0,2826±0,0287 0,0633

heart-c 0,2269±0,0385 0,1910±0,0294 -0,3375 0,2212±0,0244 0,2206±0,0530 -0,0193

hepatitis 0,2113±0,0342 0,1814±0,0203 -0,3983 0,2113±0,0634 0,2088±0,0324 -0,2277

ionosphere 0,1158±0,0285 0,0944±0,0228 -0,2903 0,1283±0,0443 0,1022±0,0247 -0,4297

iris 0,0784±0,0320 0,0717±0,0193 -0,6398 0,0647±0,0382 0,0525±0,0115 -0,3442

segment 0,0425±0,0086 0,0367±0,0043 -0,4577 0,0538±0,0090 0,0508±0,0075 -0,2211

sick 0,0183±0,0039 0,0182±0,0024 -0,5703 0,0274±0,0052 0,0260±0,0028 0,0382

sonar 0,2775±0,0488 0,2978±0,0569 -0,3747 0,3380±0,0742 0,3234±0,0510 -0,4419

vehicle 0,2865±0,0268 0,2765±0,0143 -0,3071 0,3795±0,0293 0,3925±0,0349 0,8515

vote 0,0635±0,0267 0,0533±0,0167 -0,2774 0,0622±0,0211 0,0822±0,0255 -0,4001

zoo 0,1543±0,0276 0,0924±0,0281 -0,6570 0,1629±0,0448 0,1682±0,0517 0,5179

C.3 MultiBoosting Homogêneo 105

C.3 MultiBoosting Homogêneo

Tabela 34: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo MultiBoosting homogêneo formado por componentes RBF e J48.

Base RBF J48

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0559±0,0136 0,0520±0,0158 0,312 0,0948±0,0204 0,0823±0,0149 0,2289

breast-cancer 0,3102±0,0469 0,3101±0,0280 0,344 0,3122±0,0545 0,3293±0,0338 0,1895

bupa 0,3873±0,0515 0,3621±0,0278 0,459 0,3525±0,0442 0,3414±0,0346 0,1156

colic 0,2222±0,0326 0,2112±0,0216 0,297 0,1667±0,0267 0,1612±0,0151 0,1021

credit-a 0,1664±0,0184 0,1804±0,0245 0,528 0,1477±0,0234 0,1505±0,0127 0,1399

diabetes 0,2584±0,0263 0,2611±0,0138 0,479 0,2683±0,0299 0,2686±0,0166 0,1499

glass 0,3890±0,0620 0,3546±0,0407 0,353 0,3918±0,0439 0,3163±0,0312 0,0595

haberman 0,2781±0,0195 0,2821±0,0317 0,408 0,3086±0,0259 0,2920±0,0369 0,2180

heart-c 0,1673±0,0308 0,1709±0,0240 0,410 0,2337±0,0476 0,2055±0,0335 0,0887

hepatitis 0,1566±0,0488 0,1696±0,0340 -0,050 0,1811±0,0481 0,1794±0,0179 0,0111

ionosphere 0,1000±0,0204 0,0775±0,0116 0,280 0,1017±0,0296 0,0978±0,0282 -0,1458

iris 0,0529±0,0262 0,0434±0,0107 0,670 0,0784±0,0333 0,0677±0,0185 -0,3159

segment 0,0962±0,0088 0,0943±0,0105 0,671 0,0444±0,0056 0,0432±0,0059 0,3665

sick 0,0398±0,0049 0,0395±0,0039 0,712 0,0182±0,0033 0,0159±0,0019 0,2901

sonar 0,2338±0,0766 0,2336±0,0339 0,116 0,3352±0,0551 0,2883±0,0567 -0,0944

vehicle 0,3177±0,0285 0,3208±0,0142 0,632 0,2767±0,0314 0,2717±0,0192 0,0966

vote 0,0615±0,0176 0,0547±0,0128 0,248 0,0520±0,0169 0,0491±0,0133 0,1927

zoo 0,1486±0,0295 0,1091±0,0409 1,000 0,1514±0,0468 0,0939±0,0363 -0,2919

C.3 MultiBoosting Homogêneo 106

Tabela 35: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo MultiBoosting homogêneo formado por componentes SMO e Naïve Bayes.

Base SMO Naïve Bayes

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1212±0,0181 0,1160±0,0148 0,3795 0,1435±0,0320 0,1431±0,0435 0,8015

breast-cancer 0,3235±0,0388 0,3255±0,0278 0,3604 0,3071±0,0496 0,3154±0,0349 0,4440

bupa 0,4144±0,0272 0,4154±0,0133 0,2180 0,4203±0,0386 0,3881±0,0486 0,4225

colic 0,2214±0,0462 0,2074±0,0212 0,2302 0,1984±0,0343 0,1959±0,0220 0,3328

credit-a 0,1430±0,0201 0,1519±0,0129 0,4244 0,1894±0,0169 0,1971±0,0246 0,7742

diabetes 0,2553±0,0320 0,2330±0,0079 0,6471 0,2504±0,0315 0,2455±0,0136 0,6589

glass 0,4822±0,0432 0,4596±0,0520 0,5728 0,5014±0,0705 0,4766±0,0837 0,8122

haberman 0,2810±0,0281 0,2866±0,0272 0,3383 0,2686±0,0141 0,2607±0,0188 0,3915

heart-c 0,1971±0,0308 0,1809±0,0246 0,4223 0,1692±0,0360 0,1724±0,0268 0,5119

hepatitis 0,1830±0,0604 0,1647±0,0225 0,2095 0,1472±0,0509 0,1529±0,0262 0,3357

ionosphere 0,1375±0,0284 0,1251±0,0152 0,3082 0,1242±0,0303 0,0823±0,0293 0,2775

iris 0,0569±0,0284 0,0505±0,0190 0,0800 0,0569±0,0172 0,0485±0,0141 0,0593

segment 0,0835±0,0081 0,0854±0,0055 0,6883 0,1845±0,0092 0,1883±0,0219 0,7772

sick 0,0568±0,0043 0,0575±0,0073 0,4296 0,0692±0,0120 0,0691±0,0107 0,4601

sonar 0,2817±0,0605 0,2401±0,0259 0,1423 0,2873±0,0410 0,2613±0,0370 0,2452

vehicle 0,3142±0,0256 0,3113±0,0116 0,4178 0,5524±0,0322 0,5609±0,0287 0,9873

vote 0,0574±0,0175 0,0460±0,0142 0,0594 0,0682±0,0258 0,0693±0,0203 0,2833

zoo 0,1086±0,0400 0,0682±0,0250 1,0000 0,1171±0,0250 0,0894±0,0360 0,5177

Tabela 36: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo MultiBoosting homogêneo formado por componentes IBk e REP Tree.

Base IBk REP Tree

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0791±0,0114 0,0736±0,0077 1,0000 0,1356±0,0149 0,1096±0,0187 0,4525

breast-cancer 0,2980±0,0359 0,3128±0,0377 0,2663 0,3082±0,0339 0,3505±0,0543 0,2297

bupa 0,4297±0,0479 0,4070±0,0240 1,0000 0,3644±0,0555 0,3476±0,0355 0,0778

colic 0,2175±0,0373 0,2182±0,0195 1,0000 0,1802±0,0396 0,1793±0,0196 0,1335

credit-a 0,1949±0,0341 0,2062±0,0209 1,0000 0,1455±0,0184 0,1600±0,0095 0,2108

diabetes 0,3076±0,0231 0,3213±0,0162 1,0000 0,2695±0,0322 0,2516±0,0133 0,2832

glass 0,3973±0,0461 0,3525±0,0284 1,0000 0,4479±0,0668 0,3851±0,0592 0,6909

haberman 0,3390±0,0354 0,3274±0,0257 0,3758 0,2790±0,0162 0,2965±0,0305 0,1598

heart-c 0,2423±0,0532 0,2211±0,0310 1,0000 0,2240±0,0460 0,2141±0,0393 0,1804

hepatitis 0,2302±0,0525 0,1902±0,0274 1,0000 0,2170±0,0489 0,2020±0,0241 0,2644

ionosphere 0,1758±0,0259 0,1481±0,0119 1,0000 0,1267±0,0245 0,1069±0,0201 0,1870

iris 0,0667±0,0323 0,0535±0,0158 1,0000 0,0608±0,0252 0,0576±0,0202 0,3417

segment 0,0593±0,005 0,0528±0,0066 1,0000 0,0601±0,0073 0,0546±0,0066 0,5956

sick 0,0527±0,0051 0,0521±0,0034 1,0000 0,0185±0,0030 0,0188±0,0024 0,5535

sonar 0,2042±0,0648 0,2168±0,0353 1,0000 0,3423±0,0734 0,3015±0,0805 0,0925

vehicle 0,3365±0,0257 0,3444±0,0131 1,0000 0,3149±0,0164 0,3140±0,0160 0,3727

vote 0,0777±0,0214 0,0749±0,0191 1,0000 0,0493±0,0156 0,0453±0,0090 0,3531

zoo 0,0829±0,0284 0,0773±0,0220 1,0000 0,6000±0,0000 0,5909±0,0000 1,0000

C.3 MultiBoosting Homogêneo 107

Tabela 37: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo MultiBoosting homogêneo formado por componentes Decision Stump e

OneR.

Base Decision Stump OneR

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,1915±0,0192 0,1929±0,0376 0,6353 0,1683±0,0058 0,1682±0,0117 1,0000

breast-cancer 0,2724±0,0391 0,2968±0,0295 0,1254 0,2847±0,0470 0,3186±0,0159 1,0000

bupa 0,3602±0,0449 0,3749±0,0264 -0,0126 0,4314±0,0571 0,4066±0,0414 1,0000

colic 0,2008±0,0476 0,1921±0,0180 0,0465 0,2238±0,0581 0,2153±0,0362 1,0000

credit-a 0,1328±0,0199 0,1512±0,0103 0,1349 0,1383±0,0219 0,1655±0,0174 1,0000

diabetes 0,2855±0,0350 0,2571±0,0221 0,0631 0,3153±0,0325 0,2988±0,0349 1,0000

glass 0,5671±0,0429 0,5596±0,0169 1,0000 0,5041±0,0504 0,4745±0,0486 1,0000

haberman 0,2629±0,0318 0,2637±0,0110 0,0841 0,2886±0,0327 0,2846±0,0242 1,0000

heart-c 0,2250±0,0321 0,2050±0,0515 0,1795 0,2731±0,0408 0,2578±0,0316 1,0000

hepatitis 0,1981±0,0481 0,1892±0,0370 0,1252 0,2132±0,0427 0,1971±0,0219 1,0000

ionosphere 0,1842±0,0334 0,1563±0,0261 0,1078 0,1450±0,0287 0,1537±0,0259 1,0000

iris 0,0647±0,0346 0,0556±0,0109 -0,4122 0,0608±0,0299 0,0515±0,0130 1,0000

segment 0,7151±0,0022 0,7159±0,0008 1,0000 0,2905±0,0169 0,2928±0,0243 1,0000

sick 0,0351±0,0040 0,0342±0,0020 0,3426 0,0401±0,0060 0,0404±0,0027 1,0000

sonar 0,3085±0,0577 0,3000±0,0653 0,0107 0,3704±0,0535 0,3606±0,0679 1,0000

vehicle 0,5910±0,0133 0,5980±0,0063 1,0000 0,4771±0,0333 0,4901±0,0146 1,0000

vote 0,0486±0,0142 0,0443±0,0087 0,1188 0,0534±0,0200 0,0418±0,0073 1,0000

zoo 0,4114±0,0200 0,4000±0,0106 0,6957 0,6000±0,0000 0,5803±0,0073 1,0000

Tabela 38: Tabela com os valores de erro médio de treinamento, erro médio de teste e estatística-

Q para o algoritmo MultiBoosting homogêneo formado por componentes PART e Decision Table.

Base PART Decision Table

Treino Teste Estat.-Q Treino Teste Estat.-Q

anneal 0,0814±0,0251 0,0709±0,0126 0,2534 0,0239±0,0079 0,0272±0,0171 -0,0072

breast-cancer 0,3214±0,0580 0,3090±0,0244 0,2259 0,3153±0,0679 0,3271±0,0411 0,2342

bupa 0,3568±0,0349 0,3427±0,0480 0,1217 0,4051±0,0419 0,4198±0,0240 0,0899

colic 0,1611±0,0311 0,1711±0,0196 0,1779 0,2040±0,0489 0,1843±0,0278 0,0401

credit-a 0,1438±0,0268 0,1567±0,0153 0,1971 0,1400±0,0205 0,1481±0,0090 0,2652

diabetes 0,2763±0,0247 0,2652±0,0190 0,1842 0,2775±0,0286 0,2571±0,0181 0,4099

glass 0,3726±0,0512 0,3206±0,0400 0,0307 0,4712±0,0687 0,4397±0,0550 0,8315

haberman 0,3019±0,0305 0,2940±0,0322 0,1958 0,2752±0,0337 0,2647±0,0099 0,2896

heart-c 0,2067±0,0159 0,2075±0,0367 0,0722 0,2000±0,0267 0,2090±0,0352 0,2253

hepatitis 0,1868±0,0392 0,1824±0,0258 -0,0516 0,2057±0,0507 0,1951±0,0350 0,2070

ionosphere 0,1108±0,0333 0,0991±0,0206 0,0653 0,1167±0,0351 0,0909±0,0256 -0,0595

iris 0,0784±0,0333 0,0687±0,0170 -0,3217 0,0627±0,0289 0,0495±0,0111 -0,2250

segment 0,0435±0,0070 0,0425±0,0037 0,3702 0,0490±0,0051 0,0501±0,0043 0,2527

sick 0,0180±0,0035 0,0180±0,0027 0,3295 0,0253±0,0039 0,0235±0,0024 0,3523

sonar 0,2901±0,0528 0,2635±0,0612 -0,1622 0,3380±0,0690 0,3190±0,0489 -0,3546

vehicle 0,2708±0,0223 0,2781±0,0161 0,1140 0,3726±0,0232 0,3848±0,0324 0,8552

vote 0,0554±0,0211 0,0488±0,0096 0,1620 0,0649±0,0276 0,0610±0,0276 -0,2162

zoo 0,1514±0,0382 0,1030±0,0403 -0,1611 0,1686±0,0435 0,1682±0,0517 0,5179

108

APÊNDICE D -- Ranking dos Resultados

As tabelas a seguir apresentam os rankings dos valores de erro de treinamento e teste dos

modelos de ensembles homogêneos para os 10 tipos de indutores e para as abordagens evolutiva

(EVOL.) e construtiva (CONS.). Os rankings foram organizados na média de erro de teste sobre

todos os problemas de classiﬁcação.

D.1 Bagging

Tabela 39: Ranking dos resultados de erro de treinamento para Bagging.

Base Ranking

◦

anneal EVOL. DT CONS. IBK RBF PART J48 RT SMO OneR NB DS

breast-cancer EVOL. CONS. DS J48 RBF NB PART OneR DT RT SMO IBK

bupa CONS. EVOL. PART J48 DS RT DT RBF SMO IBK OneR NB

colic EVOL. CONS. PART J48 RT DT SMO DS NB OneR IBK RBF

credit-a EVOL. CONS. PART DS OneR RT SMO J48 DT RBF IBK NB

diabetes EVOL. CONS. NB SMO RT PART RBF DT J48 DS IBK OneR

glass EVOL. CONS. J48 RBF PART RT IBK DT OneR SMO NB DS

haberman CONS. EVOL. NB RBF DS J48 OneR DT SMO RT PART IBK

heart-c EVOL. CONS. RBF NB SMO PART DT RT J48 IBK DS OneR

hepatitis EVOL. CONS. NB RBF SMO DT DS J48 RT OneR PART IBK

ionosphere EVOL. CONS. RBF PART J48 RT DT SMO OneR IBK DS NB

iris CONS. EVOL. RBF NB DT IBK OneR RT SMO J48 PART DS

segment EVOL. CONS. PART J48 IBK RT DT SMO RBF NB OneR DS

sick CONS. EVOL. J48 PART RT DT DS OneR RBF IBK SMO NB

sonar EVOL. CONS. IBK RBF SMO RT NB DS OneR PART J48 DT

vehicle EVOL. CONS. PART J48 RT SMO RBF DT IBK OneR NB DS

vote CONS. EVOL. RT OneR SMO J48 PART DS DT RBF IBK NB

zoo CONS. IBK EVOL. NB SMO RBF J48 PART DT DS RT OneR

Geral (Média) EVOL. CONS. PART J48 RBF DT SMO IBK RT NB OneR DS

D.2 Boosting 109

Tabela 40: Ranking dos resultados de erro de teste para Bagging.

Base Ranking

◦

anneal DT EVOL. CONS. IBK RBF PART J48 SMO RT OneR DS NB

breast-cancer EVOL. RBF NB DT J48 OneR DS PART CONS. SMO RT IBK

bupa PART RT J48 EVOL. RBF CONS. IBK DS DT OneR NB SMO

colic PART J48 EVOL. RT CONS. DS SMO DT OneR NB RBF IBK

credit-a EVOL. J48 OneR DS PART CONS. SMO RT DT RBF IBK NB

diabetes EVOL. SMO DT RT NB J48 PART CONS. RBF DS OneR IBK

glass PART J48 EVOL. RBF IBK RT DT CONS. OneR SMO NB DS

haberman NB RBF J48 RT DS EVOL. DT SMO CONS. OneR PART IBK

heart-c EVOL. NB RBF SMO CONS. PART J48 DT IBK RT DS OneR

hepatitis NB EVOL. SMO RBF CONS. J48 PART IBK RT DT OneR DS

ionosphere EVOL. J48 PART CONS. RT RBF DT SMO OneR IBK DS NB

iris EVOL. RBF SMO OneR DT IBK NB CONS. RT J48 PART DS

segment EVOL. CONS. PART J48 IBK RT DT SMO RBF NB OneR DS

sick J48 EVOL. PART RT CONS. DT DS OneR RBF IBK SMO NB

sonar IBK EVOL. RBF SMO CONS. PART J48 DT RT DS NB OneR

vehicle PART J48 EVOL. RT CONS. SMO RBF DT IBK OneR NB DS

vote PART EVOL. RT J48 SMO OneR CONS. DS DT RBF IBK NB

zoo EVOL. IBK NB SMO RBF PART J48 CONS. DT DS RT OneR

Geral (Média) EVOL. PART J48 CONS. RBF SMO DT IBK RT NB OneR DS

D.2 Boosting

Tabela 41: Ranking dos resultados de erro de treinamento para Boosting.

Base Ranking

◦

anneal EVOL. CONS. DT RBF IBK PART NB J48 RT SMO OneR DS

breast-cancer EVOL. CONS. DS OneR RBF IBK RT PART J48 NB SMO DT

bupa EVOL. CONS. DS J48 PART RT SMO RBF NB DT OneR IBK

colic EVOL. CONS. RT J48 DS PART IBK RBF OneR DT NB SMO

credit-a EVOL. CONS. DS PART DT J48 RT SMO RBF NB IBK OneR

diabetes EVOL. CONS. SMO NB RBF DS DT PART RT J48 IBK OneR

glass EVOL. CONS. J48 PART RBF IBK RT DT SMO OneR NB DS

haberman EVOL. CONS. DS SMO NB RT OneR DT RBF PART J48 IBK

heart-c EVOL. CONS. RBF SMO NB DS DT J48 PART RT IBK OneR

hepatitis EVOL. CONS. RBF NB DS SMO PART DT J48 OneR IBK RT

ionosphere EVOL. CONS. RBF NB J48 PART DT DS RT SMO OneR IBK

iris EVOL. CONS. NB SMO RBF RT DT IBK DS OneR J48 PART

segment EVOL. J48 PART CONS. DT IBK RT RBF SMO NB OneR DS

sick EVOL. CONS. J48 PART RT DT DS OneR RBF SMO IBK NB

sonar EVOL. CONS. IBK RBF SMO NB PART DS J48 RT DT OneR

vehicle EVOL. J48 CONS. PART SMO RT RBF IBK DT OneR NB DS

vote EVOL. CONS. OneR DS RT SMO RBF J48 NB DT PART IBK

zoo EVOL. CONS. IBK SMO NB RBF PART J48 DT DS RT OneR

Geral (Média) EVOL. CONS. RBF PART J48 SMO IBK DT NB RT DS OneR

D.3 MultiBoosting 110

Tabela 42: Ranking dos resultados de erro de teste para Boosting.

Base Ranking

◦

anneal EVOL. DT CONS. RBF IBK J48 PART NB RT SMO OneR DS

breast-cancer CONS. DS EVOL. OneR IBK RT RBF PART SMO J48 NB DT

bupa DS EVOL. J48 SMO RT NB PART RBF CONS. IBK OneR DT

colic CONS. EVOL. RT J48 PART IBK DS OneR RBF NB SMO DT

credit-a CONS. DS RT EVOL. PART DT J48 SMO RBF NB IBK OneR

diabetes SMO CONS. DS NB EVOL. DT RBF RT PART J48 OneR IBK

glass PART J48 CONS. EVOL. IBK RBF RT DT SMO OneR NB DS

haberman CONS. DS SMO EVOL. NB DT RBF OneR RT PART J48 IBK

heart-c CONS. EVOL. RBF PART DS SMO NB DT IBK J48 RT OneR

hepatitis RBF EVOL. CONS. SMO NB PART IBK J48 RT DS DT OneR

ionosphere RBF EVOL. NB J48 PART CONS. DT DS RT SMO IBK OneR

iris SMO CONS. RBF EVOL. NB DT IBK OneR RT DS J48 PART

segment J48 PART EVOL. DT IBK RT CONS. RBF SMO NB OneR DS

sick J48 CONS. PART EVOL. RT DT DS OneR RBF SMO IBK NB

sonar IBK RBF EVOL. CONS. SMO NB DS J48 PART RT DT OneR

vehicle J48 PART EVOL. SMO RT RBF CONS. IBK DT OneR NB DS

vote OneR EVOL. CONS. DS RT RBF PART NB J48 SMO IBK DT

zoo SMO EVOL. IBK J48 NB PART CONS. RBF DT DS OneR RT

Geral (Média) EVOL. CONS. PART RBF J48 SMO IBK DT NB RT OneR DS

D.3 MultiBoosting

Tabela 43: Ranking dos resultados de erro de treinamento para MultiBoosting.

Base Ranking

◦

anneal EVOL. CONS. DT RBF IBK PART J48 SMO RT NB OneR DS

breast-cancer EVOL. CONS. DS OneR IBK NB RT RBF J48 DT PART SMO

bupa EVOL. CONS. J48 PART DS RT RBF DT SMO NB IBK OneR

colic EVOL. CONS. PART J48 RT NB DS DT IBK SMO RBF OneR

credit-a EVOL. CONS. DS OneR DT SMO PART RT J48 RBF NB IBK

diabetes EVOL. CONS. NB SMO RBF J48 RT PART DT DS IBK OneR

glass EVOL. CONS. PART RBF J48 IBK RT DT SMO NB OneR DS

haberman EVOL. CONS. DS NB DT RBF RT SMO OneR PART J48 IBK

heart-c EVOL. CONS. RBF NB SMO DT PART RT DS J48 IBK OneR

hepatitis EVOL. CONS. NB RBF J48 SMO PART DS DT OneR RT IBK

ionosphere EVOL. CONS. RBF J48 PART DT NB RT SMO OneR IBK DS

iris EVOL. CONS. RBF SMO NB OneR RT DT DS IBK J48 PART

segment EVOL. PART J48 DT CONS. IBK RT SMO RBF NB OneR DS

sick EVOL. CONS. PART J48 RT DT DS RBF OneR IBK SMO NB

sonar EVOL. CONS. IBK RBF SMO NB PART DS J48 DT RT OneR

vehicle EVOL. PART J48 CONS. SMO RT RBF IBK DT OneR NB DS

vote EVOL. CONS. DS RT J48 OneR PART SMO RBF DT NB IBK

zoo EVOL. CONS. IBK SMO NB RBF J48 PART DT DS RT OneR

Geral (Média) EVOL. CONS. PART RBF J48 DT SMO IBK NB RT OneR DS

D.3 MultiBoosting 111

Tabela 44: Ranking dos resultados de erro de teste para MultiBoosting.

Base Ranking

◦

anneal DT CONS. EVOL. RBF PART IBK J48 RT SMO NB OneR DS

breast-cancer DS EVOL. PART RBF CONS. IBK NB OneR SMO DT J48 RT

bupa J48 PART EVOL. RT RBF DS NB CONS. OneR IBK SMO DT

colic CONS. J48 PART EVOL. RT DT DS NB SMO RBF OneR IBK

credit-a DT EVOL. J48 DS SMO PART CONS. RT OneR RBF NB IBK

diabetes SMO NB EVOL. CONS. RT DT DS RBF PART J48 OneR IBK

glass J48 PART EVOL. CONS. IBK RBF RT DT SMO OneR NB DS

haberman NB DS DT CONS. EVOL. RBF OneR SMO J48 PART RT IBK

heart-c RBF NB EVOL. CONS. SMO DS J48 PART DT RT IBK OneR

hepatitis EVOL. NB SMO CONS. RBF J48 PART DS IBK DT OneR RT

ionosphere EVOL. RBF NB DT CONS. J48 PART RT SMO IBK OneR DS

iris RBF NB DT CONS. SMO OneR EVOL. IBK DS RT J48 PART

segment EVOL. PART J48 DT IBK RT CONS. SMO RBF NB OneR DS

sick J48 EVOL. CONS. PART RT DT DS RBF OneR IBK SMO NB

sonar IBK RBF EVOL. SMO CONS. NB PART J48 DS RT DT OneR

vehicle J48 PART EVOL. SMO RT RBF CONS. IBK DT OneR NB DS

vote OneR DS RT SMO EVOL. CONS. PART J48 RBF DT NB IBK

zoo SMO IBK EVOL. NB J48 CONS. PART RBF DT DS OneR RT

Geral (Média) EVOL. CONS. PART J48 RBF SMO DT IBK NB RT OneR DS

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo