( PDF ) Ajuste de parâmetros de técnicas de classificação por algoritmos bioinspirados.

Download PDF

ads:

Ajuste de parˆametros de t´ecnicas de classiﬁca¸c˜ao por

algoritmos bioinspirados

Andr´e Luis Debiaso Rossi

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

ads:

SERVI ¸CO DE P

OS-GRADUA¸C

AO DO ICMC–USP

Data de Dep´osito: 20 de fevereiro de 2009

Assinatura:

Ajuste de parˆametros de t´ecnicas de classiﬁca¸c˜ao por

algoritmos bioinspirados

Andr´e Luis Debiaso Rossi

Orientador: Prof. Dr. Andr´e Carlos Ponce de Leon Ferreira de Carvalho

Disserta¸c˜ao apresentada ao Instituto de Ciˆencias Mate-

m´aticas e de Computa¸c˜ao – ICMC – USP, como parte

dos requisitos para obten¸c˜ao do t´ıtulo de Mestre em Ci-

ˆencias de Computa¸c˜ao e Matem´atica Computacional.

USP – S˜ao Carlos

Fevereiro/2009

Dedicat´oria

Aos meus Pais, Jo˜ao e Maria.

Agradecimentos

Em primeiro lugar gostaria de agradecer a Deus, por estar sempre t˜ao presente em

minha vida.

Ao meu orientador Prof. Dr. Andr´e Carvalho, pela orienta¸c˜ao durante os dois anos de

mestrado, pela ajuda nesta disserta¸c˜ao, por proporcionar as condi¸c˜oes necess´arias para o

desenvolvimento deste trabalho, pela conﬁan¸ca depositada em mim, pelos momentos de

positivismo e pela amizade.

Ao Prof. Dr. Carlos Soares do LIAAD, Porto - Portugal, pela contribui¸c˜ao com este

trabalho, pela recep¸c˜ao em Porto e pelo seu entusiasmo como pesquisador.

Aos meus pais Jo˜ao e Maria Inˆes, pelo amor incondicional e pelo exemplo de honesti-

dade e humildade.

Aos meus irm˜aos Fl´avio, Regina e Ana Elisa, pelas brincadeiras e por estarem sempre

prontos para ajudar.

A minha namorada Joyce, pelo apoio, demonstra¸c˜oes de amor e pelo seu sorriso, que

me faz t˜ao bem.

Aos meus familiares, que me apoiam desde a gradua¸c˜ao.

Aos amigos e professores do BIOCOMP e do LABIC, pelo acolhimento, pelos ensi-

namentos e tamb´em pelos momentos de descontra¸c˜ao. Em especial `a Ronaldo Cristiano

Prati, pelos algoritmos dos testes estat´ısticos e pela ajuda com o L

X, `a Ana Carolina

Lorena, pela ajuda e corre¸c˜oes do projeto que se tornaria este trabalho e `a Bruno Feres

de Souza, pelos conjuntos de dados e ensinamentos.

Aos amigos com quem morei, mesmo que por pouco tempo, durante esses dois anos

em S˜ao Carlos: F´abio, Vin´ıcius e R´egis, pelo incentivo e companheirismo.

A todos os funcion´arios do ICMC da USP, pela competˆencia e dedica¸c˜ao.

A FAPESP e ao CNPq, pelo apoio ﬁnanceiro para a realiza¸c˜ao deste estudo.

vii

Resumo

Aprendizado de m´aquina ´e uma ´area de pesquisa na qual se investiga como desenvol-

ver sistemas capazes de aprender com a experiˆencia. Muitos algoritmos de aprendizado

possuem parˆametros cujos valores devem ser especiﬁcados pelo usu´ario. Em geral, esses

valores inﬂuenciam diretamente no processo de aquisi¸c˜ao do conhecimento, podendo gerar

diferentes modelos. Recentemente, algoritmos de otimiza¸c˜ao bioinspirados tˆem sido apli-

cados com sucesso no ajuste de parˆametros de t´ecnicas de aprendizado de m´aquina. Essas

t´ecnicas podem apresentar diferentes sensibilidades em rela¸c˜ao aos valores escolhidos para

seus parˆametros e diferentes algoritmos de ajuste de parˆametros podem apresentar desem-

penhos singulares. Esta disserta¸c˜ao investiga a utiliza¸c˜ao de algoritmos bioinspirados para

o ajuste de parˆametros de redes neurais artiﬁciais e m´aquinas de vetores de suporte em

problemas de classiﬁca¸c˜ao. O objetivo dessa investiga¸c˜ao ´e veriﬁcar quais s˜ao as t´ecnicas

que mais se beneﬁciam do ajuste de parˆametros e quais s˜ao os algoritmos mais eﬁcientes

para essas t´ecnicas. Os resultados experimentais mostram que os algoritmos bioinspirados

conseguem encontrar melhores clasiﬁcadores que outras abordagens. Por´em, essa melho-

ria ´e estatisticamente signiﬁcativa apenas para alguns conjuntos de dados. Foi poss´ıvel

veriﬁcar que o uso dos valores padr˜ao para os parˆametros das t´ecnicas de classiﬁca¸c˜ao

leva a desempenhos similares aos obtidos com os algoritmos bioinspirados. Entretanto,

para alguns conjuntos de dados, o ajuste de parˆametros pode melhorar signiﬁcativamente

o desempenho de um classiﬁcador.

Abstract

Machine learning is a research area whose main goal is to design computational

systems capable of learning through experience. Many machine learning te-

chniques have free parameters whose values are generally deﬁned by the user.

Usually, these values directly aﬀect the knowledge acquisition process directly,

resulting in diﬀerent models. Recently, bioinspired optimization algorithms

have been successfully applied to the parameter tuning of machine learning

techniques. These techniques may present variable sensitivity to the selection

of the values of its parameters and diﬀerent parameter tuning algorithms may

present diﬀerent behaviors. This thesis investigates the use of bioinspired al-

gorithms for the parameter tuning of artiﬁcial neural networks and support

vector machines in classiﬁcation problems. The goal of this thesis is to investi-

gate which techniques beneﬁts most from parameter tuning and which are the

most eﬃcient algorithms to use with these techniques. Experimental results

show that these bioinspired algorithms can ﬁnd better classiﬁers when compa-

red to other approaches. However, this improvement is statistically signiﬁcant

only to some datasets. It was possible to verify that the use of standard para-

meter values for the classiﬁcation techniques leads to similar performances to

those obtained with the bioinspired algorithms. However, for some datasets,

the parameter tuning may signiﬁcantly improve a classiﬁer performance.

Esta disserta¸c˜ao foi preparada com o formatador de textos L

X. A bibliograﬁa ´e

gerada automaticamente pelo BibT

X, utilizando o estilo apalike com modiﬁca¸c˜oes para

o portuguˆes. O estilo utilizado no documento e as modiﬁca¸c˜oes no estilo apalike foram

desenvolvidos por Ronaldo Cristiano Prati.

xiii

Sum´ario

Dedicat´oria v

Agradecimentos vii

Resumo ix

Abstract xi

Sum´ario xv

Lista de Abreviaturas xvii

Lista de Figuras xix

Lista de Tabelas xxi

Lista de Algoritmos xxv

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 M´etodos e T´ecnicas Investigadas . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 Principais Resultados Experimentais . . . . . . . . . . . . . . . . . . . . . 4

1.5 Organiza¸c˜ao do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Aprendizado de M´aquina 7

2.1 Classiﬁca¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1 Problemas de Classiﬁca¸c˜ao em Bioinform´atica . . . . . . . . . . . . 9

2.1.2 Avalia¸c˜ao de Classiﬁcadores . . . . . . . . . . . . . . . . . . . . . . 10

2.2 M´aquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Redes Neurais Artiﬁciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4 Sele¸c˜ao de Modelo e Ajuste de Parˆametros . . . . . . . . . . . . . . . . . . 17

2.5 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Computa¸c˜ao Natural 23

3.1 Inteligˆencia de Enxames . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.1 Otimiza¸c˜ao por Colˆonia de Formigas . . . . . . . . . . . . . . . . . 25

3.1.2 Otimiza¸c˜ao por Enxame de Part´ıculas . . . . . . . . . . . . . . . . 26

3.2 Sistema Imunol´ogico Artiﬁcial . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3 Algoritmos Gen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Experimentos com Fun¸c˜oes de Benchmark 35

4.1 Fun¸c˜oes de Benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.2 Algoritmos Bioinspirados Implementados . . . . . . . . . . . . . . . . . . . 38

4.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Experimentos de Ajuste de Parˆametros 45

5.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2 Algoritmos Bioinspirados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.3 T´ecnicas de Classiﬁca¸c˜ao Investigadas . . . . . . . . . . . . . . . . . . . . . 49

5.4 Avalia¸c˜ao dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.5 M´etodo Experimental A: Ajuste de Parˆametros de SVMs . . . . . . . . . . 51

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs . . . . . . . . . . . 55

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs . . . . . . 64

5.7.1 Resultados do Ajuste de Parˆametros de RNs com o M´etodo Expe-

rimental C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.7.2 Resultados do Ajuste de Parˆametros de SVMs com o M´etodo Ex-

perimental C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.7.3 Compara¸c˜ao entre RNs e SVMs no Dom´ınio de Express˜ao Gˆenica . 81

5.8 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6 Conclus˜ao 85

6.1 Principais Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.2 Contribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

6.3 Limita¸c˜oes, Problemas Encontrados e Trabalhos Futuros . . . . . . . . . . 89

Referˆencias Bibliogr´aﬁcas 91

A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste 105

B Curvas ROC 121

Lista de Abreviaturas

ACO Otimiza¸c˜ao por Colˆonia de Formigas (do inglˆes, Ant Colony Optimization)

Arvore de Decis˜ao

AG Algoritmo Gen´etico

Ag Ant´ıgeno (do inglˆes, Antigen)

AIC Akaike Information Criterion

AM Aprendizado de M´aquina

AUC

Area sob uma Curva ROC (do inglˆes, Area Under an ROC Curve)

BSS Between-groups Sum of Squares

CE Computa¸c˜ao Evolutiva

CSA Algoritmo de Sele¸c˜ao Clonal (do inglˆes, Clonal Selection Algorithm)

CV Valida¸c˜ao Cruzada (do inglˆes, Cross-validation)

DNA

Acido Desoxirribonucl´eico (do inglˆes, Desoxyribonucleic Acid)

FDP Fun¸c˜ao de Densidade de Probabilidade

FN Falso Negativo

FP Falso Positivo

HTGA hybrid Taguchi-Genetic Algorithm

IA Algoritmo Imunol´ogico (do inglˆes, Immune Algorithm)

IC Inteligˆencia Computacional

McESE MacMaster Expert System Environment

MLP Perceptron multi-camadas (do inglˆes, Multi-Layer Perceptron)

xvii

mRNA

Acido Ribonucl´eico mensageiro (do inglˆes, Messenger Ribonucleic Acid)

PDB Protein Data Bank

PIR Protein Information Resource

PSO Otimiza¸c˜ao por Enxame de Part´ıculas (do inglˆes, Particle Swarm Optimization)

RBF Func˜ao de Base Radial (do inglˆes, Radial Basis Function)

RF Random Forests

RN Rede Neural Artiﬁcial

RNA

Acido Ribonucl´eico (do inglˆes, Ribonucleic Acid)

ROC Receiver Operating Characteristics

SAGE Serial Analysis of Genes Expression

SCOP Structural Classiﬁcation of Protein

SI Sistema Imunol´ogico

SIA Sistema Imunol´ogico Artiﬁcial

SVM M´aquina de Vetores de Suporte (do inglˆes, Support Vector Machine)

TFP Taxa de Falsos Positivos

TNoM Threshold Number of Misclassiﬁcation

TVP Taxa de Verdadeiros Positivos

UCI University of California - Irvine

VN Verdadeiro Negativo

VP Verdadeiro Positivo

WEKA Waikato Environment for Knowledge Analysis

WSS Within-groups Sum of Squares

Lista de Figuras

2.1 Diagrama do processo de indu¸c˜ao de um classiﬁcador e sua utiliza¸c˜ao na

dedu¸c˜ao de novos exemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Exemplo de curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 A id´eia do hiperplano ´otimo para exemplos linearmente separ´aveis. . . . . 15

2.4 Neurˆonio artiﬁcial e o esquema de uma rede feed-forward. . . . . . . . . . . 17

3.1 Formigas em busca de alimento. Ao passar do tempo, o menor caminho

possuir´a a maior quantidade de feromˆonio depositado. . . . . . . . . . . . . 25

3.2 Representa¸c˜ao da vizinhan¸ca topol´ogica para part´ıculas. . . . . . . . . . . 28

3.3 Representa¸c˜ao da vizinhan¸ca global (`a esquerda) e local (`a direita). . . . . 28

3.4 Representa¸c˜ao de um cromossomo bin´ario em um AG. . . . . . . . . . . . . 31

3.5 Operador gen´etico de crossover de um ponto (Souto et al., 2003). . . . . . 32

3.6 Operador gen´etico de muta¸c˜ao (Souto et al., 2003). . . . . . . . . . . . . . 33

4.1 Gr´aﬁco das fun¸c˜oes de benchmark utilizadas. . . . . . . . . . . . . . . . . . 37

4.2 Convergˆencia dos algoritmos bioinspirados para fun¸c˜oes unimodais. . . . . 41

4.3 Convergˆencia dos algoritmos bioinspirados para fun¸c˜oes multimodais. . . . 43

5.1 M´etodo Experimental A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 M´etodo Experimental B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3 Representa¸c˜ao de um indiv´ıduo para ajuste de parˆametros de RNs. . . . . 57

A.1 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

C´olon para todas as combina¸c˜oes de valores de parˆametros para RNs. . . . 106

A.2 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Glioma para todas as combina¸c˜oes de valores de parˆametros para RNs. . . 107

A.3 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia para todas as combina¸c˜oes de valores de parˆametros para RNs. . 108

A.4 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pˆancreas para todas as combina¸c˜oes de valores de parˆametros para RNs. . 109

A.5 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

C´olon para todas as combina¸c˜oes de valores de parˆametros para SVMs. . . 110

xix

A.6 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Glioma para todas as combina¸c˜oes de valores de parˆametros para SVMs. . 111

A.7 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia para todas as combina¸c˜oes de valores de parˆametros para SVMs. 112

A.8 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pˆancreas para todas as combina¸c˜oes de valores de parˆametros para SVMs. 113

A.9 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia2 para todas as combina¸c˜oes de valores de parˆametros para SVMs. 114

A.10 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pulm˜ao para todas as combina¸c˜oes de valores de parˆametros para SVMs. . 115

A.11 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

australian para todas as combina¸c˜oes de valores de parˆametros para SVMs. 116

A.12 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

pima para todas as combina¸c˜oes de valores de parˆametros para SVMs. . . 117

A.13 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

segment para todas as combina¸c˜oes de valores de parˆametros para SVMs. . 118

A.14 Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

vehicle para todas as combina¸c˜oes de valores de parˆametros para SVMs. . . 119

B.1 Curvas ROC para o conjunto de dados C´olon usando RNs com parˆametros

ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

B.2 Curvas ROC para o conjunto de dados Glioma usando RNs com parˆametros

ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

B.3 Curvas ROC para o conjunto de dados Leucemia usando RNs com parˆa-

metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

B.4 Curvas ROC para o conjunto de dados Pˆancreas usando RNs com parˆame-

tros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

B.5 Curvas ROC para o conjunto de dados C´olon usando SVMs com parˆametros

ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

B.6 Curvas ROC para o conjunto de dados Glioma usando SVMs com parˆame-

tros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

B.7 Curvas ROC para o conjunto de dados Leucemia usando SVMs com parˆa-

metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B.8 Curvas ROC para o conjunto de dados Pˆancreas usando SVMs com parˆa-

metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B.9 Curvas ROC para o conjunto de dados australian usando SVMs com parˆa-

metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B.10 Curvas ROC para o conjunto de dados pima usando SVMs com parˆametros

ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Lista de Tabelas

2.1 Conjunto de dados para o diagn´ostico da sa´ude de pacientes. . . . . . . . . 8

2.2 Matriz de confus˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Principais kernels utilizados nas SVMs (Haykin, 1999). . . . . . . . . . . . 16

4.1 Fun¸c˜oes de benchmark utilizadas para veriﬁca¸c˜ao da funcionalidade e de-

sempenho dos algoritmos bioinspirados investigados. . . . . . . . . . . . . . 36

4.2 Valores para os parˆametros dos algoritmos bioinspirados. . . . . . . . . . . 39

4.3 Resultados para cada algoritmo bioinspirado para as fun¸c˜oes unimodais

ap´os 10 000 itera¸c˜oes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.4 Resultados para cada algoritmo bioinspirado para as fun¸c˜oes multimodais

ap´os 10 000 itera¸c˜oes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1 Conjuntos de dados utilizados nos experimentos. . . . . . . . . . . . . . . . 46

5.2 Valores para os parˆametros dos algoritmos bioinspirados. . . . . . . . . . . 49

5.3 C´olon - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados C´olon (em %). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.4 Glioma - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados Glioma (em %). . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.5 Leucemia - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o

conjunto de dados Leucemia (em %). . . . . . . . . . . . . . . . . . . . . . 53

5.6 Pˆancreas - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o

conjunto de dados Pˆancreas (em %). . . . . . . . . . . . . . . . . . . . . . 54

5.7 Intervalos de valores encontrados para os parˆametros γ e C. . . . . . . . . 54

5.8 C´olon - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon. . . . . 59

5.9 Glioma - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma. 60

5.10 Leucemia - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %)

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

xxi

5.11 Pˆancreas - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %)

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Pˆancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.12 An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de vali-

da¸c˜ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.13 Ranking M´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 62

5.14 Estat´ısticas dos melhores valores de parˆametros encontrados para o con-

junto de valida¸c˜ao para todos os algoritmos bioinspirados. . . . . . . . . . 63

5.15 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.16 C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon. 67

5.17 Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma. 67

5.18 Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e o n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.19 Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e o n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Pˆancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.20 C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon. 68

5.21 Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma. 68

5.22 Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e o n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.23 Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e o n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Pˆancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.24 Correla¸c˜ao das taxas de erro de valida¸c˜ao e de teste para todas as combi-

na¸c˜oes de parˆametros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.25 An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de vali-

da¸c˜ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.26 Ranking M´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 71

5.27 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.28 Estat´ısticas dos melhores valores de parˆametros encontrados por todos os

algoritmos bioinspirados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.29

Area abaixo da curva ROC para classiﬁcadores gerados utilizando valores

dos parˆametros cuja taxa de erro mais se aproxima da m´edia. . . . . . . . 73

5.30 C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon. . . . . 74

5.31 Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma. 74

5.32 Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.33 Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Pˆancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.34 Leucemia2 - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Leucemia2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.35 Pulm˜ao - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pulm˜ao. 75

5.36 Australian - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Australian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.37 Pima-indians-diabetes - taxa de erro de valida¸c˜ao e de teste (em %), desvio

padr˜ao e n´umero de diferentes combina¸c˜oes testadas para o conjunto de

dados Pima-indians-diabetes. . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.38 Segment - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao

e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados

Segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.39 Vehicle - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Vehicle. 76

5.40 An´alise estat´ıstica - teste–t pareado corrigido (conjunto de dados de teste). 78

5.41 Ranking m´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 78

5.42 Correla¸c˜ao das taxas de erro de valida¸c˜ao e de teste para todas as combi-

na¸c˜oes de parˆametros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.43 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.44 Estat´ısticas dos melhores valores de parˆametros encontrados por todos os

algoritmos bioinspirados (2

, em que v ´e o valor encontrado para o parˆametro). 80

5.45

Area abaixo da curva ROC para classiﬁcadores gerados utilizando valores

dos parˆametros cuja taxa de erro mais se aproxima da m´edia. . . . . . . . 81

5.46 Compara¸c˜ao entre RNs e SVMs para classiﬁca¸c˜ao de dados de express˜ao

gˆenica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Lista de Algoritmos

1 Algoritmo ACO

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 Algoritmo PSO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Algoritmo CLONALG para problemas de otimiza¸c˜ao. . . . . . . . . . . . . 31

4 Algoritmo Gen´etico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 M´etodo experimental C para ajuste de parˆametros. . . . . . . . . . . . . . 65

xxv

Cap´ıtulo 1

Introdu¸c˜ao

Neste trabalho foi investigada a utiliza¸c˜ao de algoritmos computacionais inspirados na

natureza, ou bioinspirados, para ajustar os valores dos parˆametros livres de t´ecnicas de

Aprendizado de M´aquina (AM). Foi realizada uma compara¸c˜ao entre abordagens cl´assicas

e os algoritmos bioinspirados para o ajuste de parˆametros, avaliando o desempenho obtido

pelas t´ecnicas de AM na classiﬁca¸c˜ao de dados, principalmente do dom´ınio de express˜ao

gˆenica.

Com o passar dos anos, a computa¸c˜ao tem sido utilizada para solucionar problemas

das mais diversas ´areas do conhecimento. Por´em, algoritmos e linguagens de programa¸c˜ao

cl´assicas n˜ao s˜ao capazes de solucionar muitos problemas advindos das novas necessidades

de utiliza¸c˜ao dos computadores. O surgimento da ´area de Inteligˆencia Computacional

(IC), criou in´umeras expectativas. Entretanto, em v´arias situa¸c˜oes, os resultados obtidos

ﬁcaram muito aqu´em dos esperados.

Aprendizado de M´aquina ´e uma ´area de pesquisa que estuda como desenvolver siste-

mas capazes de adquirir conhecimento de forma autom´atica. A forma de obten¸c˜ao desse

conhecimento ´e o que leva pesquisadores dessa ´area a desenvolverem t´ecnicas computacio-

nais que tornam poss´ıvel o aprendizado (Monard & Baranauskas, 2003). T´ecnicas de AM

tˆem alcan¸cado grande sucesso na execu¸c˜ao de tarefas espec´ıﬁcas, como reconhecimento da

fala, minera¸c˜ao de dados, reconhecimento de padr˜oes, al´em de muitas outras (Mitchell,

1997). Na Bioinform´atica, as t´ecnicas de AM tˆem sido amplamente utilizadas em proble-

mas como reconhecimento de genes, an´alise de express˜ao gˆenica e predi¸c˜ao da estrutura

de prote´ınas. A an´alise de dados biol´ogicos desperta grande interesse da comunidade

cient´ıﬁca por auxiliar a cria¸c˜ao de novas drogas e tratamentos para doen¸cas.

Grande parte dos algoritmos de AM possuem parˆametros cujos valores devem ser

especiﬁcados pelo usu´ario. Os valores para esses parˆametros livres, em geral, inﬂuenciam

diretamente no desempenho de modelos induzidos (Kohavi & John, 1995). O problema

de encontrar os melhores valores para os parˆametros livres ´e denominado de ajuste de

parˆametros. A utiliza¸c˜ao de m´etodos de busca exaustiva pode tornar-se impratic´avel,

devido ao n´umero de parˆametros e ao grande n´umero de poss´ıveis valores para alguns

2 1 Introdu¸c˜ao

parˆametros.

Diferentes algoritmos e m´etodos s˜ao utilizados para o ajuste de valores de parˆametros

de t´ecnicas de AM, como algoritmos de busca exaustiva e m´etodos tradicionais de otimi-

za¸c˜ao. Atualmente, como uma alternativa a esses m´etodos, algoritmos bioinpirados s˜ao

empregados para o ajuste de parˆametros. Esses algoritmos fazem parte de uma ´area deno-

minada Computa¸c˜ao Natural, a qual ´e formada por trˆes frentes de estudo: a inspira¸c˜ao na

natureza para desenvolvimento de novas t´ecnicas computacionais; a simula¸c˜ao e emula¸c˜ao

de fenˆomenos naturais e a utiliza¸c˜ao de novos materiais para realizar computa¸c˜ao (Castro,

2007).

Na Se¸c˜ao 1.1 ´e apresentada a motiva¸c˜ao para a realiza¸c˜ao deste estudo. Os objetivos

s˜ao descritos na Se¸c˜ao 1.2. Na Se¸c˜ao 1.3 s˜ao apresentados os m´etodos e as t´ecnicas inves-

tigadas. Na Se¸c˜ao 1.4 s˜ao mostrados os principais resultados obtidos nos experimentos.

Por ´ultimo, na Se¸c˜ao 1.5, ´e descrita a organiza¸c˜ao geral dessa disserta¸c˜ao.

1.1 Motiva¸c˜ao

A inﬂuˆencia dos valores dos parˆametros livres no desempenho de t´ecnicas de AM tˆem

levado pesquisadores a desenvolverem diferentes algoritmos e t´ecnicas a ﬁm de melhorar

o desempenho obtido, reduzir o custo computacional e automatizar o processo de ajuste

de parˆametros.

Para RNs, por exemplo, Basheer & Hajmeer (2000) aﬁrmam que bons valores para os

parˆametros s˜ao encontrados, geralmente, por meio de tentativa e erro. Segundo os autores,

a escolha de valores para os parˆametros do algoritmo de aprendizado backpropagation para

RNs inﬂuencia na convergˆencia do aprendizado e no desempenho geral da rede.

Diversos trabalhos que utilizam algoritmos bioinspirados com o objetivo de ajustar os

parˆametros de t´ecnicas de AM j´a foram publicados. Chunhong & Licheng (2004) e Lorena

& Carvalho (2006) utilizaram algoritmos gen´eticos para ajustar os parˆametros de m´aqui-

nas de vetores de suporte, enquanto que Souza et al. (2006) utilizaram otimiza¸c˜ao por

enxame de part´ıculas para a mesma t´ecnica de AM. Em Lacerda et al. (2002) e Leung

et al. (2003) os autores ajustaram os parˆametros de redes neurais utilizando algoritmos

gen´eticos.

Contudo, n˜ao ´e do nosso conhecimento trabalhos comparando resultados entre dife-

rentes t´ecnicas bioinspiradas aplicadas `a diferentes t´ecnicas de AM. O ´unico trabalho

encontrado na literatura que compara algoritmos gen´eticos para ajustar parˆametros de

dois algoritmos de AM, TIMBL (Daelemans et al., 2002) e RIPPER (Cohen, 1995) foi

de Hoste & Daelemans (2005).

Diferentes t´ecnicas de AM podem apresentar diferentes sensibilidades referentes `a es-

colha dos valores de seus parˆametros. Da mesma maneira, diferentes m´etodos para ajustar

esses parˆametros podem apresentar desempenhos distintos. Tendo essas aﬁrma¸c˜oes como

1.2 Objetivos 3

verdadeiras, seria interessante avaliar a utiliza¸c˜ao de diferentes m´etodos para ajuste de

parˆametros de diferentes t´ecnicas de AM.

1.2 Objetivos

Neste estudo foi investigada a utiliza¸c˜ao de algoritmos bioinspirados para o ajuste dos

valores dos parˆametros livres de t´ecnicas de AM. Este trabalho tem os seguintes objetivos:

• veriﬁcar se a otimiza¸c˜ao dos valores dos parˆametros de diferentes t´ecnicas de AM

faz com que essas apresentem desempenhos semelhantes. Como as t´ecnicas possuem

diferentes vi´es indutivos, espera-se que isso n˜ao ocorra;

• veriﬁcar se os algoritmos de otimiza¸c˜ao bioinspirados possuem desempenhos seme-

lhantes na otimiza¸c˜ao dos valores dos parˆametros livres. Pela mesma raz˜ao anterior,

tamb´em espera-se que isso n˜ao ocorra;

• comparar os resultados obtidos por algoritmos de otimiza¸c˜ao bioinspirados com ou-

tros m´etodos para esse problema, como valores padr˜oes para os parˆametros e busca

exaustiva;

• veriﬁcar quais s˜ao as t´ecnicas de AM que mais se beneﬁciam do ajuste de parˆametros

e quais m´etodos de ajuste se mostram mais eﬁcientes para diferentes t´ecnicas de AM.

1.3 M´etodos e T´ecnicas Investigadas

Neste trabalho, quatro algoritmos bioinspirados s˜ao aplicados para ajustar os parˆame-

tros de duas t´ecnicas de AM. Os algoritmos s˜ao baseados em: Otimiza¸c˜ao por Enxame de

Part´ıculas (PSO, do inglˆes, Particle Swarm Optimization) (Kennedy & Eberhart, 1995),

Algoritmo de Sele¸c˜ao Clonal (CSA, do inglˆes, Clonal Selection Algorithm) (Castro &

Von-Zuben, 2002), que faz parte dos Sistemas Imunol´ogicos Artiﬁciais (SIAs) (Castro &

Timmis, 2002), Otimiza¸c˜ao por Colˆonia de Formigas (ACO, do inglˆes, Ant Colony Opti-

mization) (Socha & Dorigo, 2008) e Algoritmos Gen´eticos (AGs) (Goldberg & Holland,

1988). O ajuste de parˆametros ser´a realizado para as t´ecnicas: M´aquinas de Vetores de

Suporte (SVMs, do inglˆes, Support Vector Machines) (Cristianini & Shawe-Taylor, 2000)

e Redes Neurais Artiﬁciais (RNs) (Haykin, 1999). Os classiﬁcadores s˜ao gerados para

diferentes conjuntos de dados de express˜ao gˆenica. Al´em disso, conjuntos de dados do

reposit´orio da Universidade da Calif´ornia - Irvine (UCI, do inglˆes, University of Califor-

nia - Irvine) (Asuncion & Newman, 2007) foram utilizados em alguns experimentos.

importante utilizar mais de um conjunto de dados nas compara¸c˜oes para n˜ao estar sujeito

`a tendˆencia de um conjunto em particular, como adverte Hoste & Daelemans (2005). O

4 1 Introdu¸c˜ao

desempenho obtido pelos classiﬁcadores gerados com o ajuste de parˆametros realizado

pelos algoritmos bioinspirados s˜ao comparados empiricamente com outras abordagens.

Foram desenvolvidos trˆes m´etodos experimentais para o ajuste de parˆametros. Os trˆes

m´etodos representam uma evolu¸c˜ao nos m´etodos experimentais para se obter estimativas

de desempenho de classiﬁca¸c˜ao conﬁ´aveis e evitar o uso indireto dos dados do conjunto

de teste no processo de busca dos algoritmos bioinspirados. O primeiro m´etodo desenvol-

vido, denominado de M´etodo Experimental A, foi aplicado apenas `a SVMs e o segundo,

denominado M´etodo Experimental B, apenas `a RNs. Os dois m´etodos possuiam vi´es no

processo de ajuste, pois usavam indiretamente dados utilizados na estimativa do erro real

do classiﬁcador. Portanto, um novo m´etodo foi proposto. Este, utiliza um procedimento

de valida¸c˜ao cruzada aninhado que permite realizar o ajuste de parˆametros e a estima-

¸c˜ao ﬁnal do classiﬁcador simultaneamente, sem o vi´es existente nos outros dois m´etodos.

Por´em, h´a a desvantagem de ter um custo computacional mais elevado.

Nos experimentos com os trˆes m´etodos desenvolvidos, foram realizadas compara¸c˜oes

utilizando os algoritmos bioinspirados implementados e duas abordagens de referˆencia. A

abordagem Padr˜ao, utilizada em todos os experimentos, usa valores estabelecidos pela im-

plementa¸c˜ao da t´ecnica de AM para os parˆametros livres. A outra abordagem, utilizada

no m´etodo experimental A, usa um algoritmo de ajuste da biblioteca que implementa

as SVMs. Esse algoritmo, denominado grid search, realiza uma busca pararela em uma

grade. Para os m´etodos experimentais B e C, al´em da Padr˜ao, ´e usada uma abordagem

denominada Aleat´oria, que gera um determinado n´umero de valores aleat´orios para os

parˆametros, dentro de intervalos deﬁnidos. O n´umero de valores gerados ´e aproximada-

mente igual ao n´umero de avalia¸c˜oes que os algoritmos bioinspirados realizam da fun¸c˜ao

de aptid˜ao.

1.4 Principais Resultados Experimentais

No m´etodo experimental A, os algoritmos bioinspirados conseguiram as menores taxas

de erro de valida¸c˜ao (processo de estima¸c˜ao do erro de teste utilizado no ajuste de parˆa-

metros) para trˆes, dos quatro conjuntos de dados de express˜ao gˆenica utilizados. Por´em,

a melhoria obtida na taxa de erro de valida¸c˜ao n˜ao foi reﬂetida em melhoria para o erro

de teste. Isso foi comprovado por meio do teste estat´ıstico de Friedman (Demˇsar, 2006),

que apontou que os algoritmos e as abordagens possuem desempenhos estatisticamente

semelhantes.

Para os m´etodos experimentais B e C, os valores de parˆametros foram discretizados

para um intervalo deﬁnido e os resultados foram armazenados em uma estrutura de dados

apropriada. Dessa maneira, ´e poss´ıvel extrair informa¸c˜oes que auxiliam na an´alise dos

resultados obtidos, como a correla¸c˜ao entre as taxas de erro de valida¸c˜ao e de teste.

Para o m´etodo experimental B, essas taxas s˜ao altamente correlacionadas para os quatro

1.5 Organiza¸c˜ao do Texto 5

conjuntos de dados utilizados, o que indica que a taxa de erro de valida¸c˜ao ´e uma boa

estimativa para os algoritmos bioinspirados guiarem suas buscas. O desempenho obtido

pelos classiﬁcadores gerados com os parˆametros ajustados pelos algoritmos bioinspirados

foi melhor do que as abordagens de referˆencia. O algoritmo ACO conseguiu a menor taxa

de erro de valida¸c˜ao para trˆes, dos quatro conjuntos de dados. Por´em, essa melhoria foi

pequena e n˜ao reﬂetiu em melhorias para as taxas de erro de teste. O teste de Friedman

encontrou diferen¸cas signiﬁcativas apenas para as taxas de erro de valida¸c˜ao, em que o

algoritmo ACO foi melhor do que a abordagem Padr˜ao. Outras diferen¸cas signiﬁcativas

para o conjunto de valida¸c˜ao foram encontradas com o teste-t pareado corrigido.

O ajuste de parˆametros com o m´etodo experimental C foi realizado para RNs e SVMs.

Para os experimentos com RNs, foram utilizados quatros conjuntos de dados de express˜ao

gˆenica. O ACO conseguiu as menores taxas de erro de valida¸c˜ao para os quatro conjuntos.

Por´em, isso n˜ao se reﬂetiu para as taxas de erro de teste, em que diferentes algoritmos e

abordagens conseguiram os menores valores. O teste de Friedman encontrou diferen¸cas

signiﬁcativas apenas para as taxas de erro de valida¸c˜ao, em que o ACO e a abordagem

Aleat´oria foram melhores do que a abordagem Padr˜ao. Para os experimentos com SVMs,

foram utilizados seis conjuntos de dados de express˜ao gˆenica e quatro conjuntos do repo-

sit´orio UCI. Em geral, o algoritmo PSO e a abordagem Padr˜ao conseguiram as menores

taxas de erro de valida¸c˜ao e de teste. A correla¸c˜ao para conjuntos de dados com muitos

exemplos foi maior do que para pequenos conjuntos. Al´em disso, as correla¸c˜oes entre as

taxas de erro de teste e de valida¸c˜ao foram maiores para as SVMs do que para as RNs.

O teste-t pareado corrigido encontrou diferen¸cas signiﬁcativas para algumas compara¸c˜oes

e conjuntos de dados. O teste de Friedman apenas detectou diferen¸cas signiﬁcativas para

as taxas de erro de valida¸c˜ao. O algoritmo PSO e a abordagem Aleat´oria foram melhores

que a abordagem Padr˜ao e o algoritmo AG. Os algoritmos CSA e ACO tamb´em foram

melhores que a abordagem Padr˜ao.

Na compara¸c˜ao entre RNs e SVMs para classiﬁca¸c˜ao de dados de express˜ao gˆenica, as

SVMs conseguiram os melhores resultados para os quatro conjuntos de dados. A menor

diferen¸ca entre as taxas de erro foi de 0.7%, para o conjunto Glioma, e a maior de 7.2%,

para o conjunto Leucemia. Devido ao vi´es de sele¸c˜ao de atributos nos experimentos reali-

zados, n˜ao ´e poss´ıvel obter conclus˜oes com a compara¸c˜ao realizada. Por´em, os resultados

apontam para o melhor desempenho das SVMs.

1.5 Organiza¸c˜ao do Texto

No Cap´ıtulo 2 s˜ao introduzidos os principais conceitos de AM necess´arios para a com-

preens˜ao deste trabalho. O desempenho das t´ecnicas de AM ser´a avaliado, principalmente,

por meio da classiﬁca¸c˜ao de dados de express˜ao gˆenica. Assim, na primeira se¸c˜ao, ´e apre-

sentado o problema de classiﬁca¸c˜ao e a avalia¸c˜ao de classiﬁcadores. Nas duas se¸c˜oes

6 1 Introdu¸c˜ao

seguintes s˜ao introduzidas as t´ecnicas de classiﬁca¸c˜ao SVMs e RNs. Na pr´oxima se¸c˜ao

s˜ao apresentados o problema de sele¸c˜ao de modelo e de ajuste de parˆametros. Na ´ultima

se¸c˜ao s˜ao feitas algumas considera¸c˜oes ﬁnais sobre o conte´udo abordado.

No Cap´ıtulo 3 a Computa¸c˜ao Natural ´e introduzida; ´area `a qual pertencem os algo-

ritmos bioinspirados que ser˜ao utilizados no ajuste dos valores dos parˆametros livres das

t´ecnicas de AM apresentadas no Cap´ıtulo 2. Nas se¸c˜oes seguintes s˜ao apresentados os

quatro algoritmos bioinspirados utilizados, ou seja, ACO, PSO, CSA e AGs. Na ´ultima

se¸c˜ao s˜ao feitas algumas as considera¸c˜oes ﬁnais sobre esse cap´ıtulo.

No Cap´ıtulo 4 s˜ao descritos os experimentos para fun¸c˜oes de benchmark. Antes de

utilizar o algoritmos bioinspirados implementados para o ajuste de parˆametros, eles foram

aplicados `as fun¸c˜oes de benchmark para veriﬁcar suas funcionalidades. Primeiramente s˜ao

descritas as fun¸c˜oes utilizadas. Em seguida, s˜ao apresentados os algoritmos implementados

e seus parˆametros. Na pr´oxima se¸c˜ao s˜ao apresentados os resultados obtidos. Na ´ultima

se¸c˜ao, s˜ao feitas algumas considera¸c˜oes ﬁnais.

No Cap´ıtulo 5 s˜ao apresentados os experimentos realizados para ajuste de parˆame-

tros de SVMs e RNs. Inicialmente, algumas caracter´ısticas dos conjuntos de dados de

express˜ao gˆenica e do reposit´orio da UCI (Asuncion & Newman, 2007) s˜ao apresentados.

Posteriormente, s˜ao apresentados os algoritmos bioinspirados utilizados nos experimentos

realizados. Em seguida, s˜ao apresentados os pacotes (bibliotecas) que implementam as

t´ecnicas de AM investigadas. Na Se¸c˜ao seguinte, s˜ao descritos os m´etodos e as m´etricas

empregadas para avaliar o desempenho dos classiﬁcadores. Nas pr´oximas trˆes se¸c˜oes s˜ao

apresentados os diferentes m´etodos experimentais, que representam a evolu¸c˜ao do proce-

dimento experimental no sentido de buscar um modelo com menor vi´es, assim como os

resultados obtidos.

No Cap´ıtulo 6 s˜ao apresentados e discutidos os principais resultados obtidos, as con-

tribui¸c˜oes e as limita¸c˜oes deste trabalho e algumas dire¸c˜oes para trabalhos futuros.

Cap´ıtulo 2

Aprendizado de M´aquina

Aprendizado de M´aquina ´e uma ´area baseada em IC e Estat´ıstica que estuda como

desenvolver sistemas capazes de adquirir conhecimento de forma autom´atica, ou seja,

sistemas que melhoram automaticamente com a experiˆencia. O modo de obten¸c˜ao do co-

nhecimento ´e o que leva pesquisadores dessa ´area a desenvolverem t´ecnicas computacionais

que tornem poss´ıvel o aprendizado (Monard & Baranauskas, 2003; Mitchell, 1997).

Ainda est´a longe a possibilidade de tornar as m´aquinas t˜ao h´abeis de aprender quanto

os humanos. Por´em, algoritmos para tarefas espec´ıﬁcas tˆem obtido grande sucesso, como

no reconhecimento da fala, na minera¸c˜ao de dados, no reconhecimento de padr˜oes e muitas

outras (Mitchell, 1997).

Muitas t´ecnicas de AM utilizam conhecimentos da Inteligˆencia Computacional e da

Estat´ıstica para constru¸c˜ao de modelos capazes de inferir a partir de um conjunto de da-

dos. Os exemplos desse conjunto s˜ao chamados de dados de treinamento e a partir desses

faz-se a inferˆencia indutiva, podendo gerar hip´oteses verdadeiras ou n˜ao (Alpaydin, 2004;

Monard & Baranauskas, 2003). Todo algoritmo de aprendizado, ou algoritmo de indu¸c˜ao,

ou simplesmente indutor, possui um vi´es (bias) indutivo, que ´e a preferˆencia de uma hip´o-

tese sobre outra, que n˜ao s˜ao igualmente prov´aveis. Os exemplos de um conjunto de dados

s˜ao formados por atributos e cada atributo especiﬁca uma caracter´ıstica particular para

esse conjunto. O aprendizado indutivo pode ser dividido em aprendizado supervisionado

e n˜ao-supervisionado. Atualmente o aprendizado parcialmente supervisionado tamb´em

tem atra´ıdo consider´avel aten¸c˜ao da comunidade de AM (Chapelle et al., 2006).

No aprendizado supervisionado, cada exemplo apresentado ao algoritmo de aprendi-

zado possui um atributo especial que especiﬁca o r´otulo da classe real `a qual este exemplo

pertence. Se os r´otulos das classes forem discretos, o problema ´e conhecido como clas-

siﬁca¸c˜ao; se forem cont´ınuos, como regress˜ao, tamb´em conhecido como aproxima¸c˜ao de

fun¸c˜oes.

No aprendizado n˜ao-supervisionado ou agrupamento, o algoritmo de aprendizado n˜ao

tem conhecimento dos r´otulos das classes reais. Dessa maneira, o algoritmo agrupa os

exemplos por meio de extra¸c˜ao de padr˜oes de seus atributos.

8 2 Aprendizado de M´aquina

No aprendizado parcialmente supervisionado, exemplos em que os r´otulos das classes

s˜ao conhecidos e tamb´em exemplos em que os r´otulos das classes n˜ao s˜ao conhecidos

s˜ao apresentados ao algoritmo de aprendizado. O algoritmo utiliza todos os exemplos

rotulados e n˜ao rotulados durante o aprendizado.

Para avaliar o desempenho obtido com o ajuste de parˆametros as t´ecnicas de AM ser˜ao

aplicadas a problemas de classiﬁca¸c˜ao de dados de Bioinform´atica, mais especiﬁcamente

de express˜ao gˆenica. Portanto na Se¸c˜ao 2.1 ´e descrito o problema de classiﬁca¸c˜ao, suas

aplica¸c˜oes na ´area de Bioinform´atica e a avalia¸c˜ao de classiﬁcadores. Nas se¸c˜oes 2.2 e 2.3

ser˜ao apresentadas as t´ecnicas de AM: SVMs e RNs, respectivamente, para as quais este

trabalho investigou a utiliza¸c˜ao de t´ecnicas para o ajuste de parˆametros. Em seguida, na

Se¸c˜ao 2.4, o problema de sele¸c˜ao de modelo ´e investigado e alguns trabalhos publicados na

´area s˜ao apresentados. Finalizando, na Se¸c˜ao 2.5 s˜ao feitas algumas considera¸c˜oes ﬁnais.

2.1 Classiﬁca¸c˜ao

Em um problema de classiﬁca¸c˜ao os dados de entrada podem ser descritos pelo par

ordenado (X, y), em que X ´e um vetor que representa os atributos de um exemplo,

X = (x

, x

, ..., x

), e y ´e o r´otulo da classe `a qual este exemplo pertence. Na Tabela 2.1

tem-se um conjunto de dados para classiﬁca¸c˜ao do estado de sa´ude de um paciente. Nessa

tabela cada linha representa um exemplo do conjunto de dados e cada coluna um atributo

deste exemplo. O atributo Diagn´ostico ´e especial, pois possui o r´otulo da classe para cada

exemplo, ou seja, doente ou saud´avel.

Tabela 2.1: Conjunto de dados para o diagn´ostico da sa´ude de pacientes.

Exemplo Febre Enjˆoo Manchas Dor Diagn´ostico

T1 sim sim pequenas sim doente

T2 n˜ao n˜ao grandes n˜ao saud´avel

T3 sim sim pequenas n˜ao saud´avel

T4 sim n˜ao grandes sim doente

T5 sim n˜ao pequenas sim saud´avel

T6 n˜ao n˜ao grandes sim doente

T´ecnicas de AM podem ser utilizadas em problemas de classiﬁca¸c˜ao e cada uma utiliza

um algoritmo de aprendizado para construir um modelo (classiﬁcador) que relaciona os

atributos e os r´otulos das classes. Um ponto importante dos algoritmos de aprendizado ´e

construir modelos que possuam boa capacidade de generaliza¸c˜ao, ou seja, consigam predi-

zer, com alta taxa de acerto, r´otulos das classes para exemplos que n˜ao foram apresentados

anteriormente (Tan et al., 2005).

Outra caracter´ıstica dos classiﬁcadores a ser observada ´e em rela¸c˜ao a interpretabi-

lidade proporcionada ao ser humano. Os classiﬁcadores do tipo caixa-preta s˜ao aqueles

2.1 Classiﬁca¸c˜ao 9

que possuem uma representa¸c˜ao interna que, geralmente, n˜ao se consegue interpretar fa-

cilmente, ou seja, ´e dif´ıcil conhecer as caracter´ısticas do problema que o levaram a uma

determinada dedu¸c˜ao. Um exemplo de classiﬁcador desse tipo s˜ao as RNs. Os classiﬁcado-

res orientados a conhecimento, como as

Arvores de Decis˜ao (ADs) e sistemas fuzzy, criam

estruturas simb´olicas que normalmente s˜ao mais compreens´ıveis do que os classiﬁcadores

do tipo caixa-preta (Monard & Baranauskas, 2003).

Na Figura 2.1 est´a ilustrado um diagrama do processo de indu¸c˜ao de um classiﬁcador

e posteriormente a sua utiliza¸c˜ao. Primeiro o conjunto de treinamento, no qual os r´otulos

das classes dos exemplos s˜ao conhecidos, ´e utilizado por um algoritmo de aprendizado

para construir um modelo. Ap´os a constru¸c˜ao, esse classiﬁcador pode ser aplicado para

predizer os r´otulos das classes para exemplos do conjunto de teste.

Figura 2.1: Diagrama do processo de indu¸c˜ao de um classiﬁcador e sua utiliza¸c˜ao na

dedu¸c˜ao de novos exemplos.

2.1.1 Problemas de Classiﬁca¸c˜ao em Bioinform´atica

Entender as rela¸c˜oes e intera¸c˜oes entre os atributos de um conjunto de dados pode

ser muito complicado. Isso pode acontecer, por exemplo, com dados biol´ogicos que, ge-

ralmente, possuem muitos atributos. A classiﬁca¸c˜ao de dados da ´area de Bioinform´atica

auxilia no entendimento das condi¸c˜oes e das caracter´ısticas de v´arios objetos biol´ogicos.

Um problema que tem sido muito tratado, por exemplo, ´e o de classiﬁcar c´elulas como

normais e tumorais (Bajcsy et al., 2005).

Muitos bancos de dados de prote´ınas atualmente mantˆem algum tipo de classiﬁca¸c˜ao

destas seq

uˆencias, como o SCOP

(do inglˆes, Structural Classiﬁcation of Protein), PIR

(do inglˆes, Protein Information Resource) e o PDB

(do inglˆes, Protein Data Bank). Esses

bancos podem possuir mais de um tipo de classiﬁca¸c˜ao para as prote´ınas armazenadas.

http://scop.mrc-lmb.cam.ac.uk/scop/

http://pir.georgetown.edu/pirwww/index.shtml

http://www.pdb.org

10 2 Aprendizado de M´aquina

Devido aos projetos genoma, uma grande quantidade de dados biol´ogicos est˜ao sendo

criados, sendo impratic´avel a classiﬁca¸c˜ao ou organiza¸c˜ao desses dados por especialistas.

Diferentes classiﬁcadores tˆem sido usados para este problema, como SVMs, classiﬁcadores

Bayesianos, k-vizinhos mais pr´oximos, RNs e outros (Bajcsy et al., 2005). Uma descri¸c˜ao

de diferentes t´ecnicas computacionais para a classiﬁca¸c˜ao na ´area de Bioinform´atica pode

ser vista em Larranaga et al. (2006).

2.1.2 Avalia¸c˜ao de Classiﬁcadores

Apesar do potencial de diferentes t´ecnicas de AM, n˜ao h´a um algoritmo ´unico que

apresente o melhor desempenho para todos os problemas. Um ponto importante ao avaliar

diferentes t´ecnicas de AM ´e o m´etodo de amostragem dos dados que ser˜ao usados para

a indu¸c˜ao do classiﬁcador. O princ´ıpio dos m´etodos de amostragem ´e a forma¸c˜ao de

conjuntos disjuntos para treinamento e teste, ou seja, um exemplo deve pertencer ao

conjunto de treinamento, utilizado para o aprendizado, ou ao conjunto de teste, utilizado

para avaliar o desempenho do classiﬁcador, e nunca em ambos. O problema de se utilizar

os mesmos dados para treinamento e teste ´e que o classiﬁcador produzido, em geral,

n˜ao apresentar´a desempenho similar para dados n˜ao conhecidos. Assim, os m´etodos de

amostragem auxiliam na obten¸c˜ao de uma estimativa de erro do classiﬁcador mais ﬁel. A

seguir s˜ao apresentados alguns m´etodos de amostragem (Monard & Baranauskas, 2003):

Holdout: Este estimador divide os exemplos de um conjunto de dados em um uma

porcentagem ﬁxa p para treinamento e (1 − p) para teste. Normalmente p > 1/2,

sendo p = 2/3 um valor muito usado;

Amostragem Aleat´oria: Na amostragem aleat´oria s˜ao gerados H conjuntos de treina-

mento e teste aleatoriamente e ent˜ao, s˜ao induzidas H hip´oteses a partir de cada

conjunto de treinamento. O erro ﬁnal ´e a m´edia dos erros das H hip´oteses para os

conjuntos de testes independentes;

Valida¸c˜ao Cruzada (CV, do inglˆes, Cross-Validation): Este m´etodo divide os

exemplos em parti¸c˜oes disjuntas, chamadas de folds. O n´umero de folds utiliza-

dos pode variar conforme a quantidade de exemplos e a propor¸c˜ao de exemplos em

cada classe. Para k-fold cross-validation o conjunto de dados ´e dividido em k folds,

sendo que (k − 1) s˜ao usados para treinamento e o fold restante para teste. Este

processo se repete k vezes at´e que todos os folds tenham sido utilizados para teste.

No caso da valida¸c˜ao cruzada estratiﬁcada a propor¸c˜ao de exemplos em cada uma

das classes ´e mantida para cada fold gerado.

Leave-One-Out: Este estimador ´e um caso espec´ıﬁco do k-fold cross-validation em que

k = n´umero de exemplos. Assim (k − 1) exemplos s˜ao utilizados para treinar o

2.1 Classiﬁca¸c˜ao 11

classiﬁcador e apenas um exemplo ´e utilizado para teste. Esse m´etodo tem alto

custo computacional, j´a que esse processo se repete k vezes, para que todos os

exemplos sejam usados uma vez para teste.

Bootstrap: Neste m´etodo repete-se o processo de classiﬁca¸c˜ao diversas vezes. Em cada

experimento um novo conjunto de treinamento ´e obtido por amostragem com repo-

si¸c˜ao a partir dos exemplos originais.

Uma vez escolhido um m´etodo de amostragem, deve-se deﬁnir o m´etodo para avaliar o

desempenho dos classiﬁcadores. Uma maneira ´e basear-se no n´umero correto e incorreto

de predi¸c˜oes realizadas pelo classiﬁcador. Isso ´e feito organizando esses n´umeros em

uma tabela, chamada matriz de confus˜ao. Na Tabela 2.2 ´e ilustrado um exemplo dessa

matriz para um problema de classiﬁca¸c˜ao bin´aria, ou seja, os exemplos s˜ao classiﬁcados

como pertencentes `a classe positiva ou negativa. Nessa tabela as linhas indicam a classe

verdadeira e as colunas indicam a classe predita.

Tabela 2.2: Matriz de confus˜ao.

Classe Predita

Classe Verdadeira Positiva Negativa

Positiva VP FN

Negativa FP VN

As siglas utilizadas na Tabela 2.2 (VP, VN, FP e FN) s˜ao descritas a seguir:

• Verdadeiro Positivo (VP): total de exemplos preditos como pertencentes `a classe

positiva e que realmente pertencem `a essa classe;

• Verdadeiro Negativo (VN): total de exemplos preditos como pertencentes `a classe

negativa e que realmente pertencem `a essa classe;

• Falso Positivo (FP): total de exemplos preditos como pertencentes `a classe positiva

mas que na verdade pertencem `a classe negativa;

• Falso Negativo (FN): total de exemplos preditos como pertencentes `a classe negativa

mas que na verdade pertencem `a classe positiva.

A soma dos valores que aparecem na diagonal principal da Tabela 2.2 representa o

n´umero total de exemplos classiﬁcados corretamente. A soma dos valores que n˜ao se

encontram na diagonal principal ´e igual ao n´umero de exemplos classiﬁcados incorreta-

mente. Utilizando a matriz de confus˜ao ´e poss´ıvel calcular a taxa de acerto e a taxa de

erro, conforme as equa¸c˜oes 2.1 e 2.2, respectivamente. A taxa de acerto indica a taxa

de exemplos classiﬁcados corretamente e a taxa de erro, a taxa de exemplos classiﬁcados

incorretamente.

12 2 Aprendizado de M´aquina

Taxa de acerto =

V P + V N

V P + V N + F P + F N

(2.1)

Taxa de erro = 1 − Taxa de acerto (2.2)

A Taxa de Verdadeiros Positivos (TVP), tamb´em conhecida como sensibilidade ou

recall, estima a probabilidade de um exemplo pertencente `a classe positiva ser predito

como positivo. A especiﬁcidade estima a probabilidade de um exemplo pertencente `a

classe negativa ser predito corretamente como negativo. A Taxa de Falsos Positivos (TFP)

estima a probabilidade de um exemplo pertencente `a classe negativa ser predito como

positivo. Essas trˆes medidas s˜ao estimadas pelas equa¸c˜oes 2.3, 2.4 e 2.5, respectivamente.

T V P =

V P

V P + F N

(2.3)

especificidade =

V N

V N + F P

(2.4)

T F P =

F P

F P + V N

(2.5)

A medida de precis˜ao, dada pela equa¸c˜ao 2.6, estima a probabilidade da predi¸c˜ao

positiva estar correta. Uma outra medida, a Medida-F (F-measure), combina de maneira

balanceada as medidas de precis˜ao e recall. A medida-F ´e dada pela equa¸c˜ao 2.7.

precis˜ao =

V P

(V P + F P )

(2.6)

medida-F =

1/precis˜ao + 1/recall

(2.7)

Atualmente, curvas ROC (do inglˆes, Receiver Operating Characteristics) tˆem sido

muito utilizadas em AM para avaliar classiﬁcadores. Curvas ROC s˜ao gr´aﬁcos bidimensi-

onais em que a taxa de VP ´e plotada no eixo Y e a taxa de FP ´e plotada no eixo X. Um

gr´aﬁco ROC apresenta um balan¸co entre custos (falsos positivos) e benef´ıcios (verdadei-

ros positivos) (Fawcett, 2006). Uma curva ROC pode ser utilizada quando classiﬁcadores

bin´arios a serem comparados produzem como sa´ıda valores de probabilidade ou scores,

denominados de classiﬁcadores probabil´ısticos (Fawcett, 2006). A curva ROC permite

visualizar, organizar e selecionar classiﬁcadores bin´arios baseados em seu desempenho.

Uma ´unica medida para descrever essa curva ´e a ´area abaixo da curva (AUC, do inglˆes,

Area Under Curve). Essa medida pode variar de zero a um. Quanto maior a ´area, melhor

´e o classiﬁcador. A Figura 2.2 mostra um exemplo de uma curva ROC cuja AUC ´e 0.883.

2.1 Classiﬁca¸c˜ao 13

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

Figura 2.2: Exemplo de curva ROC.

Testes estat´ısticos

A taxa de acerto ou a taxa de erro pode ser utilizada para comparar dois algoritmos

de aprendizado A e B utilizando um teste de hip´oteses pareado (Mitchell, 1997). Com

esse teste, ´e poss´ıvel avaliar se houve diferen¸ca estat´ıstica signiﬁcante entre o desempenho

dos algoritmos A e B para um determinado conjunto de dados. Seja um conjunto de

dados particionado segundo o m´etodo de amostragem k-fold cross-validation. Considere

agora e

) a taxa de erro (ou de acerto) obtido por um classiﬁcador f

induzido pelo

algoritmo de aprendizado A e e

) a taxa de erro (ou de acerto) obtido por um classi-

ﬁcador f

induzido pelo algoritmo de aprendizado B. Uma alternativa para aplicar um

teste estat´ıstico seria, primeiro, determinar as diferen¸cas entre os erros obtidos por cada

classiﬁcador, para cada parti¸c˜ao de teste i, segundo a Equa¸c˜ao 2.8.

dif

= e

) − e

) (2.8)

Com as diferen¸cas entre cada parti¸c˜ao de teste, calcular a m´edia e o desvio padr˜ao

segundo as equa¸c˜oes 2.9 e 2.10, respectivamente.

¯m



i=1

dif

(2.9)







k − 1



i=1

(dif

− ¯m

)

(2.10)

14 2 Aprendizado de M´aquina

A hip´otese nula ´e de que n˜ao h´a diferen¸ca estat´ıstica entre os resultados obtidos pelos

algoritmos A e B. Assim, calcula-se o valor de teste t obtido conforme a equa¸c˜ao 2.11.

Esse teste ´e chamado de teste-t pareado corrigido e foi proposto por Nadeau & Bengio

(2003).

obt

¯m



(

k−1

(2.11)

A hip´otese nula ´e rejeitada se t

obt

for maior que t

k−1

1−

, em que t

k−1

´e a distribui¸c˜ao t

de Student com k −1 graus de liberdade e α corresponde ao n´ıvel de signiﬁcˆancia do teste.

Assim pode-se aﬁrmar se os resultados obtidos pelos algoritmos A e B s˜ao estatisticamente

diferentes com um n´ıvel de signiﬁcˆancia α.

O teste-t pareado corrigido n˜ao pode ser aplicado para m´ultiplos algoritmos e m´ul-

tiplos conjuntos de dados. Para esses tipos de compara¸c˜ao, o teste n˜ao-param´etrico de

Friedman (Demˇsar, 2006) pode ser usado. Os testes n˜ao-param´etricos n˜ao exigem que

as distribui¸c˜oes da vari´avel na popula¸c˜ao sejam conhecidas. Com esse teste, ´e poss´ıvel

veriﬁcar se h´a ou n˜ao diferen¸cas signiﬁcativas entre os diferentes classiﬁcadores para todos

os conjuntos de dados. Por´em, o teste de Friedman n˜ao determina quais s˜ao os algoritmos

signiﬁcativamente diferentes. Portanto, caso o teste de Friedman rejeite a hip´otese nula,

ou seja, rejeite a hip´otese de que n˜ao h´a diferen¸ca signiﬁcativa entre os classiﬁcadores, o

teste `a posteriori Nemenyi (Demˇsar, 2006) pode ser aplicado para veriﬁcar onde ocorrem

as diferen¸cas. O desempenho de dois classiﬁcadores ´e signiﬁcativamente diferente se o

ranking-m´edio de Friedman diferir por pelo menos uma diferen¸ca cr´ıtica. Essa diferen¸ca ´e

calculada com base no n´umero de classiﬁcadores, n´umero de algoritmos e na distribui¸c˜ao

de Student (Demˇsar, 2006).

2.2 M´aquinas de Vetores de Suporte

As SVMs s˜ao baseadas na Teoria do Aprendizado Estat´ıstico (Vapnik & Chervonen-

kis, 1971), mais especiﬁcamente, na Teoria de Minimiza¸c˜ao do Risco Estrutural (Vapnik,

1995). Os vetores de suporte utilizados pelas SVMs s˜ao exemplos que est˜ao pr´oximos da

superf´ıcie de decis˜ao e portanto, s˜ao os mais dif´ıceis de serem classiﬁcados (Haykin, 1999).

S˜ao esses exemplos que inﬂuenciam diretamente na localiza¸c˜ao da superf´ıcie de decis˜ao.

As SVMs vˆem sendo utilizadas com sucesso em diversos problemas de Bioinform´atica,

como a classiﬁca¸c˜ao de dados de express˜ao gˆenica e a detec¸c˜ao de homologia entre prote´ı-

nas (Cristianini & Shawe-Taylor, 2000). Entre as caracter´ısticas que a tornaram popular

na Bioinform´atica est˜ao a boa capacidade de generaliza¸c˜ao e a robustez em lidar com

dados de grande dimens˜ao (Souto et al., 2003).

Para o problema de classiﬁca¸c˜ao, o princ´ıpio das SVMs est´a em encontrar um hi-

perplano ´otimo que separa satisfatoriamente os dados de entrada. O hiperplano ´otimo

2.2 M´aquinas de Vetores de Suporte 15

´e deﬁnido como aquele para o qual a margem de separa¸c˜ao entre as classes ´e maximi-

zada (Haykin, 1999). Utilizando o hiperplano as SVMs s˜ao capazes de classiﬁcar apenas

conjuntos de entrada linearmente separ´aveis. Um conjunto de dados ´e linearmente sepa-

r´avel quando ´e poss´ıvel separar as diferentes classes com um hiperplano (Mitchell, 1997).

Um hiperplano ´otimo e os vetores de suporte para exemplos linearmente separ´aveis est˜ao

ilustrados na Figura 2.3.

Figura 2.3: A id´eia do hiperplano ´otimo para exemplos linearmente separ´aveis.

Quando essas classes n˜ao podem ser separadas satisfatoriamente por um hiperplano, as

SVMs devem ser generalizadas. Isso pode ser feito com o uso de fun¸c˜oes de mapeamento

, ..., Φ

no dom´ınio do espa¸co de entrada. Por meio destas fun¸c˜oes, cada exemplo do

conjunto de treinamento ´e mapeado para um novo espa¸co, o espa¸co de caracter´ısticas.

Neste espa¸co os exemplos podem se tornar linearmente separ´aveis e ent˜ao um hiperplano

´otimo pode ser encontrado (Haykin, 1999).

A escolha da fun¸c˜ao de mapeamento apropriada varia com o espa¸co de caracter´ısticas

estudado. A ´unica informa¸c˜ao necess´aria sobre o mapeamento ´e a deﬁni¸c˜ao de como o

produto interno Φ(x

).Φ(x

) pode ser realizado para cada par de exemplos x

e x

(Souto

et al., 2003). Essa informa¸c˜ao ´e obtida com os kernels: fun¸c˜oes que tˆem como entrada dois

pontos x

e x

do espa¸co de entrada e calculam o produto escalar K(x

, x

) = Φ(x

).Φ(x

)

no espa¸co de caracter´ısticas (Haykin, 1999).

Dentre os kernels mais utilizados est˜ao o linear, o polinomial, o de fun¸c˜oes de base

radial (RBF, do inglˆes, Radial Basis Function) ou gaussiano e o sigmoidal. Cada kernel

possui um conjunto de parˆametros livres, ou seja, parˆametros cujos valores devem ser

especiﬁcados pelo usu´ario. Na Tabela 2.3 s˜ao apresentados esses kernels e alguns de seus

parˆametros. Al´em disso um parˆametro das SVMs, denominado custo, precisa ser especi-

ﬁcado. Esse ´e um parˆametro regulador que controla o equil´ıbrio entre a complexidade do

modelo e o n´umero de exemplos n˜ao-separ´aveis (Haykin, 1999).

16 2 Aprendizado de M´aquina

Tabela 2.3: Principais kernels utilizados nas SVMs (Haykin, 1999).

Kernels Fun¸c˜ao K(x

, x

)

correspondente

Parˆametros

polinomial (x

+ 1)

A potˆencia p deve ser espe-

ciﬁcada pelo usu´ario

RBF exp(−

2σ

 x

−x



) A amplitude σ

´e especiﬁ-

cada pelo usu´ario

sigmoidal tanh(β

+ β

) Satisfeito apenas para al-

guns valores β

e β

2.3 Redes Neurais Artiﬁciais

As RNs s˜ao inspiradas no c´erebro e no sistema nervoso. Ambos s˜ao sistemas com-

plexos, paralelamente distribu´ıdos e n˜ao-lineares. As RNs s˜ao compostas por unidades

de processamento simples, denominados neurˆonios ou n´os, dispostos em uma ou mais

camadas e interligados por meio de conex˜oes.

As RNs tˆem sido aplicadas em uma grande variedade de dom´ınios, entre eles, a Bio-

inform´atica (Narayanan et al., 2002). Segundo Seiﬀert et al. (2006), o comportamento

robusto das RNs frente a dados com ru´ıdos e a alta adaptabilidade fornecem muitos

dos requisitos necess´arios dessa ´area. Exemplos de aplica¸c˜oes de RNs em problemas de

Bioinform´atica s˜ao os trabalhos de Wang et al. (2000), que utiliza RNs para classiﬁca¸c˜ao

de seq

uˆencias de prote´ınas, e Draghici & Potter (2003), que usou RNs para predizer a

resistˆencia do v´ırus HIV a drogas.

O primeiro modelo formal para um neurˆonio artiﬁcial foi desenvolvido por McCul-

loch & Pitts (1943), que mostraram que seu modelo era capaz de realizar, a princ´ıpio, a

computa¸c˜ao de qualquer fun¸c˜ao comput´avel utilizando um n´umero suﬁciente de neurˆo-

nios artiﬁciais e pesos sin´apticos ajust´aveis (Haykin, 1999). Os neurˆonios artiﬁciais s˜ao

unidades de processamento de informa¸c˜ao que realizam um trabalho relativamente sim-

ples: recebem entradas de outros neurˆonios ou do meio externo e usam essas entradas

para computar um sinal de sa´ıda que ´e propagado para outras unidades ou para o meio

externo.

Cada unidade ´e composta basicamente por trˆes elementos (Haykin, 1999):

• Sinapse - peso acoplado a cada entrada do neurˆonio que determina se a entrada

ter´a efeito inibit´orio ou excitat´orio, resultando na ativa¸c˜ao ou n˜ao do neurˆonio;

• Somador ou net input - realiza a soma ponderada entre as entradas e seus res-

pectivos pesos;

• Fun¸c˜ao de Ativa¸c˜ao - determina o n´ıvel de ativa¸c˜ao baseado no resultado produ-

zido pelo somador, limitando o valor de sa´ıda de cada neurˆonio.

2.4 Sele¸c˜ao de Modelo e Ajuste de Parˆametros 17

Na Figura 2.4 ´e apresentado o esquema de um neurˆonio artiﬁcial e de uma rede neural

do tipo feed-forward, ou seja o ﬂuxo de processamento ´e estritamente da entrada para a

sa´ıda.

(a) Modelo de um neurˆonio artiﬁcial desenvolvido

por McCulloch & Pitts (1943).

(b) Esquema de uma rede feed-

forward.

Figura 2.4: Neurˆonio artiﬁcial e o esquema de uma rede feed-forward.

Diversas fun¸c˜oes podem ser utilizadas como fun¸c˜oes de ativa¸c˜ao e devem ser especi-

ﬁcadas pelo usu´ario. A escolha depende da especiﬁca¸c˜ao do problema que o neurˆonio se

prop˜oe a resolver (Hagan et al., 1996). As fun¸c˜oes log´ıstica, de limiar e tangente hiper-

b´olica s˜ao trˆes exemplos de fun¸c˜oes de ativa¸c˜ao muito utilizadas. Segundo Basheer &

Hajmeer (2000) uma escolha ´otima de outros parˆametros, como o tamanho da rede e a

taxa de aprendizagem, afetam o desempenho ﬁnal da rede.

Os pesos associados a cada conex˜ao entre os neurˆonios (sinapse) s˜ao respons´aveis pelo

armazenamento do conhecimento. Um algoritmo de aprendizado de RNs deve ser capaz

de atribuir pesos a essas conex˜oes durante o processo de treinamento, de maneira que a

rede neural seja capaz de classiﬁcar corretamente o maior n´umero de exemplos poss´ıveis

do conjunto de treinamento e seja capaz de generalizar para novos exemplos.

2.4 Sele¸c˜ao de Modelo e Ajuste de Parˆametros

Diversos modelos podem apresentar bom desempenho preditivo quando utilizados para

resolver um determinado problema de classiﬁca¸c˜ao. O problema de escolher o melhor entre

os diversos modelos dispon´ıveis ´e chamado de sele¸c˜ao de modelo. Para todos os casos, o

objetivo ´e minimizar o erro de generaliza¸c˜ao, pois minimizar o erro de treinamento pode

causar overﬁtting, ou seja, o modelo gerado pode memorizar os exemplos do conjunto de

treinamento ao inv´es de extrair suas caracter´ısticas gerais, o que, por exemplo, prejudica o

desempenho para novos exemplos (Kearns et al., 1997). Na pr´atica, o problema de sele¸c˜ao

de modelo pode ser reduzido ao ajuste dos valores de parˆametros quando se tem algum

conhecimento pr´evio do problema. Na Se¸c˜ao 2.4, o problema de ajuste de parˆametros ser´a

discutido com maiores detalhes e alguns trabalhos ser˜ao apresentados.

Uma t´ecnica para sele¸c˜ao de modelo de SVMs envolve a minimiza¸c˜ao do erro de gene-

18 2 Aprendizado de M´aquina

raliza¸c˜ao usando informa¸c˜oes do gradiente sobre o conjunto de parˆametros. Por´em, essa

abordagem apresenta problemas, como a necessidade de fun¸c˜oes diferenci´aveis e o alto

risco de atingir um m´ınimo local (Chapelle et al., 2002). Os AGs foram usados por Xu

& Chan (2003) para a sele¸c˜ao de modelo para SVMs multi-classes. Os resultados para os

problemas investigados mostraram que o m´etodo melhora o desempenho de classiﬁca¸c˜ao

com complexidade aceit´avel.

Em Anders & Korn (1999), os autores utilizam diferentes estrat´egias baseadas em

conceitos estat´ısticos para a sele¸c˜ao de modelo para RNs, como teste de hip´oteses, crit´erios

de informa¸c˜ao e CV. Com os resultados obtidos nesse trabalho, veriﬁcou-se que o teste de

hip´otese de Ter

asvirta et al. (1993) foi a estrat´egia mais est´avel.

Para a sele¸c˜ao de modelos em ADs, Yildiz & Alpaydin (2005) utilizaram diferentes

abordagens, como crit´erios de informa¸c˜ao Akaike (AIC, do inglˆes, Akaike Information

Criterion (Akaike, 1974) e Bayesianos (Schwarz, 1978), al´em da CV. Este ´ultimo produziu

´arvores mais simples que os outros dois m´etodos, com a desvantagem de um maior tempo

de treinamento.

Estudos de diversos m´etodos de sele¸c˜ao de modelo podem ser encontrados em Kearns

et al. (1997) e Bartlett et al. (2002).

Ajuste de Parˆametros

Grande parte dos algoritmos de AM possuem parˆametros cujos valores devem ser

especiﬁcados pelo usu´ario. Esses valores para os parˆametros livres, em geral, inﬂuenciam

diretamente no desempenho de modelos induzidos (Kohavi & John, 1995), o que pode ser

entendido como uma deﬁciˆencia das t´ecnicas de AM. O objetivo do processo de ajuste

desses parˆametros pode ser visto como encontrar os melhores valores dos parˆametros

livres para um determinado conjunto de dados (Hutter & Hamadi, 2005). O ajuste de

parˆametros com o intuito de obter melhor desempenho e maior robustez dessas t´ecnicas

´e uma tarefa subjetiva, que pode consumir muito tempo.

Para deﬁnir um conjunto de valores, as atuais t´ecnicas de ajuste normalmente conside-

ram a intera¸c˜ao entre o vi´es (bias) do algoritmo de indu¸c˜ao (Mitchell, 1982) e o conjunto

de treinamento dispon´ıvel. T´ecnicas comuns, como a busca exaustiva, s˜ao intrat´aveis

quando h´a mais do que dois parˆametros para serem ajustados (Chapelle et al., 2002).

Heur´ısticas podem ser aplicadas com relativo sucesso para uma variedade de conjuntos

de dados. Por´em, a melhor estrat´egia ´e obter valores dos parˆametros que funcionem bem

para o conjunto particular de dados que est´a sendo analisado (Kohavi & John, 1995). A

abordagem mais comum para deﬁnir os valores dos parˆametros livres ´e por tentativa e

erro, a qual ´e altamente subjetiva. Al´em disso, a busca pelos melhores valores para os

parˆametros, geralmente, envolve a otimiza¸c˜ao por um grande espa¸co de busca, o que torna

esse problema muito custoso computacionalmente.

2.4 Sele¸c˜ao de Modelo e Ajuste de Parˆametros 19

Por essa raz˜ao, t´ecnicas alternativas de otimiza¸c˜ao tˆem sido aplicadas para ajustar

de forma autom´atica os parˆametros livres de algoritmos de AM. Algumas dessas t´ecnicas

tˆem obtido resultados promissores, como AGs, Simulated Annealing (Kirkpatrick et al.,

1983), Tabu Search (Glover & Laguna, 1997) e PSO.

Ajuste de Parˆametros de SVMs

O desempenho das SVMs ´e diretamente inﬂuenciado pela escolha da fun¸c˜ao de kernel

e os valores de seus parˆametros (Chapelle et al., 2002). Como dito anteriormente, essa

dependˆencia dos valores dos parˆametros n˜ao ´e uma exclusividade das SVMs. Muitos al-

goritmos de aprendizado dependem de uma escolha adequada para encontrarem um bom

modelo. O conhecimento sobre o dom´ınio pode auxiliar na escolha da fun¸c˜ao de kernel

apropriada, reduzindo o problema de sele¸c˜ao de modelo para o ajuste de parˆametros (Cris-

tianini & Shawe-Taylor, 2000).

Para o ajuste de parˆametros de SVMs, m´etodos de otimiza¸c˜ao baseados no gradiente

s˜ao muito utilizados. Por´em, segundo Imbault & Lebart (2004), esses m´etodos n˜ao re-

solvem totalmente o problema, a menos que um ponto inicial seja conhecido. Os autores

mostraram que o problema de ajuste de parˆametros apresenta m´ınimo local e compara-

ram m´etodos cl´assicos de ajuste que utilizam busca local com AGs e Simulated Annealing,

que s˜ao m´etodos de minimiza¸c˜ao global, sendo o primeiro, uma t´ecnica bioinspirada. Um

fator importante dos m´etodos de minimiza¸c˜ao global ´e que esses s˜ao desenvolvidos para

evitar m´ınimos locais. Os resultados mostraram que os dois m´etodos citados obtiveram

solu¸c˜oes pr´oximas da ´otima de forma mais robusta e eﬁciente.

Algoritmos Gen´eticos tamb´em foram utilizados por Lorena & Carvalho (2006) para

ajustar os parˆametros de SVMs multiclasses com kernel gaussiano. Os autores obtiveram

maiores taxas de acerto utilizando AGs se comparado aos resultados obtidos utilizando-

se valores ﬁxos para os parˆametros. Esse resultado ocorreu para as quatro bases de

dados testadas. Huang & Wang (2006) e Souza & Carvalho (2005) utilizaram AGs para

selecionar caracter´ısticas (atributos) de conjuntos de dados e ajustar parˆametros de SVMs

simultaneamente. No primeiro caso, foram realizados testes utilizando v´arios conjuntos

de dados e a abordagem baseada em AGs teve boa taxa de acerto se comparada com a

t´ecnica grid search. No segundo caso, foi utilizado um conjunto de dados de express˜ao

gˆenica e os resultados obtidos foram equivalentes a outros encontrados na literatura.

Em Souza et al. (2006), a t´ecnica PSO foi utilizada para ajustar parˆametros de SVMs

multiclasses com kernel gaussiano. Foram testadas quatro bases de dados e os resultados

obtidos foram comparados com os obtidos por outras t´ecnicas de ajuste. Essas t´ecnicas

foram denominadas grid search, que usa a busca exaustiva Naive, que usa os mesmos

valores padr˜oes da biblioteca LIBSVM (Chang & Lin, 2001) para todas as SVMs bin´arias, e

Global, que usa um conjunto de valida¸c˜ao para estimar o erro de generaliza¸c˜ao. As t´ecnicas

PSO e Global conseguiram os menores erros de classiﬁca¸c˜ao para uma base, enquanto

20 2 Aprendizado de M´aquina

que a grid search obteve melhores resultados para as outras duas bases. Apesar disso,

os resultados obtidos pela PSO ﬁcaram pr´oximos aos melhores alcan¸cados e, segundo

os autores, n˜ao foi poss´ıvel determinar o melhor m´etodo para todas as bases de dados

testadas.

Ajuste de Parˆametros de RNs

Algoritmos evolutivos s˜ao empregados para ajuste de parˆametros e treinamento de

RNs desde o in´ıcio da d´ecada de 90, como pode ser visto em Miller et al. (1989); Dodd

(1990); Hintz & Spoﬀord (1990); Braun & Weisbrod (1993), e ainda s˜ao utilizados nos dias

atuais. Os trabalhos de Leung et al. (2003) e Tsai et al. (2006) prop˜oem modiﬁca¸c˜oes nos

AGs para a otimiza¸c˜ao autom´atica e simultˆanea da topologia (estrutura) das RNs e dos

parˆametros do algoritmo de treinamento. Em Leung et al. (2003), os autores realizaram

experimentos com fun¸c˜oes benchmark. Os resultados obtidos pelo AG proposto superaram

os obtidos pelo AG padr˜ao, que utilizou crossover aritm´etico e muta¸c˜ao n˜ao-uniforme.

Duas aplica¸c˜oes foram testadas com as RNs para ilustrar o desempenho dos algoritmos

propostos. Em ambas, o AG proposto superou o AG padr˜ao no ajuste de parˆametros, e o

algoritmo de aprendizado backpropagation, para o treinamento da rede. Tsai et al. (2006)

aplicaram um algoritmo h´ıbrido, que combina AG com o m´etodo Taguchi (Phadke, 1995),

o qual chamaram de HTGA (do inglˆes, hybrid Taguchi-Genetic Algorithm), para ajustar

a estrutura e os parˆametros de RNs. Os autores utilizaram as mesmas aplica¸c˜oes testadas

em Leung et al. (2003) e compararam os resultados obtidos. O HTGA foi superior em

rela¸c˜ao ao valor de aptid˜ao encontrado, enquanto que a complexidade da rede variou

conforme a aplica¸c˜ao.

Um estudo comparativo entre sistemas evolutivos h´ıbridos para gera¸c˜ao e otimiza¸c˜ao

da estrutura de uma RN multi-camadas foi realizado por Castillo et al. (2007). Esse

estudo usou um m´etodo chamado G-Prop para otimizar o n´umero de neurˆonios ocultos e

os pesos iniciais das RNs e outro m´etodo chamado ev-QP para buscar pelos parˆametros de

um algoritmo de treinamento. Utilizou-se tamb´em um algoritmo co-evolutivo, chamado

co-evolutive, para tratar dos parˆametros referente `a arquitetura, aos pesos iniciais e aos

parˆametros do algoritmo de treinamento. Os resultados mostraram que os algoritmos

evolutivos apresentaram melhor habilidade de classiﬁca¸c˜ao do que o QuickProp (Fahlman,

1988). O primeiro m´etodo (GProp) obteve pequenas taxas de erro de classiﬁca¸c˜ao. Por´em,

o tempo de processamento foi um pouco superior se comparado a outros m´etodos. O

segundo m´etodo (ev-QP) teve o menor tempo de processamento, mas produziu as maiores

taxas de erro. O m´etodo co-evolutivo obteve os menores tempo de processamento e, ao

mesmo tempo, melhorou a habilidade de classiﬁca¸c˜ao.

Em Gao et al. (2006), a t´ecnica PSO foi aplicada para ajustar simultaneamente a es-

trutura e os pesos das conex˜oes de RNs. Os autores propuseram uma modiﬁca¸c˜ao no PSO,

chamado de SPSO, para solucionar esse problema. Os resultados obtidos foram compara-

2.5 Considera¸c˜oes Finais 21

dos com o algoritmo backpropagation e com um AG desenvolvido para o mesmo prop´osito.

As redes foram aplicadas para o problema de pontua¸c˜ao de cr´edito. O SPSO convergiu

mais rapidamente e conseguiu maior acur´acia do que o algoritmo backpropagation. O AG

foi o que obteve as menores taxas de acur´acia.

Um algoritmo baseado no sistema imunol´ogico, denominado Immune Algorithm (IA),

foi empregado por Kim (2002) para ajustar parˆametros de RNs fuzzy. O algoritmo foi

utilizado para gerar regras fuzzy para estruturas de rede neural-fuzzy. Os autores relatam

que por meio das simula¸c˜oes realizadas foi poss´ıvel constatar a capacidade do IA em

otimizar regras fuzzy.

2.5 Considera¸c˜oes Finais

Neste cap´ıtulo, foram abordados os principais conceitos de AM e as duas t´ecnicas de

AM que foram utilizadas durante este estudo: SVMs e RNs. Como essas t´ecnicas foram

aplicadas em tarefas de classiﬁca¸c˜ao, foram descritas brevemente os principais conceitos

relacionados a esse tema e sua utiliza¸c˜ao em dados da ´area de Bioinform´atica.

Em seguida, foi abordado o problema da sele¸c˜ao de modelo e de ajuste de parˆametros

para t´ecnicas de AM. Alguns trabalhos publicados que utilizam t´ecnicas bioinspiradas

para o ajuste de parˆametros foram citados.

No pr´oximo cap´ıtulo s˜ao apresentados os conceitos de Computa¸c˜ao Natural e as t´ec-

nicas bioinspiradas utilizadas neste estudo para o ajuste de parˆametros das t´ecnicas de

AM.

22 2 Aprendizado de M´aquina

Cap´ıtulo 3

Computa¸c˜ao Natural

Ao contr´ario da divis˜ao das ciˆencias atuais, que est´a cada vez mais sendo especiali-

zada, a Computa¸c˜ao Natural utiliza o conhecimento de diversas ´areas para melhorar a

compreens˜ao da vida e desenvolver novos paradigmas computacionais. A Computa¸c˜ao

Natural usa elementos da Computa¸c˜ao, Biologia, F´ısica, Engenharia e Qu´ımica.

A Computa¸c˜ao Natural ou Bioinspirada ´e formada por trˆes frentes de estudo:

A natureza como fonte de inspira¸c˜ao para a computa¸c˜ao: estuda como conceitos,

princ´ıpios e mecanismos da natureza podem ser utilizados para a cria¸c˜ao de novas

t´ecnicas computacionais.

E poss´ıvel observar na natureza solu¸c˜oes eﬁcientes e ele-

gantes para resolver uma grande variedade de problemas. Muitos desses problemas

n˜ao podem ser solucionados por t´ecnicas computacionais tradicionais, por´em a natu-

reza ´e capaz de resolvˆe-los facilmente. Como exemplo, podem ser citados problemas

de otimiza¸c˜ao e de reconhecimento de padr˜oes (Carvalho et al., 2004).

Simula¸c˜ao e emula¸c˜ao da natureza por meio da computa¸c˜ao: ´e basicamente um

processo de s´ıntese com o objetivo de criar formas, padr˜oes e comportamentos que

reproduzam a vida como n´os a conhecemos. Os resultados dos estudos dessa ´area

podem ser utilizados para simular v´arios fenˆomenos naturais, possibilitando um

maior entendimento da natureza (Castro, 2007).

Utiliza¸c˜ao de materiais naturais para executar computa¸c˜ao: estuda o uso de ma-

teriais naturais, como mol´eculas de DNA, para realizar computa¸c˜ao. Esses novos

paradigmas computacionais podem substituir ou serem acrescentados aos materiais

de sil´ıcio usados atualmente para computar (Castro, 2007).

Este estudo envolve a primeira frente de estudo da Computa¸c˜ao Natural, pois fez uso

de t´ecnicas bioinspiradas. As t´ecnicas bioinspiradas tˆem sido formalizadas como metaheu-

r´ısticas para problemas de otimiza¸c˜ao. Segundo Dorigo et al. (2006), metaheur´ıstica ´e um

conjunto de conceitos algor´ıtmicos que pode ser utilizado para deﬁnir m´etodos heur´ısti-

cos aplic´aveis a um amplo conjunto de problemas. Exemplos de metaheur´ısticas incluem

24 3 Computa¸c˜ao Natural

a busca tabu (Glover & Laguna, 1997) a busca local iterativa (Louren¸co et al., 2002) e

a computa¸c˜ao evolutiva (Holland, 1975). Os algoritmos deﬁnidos como metaheur´ısticas,

conforme Maniezzo et al. (2004), possuem algumas heur´ısticas b´asicas para escapar do

m´ınimo local: iniciam a partir de uma solu¸c˜ao nula e adicionam elementos at´e obter uma

boa solu¸c˜ao ou iniciam com uma solu¸c˜ao completa e iterativamente modiﬁcam alguns

elementos dessa at´e um crit´erio de parada.

O ajuste dos valores dos parˆametros de t´ecnicas de AM foram investigadas neste estudo

com uso de t´ecnicas bioinspiradas. Assim, as se¸c˜oes seguintes apresentam os principais

conceitos relacionados `as t´ecnicas bioinspiradas. Na Se¸c˜ao 3.1 ´e apresentada uma introdu-

¸c˜ao `a inteligˆencia de enxames e `as t´ecnicas ACO e PSO, pertencentes `a esse paradigma.

Na Se¸c˜ao 3.2 os SIAs s˜ao apresentados, com ˆenfase para o princ´ıpio da sele¸c˜ao clonal.

Em seguida, na Se¸c˜ao 3.3 os conceitos referentes aos AGs s˜ao abordados. Por ´ultimo, s˜ao

feitas algumas considera¸c˜oes ﬁnais na Se¸c˜ao 3.4.

3.1 Inteligˆencia de Enxames

A inteligˆencia de enxames, ou inteligˆencia coletiva, se refere a agentes (indiv´ıduos)

que apresentam um n´ıvel superior de inteligˆencia dentro do comportamento social. Os

indiv´ıduos devem ser capazes de interagir entre si e com o ambiente. A vida social ´e

interessante sob v´arios aspectos para algumas esp´ecies. As vantagens podem ser uma

maior facilidade de encontrar comida, divis˜ao do trabalho, melhor aproveitamento de

suas capacidades e at´e mesmo evitar predadores e facilitar a ca¸ca (Castro, 2006).

Os algoritmos de inteligˆencia de enxames s˜ao compostos por indiv´ıduos simples que

atuam de forma auto-organizada, isto ´e, sem qualquer forma de controle central sobre

os membros do enxame. Segundo Millonas (1994), os sistemas baseados em inteligˆencia

coletiva possuem cinco princ´ıpios:

proximidade: indiv´ıduos de uma popula¸c˜ao devem interagir entre si;

qualidade: indiv´ıduos devem ser capazes de avaliar a intera¸c˜ao entre eles e com o ambi-

ente;

diversidade: a capacidade de um sistema reagir contra a¸c˜oes inesperadas;

estabilidade: os indiv´ıduos n˜ao podem modiﬁcar seu comportamento em resposta a

todas modiﬁca¸c˜oes do ambiente;

adaptabilidade: os indiv´ıduos devem ser capazes de se adaptar `as mudan¸cas do ambiente

e da popula¸c˜ao.

3.1 Inteligˆencia de Enxames 25

As t´ecnicas ACO e PSO s˜ao baseadas em sistemas de enxames. A primeira ´e base-

ada no comportamento de formigas em busca por alimento e a segunda na organiza¸c˜ao

existente entre bandos de p´assaros, peixes e no comportamento social humano.

3.1.1 Otimiza¸c˜ao por Colˆonia de Formigas

As formigas, de forma especial, tˆem servido de inspira¸c˜ao para um grande n´umero de

t´ecnicas baseadas em inteligˆencia de enxames. Dentre essas, a mais estudada e de maior

sucesso ´e a t´ecnica de otimiza¸c˜ao de prop´osito geral, conhecida como ACO (Dorigo et al.,

2006). A ACO ´e inspirada no comportamento das formigas na busca por alimento. O

principal aspecto desse comportamento ´e a comunica¸c˜ao que ocorre entre os indiv´ıduos

da colˆonia por meio do dep´osito de feromˆonio nas trilhas percorridas.

Inicialmente, as formigas exploram de maneira aleat´oria uma ´area em busca de ali-

mento. Durante a movimenta¸c˜ao, essas formigas depositam feromˆonio pelo solo ao longo

do caminho percorrido (Blum, 2005). O feromˆonio ´e uma substˆancia qu´ımica cujo odor

´e sentido pelas formigas. Ao escolher um caminho dentre mais de uma op¸c˜ao, ´e prov´avel

que as formigas escolham o caminho marcado com uma maior concentra¸c˜ao de feromˆo-

nio. Como a probabilidade das formigas que alcan¸caram a comida pelo menor caminho

retornarem antes das que escolheram o caminho mais longo ´e maior, o menor caminho

ﬁcar´a com uma maior concentra¸c˜ao de feromˆonio e provavelmente ser´a o caminho seguido

pelas outras formigas. Na Figura 3.1 est´a ilustrada essa id´eia, mostrando o aumento de

formigas que utilizam o caminho mais curto entre o ninho e a fonte de alimento ao longo

do tempo.

Figura 3.1: Formigas em busca de alimento. Ao passar do tempo, o menor caminho

possuir´a a maior quantidade de feromˆonio depositado. (Fonte: http://lsin.unisantos.br/

lvcon/lvcon).

A ACO explora um mecanismo similar para resolver problemas de otimiza¸c˜ao e foi

formalizado como metaheur´ıstica para problemas de otimiza¸c˜ao combinatorial por Dorigo

& Di-Caro (1999).

26 3 Computa¸c˜ao Natural

O funcionamento da ACO pode ser resumido como um conjunto de agentes compu-

tacionais concorrentes e ass´ıncronos (como uma colˆonia de formigas) que se movimentam

atrav´es de estados do problema, que correspondem `as solu¸c˜oes parciais. A movimenta¸c˜ao

dos agentes ´e baseada em dois parˆametros: trilha e atratividade. Durante seu movimento,

cada formiga constr´oi incrementalmente uma solu¸c˜ao para o problema. Durante a fase

de constru¸c˜ao ou ﬁnaliza¸c˜ao de uma solu¸c˜ao, a formiga avalia a solu¸c˜ao encontrada e

modiﬁca o valor de feromˆonio associado com as trilhas usadas. O total de feromˆonio nas

trilhas direcionar´a a busca para as demais formigas (Maniezzo et al., 2004).

Um algoritmo ACO inclui dois mecanismos adicionais: evapora¸c˜ao da trilha e, opcio-

nalmente, a¸c˜oes daemon. A evapora¸c˜ao da trilha decrementa a quantidade de feromˆonio

em todas as trilhas com o passar do tempo com o intuito de evitar o ac´umulo ilimitado

de feromˆonio. A¸c˜oes daemons podem ser utilizadas para permitir a¸c˜oes centralizadas, o

que n˜ao acontece com as colˆonias naturais de formigas (Maniezzo et al., 2004).

Em ACO para problemas combinatoriais, formigas constroem solu¸c˜oes incremental-

mente. Inicialmente cada formiga come¸ca com uma solu¸c˜ao vazia s

e a cada passo de

constru¸c˜ao i uma componente da solu¸c˜ao ´e adicionada. A deﬁni¸c˜ao de componente da so-

lu¸c˜ao ´e dependente da aplica¸c˜ao. Para o problema do caixeiro viajante, por exemplo, uma

componente da solu¸c˜ao ´e uma cidade que ´e adicionada ao percurso. Para escolher qual

componente da solu¸c˜ao C

deve ser adicionada a s

, uma escolha probabil´ıstica ´e feita,

considerando-se normalmente o total de feromˆonio τ associado com uma determinada

componente e uma poss´ıvel informa¸c˜ao heur´ıstica sobre o problema (Socha, 2004).

A ACO foi desenvolvida inicialmente para resolver problemas de otimiza¸c˜ao combina-

torial, logo a vers˜ao original n˜ao se aplica `a problemas de otimiza¸c˜ao de dom´ınio cont´ınuo.

Uma extens˜ao para a ACO foi desenvolvida por Socha (2004), a qual permite a otimiza¸c˜ao

de problemas com vari´aveis cont´ınuas e mistas (discretas e cont´ınuas). Posteriormente, So-

cha & Dorigo (2008) desenvolveram o ACO

para problemas de dom´ınios cont´ınuos. A

id´eia principal do ACO

´e substituir a distribui¸c˜ao de probabilidade discreta utilizada no

ACO convencional por uma cont´ınua, isto ´e, por uma Fun¸c˜ao de Densidade de Probabi-

lidade (FDP).

No Algoritmo 1 s˜ao descritos os passos do ACO para dom´ınios cont´ınuos. As solu¸c˜oes

encontradas por uma formiga l ´e dada por s

. Ao inv´es de escolher uma componente da

solu¸c˜ao como em problemas combinatoriais, uma formiga gera um n´umero aleat´orio de

acordo com uma FDP P

) no passo i.

3.1.2 Otimiza¸c˜ao por Enxame de Part´ıculas

A PSO ´e uma t´ecnica de otimiza¸c˜ao global desenvolvida por Kennedy & Eberhart

(1995) e foi introduzida inicialmente para otimiza¸c˜ao de fun¸c˜oes cont´ınuas n˜ao lineares.

O fato de que o compartilhamento de informa¸c˜oes entre indiv´ıduos oferece uma vantagem

3.1 Inteligˆencia de Enxames 27

Algoritmo 1 Algoritmo ACO

(Socha, 2004; Socha & Dorigo, 2008).

τ ← distribui¸c˜ao de probabilidade inicial P

), i ∈ {1..n}

enquanto Crit´erio de parada n˜ao for satisfeito fa¸ca

para cada formiga l fa¸ca

← ∅

para cada componente i da solu¸c˜ao fa¸ca

escolher valor x

aleatoriamente de acordo com distribui¸c˜ao de probabilidade

)

← s

i−1



ﬁm para

best

← melhor solu¸c˜ao da itera¸c˜ao

best

← melhor solu¸c˜ao entre as SG

best

anteriores e a SI

best

τ ← atualiza¸c˜ao do feromˆonio baseado em uma ou mais solu¸c˜oes encontradas

ﬁm enquanto

evolutiva foi essencial no seu desenvolvimento. A PSO ´e baseada no comportamento social

de p´assaros, peixes e principalmente no comportamento social humano.

As part´ıculas se movimentam por um espa¸co de busca e s˜ao capazes de armazenar

informa¸c˜oes passadas e compartilhar informa¸c˜oes com outras part´ıculas. Esses dois tipos

de informa¸c˜oes correspondem `a aprendizagem individual (cognitiva) e `a transmiss˜ao cul-

tural (social). Dessa forma, as part´ıculas utilizam as melhores solu¸c˜oes no seu processo de

“evolu¸c˜ao”. Kennedy & Eberhart (2001) usaram trˆes princ´ıpios para explicar de forma

breve o processo de adapta¸c˜ao cultural:

avaliar: cada part´ıcula deve avaliar a solu¸c˜ao encontrada por ela no espa¸co de busca;

comparar: cada part´ıcula deve comparar a solu¸c˜ao obtida por ela com as solu¸c˜oes obtidas

pelas demais part´ıculas;

imitar: as part´ıculas devem imitar a part´ıcula que mais se aproximou da solu¸c˜ao desejada.

O compartilhamento de informa¸c˜oes ´e realizado entre part´ıculas consideradas vizinhas.

A vizinhan¸ca considerada pelo PSO ´e topol´ogica e n˜ao se refere ao espa¸co de atributos

de cada part´ıcula. Um poss´ıvel arranjo topol´ogico para considerar vizinhan¸ca entre as

part´ıculas est´a ilustrado na Figura 3.2. H´a basicamente duas formas de se deﬁnir vizi-

nhan¸ca nesse contexto, global e local. A vizinhan¸ca global considera que cada part´ıcula

´e conectada a todas as outras e por isso o compartilhamento de informa¸c˜oes ocorre entre

todo o enxame. Na vizinhan¸ca local cada part´ıcula ´e composta por ela pr´opria e seus

k-vizinhos mais pr´oximos (Castro, 2006). Na Figura 3.3 ´e apresentada uma topologia

para vizinhan¸ca global (`a esquerda) e para vizinhan¸ca local com k = 2 (`a direita).

A PSO pode ser aplicada basicamente a problemas bin´arios ou cont´ınuos. Cada part´ı-

cula ´e representada pela sua posi¸c˜ao atual, velocidade e melhor posi¸c˜ao encontrada. Cada

28 3 Computa¸c˜ao Natural

Figura 3.2: Representa¸c˜ao da vizinhan¸ca topol´ogica para part´ıculas. (Fonte: http://lsin.

unisantos.br/lvcon/lvcon).

Figura 3.3: Representa¸c˜ao da vizinhan¸ca global (`a esquerda) e local (`a direita). (Fonte:

http://lsin.unisantos.br/lvcon/lvcon).

part´ıcula ´e tratada como um ponto em um espa¸co D-dimensional. A posi¸c˜ao da part´ıcula

i ´e dada por X

= (x

, x

, . . . , x

); sua velocidade ´e dada por V

= (v

, v

, . . . , v

) e a

melhor posi¸c˜ao encontrada por esta part´ıcula por P

= (p

, p

, . . . , p

) (Castro, 2006).

Para o caso da vizinhan¸ca global, a melhor posi¸c˜ao encontrada entre todas as part´ıculas

´e representada pelo s´ımbolo p

Uma part´ıcula ir´a se mover em uma determinada dire¸c˜ao em fun¸c˜ao da sua posi¸c˜ao

atual, da sua velocidade, da melhor posi¸c˜ao encontrada por ela e da melhor posi¸c˜ao

encontrada pelos seus vizinhos. As equa¸c˜oes 3.1 e 3.2 determinam a forma com que a

velocidade e a posi¸c˜ao das part´ıculas s˜ao atualizadas, respectivamente. Para evitar a

explos˜ao de velocidade das part´ıculas um limite de velocidade foi introduzido. A posi¸c˜ao

da part´ıcula pode tamb´em ser restrita ao intervalo do espa¸co de busca deﬁnido. No

Algoritmo 2 s˜ao descritos os passos para o PSO.

(t + 1) = w · v

(t) + ϕ

· r

· (p

− x

(t)) + ϕ

· r

· (p

− x

(t)) (3.1)

(t + 1) = x

(t) + v

(t) (3.2)

3.2 Sistema Imunol´ogico Artiﬁcial 29

onde t representa a itera¸c˜ao, w o peso da in´ercia, cujo papel ´e balancear a busca global e

a local e foi introduzido por Shi & Eberhart (1998), r

e r

s˜ao dois valores independentes

distribu´ıdos uniformemente no intervalo [0, 1], ϕ

e ϕ

s˜ao constantes de acelera¸c˜ao.

Algoritmo 2 Algoritmo PSO.

τ ← 1

enquanto Crit´erio de parada n˜ao for satisfeito fa¸ca

para cada particula i fa¸ca

se aptid˜ao de x

> p

ent˜ao

← x

ﬁm se

Atualizar velocidade da part´ıcula conforme a Equa¸c˜ao 3.1

Atualizar posi¸c˜ao da part´ıcula conforme a Equa¸c˜ao 3.2

ﬁm para

τ ← t + 1

ﬁm enquanto

3.2 Sistema Imunol´ogico Artiﬁcial

O Sistema Imunol´ogico (SI) dos vertebrados ´e t˜ao complexo quanto o c´erebro. O

funcionamento do SI ´e interessante n˜ao apenas do ponto de vista biol´ogico, mas tamb´em

sobre uma perspectiva computacional. O SI ´e respons´avel por inspecionar o organismo

em busca de c´elulas do pr´oprio corpo que apresentem mal funcionamento, como cˆancer e

c´elulas tumorais, al´em de doen¸cas causadas por elementos oportunistas. Todo elemento

reconhecido pelo SI ´e chamado de ant´ıgeno (Ag).

O SIA ´e um sistema computacional inspirado na teoria da imunologia e fun¸c˜oes imu-

nol´ogicas observadas e engloba princ´ıpios e modelos que s˜ao aplicados para solucionar

problemas reais. SIAs tˆem sido aplicados em uma grande variedade de ´areas de dom´ınio,

como reconhecimento de padr˜oes e classiﬁca¸c˜ao, otimiza¸c˜ao, an´alise de dados e seguran¸ca

de computadores.

Os principais aspectos relacionados ao desenvolvimento de um modelo baseado em

SIAs s˜ao: uma representa¸c˜ao para criar modelos abstratos de ´org˜aos, c´elulas e mol´eculas

imunol´ogicas, um conjunto de fun¸c˜oes de aﬁnidade a ﬁm de quantiﬁcar as intera¸c˜oes entre

os “elementos artiﬁciais” e um conjunto de algoritmos de prop´osito geral para governar a

dinˆamica do SIA (Castro & Timmis, 2002).

No SI, o linf´ocito ´e a c´elula respons´avel pela imunidade. Existem dois tipos de linf´oci-

tos: os linf´ocitos T (c´elulas-T) e os linf´ocitos B (c´elulas-B). Apesar da grande similaridade,

estas c´elulas diferem na forma de reconhecimento dos ant´ıgenos (Ags) e de sua fun¸c˜ao.

O reconhecimento antigˆenico ´e a primeira etapa para que o SI inicie uma resposta imu-

nol´ogica. Os Ags que pertencem originalmente ao organismo, e s˜ao inofensivos ao seu

30 3 Computa¸c˜ao Natural

funcionamento, s˜ao denominados de ant´ıgenos pr´oprios. Os ant´ıgenos que causam doen-

¸cas ao organismo s˜ao chamados de ant´ıgenos n˜ao-pr´oprios (Castro, 2006).

As c´elulas-T s˜ao maturadas no timo e protegidas por uma barreira de sangue capaz

de excluir de forma eﬁciente ant´ıgenos n˜ao-pr´oprios do timo, ou seja, aqueles que n˜ao

pertencem originalmente ao ambiente t´ımico. As c´elulas-T que contˆem receptores capazes

de reconhecer Ags-pr´oprios presentes no timo s˜ao eliminadas desse conjunto por meio de

um processo chamado de sele¸c˜ao negativa. Todas as c´elulas-T que saem do timo para

circular por todo o corpo s˜ao ditas tolerantes a elas pr´oprias, ou seja, elas n˜ao s˜ao auto-

reativas (Castro & Timmis, 2002; Abbas et al., 2000).

Com um papel complementar `a sele¸c˜ao negativa, a sele¸c˜ao clonal ´e uma teoria que

aborda a organiza¸c˜ao da resposta imunol´ogica ao reconhecer, por meio das c´elulas-B,

um padr˜ao antigˆenico n˜ao-pr´oprio. De forma breve, quando um ant´ıgeno n˜ao-pr´oprio ´e

reconhecido pelos receptores das c´elulas-B com uma certa aﬁnidade, ele ´e selecionado para

se proliferar e produzir anticorpos em grande volume. Os anticorpos s˜ao liberados pelas

c´elulas-B para atuar contra os ant´ıgenos n˜ao-pr´oprios invasores (Castro & Timmis, 2002;

Abbas et al., 2000).

Como forma de modelar esse reconhecimento realizado pelos receptores das c´elulas, Pe-

relson & Oster (1979) introduziram o conceito de forma-espa¸co. Esse conceito diz que

todas as propriedades dos receptores celulares que determinaram as intera¸c˜oes entre as

mol´eculas podem ser descritas por uma estrutura de dados. Assim um anticorpo Ab pode

ser representado por um conjunto de coordenadas Ab =< Ab

, Ab

, ..., Ab

>, e um an-

t´ıgeno por Ag =< Ag

, Ag

, ..., Ag

>. Essa estrutura pode ser formada, por exemplo,

por valores bin´arios, reais ou inteiros, e ´e suﬁciente para quantiﬁcar a aﬁnidade ou com-

plementariedade entre mol´eculas. Para quantiﬁcar a aﬁnidade no caso de anticorpos e

ant´ıgenos formados por coordenadas cujos valores s˜ao reais pode se utilizar a distˆancia

Euclidiana ou de Manhatan, por exemplo. Para coordenadas bin´arias, pode-se utilizar a

distˆancia de Hamming, por exemplo (Castro, 2006).

Para problemas de otimiza¸c˜ao, ao inv´es de se utilizar ant´ıgenos usa-se uma fun¸c˜ao

objetivo para avaliar a qualidade da resposta de cada anticorpo. Inspirados neste princ´ı-

pio Castro & Von-Zuben (2002) desenvolveram um algoritmo denominado CLONALG.

O algoritmo inicialmente gera uma popula¸c˜ao de anticorpos que em seguida s˜ao ava-

liados por uma fun¸c˜ao objetivo. Todos os anticorpos s˜ao clonados de acordo com suas

aptid˜oes. Quanto maior a aptid˜ao, maior o n´umero de c´opias geradas. Cada clone pro-

duzido ´e mutado proporcionalmente ao seu valor de aptid˜ao. Quanto maior a aptid˜ao,

menor a taxa de muta¸c˜ao. Finalmente um determinado n´umero de anticorpos com as me-

nores aptid˜oes na popula¸c˜ao s˜ao substitu´ıdos pelos melhores indiv´ıduos mutados. Esses

passos s˜ao repetidos at´e um crit´erio de parada ser satisfeito. No Algoritmo 3 ´e descrito o

CLONALG para problemas de otimiza¸c˜ao, conforme (Castro, 2006).

3.3 Algoritmos Gen´eticos 31

Algoritmo 3 Algoritmo CLONALG para problemas de otimiza¸c˜ao.

Criar uma popula¸c˜ao inicial de anticorpos P

t ← 1;

enquanto Crit´erio de parada n˜ao for satisfeito fa¸ca

Avaliar aptid˜ao de P

P 1 ← Selecionar n1 anticorpos de P com maiores aptid˜oes

C ← Clonar cada anticorpo de P 1 proporcional a sua aptid˜ao

C1 ← Mutar cada anticorpo de C proporcional a sua aptid˜ao

Avaliar aptid˜ao de C1

P 1 ← Selecionar n1 melhores clones mutados

P ← Substituir os n2 anticorpos de menores aptid˜oes de P pelos n2 de maior aptid˜ao

de P 1

t ← t + 1

ﬁm enquanto

3.3 Algoritmos Gen´eticos

A Computa¸c˜ao Evolutiva (CE) ´e um paradigma de computa¸c˜ao inspirado na teoria da

sele¸c˜ao natural dos seres vivos, relatada por Charles Darwin em seu livro “A Origem das

Esp´ecies”. Segundo essa teoria, os indiv´ıduos mais resistentes e bem adaptados possuem

maior chance de sobrevivˆencia, o que pode ser visto como um processo de “otimiza¸c˜ao

natural”. A CE ´e aplicada principalmente na resolu¸c˜ao de problemas de otimiza¸c˜ao e os

algoritmos desse paradigma apresentam caracter´ısticas como auto-organiza¸c˜ao e compor-

tamento adaptativo (Goldberg & Holland, 1988). Segundo Carvalho et al. (2004), uma

das principais caracter´ısticas da CE ´e que seus algoritmos s˜ao constitu´ıdos por passos ge-

n´ericos e adapt´aveis, podendo serem utilizados na solu¸c˜ao de diferentes problemas. Entre

as ´areas que fazem parte da CE, est˜ao os AGs, propostos por Holland (1975). Por´em,

seu desenvolvimento ocorreu com maior intensidade a partir do trabalho de Goldberg &

Holland (1988), no ﬁnal da d´ecada de 80.

Em AGs, cada poss´ıvel solu¸c˜ao para um determinado problema ´e chamado de indiv´ıduo

ou cromossomo e o conjunto desses cromossomos forma uma popula¸c˜ao. Uma codiﬁca¸c˜ao

desses indiv´ıduos geralmente ´e necess´aria, sendo a bin´aria a mais utilizada. Nesse caso,

cada bit de um indiv´ıduo ´e chamado de gene. Uma representa¸c˜ao de um cromossomo

bin´ario formado por 10 genes ´e apresentado na Figura 3.4.

Figura 3.4: Representa¸c˜ao de um cromossomo bin´ario em um AG.

A busca por uma solu¸c˜ao em AGs ocorre em um processo iterativo, em que cada

itera¸c˜ao ´e denominada gera¸c˜ao. A cada gera¸c˜ao, o princ´ıpio da sele¸c˜ao ´e aplicado para

32 3 Computa¸c˜ao Natural

escolher os indiv´ıduos que ser˜ao recombinados (crossover) e/ou modiﬁcados (muta¸c˜ao).

Al´em disso, alguns algoritmos utilizam o conceito de elitismo, que seleciona indiv´ıduos

com os melhores valores de aptid˜ao para a gera¸c˜ao seguinte.

Um AG pode utilizar uma popula¸c˜ao inicial gerada aleatoriamente quando n˜ao h´a um

conhecimento pr´evio sobre regi˜oes mais promissoras dentro do espa¸co de busca. Cada

indiv´ıduo gerado ´e uma poss´ıvel solu¸c˜ao do problema em quest˜ao, que ´e avaliado por uma

fun¸c˜ao de aptid˜ao, que fornece uma medida de sua qualidade. Essa medida ´e utilizada

durante a sele¸c˜ao de indiv´ıduos, que pode ser realizada de diferentes formas.

O crossover ´e o operador gen´etico respons´avel pelo cruzamento de caracter´ısticas entre

pares de indiv´ıduos (pais) com o objetivo de gerar descendentes. Se o cruzamento de um

ponto for utilizado, determina-se um ponto em que os cromossomos pais s˜ao divididos e

cada descendente gerado ser´a formado por examente um trecho de cada um dos cromos-

somos progenitores. Na Figura 3.5 ´e apresentada a aplica¸c˜ao do operador de crossover

de um ponto. A freq

uˆencia com que esse operador ´e aplicado ´e deﬁnido por uma taxa de

cruzamento. O operador gen´etico de muta¸c˜ao ´e respons´avel pela manuten¸c˜ao da diversi-

dade gen´etica na popula¸c˜ao, modiﬁcando um ou mais genes de um cromossomo. A taxa

de muta¸c˜ao deﬁne a freq

uˆencia de aplica¸c˜ao do operador de muta¸c˜ao que, geralmente, ´e

aplicado com uma probabilidade baixa (Carvalho et al., 2003). A utiliza¸c˜ao do operador

de muta¸c˜ao para um cromossomo bin´ario ´e mostrado na Figura 3.6. No Algoritmo 4 s˜ao

descritos os principais passos dos AGs, conforme (Carvalho et al., 2003).

Figura 3.5: Operador gen´etico de crossover de um ponto (Souto et al., 2003).

Para problemas de otimiza¸c˜ao de parˆametros em dom´ınio cont´ınuo, ´e mais natural

representar os genes por n´umeros reais. O uso do alfabeto bin´ario para representar valores

no espa¸co cont´ınuo pode produzir o efeito denominado penhasco de Hamming (Hamming

cliﬀ ). Isso acontece quando a codiﬁca¸c˜ao bin´aria de dois valores adjacentes difere em

todos os bits. Por exemplo, os valores 31 e 32 s˜ao representados por 011111 e 100000,

respectivamente (Herrera et al., 1998).

Com a utiliza¸c˜ao da codiﬁca¸c˜ao real para problemas de dom´ınio cont´ınuo, n˜ao h´a

diferen¸ca entre a codiﬁca¸c˜ao e o espa¸co de busca (Herrera et al., 1998), pois cada gene

3.3 Algoritmos Gen´eticos 33

Figura 3.6: Operador gen´etico de muta¸c˜ao (Souto et al., 2003).

Algoritmo 4 Algoritmo Gen´etico.

t = 0;

Gerar Popula¸c˜ao Inicial P (0)

para cada indiv´ıduo i da popula¸c˜ao atual P (t) fa¸ca

Avaliar aptid˜ao do indiv´ıduo i

ﬁm para

enquanto Crit´erio de parada n˜ao for satisfeito fa¸ca

t = t + 1

Selecionar popula¸c˜ao P (t) a partir de P (t −1)

Aplicar operadores de cruzamento sobre P (t)

Aplicar operadores de muta¸c˜ao sobre P (t)

Avaliar P (t)

ﬁm enquanto

representa uma vari´avel do problema. Dessa forma, o tamanho do cromossomo tem o

mesmo tamanho do vetor de solu¸c˜oes para o problema. Para empregar um AG com codi-

ﬁca¸c˜ao real (AG

) na solu¸c˜ao de problemas, foram desenvolvidos diferentes operadores

de crossover e muta¸c˜ao. Em Herrera et al. (1998) s˜ao analisados diferentes operadores e

os autores concluem que o operador de muta¸c˜ao n˜ao-uniforme (Michalewicz, 1992) e os

operadores de crossover BLX-α (Eshelman & Schaﬀer, 1993) e logical FCB (Herrera et al.,

1994) s˜ao os mais adequados para serem utilizados com o AG

. A seguir, o operador

de crossover BLX-α e o operador de muta¸c˜ao n˜ao-uniforme s˜ao apresentados. Optou-se

aqui por apresentar o BLX-α pela sua simplicidade se comparado ao logical FCB.

Sejam C

= (c

, . . . , c

) e C

= (c

, . . . , c

) dois cromossomos selecionados para apli-

ca¸c˜ao do operador de crossover. Para o operador BLX-α, um descendente ´e gerado:

H = (h

, . . . , h

), onde h

´e um n´umero aleatoriamente (uniformemente) escolhido

no intervalo [c

min

− I · α, c

max

+ I · α], c

min

= minimo(c

, c

), c

max

= maximo(c

, c

I = c

max

−c

min

e α determina o balanceamento entre prospec¸c˜ao (exploitation) e explora-

¸c˜ao (exploration), e seu valor deve ser deﬁnido pelo usu´ario. No trabalho de Herrera et al.

(1998), diferentes valores para α foram testados. O melhor balanceamento foi alcan¸cado

quando α = 0.5. A seguir ser´a explicado o operador de muta¸c˜ao n˜ao-uniforme.

Seja C = (c

, ..., c

) um cromossomo e c

∈ [a

, b

] um gene que foi selecionado

34 3 Computa¸c˜ao Natural

aleatoriamente para muta¸c˜ao. A aplica¸c˜ao da muta¸c˜ao n˜ao-uniforme sobre esse gene

resultar´a em um gene c



, cujo valor ´e deﬁnido da seguinte forma. Seja t a gera¸c˜ao em que

o operador est´a sendo aplicado e t

max

o n´umero m´aximo de gera¸c˜oes. Ent˜ao





+ ∆(t, b

− c

) se τ = 0

− ∆(t, c

− a

) se τ = 1

em que τ ´e um n´umero aleat´orio bin´ario (0 ou 1) e

∆(t, y) = y



1 − r

(

1−

max

)



sendo r um n´umero aleat´orio pertencente ao intervalo [0, 1] e b um parˆametro escolhido

pelo usu´ario que determina o grau de dependˆencia do n´umero de gera¸c˜oes. Em Herrera

et al. (1998), foi utilizado b = 5.

3.4 Considera¸c˜oes Finais

Este cap´ıtulo iniciou com a apresenta¸c˜ao das trˆes frentes de estudo que a Computa¸c˜ao

Natural engloba. Posteriormente, os conceitos envolvidos na inteligˆencia de enxames

foram brevemente descritos e as metaheur´ısticas bioinspiradas ACO e PSO, pertencentes

a esse paradigma foram abordadas.

Os SIAs tamb´em foram apresentados, com particular aten¸c˜ao ao princ´ıpio de sele¸c˜ao

clonal. O funcionamento do algoritmo CLONALG para otimiza¸c˜ao, desenvolvido com

base nesse princ´ıpio, foi explicado e seu algoritmo descrito. A ´ultima metaheur´ıstica

abordada neste cap´ıtulo foram os AGs. Foram apresentados operadores de crossover e de

muta¸c˜ao que podem ser utilizados com AGs com codiﬁca¸c˜ao real.

As t´ecnicas bioinspiradas apresentadas neste cap´ıtulo foram utilizadas para ajustar os

valores dos parˆametros livres das t´ecnicas de AM descritas no Cap´ıtulo 2.

Cap´ıtulo 4

Experimentos com Fun¸c˜oes de

Benchmark

Algoritmos bioinspirados tˆem sido utilizados em diversas ´areas, como rob´otica (Nolﬁ &

Floreano, 2004), minera¸c˜ao de dados (Freitas, 2003; Sousa et al., 2004), otimiza¸c˜ao (Ken-

nedy, 2005; Socha & Dorigo, 2008), seguran¸ca de redes (Castro & Von-Zuben, 2002), al´em

de muitas outras. Neste estudo, foram investigados os algoritmos bioinspirados ACO, AG,

CSA e PSO para o ajuste de parˆametros de t´ecnicas de AM. Para testar a funcionalidade

desses algoritmos, eles foram aplicados a cinco problemas de otimiza¸c˜ao bem conheci-

dos. Na literatura podem ser encontrados outros trabalhos que compararam algoritmos

bioinspirados aplicados a problemas de otimiza¸c˜ao, como os dois trabalhos mencionados

a seguir.

O trabalho de Elbeltagi et al. (2005) compara cinco algoritmos evolutivos. Nessa

compara¸c˜ao, os autores utilizaram ACO, Algoritmos Mem´eticos (MA, do inglˆes, Memetic

Algorithms) (Moscato, 1989), PSO, AG e Shuﬄed Frog Leaping (SFL) (Eusuﬀ & Lansey,

2003) aplicados a dois problemas cont´ınuos e um problema discreto. Segundo os autores,

o PSO foi o que, geralmente, obteve melhores resultados em termos de taxa de sucesso e

qualidade de solu¸c˜ao, e o segundo melhor em termos de tempo de processamento.

Em Mezura-Montes & Lopez-Ramirez (2007), os autores compararam quatro algorit-

mos bioinspirados aplicados a quatro problemas de otimiza¸c˜ao com restri¸c˜oes. O objetivo

era associar caracter´ısticas das fun¸c˜oes testadas com os algoritmos utilizados, a saber:

Evolu¸c˜ao Diferencial (ED) (Price et al., 2005), PSO, AG e (µ + λ)-Estrat´egia Evolutiva

(EE) (Rechenberg, 1973) . Os autores conclu´ıram que o ED foi o mais competitivo para

o conjunto de fun¸c˜oes testadas, e o PSO o que convergiu mais rapidamente para regi˜oes

promissoras do espa¸co de busca.

Neste cap´ıtulo s˜ao apresentados os experimentos realizados com cinco fun¸c˜oes de ben-

chmark. Esses experimentos tˆem como objetivo avaliar a funcionalidade e o desempenho

dos algoritmos bioinspirados investigados para fun¸c˜oes unimodais e multimodais. Inici-

almente, na Se¸c˜ao 4.1, s˜ao apresentadas as fun¸c˜oes de benchmark utilizadas nos experi-

36 4 Experimentos com Fun¸c˜oes de Benchmark

mentos preliminares. Os algoritmos bioinspirados implementados e seus parˆametros s˜ao

apresentados na Se¸c˜ao 4.2. Na Se¸c˜ao 4.3 s˜ao apresentados os resultados obtidos. Finali-

zando, na Se¸c˜ao 4.4 s˜ao feitas algumas considera¸c˜oes ﬁnais sobre este cap´ıtulo.

4.1 Fun¸c˜oes de Benchmark

Na Tabela 4.1 s˜ao apresentadas as fun¸c˜oes testadas, suas f´ormulas, dimens˜oes e interva-

los de busca utilizados. Essas fun¸c˜oes s˜ao comumente utilizadas para comparar algoritmos

evolutivos (B

ack, 1996). Na Figura 4.1 est˜ao ilustrados os gr´aﬁcos bidimensionais des-

sas fun¸c˜oes

. As dimens˜oes e os intervalos utilizados para cada fun¸c˜ao foram os mesmos

utilizados por Elshamy et al. (2007). Os autores desse trabalho realizaram experimentos

com modiﬁca¸c˜oes propostas por eles para o PSO e compararam com o PSO modiﬁcado,

proposto por Shi & Eberhart (1998), utilizando vizinhan¸ca local e vizinhan¸ca global.

Tabela 4.1: Fun¸c˜oes de benchmark utilizadas para veriﬁca¸c˜ao da funcionalidade e desem-

penho dos algoritmos bioinspirados investigados.

Fun¸c˜ao Equa¸c˜ao Dim. Intervalo

Esfera

(x) =



i=1

30 [−100, 100]

Rosenbrock

(x) =

n−1



i=1

[100(x

i+1

− x

)

+ (x

− 1)

]

30 [−30, 30]

Rastrigin

(x) =



i=1

− 10cos(2πx

) + 10]

30 [−5.12, 5.12]

Schaﬀer f6

(x) = 0.5 +

sen

“

√

”

−0.5

(1+0.001(x

))

2 [−100, 100]

Ackley

(x) = −20exp



−0.2





i=1



−exp





i=1

cos(2πx

)



+ 20 + e

30 [−32, 32]

As fun¸c˜oes Esfera e Rosenbrock (Rosenbrock, 1960) s˜ao fun¸c˜oes unimodais e testam

a habilidade do algoritmo frente `a superf´ıcies planas. As fun¸c˜oes Rastrigin (Aimo &

Zilinskas, 1989), Schaﬀer f6 (Schaﬀer et al., 1989), e Ackley (Ackley, 1987) s˜ao multimodais

e com um grande n´umero de m´ınimos locais, testando assim a habilidade dos algoritmos

em escapar de m´ınimos locais (Elshamy et al., 2007). O m´ınimo global para todas as

fun¸c˜oes ´e zero. Para isso, todas as vari´aveis x

precisam ser iguais a zero, com exce¸c˜ao da

fun¸c˜ao Rosenbrock, em que todas as vari´aveis x

precisam ser iguais a um.

As ﬁguras 4.1(a), 4.1(b), 4.1(c) e 4.1(e) foram obtidas do site: http://www.geatbx.com/docu/

fcnindex-01.html

4.1 Fun¸c˜oes de Benchmark 37

(a) Gr´aﬁco da fun¸c˜ao Esfera (b) Gr´aﬁco da fun¸c˜ao Rosenbrock

(e) Gr´aﬁco da fun¸c˜ao Ackley

Figura 4.1: Gr´aﬁco das fun¸c˜oes de benchmark utilizadas.

38 4 Experimentos com Fun¸c˜oes de Benchmark

4.2 Algoritmos Bioinspirados Implementados

Quatro algoritmos bioinspirados foram implementados para a realiza¸c˜ao dos experi-

mentos: Otimiza¸c˜ao por Enxame de Part´ıculas (PSO, do inglˆes, Particle Swarm Opti-

mization), Algoritmo de Sele¸c˜ao Clonal (CSA, do inglˆes, Clonal Selection Algorithm),

Otimiza¸c˜ao por Colˆonia de Formigas (ACO, do inglˆes, Ant Colony Optimization) e Algo-

ritmos Gen´eticos (AGs). Os algoritmos foram implementados na linguagem R. O R ´e um

software livre para computa¸c˜ao estat´ıstica e possui uma grande quantidade de pacotes

dispon´ıveis gratuitamente, muitos deles podem ser obtidos pelo site do projeto R

O algoritmo ACO para dom´ınios cont´ınuos foi implementado com base em Socha

(2004) e Socha & Dorigo (2008). A principal diferen¸ca para o ACO cl´assico ´e o uso de

uma fun¸c˜ao de probabilidade cont´ınua, ao inv´es de uma fun¸c˜ao de probabilidade discreta.

Os parˆametros do ACO foram deﬁnidos com base no estudo de Socha & Dorigo (2008).

Um AG com codiﬁca¸c˜ao real foi implementado usando sele¸c˜ao por torneio, operador

de crossover BLX-α e operador de muta¸c˜ao n˜ao-uniforme. Em raz˜ao dos resultados

obtidos durante alguns experimentos realizados com fun¸c˜oes de benchmark, o elitismo

n˜ao foi usado. Para fun¸c˜oes multimodais ´e importante explorar v´arias regi˜oes do espa¸co

de busca para n˜ao ﬁcar preso `a m´ınimos locais. Portanto, melhores resultados foram

obtidos sem o uso do elitismo, que aumenta a prospec¸c˜ao em detrimento da explora¸c˜ao.

Os valores usados para os parˆametros do AG s˜ao baseados em valores comumente usados

na literatura, como em Huang & Wang (2006) e Elbeltagi et al. (2005).

O algoritmo PSO foi implementado como especiﬁcado em Shi & Eberhart (1998), em

que um peso de in´ercia ´e adicionado ao algoritmo PSO original (Kennedy & Eberhart,

1995). A topologia de vizinhan¸ca global foi adotada. Os valores usados para acelera¸c˜ao,

peso de in´ercia e velocidade das part´ıculas foram deﬁnidos conforme Eberhart & Shi

(2000).

Os anticorpos do algoritmo CSA foram desenvolvidos com codiﬁca¸c˜ao real. O n´umero

de anticorpos selecionados para clonagem foi deﬁnido de acordo com Castro & Von-Zuben

(2002). O procedimento que substitui anticorpos da mem´oria n˜ao foi usado. Ao inv´es

disso, foi aplicado o operador de idade (Cutello et al., 2006; Castrogiovanni et al., 2007).

Esse operador elimina anticorpos que n˜ao mutaram com sucesso por um determinado

n´umero de itera¸c˜oes. O n´umero de clones gerados ´e proporcional `a solu¸c˜ao da quali-

dade gerada pelo anticorpo. A hipermuta¸c˜ao ´e inversamente proporcional `a qualidade do

anticorpo.

Na Tabela 4.2 s˜ao descritos os valores usados para os parˆametros dos algoritmos bi-

oinspirados aplicados para otimizar as fun¸c˜oes de benchmark.

Nos experimentos com fun¸c˜oes de benchmark, cada indiv´ıduo dos algoritmos bioins-

pirados ´e composto por V

n´umeros reais, em que V

´e o n´umero de vari´aveis da fun¸c˜ao

http://www.r-project.org/

4.2 Algoritmos Bioinspirados Implementados 39

Tabela 4.2: Valores para os parˆametros dos algoritmos bioinspirados.

Alg. Parˆametro S´ımbolo Valor

ACO

N´umero de formigas P

Velocidade de convergˆencia ξ 0.70

Local do processo de busca q 10

−4

Tamanho do arquivo de solu¸c˜oes k 60

PSO

N´umero de part´ıculas P

Constante de acelera¸c˜ao 1 ϕ

1.494

Constante de acelera¸c˜ao 2 ϕ

1.494

Peso de controle da for¸ca de in´er-

cia

w 0.729

Velocidade m´axima υ 0.7

CSA

N´umero de anticorpos P

Taxa da popula¸c˜ao selecionada

para clonagem

Tempo de vida lt 6

Taxa de hipermuta¸c˜ao h

0.5

N´umero de cromossomos P

Probabilidade de crossover p

0.7

Probabilidade de muta¸c˜ao p

0.05

Press˜ao seletiva p

Balan¸co entre explora¸c˜ao e pros-

pec¸c˜ao

α 0.5

Grau de dependˆencia do n´umero

de itera¸c˜oes

b 5

a ser minimizada. Nos experimentos para ajuste de parˆametros, cada indiv´ıduo ´e com-

posto por N

n´umeros reais, em que N

´e o n´umero de parˆametros a serem ajustados para

a t´ecnica de classiﬁca¸c˜ao. As solu¸c˜oes iniciais (valores para os parˆametros das t´ecnicas

de classiﬁca¸c˜ao e valores para as vari´aveis das fun¸c˜oes) s˜ao geradas aleatoriamente sobre

os intervalos deﬁnidos. Como os algoritmos bioinspirados empregados s˜ao estoc´asticos,

foram executadas 30 repeti¸c˜oes para cada conjunto de dados ou fun¸c˜oes, com diferentes

popula¸c˜oes iniciais. O valor 30 foi deﬁnido por ser a quantidade m´ınima de dados em

uma popula¸c˜ao com distribui¸c˜ao normal, conforme o teorema central do limite (Achcar &

Rodrigues, 2000).

A minimiza¸c˜ao das fun¸c˜oes de benchmark ´e realizada at´e que uma condi¸c˜ao de pa-

rada para os algoritmos bioinspirados seja satisfeita. Essa condi¸c˜ao pode ser um n´umero

m´aximo de itera¸c˜oes ou um erro m´ınimo a ser alcan¸cado, por exemplo. Em todos os expe-

rimentos realizados neste trabalho, o n´umero m´aximo de itera¸c˜oes foi estabelecido como

crit´erio de parada. Esse crit´erio foi adotado porque possibilita veriﬁcar a convergˆencia de

todos os algoritmos bioinspirados para o mesmo n´umero de itera¸c˜oes.

40 4 Experimentos com Fun¸c˜oes de Benchmark

4.3 Resultados

O n´umero de itera¸c˜oes adotado para todos os algoritmos bioinspirados ´e o mesmo

utilizado por Elshamy et al. (2007), ou seja, 10 000. Ao ﬁnal das itera¸c˜oes, o algoritmo

retorna o menor valor encontrado para a fun¸c˜ao. Como os algoritmos s˜ao estoc´asticos,

foram realizadas 30 execu¸c˜oes independentes para cada fun¸c˜ao.

Na Tabela 4.3 s˜ao apresentadas as m´edias e os desvios padr˜ao (em parˆenteses) das

30 execu¸c˜oes dos algoritmos bioinspirados para as fun¸c˜oes unimodais. O menor valor

para cada fun¸c˜ao est´a destacado. A convergˆencia dos algoritmos bioinspirados para essas

fun¸c˜oes pode ser analisada por meio dos gr´aﬁcos exibidos na Figura 4.2.

Em rela¸c˜ao a fun¸c˜ao Esfera, pode-se observar que o PSO conseguiu valores muito

menores que os demais algoritmos implementados. Em raz˜ao dos resultados publicados

em Elshamy et al. (2007), era esperado que o PSO conseguisse valores pr´oximos do m´ınimo

global. Para a fun¸c˜ao Rosenbrock, o PSO novamente se sobressaiu aos demais algoritmos.

Dos algoritmos implementados, o AG foi o segundo melhor para a fun¸c˜ao Esfera e o pior

para a fun¸c˜ao Rosenbrock.

Para a fun¸c˜ao Esfera, ´e poss´ıvel observar a partir do gr´aﬁco da Figura 4.2(a), que o

PSO n˜ao ﬁcou preso a um m´ınimo local durante as 10 000 itera¸c˜oes realizadas. O mesmo

n˜ao ocorreu para o algoritmo AG e o CSA, que ﬁcaram presos a um m´ınimo local logo nas

primeiras itera¸c˜oes, e assim n˜ao conseguiram resultados muito pr´oximos do m´ınimo global.

O AG conseguiu nas ´ultimas itera¸c˜oes reduzir um pouco o m´ınimo local encontrado. A

convergˆencia do ACO foi muito lenta, e ap´os a itera¸c˜ao 7 000, aproximadamente, estagnou.

Por meio dos gr´aﬁcos de convergˆencia para a fun¸c˜ao Rosenbrock, que s˜ao apresentados

no gr´aﬁco da Figura 4.2(b), pode-se observar que o CSA e o PSO convergiram rapidamente

para valores pr´oximos do m´ınimo global. O ACO convergiu um pouco mais lentamente,

chegando a regi˜oes promissoras do espa¸co de busca encontradas pelo CSA e PSO por volta

da itera¸c˜ao 2 000. O AG apresentou os piores resultados para os dois crit´erios avaliados

para esse problema. Convergiu mais lentamente para um m´ınimo local e obteve o valor

mais distante do m´ınimo global.

Com os resuldados apresentados para as fun¸c˜oes unimodais, pode-se aﬁrmar que o

PSO superou os demais algoritmos testados para os dois crit´erios analisados. Convergiu

rapidamente para ´areas promissoras e conseguiu os menores resultados para as fun¸c˜oes.

Tabela 4.3: Resultados para cada algoritmo bioinspirado para as fun¸c˜oes unimodais ap´os

10 000 itera¸c˜oes.

Algoritmo Esfera Rosenbrock

ACO 7.8e-17 (5.2e-17) 2.3e+01 (1.2e+01)

AG 1.4e-17 (2.6e-17) 1.4e+02 (1.3e+02)

CSA 1.3e+00 (1.2e-01) 3.9e+01 (1.3e+00)

PSO 4.0e-219 (0.0e+00) 2.2e+00 (2.3e+00)

Elshamy et al. (2007) 1.1e-152 6.9e+000

4.3 Resultados 41

●

● ● ●

● ●

●

ACO

PSO

CSA

Convergência para a função Esfera

Iterações

Mínimo obtido

0 2000 4000 6000 8000 10000

1e−200 1e−100 1e+00 1e+100 1e+200

(a) Fun¸c˜ao Esfera.

●

ACO

PSO

CSA

Convergência para a função Rosenbrock

Iterações

Mínimo obtido

0 2000 4000 6000 8000 10000

0 200 400 600 800 1000

(b) Fun¸c˜ao Rosenbrock.

Figura 4.2: Convergˆencia dos algoritmos bioinspirados para fun¸c˜oes unimodais.

Na Tabela 4.4 s˜ao apresentadas as m´edias de 30 execu¸c˜oes dos valores m´ınimos obtidos

pelos algoritmos bioinspirados para as fun¸c˜oes multimodais. Nessa tabela tamb´em s˜ao

apresentados os melhores resultados do trabalho de Elshamy et al. (2007). Os desvios

padr˜ao s˜ao apresentados entre parˆenteses, e os menores valores para cada fun¸c˜ao est˜ao

destacados. Na Figura 4.3 s˜ao apresentados os gr´aﬁcos de convergˆencia para essas fun¸c˜oes.

Todos os algoritmos bioinspirados tiveram grande diﬁculdade na minimiza¸c˜ao da fun-

¸c˜ao Rastrigin. Isso pode ser observado pela distˆancia do m´ınimo global. Os algoritmos

ﬁcaram presos aos in´umeros pontos de m´ınimos locais existentes.

E poss´ıvel observar, por

meio do gr´aﬁco ilustrado na Figura 4.3(a), que os algoritmos ACO e CSA n˜ao ﬁcaram

presos a um m´ınimo local. Por´em, a convergˆencia desses algoritmos foi muito lenta. O

AG obteve o menor valor para a fun¸c˜ao Rastrigin e tamb´em convergiu t˜ao r´apido quanto

os demais algoritmos. O PSO tamb´em convergiu rapidamente, mas ﬁcou preso a m´ınimos

locais e n˜ao superou o AG.

O gr´aﬁco dos resultados obtidos para a fun¸c˜ao Schaﬀer f6 ´e apresentado na ﬁgura 4.3(b).

Como pode ser observado, os algoritmos bioinspirados ACO, AG e PSO convergiram rapi-

damente para um m´ınimo local. Por´em, ﬁcaram presos em m´ınimos locais e n˜ao consegui-

ram reduzir signiﬁcativamente o valor encontrado ap´os a itera¸c˜ao 2000, aproximadamente.

A ´unica excess˜ao foi o CSA, que apresentou uma r´apida convergˆencia, sem ﬁcar preso a

m´ınimos locais. A partir da itera¸c˜ao 5000, aproximadamente, a velocidade de conver-

gˆencia reduziu, mas n˜ao estagnou. at´e o ﬁnal das itera¸c˜oes. O AG, apesar do melhor

resultado para a fun¸c˜ao Rastrigin, foi o pior algoritmo para a fun¸c˜ao Schaﬀer f6.

O gr´aﬁco apresentado na Figura 4.3(c) mostra que o ACO obteve o menor valor para

a fun¸c˜ao Ackley. Esse algoritmo convergiu um pouco mais lentamente que os demais

algoritmos. Por´em, n˜ao ocorreu a convergˆencia prematura para um m´ınimo local. Os

demais algoritmos estagnaram logo nas primeiras itera¸c˜oes. Assim como para a fun¸c˜ao

42 4 Experimentos com Fun¸c˜oes de Benchmark

Rastrigin, o CSA novamente n˜ao conseguiu bons resultados, e foi o pior algoritmo. O

PSO e o AG conseguiram resultados similares ao ACO.

N˜ao ´e poss´ıvel apontar o melhor algoritmo para as fun¸c˜oes unimodais. Para cada uma

das trˆes fun¸c˜oes testadas, o valor m´ınimo foi obtido por trˆes algoritmos diferentes. O PSO

conseguiu o segundo menor valor para as trˆes fun¸c˜oes. Portanto, caso fosse necess´ario

optar por um algoritmo, o PSO seria o mais adequado. Os resultados mostram que ´e

importante analisar as caracter´ısticas do problema antes de optar por um dos algoritmos

analisados.

Tabela 4.4: Resultados para cada algoritmo bioinspirado para as fun¸c˜oes multimodais

ap´os 10 000 itera¸c˜oes.

Algoritmo Rastrigin Schaﬀer f6 Ackley

ACO 1.7e+02 (1.5e+01) 1.0e-03 (1.1e-03) 1.0e-13 (4.8e-14)

AG 2.6e+01 (6.6e+00) 4.6e-03 (3.3e-03) 2.3e+00 (1.0e+00)

CSA 1.2e+02 (1.3e+01) 1.1e-05 (7.3e-06) 1.9e+01 (2.0e-01)

PSO 5.3e+01 (1.4e+01) 9.7e-04 (3.0e-03) 7.9e-01 (8.1e-01)

Elshamy et al. (2007) 3.4e+001 0 3.0e-002

Apesar da robustez dos algoritmos bioinspirados (Louren¸co et al., 2002; Ide & Ya-

suda, 2005), seus desempenhos podem variar devido ao ajuste de seus parˆametros. Uma

maior velocidade de convergˆencia para o ACO, por exemplo, pode ser obtido com o au-

mento desse parˆametro (ξ). Por´em, isso pode resultar em uma convergˆencia prematura

do algoritmo para um m´ınimo local.

4.4 Considera¸c˜oes Finais

Os experimentos realizados analisaram dois aspectos dos algoritmos bioinspirados

frente a fun¸c˜oes unimodais e multimodais. Os aspectos considerados foram a velocidade

de convergˆencia e a proximidade dos valores encontrados em rela¸c˜ao ao m´ınimo global.

Em geral, os resultados mostram que o PSO se sobressaiu para fun¸c˜oes unimodais, encon-

trando os menores valores para esses problemas com um n´umero reduzido de itera¸c˜oes.

Para as fun¸c˜oes multimodais n˜ao foi poss´ıvel determinar o melhor algoritmo. Entretanto,

o PSO conseguiu o segundo menor valor para as trˆes fun¸c˜oes, e convergia rapidamente

para o m´ınimo local. Para Schaﬀer f6, o CSA conseguiu os menores valores. Por´em, sua

convergˆencia ocorreu lentamente. A principal contribui¸c˜ao destes experimentos foi veri-

ﬁcar a funcionalidade dos algoritmos bioinspirados e relacion´a-los com as caracter´ısticas

das fun¸c˜oes unimodais e multimodais utilizados. Essa rela¸c˜ao pode auxiliar na escolha

algoritmo mais apropriado para um dado problema.

4.4 Considera¸c˜oes Finais 43

●

● ● ● ● ● ●

●

ACO

PSO

CSA

Convergência para a função Rastrigin

Iterações

Mínimo obtido

0 2000 4000 6000 8000 10000

10 20 50 100 200 500 1000

(a) Rastrigin.

●

● ● ●

●

ACO

PSO

CSA

Convergência para a função Schaffer f6

Iterações

Mínimo obtido

0 2000 4000 6000 8000 10000

1e−05 1e−03 1e−01

(b) Schaﬀer f6.

●

● ● ●

●

ACO

PSO

CSA

Convergência para a função Ackley

Iterações

Mínimo obtido

0 2000 4000 6000 8000 10000

0 5 10 15 20 25 30

Figura 4.3: Convergˆencia dos algoritmos bioinspirados para fun¸c˜oes multimodais.

44 4 Experimentos com Fun¸c˜oes de Benchmark

Cap´ıtulo 5

Experimentos de Ajuste de

Parˆametros

Como mencionado anteriormente, este estudo tem como objetivo utilizar algoritmos

de otimiza¸c˜ao bioinspirados para ajustar os valores dos parˆametros livres de t´ecnicas de

classiﬁca¸c˜ao. Esses algoritmos ser˜ao comparados para o ajuste de parˆametros utilizando

como crit´erio o desempenho obtido pelos classiﬁcadores para dados de express˜ao gˆenica.

Essa escolha teve por motiva¸c˜ao restringir o dom´ınio e o formato dos dados de forma a

investigar se um algoritmo ´e mais adequado para esse dom´ınio. Para avaliar os algorit-

mos com outros formatos e dom´ınios, foram usados tamb´em, em alguns experimentos,

conjuntos de dados do reposit´orio UCI (Asuncion & Newman, 2007).

Nesta se¸c˜ao, s˜ao apresentados os trˆes m´etodos experimentais empregados para o ajuste

de parˆametros das t´ecnicas de classiﬁca¸c˜ao SVMs e RNs. Esses trˆes m´etodos representam

a evolu¸c˜ao ao longo do mestrado na deﬁni¸c˜ao do m´etodo a ser empregado para obter

estimativas de desempenho de classiﬁca¸c˜ao conﬁ´aveis e evitar o uso indireto dos dados do

conjunto de teste no processo de busca dos algoritmos bioinspirados.

Este cap´ıtulo est´a organizado como segue. Na Se¸c˜ao 5.1, s˜ao descritas as principais

caracter´ısticas dos conjuntos de dados utilizados nos experimentos e as opera¸c˜oes de pr´e-

processamento realizadas. Na Se¸c˜ao 5.2 s˜ao apresentados os algoritmos bioinspirados que

foram aplicados ao problema de ajuste de parˆametros. Na Se¸c˜ao 5.3 s˜ao apresentadas as

ferramentas de software utilizadas que implementam as t´ecnicas de classiﬁca¸c˜ao SVMs

e RNs. As m´etricas e os m´etodos de avalia¸c˜ao dos classiﬁcadores s˜ao apresentados na

Se¸c˜ao 5.4. No m´etodo experimental A, apresentado na Se¸c˜ao 5.5, s˜ao deﬁnidos os m´etodos

e os programas empregados para o ajuste de parˆametros de SVMs. As estimativas de

desempenho s˜ao obtidas por meio da valida¸c˜ao cruzada estratiﬁcada com k parti¸c˜oes. No

m´etodo experimental B, apresentado na Se¸c˜ao 5.6, s˜ao deﬁnidos os m´etodos empregados

para o ajuste de parˆametros de RNs. Os resultados obtidos s˜ao baseadas em dois la¸cos

aninhados com valida¸c˜ao cruzada estratiﬁcada. O m´etodo experimental C, apresentado

na Se¸c˜ao 5.7, ´e semelhante ao m´etodo experimental B. As principais diferen¸cas est˜ao

46 5 Experimentos de Ajuste de Parˆametros

no processo de ajuste de parˆametros, em que os valores para os parˆametros s˜ao obtidos

para cada parti¸c˜ao do la¸co mais externo, e no armazenamento das estimativas. Este

m´etodo experimental ´e usado para o ajuste de parˆametros de RNs e SVMs. Os resultados

experimentais obtidos para cada m´etodo s˜ao apresentados no ﬁnal da respectiva se¸c˜ao.

5.1 Conjuntos de Dados

Na Tabela 5.1 s˜ao descritos os conjuntos de dados utilizados nos experimentos relata-

dos neste cap´ıtulo e suas principais caracter´ısticas. Nessa tabela s˜ao apresentados, para

cada conjunto de dados, o n´umero de exemplos ( Ex.), o n´umero de atributos ( Attr.)

(desconsiderando o atributo classe), o n´umero de classes do problema ( Classes), o n´u-

mero de exemplos por classe ( Ex. por classe) e a Taxa de Erro Minorit´aria (TEM). A

TEM ´e a taxa de erro de um classiﬁcador que sempre prediz como sa´ıda a classe com o

maior n´umero de exemplos, n˜ao apresentando, portanto, capacidade de generaliza¸c˜ao.

Tabela 5.1: Conjuntos de dados utilizados nos experimentos.

Conjunto  Ex.  Attr.  Classes  Ex. por classe TEM (%)

C´olon 62 32 2 40/22 35.5

Glioma 50 16 2 22/28 44.0

Leucemia 100 50 2 49/51 49.0

Pˆancreas 49 50 2 26/23 46.9

Leucemia2 248 50 6 79/15/27/20/43/64 31.9

Pulm˜ao 86 50 3 28/37/21 43.0

Australian 690 14 2 307/383 44.5

Pima 768 8 2 268/500 34.9

Segment 2310 19 7 330/330/330/330/330/330/330 14.3

Vehicle 846 18 4 218/212/217/199 23.5

Os conjuntos C´olon (Alon et al., 1999), Glioma (Nutt et al., 2003), Leucemia (Has-

linger et al., 2004), Pˆancreas (Ishikawa et al., 2005), Leucemia2 (Yeoh et al., 2002) e

Pulm˜ao (Beer et al., 2002) contˆem dados de express˜ao gˆenica.

A an´alise de dados de express˜ao gˆenica pode ser realizada com diferentes prop´ositos,

como classiﬁcar c´elulas entre normais e tumorais. O processo de express˜ao gˆenica consiste

na convers˜ao de instru¸c˜oes contidas em trechos da cadeia de DNA (do inglˆes, Desoxy-

ribonucleic Acid), chamados de genes, em prote´ınas. A transcri¸c˜ao do DNA em RNA

(Ribonucleic Acid) mensageiro (mRNA) e a tradu¸c˜ao do mRNA em prote´ına, constituem

o dogma central da Biologia Molecular. A quantidade de mRNA presente em uma c´elula

e de prote´ına produzida est˜ao relacionadas, por´em nem sempre s˜ao iguais (De-Robertis

& Hib, 2001; Faceli et al., 2005). H´a duas abordagens para avaliar a express˜ao gˆenica: a

an´alise do transcriptoma e a an´alise do proteoma. A primeira utiliza o produto da trans-

cri¸c˜ao, ou seja, o mRNA. A segunda analisa a prote´ına diretamente. Apesar da an´alise do

5.1 Conjuntos de Dados 47

proteoma ser feita diretamente com o produto ﬁnal da express˜ao de um gene, essa an´alise

´e muito mais trabalhosa do que a do transcriptoma. Com o avan¸co de tecnologias ligadas

`a an´alise do proteoma, o uso dessa abordagem tem crescido. Entretanto, o transcriptoma

´e ainda a forma mais utilizada para an´alise de dados de express˜ao gˆenica (Faceli et al.,

2005). A mensura¸c˜ao da express˜ao gˆenica por meio da an´alise do transcriptoma pode

ser feita por diversas t´ecnicas, que geram dados em larga escala, entre elas encontram-

se os m´etodos Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995) e

microarray (Schena et al., 1995).

Os conjuntos de dados australian (Australian Credit Approval), pima (Pima Indians

Diabetes), segment (Image Segmentation) e vehicle (Vehicle Silhouettes) foram usados no

projeto Statlog (Michie et al., 1994) e foram obtidos do reposit´orio UCI. A nomenclatura

original dos conjuntos de dados foi mantida em inglˆes, pois eles s˜ao amplamente conhecidos

por esses nomes. Todos os conjuntos de dados possuem apenas atributos num´ericos, com

exce¸c˜ao do conjunto australian, que possui 8 atributos categ´oricos.

Pr´e-processamento dos dados

Duas opera¸c˜oes de processamento dos dados foram realizadas. Primeiro, os atributos

de entrada foram normalizados para que ﬁcassem com m´edia zero e desvio padr˜ao um,

para os dados a serem usados pelas SVMs, e entre zero e um para as RNs. A normali-

za¸c˜ao adotada para as SVMs ´e amplamente utilizada em experimentos de AM. Por´em,

para RNs, ´e comum a normaliza¸c˜ao entre zero e um, pois valores pr´oximos de zero geram

uma pequena corre¸c˜ao nos pesos da rede. Para os experimentos reportados na Se¸c˜ao 5.7,

os dados n˜ao foram normalizados para SVMs, pois esse procedimento ´e realizado inter-

namente pela implementa¸c˜ao dessa t´ecnica. A normaliza¸c˜ao dos dados foi embutida na

valida¸c˜ao cruzada, ou seja, a m´edia e o desvio padr˜ao para a normaliza¸c˜ao fora deﬁnidos

com base com base apenas nos dados de treinamento e posteriormente usados nos dados

de teste.

A segunda opera¸c˜ao realizada foi a sele¸c˜ao de atributos. A sele¸c˜ao de atributos em

an´alise de dados de express˜ao gˆenica, chamada de sele¸c˜ao de genes, ´e importante n˜ao

apenas para reduzir o custo computacional, pois normalmente h´a milhares de genes, mas

tamb´em eliminar genes n˜ao informativos. A sele¸c˜ao de atributos dos conjuntos de da-

dos C´olon e Glioma foram feitos por Souza (2005). O autor utilizou o m´etodo Threshold

Number of Misclassiﬁcation (TNoM) (Ben-Dor et al., 2000) com 32 e 16 atributos, respec-

tivamente. Para os conjuntos de dados Pˆancreas e Leucemia, o m´etodo between-groups to

within-groups sum of squares (BSS/WSS) (Dudoit et al., 2002) foi usado com 50 atributos

para ambos. O melhor n´umero de genes varia entre os conjuntos de dados. O valor 50

foi escolhido por ser um n´umero pequeno de genes, o que acelera o processo de classiﬁ-

ca¸c˜ao, e por ser um valor utilizado nos trabalhos de sele¸c˜ao de genes, como por exemplo

48 5 Experimentos de Ajuste de Parˆametros

em Statnikov et al. (2005a). Para os experimentos reportados na Se¸c˜ao 5.7, o m´etodo

BSS/WSS foi embutido no processo de valida¸c˜ao cruzada, ou seja, a sele¸c˜ao de atributos

foi realizada apenas usando o conjunto de treinamento,

Neste trabalho, n˜ao foi realizado nenhum estudo para determinar o melhor n´umero de

genes para cada conjunto de dados. Portanto, o problema de vi´es na sele¸c˜ao de genes ´e

reconhecido. Por´em, esse vi´es n˜ao anula o prop´osito deste estudo, o qual n˜ao ´e ter o melhor

classiﬁcador poss´ıvel, mas comparar diferentes algoritmos bioinspirados e abordagens para

o ajuste de parˆametros das t´ecnicas de classiﬁca¸c˜ao.

5.2 Algoritmos Bioinspirados

Os algoritmos bioinspirados usados durante os experimentos apresentados neste cap´ı-

tulo s˜ao os mesmos usados nos experimentos com fun¸c˜oes de benchmark no Cap´ıtulo 4.

As diferen¸cas se resumem aos valores de parˆametros adotados para esses algoritmos. Para

facilitar a visualiza¸c˜ao desses parˆametros, a Tabela 4.2, com os parˆametros desses algorit-

mos, foi usada como base para a constru¸c˜ao da Tabela 5.2, com as devidas modiﬁca¸c˜oes

nos valores dos parˆametros.

O processo de ajuste dos parˆametros das t´ecnicas de classiﬁca¸c˜ao ´e realizado at´e que

uma condi¸c˜ao de parada para os algoritmos bioinspirados seja satisfeita. Essa condi¸c˜ao

pode ser um n´umero m´aximo de itera¸c˜oes ou um erro m´ınimo a ser alcan¸cado, por exem-

plo. Em todos os experimentos realizados neste trabalho, o n´umero m´aximo de itera¸c˜oes

foi estabelecido como crit´erio de parada. A decis˜ao por esse crit´erio ocorreu por n˜ao

ser poss´ıvel deﬁnir um erro m´ınimo comum para todos os conjuntos de dados e fun¸c˜oes

testadas.

Este trabalho n˜ao compara o desempenho dos algoritmos bioinspirados em rela¸c˜ao ao

tempo de processamento. Esse fator ´e muito dependente da linguagem de programa¸c˜ao,

conﬁgura¸c˜ao do computador usado para rodar os experimentos e habilidades do programa-

dor. Ao inv´es disso, compara-se o n´umero de execu¸c˜oes necess´arias das fun¸c˜oes de aptid˜ao,

que neste trabalho, s˜ao as t´ecnicas de classiﬁca¸c˜ao. Embora esse m´etodo trate dos pro-

blemas associados com o tempo de processamento, isso n˜ao considera a complexidade de

tempo dos algoritmos (Socha & Dorigo, 2008).

Os classiﬁcadores gerados com os conjuntos de treinamento s˜ao utilizados como fun¸c˜ao

de aptid˜ao. Os algoritmos bioinspirados usam a taxa de erro de valida¸c˜ao gerada por esses

classiﬁcadores para guiarem suas buscas, ou seja, o objetivo dos algoritmos ´e minimizar

essa m´etrica, que ´e calculada para os diferentes m´etodos experimentais implementados.

A taxa de erro de um classiﬁcador para um conjunto de dados ´e dada pela Equa¸c˜ao 2.2.

5.3 T´ecnicas de Classiﬁca¸c˜ao Investigadas 49

Tabela 5.2: Valores para os parˆametros dos algoritmos bioinspirados.

Alg. Parˆametro S´ımbolo Valor

ACO

N´umero de formigas P

Velocidade de convergˆencia ξ 0.70

Local do processo de busca q 10

−4

Tamanho do arquivo de solu¸c˜oes k 30

PSO

N´umero de part´ıculas P

Constante de acelera¸c˜ao 1 ϕ

1.494

Constante de acelera¸c˜ao 2 ϕ

1.494

Peso de controle da for¸ca de in´er-

cia

w 0.729

Velocidade m´axima υ 0.7

CSA

N´umero de anticorpos P

Taxa da popula¸c˜ao selecionada

para clonagem

Tempo de vida lt 6

Taxa de hipermuta¸c˜ao h

0.5

N´umero de cromossomos P

Probabilidade de crossover p

0.7

Probabilidade de muta¸c˜ao p

0.05

Press˜ao seletiva p

Balan¸co entre explora¸c˜ao e pros-

pec¸c˜ao

α 0.5

Grau de dependˆencia do n´umero

de itera¸c˜oes

b 5

5.3 T´ecnicas de Classiﬁca¸c˜ao Investigadas

Para a gera¸c˜ao dos classiﬁcadores, foram utilizados pacotes do ambiente R que im-

plementam os algoritmos de aprendizado para gera¸c˜ao de modelos de SVMs e RNs para

classiﬁca¸c˜ao.

Para as SVMs, foi utilizado o pacote e1071, que ´e uma interface para a biblioteca

LIBSVM, desenvolvida por Meyer (2001). Essa biblioteca implementa diferentes kernels

para as SVMs, e cada um deles possui diferentes parˆametros. O kernel RBF (Gaussiano)

foi utilizado nesta pesquisa por ser o que apresenta, em geral, melhores resultados e menos

diﬁculdades num´ericas do que outros kernels (Hsu et al., 2007). Para o uso do kernel RBF

´e necess´ario ajustar dois parˆametros, um referente ao kernel RBF, denominado gama (γ)

e o outro `a pr´opria SVM, denominado custo (C), conforme descrito na Se¸c˜ao 2.2.

Para as RNs, existem diferentes pacotes do ambiente R que poderiam ser utilizados,

como o AMORE, o neural e o nnet. Neste trabalho, foi utilizado o pacote AMORE com

uma rede Perceptron Multi-camadas (MLP, do inglˆes, Multi-Layer Perceptron) treinada

pelo algoritmo backpropagation com momentum. O pacote AMORE foi escolhido porque

propicia maior ﬂexibilidade em rela¸c˜ao aos parˆametros da rede, possibilitando um maior

50 5 Experimentos de Ajuste de Parˆametros

controle sobre ela. Entre os parˆametros que esse pacote permite ajustar, est˜ao a taxa de

aprendizado da rede, o termo momentum, a fun¸c˜ao de ativa¸c˜ao, o n´umero de camadas

e o n´umero de neurˆonios em cada camada. A MLP ´e a arquitetura de rede mais popu-

lar, e tem sido empregada com sucesso em uma grande variedade de problemas. Redes

MLP possuem uma ou mais camadas ocultas de neurˆonios, cujo pesos das conex˜oes s˜ao

normalmente ajustados por algoritmos de aprendizado baseados em gradiente. Nos expe-

rimentos realizados, foi usada apenas uma camada oculta, que possibilita a representa¸c˜ao

de in´umeras fun¸c˜oes, suﬁcientes para o prop´osito desse estudo, o qual n˜ao ´e ter a melhor

arquitetura poss´ıvel, mas comparar diferentes abordagens para o ajuste de parˆametros.

As RNs MLP podem ser totalmente ou parcialmente conectadas. Uma rede neural ´e deno-

minada totalmente conectada quando cada um dos n´os de uma camada est´a conectado a

todos os n´os da camada seguinte e ´e dita parcialmente conectada quando alguns neurˆonios

de camadas adjacentes n˜ao estiverem conectados. As RNs utilizadas nesta pesquisa s˜ao

totalmente conectadas. Os parˆametros ajustados foram a taxa de aprendizado, o termo

momentum e o n´umero de neurˆonios na camada oculta.

5.4 Avalia¸c˜ao dos Experimentos

Para avaliar o ajuste de parˆametros realizado pelos algoritmos bioinspirados e outras

abordagens, os classiﬁcadores gerados com os melhores parˆametros encontrados foram

comparados em rela¸c˜ao `a taxa de erro de classiﬁca¸c˜ao obtida para diferentes conjuntos

de dados. A taxa de erro foi utilizada pelos algoritmos bioinspirados para guiarem suas

buscas pelo conjunto de valores para os parˆametros das t´ecnicas de classiﬁca¸c˜ao. Portanto,

essa m´etrica ´e utilizada na compara¸c˜ao dos resultados obtidos. Al´em disso, em problemas

de classiﬁca¸c˜ao bin´aria, os experimentos da Se¸c˜ao 5.7 tamb´em foram analisados por meio

de gr´aﬁcos de curva ROC (do inglˆes, Receiver Operating Characteristics) e ´area sob a

curva ROC (AUC, do inglˆes, Area Under an ROC Curve).

Para avaliar se houve diferen¸ca estat´ıstica entre os diferentes classiﬁcadores gerados,

foram aplicados testes estat´ısticos. Inicialmente, foi aplicado o teste t pareado corrigido,

desenvolvido por Nadeau & Bengio (2003) e descrito na Se¸c˜ao 2.1.2. Com esse teste,

apenas dois algoritmos podem ser comparados de cada vez. Para os experimentos das

se¸c˜oes 5.6 e 5.7, tamb´em foi aplicado o teste de Friedman (Demˇsar, 2006), que permite a

compara¸c˜ao de m´ultiplos algoritmos e m´ultiplos conjuntos de dados. Como apresentado

na Se¸c˜ao 2.1.2, esse teste permite veriﬁcar se h´a ou n˜ao diferen¸cas signiﬁcativas entre os

diferentes classiﬁcadores para todos os conjuntos de dados. Nos testes em que houveram

diferen¸cas signiﬁcativas, o teste `a posteriori Nemenyi (Demˇsar, 2006) foi aplicado para

veriﬁcar onde ocorreram as diferen¸cas.

5.5 M´etodo Experimental A: Ajuste de Parˆametros de SVMs 51

5.5 M´etodo Experimental A: Ajuste de Parˆametros

de SVMs

Neste m´etodo experimental, a gera¸c˜ao do classiﬁcador ´e baseado no m´etodo de reamos-

tragem de valida¸c˜ao cruzada estratiﬁcada com k parti¸c˜oes. Uma, dentre as k parti¸c˜oes,

foi separada para teste e as demais foram usadas para treinamento. Do conjunto de trei-

namento, uma parti¸c˜ao ´e separada para valida¸c˜ao. Os exemplos presentes no conjunto

de valida¸c˜ao s˜ao usados para estimar o erro de generaliza¸c˜ao das SVMs. A taxa de erro

m´edio obtido para as k parti¸c˜oes de valida¸c˜ao ´e a estimativa para a taxa de erro m´edio

de teste do classiﬁcador. Essa estimativa ´e usada pelos algoritmos bioinspirados para

guiarem suas buscas no espa¸co de solu¸c˜oes `a procura do conjunto ´otimo de valores para

os parˆametros das SVMs. Para cada solu¸c˜ao (combina¸c˜ao de valores dos parˆametros), o

algoritmo de aprendizado ´e executado k vezes. Na Figura 5.1 ´e apresentado um exemplo

desse m´etodo experimental para k = 4 parti¸c˜oes.

Figura 5.1: M´etodo Experimental A.

Para os conjuntos de dados C´olon, Glioma e Pˆancreas foi utilizado k = 3. Para o

conjunto de dados de Leucemia, k = 5. O n´umero de parti¸c˜oes k, para cada conjunto

de dados, foi deﬁnido conforme o n´umero de exemplos por classe, de maneira a garantir

a presen¸ca de exemplos de todas as classes em todos as parti¸c˜oes. O kernel Gaussiano

(RBF) foi usado para as SVMs,e portanto, os parˆametros gama (γ) e custo (C) foram

ajustados, como mencionado na Se¸c˜ao 5.3.

Neste m´etodo experimental, s˜ao usadas duas abordagens de referˆencia para compa-

ra¸c˜ao com os algoritmos bioinspirados. A primeira, usa os valores padr˜ao adotados pela

biblioteca LIBSVM: γ = 1/a, em que a ´e o n´umero de atributos do conjunto de da-

dos, e C = 1. Essa abordagem ser´a denominada nos experimentos de Padr˜ao. A segunda

abordagem, denominada neste trabalho de Grade, usa uma fun¸c˜ao da biblioteca LIBSVM,

chamada tune, para ajustar os parˆametros das SVMs. Essa fun¸c˜ao usa o kernel Gaussiano

com valida¸c˜ao cruzada via busca de grade (grid seach) paralela.

Os valores dos parˆametros da SVM s˜ao representados diretamente nos algoritmos

bioinspirados utilizando codiﬁca¸c˜ao real. Nessa codiﬁca¸c˜ao, um indiv´ıduo do algoritmo

52 5 Experimentos de Ajuste de Parˆametros

bioinspirado representa uma solu¸c˜ao direta (valores) para os parˆametros. Assim, um

indiv´ıduo do algoritmo bioinspirado ´e formado por dois n´umeros reais. O primeiro n´umero

representa o parˆametro custo (C) e o segundo representa o parˆametro gama (γ). Logo,

um indiv´ıduo ´e formado pelo par ordenado (C, γ). Neste m´etodo experimental, o intervalo

deﬁnido para os valores do parˆametro C = [2

−2

, 2

] e do parˆametro γ = [2

−10

, 2

]. Esses

intervalos foram estabelecidos com base no trabalho de Hsu et al. (2007).

Para os algoritmos bioinspirados ACO, PSO e AG, s˜ao realizadas 100 itera¸c˜oes para

para cada execu¸c˜ao. Isso implica em 3 000 (n´umero de indiv´ıduos multiplicado pelo n´u-

mero de itera¸c˜oes) avalia¸c˜oes da fun¸c˜ao de aptid˜ao pelo algoritmo PSO e 3 030 para os

algoritmos ACO e AG. As 30 avalia¸c˜oes a mais devem-se a avalia¸c˜ao da popula¸c˜ao inicial

por esses algoritmos. A avalia¸c˜ao da fun¸c˜ao de aptid˜ao, para o processo de ajuste de

parˆametros, ´e a execu¸c˜ao da valida¸c˜ao cruzada. O algoritmo bioinspirado CSA realiza

60 itera¸c˜oes. Esse menor n´umero de itera¸c˜oes ´e compensado por um maior n´umero de

indiv´ıduos (60). O CSA realiza aproximadamente 7 000 avalia¸c˜oes da fun¸c˜ao de aptid˜ao.

A raz˜ao do alto n´umero de avalia¸c˜oes associadas a esse algoritmo ´e que ele gera muitos

clones, que s˜ao avaliados pela fun¸c˜ao de aptid˜ao.

Resultados do Ajuste de Parˆametros de SVMs com o M´etodo

Experimental A

Nas tabelas 5.3, 5.4, 5.5 e 5.6, as taxas de erro de classiﬁca¸c˜ao obtidas pelas SVMs com

os parˆametros ajustados s˜ao apresentadas em porcentagem. O desvio padr˜ao referente `as

30 execu¸c˜oes dos algoritmos bioinspirados s˜ao apresentados em parˆenteses, tamb´em em

porcentagem. Os menores erros est˜ao destacados. As taxas de erro apresentadas foram

obtidas pelos classiﬁcadores gerados com os parˆametros encontrados pelos algoritmos bi-

oinspirados para as menores taxas de erro de valida¸c˜ao.

Tabela 5.3: C´olon - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados C´olon (em %).

Algoritmo Valida¸c˜ao Teste

ACO 15.6 (8.1) 17.3 (7.3)

PSO 17.9 (-) 16.2 (0.9)

CSA 15.9 (2.5) 15.3 (1.5)

AG 16.5 (2.3) 15.6 (1.2)

Grade 13.8 (0.9) 13.0 (0.6)

Padr˜ao 16.2 (-) 11.4 (-)

A abordagem Grade obteve a menor taxa de erro de valida¸c˜ao para o conjunto de dados

C´olon. Por´em, os valores padr˜ao para os parˆametros (abordagem Padr˜ao) obtiveram as

menores taxas de erro de teste. Nesse conjunto de dados, ocorreu uma grande diferen¸ca

entre as taxas de erro de valida¸c˜ao e de teste para a abordagem Padr˜ao. A taxa de erro de

5.5 M´etodo Experimental A: Ajuste de Parˆametros de SVMs 53

Tabela 5.4: Glioma - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados Glioma (em %).

Algoritmo Valida¸c˜ao Teste

ACO 10.2 (-) 16.4 (10.0)

PSO 13.6 (1.3) 15.9 (3.3)

CSA 12.9 (1.8) 15.0 (1.8)

AG 10.5 (1.1) 16.8 (2.2)

Grade 14.6 (2.1) 16.9 (2.8)

Padr˜ao 16.0 (-) 12.0 (-)

Tabela 5.5: Leucemia - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados Leucemia (em %).

Algoritmo Valida¸c˜ao Teste

ACO 10.0 (-) 11.0 (0.3)

PSO 14.5 (11.6) 16.3 (13.8)

CSA 10.0 (4.9) 11.0 (4.0)

AG 33.6 (15.6) 39.1 (18.7)

Grade 12.2 (0.9) 12.3 (0.6)

Padr˜ao 10.9 (-) 11.9 (-)

valida¸c˜ao obtida pelas SVMs com os valores padr˜ao foram compar´aveis `as obtidas pelos

algoritmos bioinpirados. Em algumas execu¸c˜oes, o algoritmo ACO obteve taxa de erro de

valida¸c˜ao e de teste de 12.9%. Contudo, para outras, o algoritmo ﬁcou preso em m´ınimos

locais e n˜ao conseguiu taxas de erro inferiores a 35.5%.

Para o conjunto Glioma, todos os algoritmos bioinspirados, especialmente o ACO e o

AG, obtiveram taxas de erro de valida¸c˜ao menores do que as abordagens de referˆencia.

Por´em, o mesmo n˜ao ocorreu para as taxas de erro de teste, em que a abordagem Padr˜ao

conseguiu os melhores resultados. Por causa da diferen¸ca consider´avel entre as taxas

de erro de valida¸c˜ao e de teste, o desempenho dos algoritmos foi afetado. Esse fato ´e

observado mais facilmente para os algoritmos ACO e AG. Aparentemente, os algoritmos

bioinspirados levaram a um overﬁtting.

O ACO e o CSA obtiveram as menores taxas de erro de valida¸c˜ao e de teste para o

conjunto de dados Leucemia. O AG n˜ao conseguiu bons resultados para os conjuntos de

valida¸c˜ao e de teste. Em algumas execu¸c˜oes, o AG obteve uma taxa de erro de valida¸c˜ao

de 10.0% e uma taxa de erro de teste de 11.0%. Por´em, em outras execu¸c˜oes, ocorreu

convergˆencia prematura e o AG ﬁcou preso em m´ınimos locais e n˜ao foi capaz de encontrar

taxas de erro menores do que 43.6% para valida¸c˜ao e 51.0% para teste. Esse fato levou a

uma taxa de erro m´edio superior a dos outros algoritmos.

Para o conjunto Pˆancreas, os algoritmos PSO, CSA e AG apresentaram taxas de

erro de valida¸c˜ao menores que as abordagens Padr˜ao e Grade. O ACO e a abordagem

Grade conseguiram resultados compar´aveis, que foram melhores que a abordagem Padr˜ao.

54 5 Experimentos de Ajuste de Parˆametros

Tabela 5.6: Pˆancreas - taxa de erro de valida¸c˜ao e de teste e desvio padr˜ao para o conjunto

de dados Pˆancreas (em %).

Algoritmo Valida¸c˜ao Teste

ACO 15.0 (8.9) 16.9 (8.3)

PSO 12.3 (-) 14.4 (1.5)

CSA 12.3 (-) 13.9 (1.6)

AG 12.3 (-) 14.3 (1.5)

Grade 14.5 (2.6) 14.9 (1.0)

Padr˜ao 16.5 (-) 16.5 (-)

O CSA obteve os melhores resultados para o conjunto de teste. Entre os algoritmos

bioinspirados, apenas o ACO n˜ao superou as abordagens Padr˜ao e Grade.

As SVMs obtiveram pequenas taxas de erro para diferentes valores de parˆametros,

evidenciando o grande n´umero de m´ınimos locais presentes no problema de ajuste de pa-

rˆametros para esses conjuntos de dados. Na Tabela 5.7, s˜ao apresentados os intervalos

dos valores para os parˆametros gama (γ) e custo (C) para os melhores resultados obtidos

e os valores padr˜ao utilizados para o parˆametro γ. O valor padr˜ao para o parˆametro C

´e sempre um.

E importante observar que, apesar do limite superior do intervalo deﬁnido

para o parˆametro γ ser 2

, o maior valor para os quatro conjuntos de dados ´e aproxima-

damente 0.28. O menor valor para esse parˆametro, em dois conjuntos de dados, ´e o limite

inferior do intervalo, 2

−10

. Por outro lado, os valores encontrados para o parˆametro C

normalmente s˜ao maiores que 1, com excess˜ao do conjunto Leucemia, e muitas vezes, s˜ao

pr´oximos do limite superior especiﬁcado.

Tabela 5.7: Intervalos de valores encontrados para os parˆametros γ e C.

Conjunto de Dados

γ C

m´ınimo m´aximo padr˜ao m´ınimo m´aximo

C´olon 9.77e-04 1.90e-03 3.12e-02 7.94e+00 5.64e+01

Glioma 9.77e-04 2.75e-01 6.25e-02 1.13e+00 3.47e+03

Leucemia 9.32e-03 5.63e-02 1.00e-02 2.50e-01 4.1e+03

Pˆancreas 4.34e-02 4.34e-02 1.00e-02 1.72e+02 3.87e+03

Para avaliar se h´a diferen¸ca entre as taxas de erro obtidas, o teste-t pareado corrigido,

proposto por Nadeau & Bengio (2003), foi aplicado com 95% de conﬁan¸ca. A hip´otese

nula ´e de que n˜ao h´a diferen¸ca estat´ıstica entre as taxas de erro obtidas.

Para o conjunto C´olon, a hip´otese nula foi rejeitada na compara¸c˜ao entre o ACO e a

abordagem Padr˜ao. Para o conjunto Glioma e Pˆancreas, n˜ao houve diferen¸ca estat´ıstica

entre nenhum algoritmo e as abordagens de referˆencia. Para o conjunto Leucemia, houve

diferen¸ca entre o AG e todos os outros algoritmos e as abordagens de referˆencia.

Adicionalmente, aplicou-se o teste de Friedman (Demˇsar, 2006), para veriﬁcar se h´a

diferen¸ca signiﬁcativa entre os algoritmos/abordagens. O valor cr´ıtico da distribui¸c˜ao F

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs 55

com α = 0.05 e 5 (c − 1) e 15 ((c − 1) × (d − 1)) graus de liberdade ´e 2.9, em que c ´e o

n´umero de classiﬁcadores e d ´e o n´umero de conjuntos de dados. A hip´otese nula ´e que

n˜ao h´a diferen¸cas signiﬁcativas entre os algoritmos/abordagens. Como o teste resultou

em F = 1.36, a hip´otese nula n˜ao pode ser rejeitada. Em seguida, aplicou-se o mesmo

teste para o conjunto de valida¸c˜ao, que novamente n˜ao pode rejeitar a hip´otese nula, com

F = 1.11. Portanto, todos os algoritmos/abordagens tˆem desempenhos estatisticamente

semelhantes.

5.6 M´etodo Experimental B: Ajuste de Parˆametros

de RNs

O ajuste de parˆametros neste m´etodo experimental ´e baseado em dois la¸cos aninhados.

O la¸co interno ´e usado para determinar a melhor combina¸c˜ao de valores para os parˆametros

da RN, ou seja, os valores de parˆametros em que foi obtido o melhor desempenho para o

conjunto de dados de valida¸c˜ao. O la¸co externo ´e usado para estimar o desempenho do

classiﬁcador gerado com os melhores parˆametros encontrados no la¸co interno.

A conﬁan¸ca das estimativas obtidas, tanto para o la¸co interno como para o la¸co externo,

s˜ao afetadas pela natureza aleat´oria dos exemplos usados para treinamento, valida¸c˜ao e

teste. Para reduzir a variˆancia existente, ´e usada valida¸c˜ao cruzada estratiﬁcada para os

dois la¸cos. Nestes experimentos, o n´umero de parti¸c˜oes para o la¸co externo (N

) ´e igual

ao n´umero de parti¸c˜oes para o la¸co interno (N

), N

= N

= 10. No la¸co externo, uma,

dentre as N

parti¸c˜oes, ´e usada como conjunto de teste. No la¸co interno, uma, dentre

as N

parti¸c˜oes, ´e usada como conjunto de valida¸c˜ao. Das nove parti¸c˜oes restantes para

cada la¸co, oito s˜ao usadas para treinamento e uma ´e usada para a parada antecipada

do treinamento das RNs, ou seja, se o erro obtido para os dados contidos nessa parti¸c˜ao

come¸carem a aumentar, o processo de treinamento ´e interrompido.

Na Figura 5.2 ´e mostrado um exemplo do uso de valida¸c˜ao cruzada para os dois la¸cos

aninhados, com N

= N

= 4. O conjunto de dados D, no la¸co externo, ´e dividido em

quatro parti¸c˜oes: d1, d2, d3 e d4. Para formar as parti¸c˜oes do la¸co interno, as parti¸c˜oes

de treinamento utilizadas no la¸co externo s˜ao juntadas em uma ´unica parti¸c˜ao P , que

posteriormente, ´e dividida em 4 parti¸c˜oes (p1, p2, p3 e p4). A taxa de erro m´edio obtida

no la¸co interno ´e a estimativa para a taxa de erro de teste de uma parti¸c˜ao do la¸co externo.

No exemplo da Figura 5.2, a taxa de erro m´edio de valida¸c˜ao, 10.3%, ´e a estimativa para

a parti¸c˜ao d1, em que a taxa de erro ´e 10%. A taxa de erro de teste para uma solu¸c˜ao

(combina¸c˜ao de valores para os parˆametros) para o conjunto de dados D ´e a m´edia da

taxa de erro de teste para cada uma das parti¸c˜oes do la¸co externo. Esse valor ´e 10.9%

no exemplo da ﬁgura citada. A taxa de erro de valida¸c˜ao para o conjunto de dados D, ´e

a m´edia das N

taxas de erro m´edio obtidas no la¸co interno. O objetivo dos algoritmos

56 5 Experimentos de Ajuste de Parˆametros

bioinspirados ´e minimizar a taxa de erro de valida¸c˜ao para o conjunto de dados D.

Figura 5.2: M´etodo Experimental B.

A minimiza¸c˜ao da taxa de erro de valida¸c˜ao ´e realizada pelos algoritmos bioinspirados

at´e que o crit´erio de parada seja satisfeito. Como resposta, os algoritmos bioinspirados

fornecem a melhor solu¸c˜ao (valores para os parˆametros) obtida, ou seja, a solu¸c˜ao com

a menor taxa de erro m´edio obtida no la¸co interno. Esses valores para os parˆametros

s˜ao usados para obter a estimativa do erro real, utilizando as parti¸c˜oes de teste no la¸co

externo.

Para cada combina¸c˜ao de valores dos parˆametros, o algoritmo de aprendizado ´e exe-

cutado N

×N

vezes. Uma combina¸c˜ao de valores para os parˆametros pode resultar em

pesos ﬁnais diferentes para a rede, usando o mesmo conjunto de dados para treinamento.

Isso ocorre porque os pesos da rede foram inicializados aleatoriamente. Para reduzir o

efeito dessa variˆancia, adotou-se, neste m´etodo experimental, r = 10 repeti¸c˜oes para cada

treinamento realizado. O ideal seriam pelo menos 30 repeti¸c˜oes, mas devido ao alto custo

computacional foram realizadas apenas 10 repeti¸c˜oes de cada treinamento. Assim, o n´u-

mero total de execu¸c˜oes do algoritmo de aprendizado para uma combina¸c˜ao de valores

dos parˆametros E

= r × N

× N

O exemplo a seguir tenta esclarecer a id´eia do custo computacional envolvido no m´e-

todo experimental proposto. Suponha que um algoritmo de aprendizado possua dois

parˆametros a serem ajustados. Suponha ainda, que ser˜ao testados 12 diferentes valores

para o primeiro parˆametro e 15 diferentes valores para o segundo parˆametro, um total de

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs 57

180 diferentes poss´ıveis combina¸c˜oes. Se forem usadas 10 parti¸c˜oes para os dois la¸cos, ou

seja, N

= N

= 10, e 5 repeti¸c˜oes (r = 5), o algoritmo de aprendizado ser´a executado

10 ×5 × 180 = 9 000 vezes para o la¸co externo e 10 ×10 ×5 × 180 = 90 000 vezes para o

la¸co interno. Assim, o algoritmo de aprendizado ser´a executado no total 99 000 vezes.

Para as RNs, um indiv´ıduo ou solu¸c˜ao de um algoritmo bioinspirado representa de

maneira direta uma solu¸c˜ao para os parˆametros de uma RN. Como foram ajustados trˆes

parˆametros para as RNs, conforme descrito na Se¸c˜ao 5.3, um indiv´ıduo ´e composto por

trˆes n´umeros reais. O primeiro valor refere-se ao n´umero de neurˆonios na camada oculta

(γ), e pode assumir um valor dentro do intervalo [2, 100]. O segundo valor, refere-se ao

parˆametro taxa de aprendizado (η), e pode assumir qualquer valor dentro do intervalo

[0.05, 1]. O terceiro valor refere-se ao parˆametro termo momentum (µ) e pode assumir

qualquer valor dentro do intervalo [0, 1]. Na Figura 5.3 ´e ilustrado um exemplo de um

indiv´ıduo com γ = 36, η = 0.1 e µ = 0.8.

0.1 0.836

  

Figura 5.3: Representa¸c˜ao de um indiv´ıduo para ajuste de parˆametros de RNs.

Os resultados obtidos s˜ao armazenados em uma estrutura de dados apropriada, expli-

cada a seguir. Com essa estrutura, todos os algoritmos bioinspirados usados nos experi-

mentos podem acessar os resultados rapidamente, evitando executar o algoritmo de apren-

dizado milhares de vezes para cada algoritmo bioinspirado. Para que o armazenamento

seja poss´ıvel, os intervalos deﬁnidos para os parˆametros foram discretizados, e os valores

encontrados pelos algoritmos bioinspirados s˜ao arredondados para o valor mais pr´oximo.

Os valores para os parˆametros η e µ foram arredondados para fra¸c˜oes de 0.05 e 0.1, res-

pectivamente. Assim, o dom´ınio dos valores para o parˆametro η ´e {0.05, 0.1, 0.15 . . . , 1},

e para o parˆametro µ o dom´ınio ´e {0, 0.1, 0.2, . . . , 1}. Adicionalmente, os valores para o

parˆametro γ foram arredondados para valores pares, {2, 4, . . . , 100}. Assim, s˜ao poss´ıveis

11 000 diferentes combina¸c˜oes de valores para os parˆametros.

Neste m´etodo experimental, foram propostas duas abordagens de referˆencia para o

ajuste de parˆametros de RNs. A primeira, usa os valores padr˜ao adotados pelo WEKA

para RNs MLP, ou seja, γ = (A + F )/2, η = 0.3 e µ = 0.2, em que A e F s˜ao o

n´umero de atributos e o n´umero de classes, respectivamente. Essa abordagem ´e referida

como Padr˜ao. A segunda abordagem de referˆencia consiste em gerar aleatoriamente s

diferentes combina¸c˜oes de valores para os parˆametros, em que s ´e o n´umero aproximado

de indiv´ıduos testados pelos algoritmos bioinspirados. A melhor combina¸c˜ao, ou seja,

com a menor taxa de erro de valida¸c˜ao, ´e usada para a gera¸c˜ao dos classiﬁcadores no la¸co

externo. Essa abordagem ´e referida neste trabalho como Aleat´oria.

Como mencionado anteriormente, o n´umero de itera¸c˜oes foi deﬁnido como o crit´erio

de parada para os algoritmos bioinspirados. Neste m´etodo experimental, os algoritmos

58 5 Experimentos de Ajuste de Parˆametros

bioinspirados ACO, AG e PSO param ap´os 100 itera¸c˜oes. O algoritmo CSA, p´ara ap´os

60 itera¸c˜oes. Ap´os o t´ermino das itera¸c˜oes os algoritmos retornam os parˆametros que

resultaram no classiﬁcador com a menor taxa de erro de valida¸c˜ao. O n´umero de itera¸c˜oes

estabelecidas para o CSA ´e menor que os demais algoritmos, pois o CSA realiza aproxima-

damente o dobro de avalia¸c˜oes da fun¸c˜ao de aptid˜ao devido ao processo de clonagem, em

que cada clone precisa ser avaliado pela fun¸c˜ao de aptid˜ao. Nestes experimentos, assim

como na se¸c˜ao anterior, foram usados quatro conjuntos de dados de express˜ao gˆenica a

saber: C´olon, Glioma, Leucemia e Pˆancreas.

Armazenamento dos Dados

Para armazenar os resultados obtidos, foi utilizado um array multi-dimensional. Os

resultados do la¸co externo foram armazenados em um array de seis dimens˜oes. A seguir,

´e descrito o que ´e armazenado em cada dimens˜ao:

: n´umero da parti¸c˜ao de teste;

: parˆametro referente ao n´umero de neurˆonios na camada oculta (γ);

: parˆametro referente `a taxa de aprendizado (η);

: parˆametro referente ao termo momentum (µ);

: n´umero da repeti¸c˜ao (r);

: medidas de desempenho (erro, precis˜ao, recall e Medida-F).

Suponha que se deseja acessar o erro de classiﬁca¸c˜ao armazenado em um array deno-

minado resultados com os seguintes valores para as dimens˜oes de um a cinco: 3, 36, 0.1, 0.8

e 4, respectivamente. Esse erro pode ser acessado da seguinte maneira:

erro = resultado(3, 36, 0.1, 0.8, 4, “erro”).

Os resultados do la¸co interno para RNs foram armazenados utilizando um array com

uma dimens˜ao a mais em rela¸c˜ao ao la¸co externo. Essa dimens˜ao especiﬁca o n´umero

da parti¸c˜ao de valida¸c˜ao do la¸co interno. Assim, ´e poss´ıvel acessar o erro obtido para

qualquer parti¸c˜ao de valida¸c˜ao.

Resultados do Ajuste de Parˆametros de RNs com o M´etodo Ex-

perimental B

Primeiramente, antes de utilizar os algoritmos bioinspirados para o ajuste de parˆame-

tros, foi veriﬁcado se h´a correla¸c˜ao entre as taxas de erro de valida¸c˜ao e de teste. Isso ´e

poss´ıvel pois os resultados de classiﬁca¸c˜ao para todas as combina¸c˜oes de parˆametros est˜ao

armazenados. A correla¸c˜ao entre duas vari´aveis reﬂete o grau que essas vari´aveis est˜ao

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs 59

relacionadas. O coeﬁciente de correla¸c˜ao de Pearson (r), ou simplesmente correla¸c˜ao de

Pearson, reﬂete o grau de rela¸c˜ao linear entre duas vari´aveis. O coeﬁciente r pode assumir

valores entre −1 e 1. Quando r = 1, sifgniﬁca que h´a uma correla¸c˜ao positiva perfeita

entre as duas vari´aveis. Quando r = −1, signiﬁca que h´a uma correla¸c˜ao negativa per-

feita entre as duas vari´aveis, ou seja, grandes valores de uma vari´avel est˜ao associados

a pequenos valores da outra vari´avel. Quando r = 0, signiﬁca que as duas vari´aveis s˜ao

absolutamente independentes. Por´em, como a correla¸c˜ao de Pearson avalia apenas a cor-

rela¸c˜ao entre vari´aveis lineares, pode existir uma dependˆencia n˜ao linear e outros meios

devem ser investigados. A correla¸c˜ao de Pearson foi aplicada para os quatro conjuntos de

dados. Para os conjuntos C´olon, Glioma, Leucemia e Pˆancreas a correla¸c˜ao (r) foi 0.87,

0.97, 0.74 e 0.89, respectivamente. Para os conjuntos de dados C´olon, Glioma e Pˆancreas,

os algoritmos bioinspirados poder˜ao guiar suas buscas conﬁantes nas estimativas de vali-

da¸c˜ao obtidas. A correla¸c˜ao para o conjunto de dados Leucemia foi um pouco mais baixa.

Por´em, essa correla¸c˜ao ainda ´e suﬁciente para guiar as buscas dos algoritmos.

Nas Tabelas 5.8, 5.9, 5.10 e 5.11 s˜ao apresentados os resultados de classiﬁca¸c˜ao obtidos

pelas RNs com os parˆametros ajustados por cada algoritmo bioinspirado. Nessas tabelas

s˜ao apresentadas, em porcentagem, as taxas de erro m´edio e o desvio padr˜ao (em parˆente-

ses) referente `as 30 execu¸c˜oes dos algoritmos bioinpirados para os conjuntos de valida¸c˜ao

e de teste. As menores taxas de erro est˜ao destacadas. Adicionalmente, o n´umero m´edio

de diferentes combina¸c˜oes (solu¸c˜oes) s˜ao apresentados. Esse n´umero corresponde `a m´edia

das 30 execu¸c˜oes realizadas por cada algoritmo/abordagem. A abordagem Padr˜ao sempre

utiliza a mesma combina¸c˜ao de valores para um conjunto de dados. Por´em, ao contr´ario

das SVMs, pode ocorrer diferen¸cas devido `a inicializa¸c˜ao aleat´oria dos pesos da rede.

Tabela 5.8: C´olon - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 15.2 (0.0) 15.6 (0.8) 1353

AG 15.4 (0.2) 13.8 (1.2) 221

CSA 15.6 (0.3) 13.4 (1.4) 1361

PSO 15.3 (0.1) 12.9 (0.9) 1200

Aleat´oria 15.4 (0.1) 15.2 (1.8) 2595

Padr˜ao 19.7 (0.0) 17.9 (0.0) 

A primeira observa¸c˜ao que pode ser feita ´e que os algoritmos bioinpirados obtiveram

resultados melhores ou semelhantes `as abordagens Aleat´oria e Padr˜ao. A menor taxa de

erro de valida¸c˜ao e de teste, para todos os conjuntos de dados, foi obtido por um algoritmo

bioinspirado. Apenas para o conjunto de dados Glioma, para a taxa de erro de valida¸c˜ao,

´e que a abordagem Aleat´oria conseguiu resultados iguais aos dos algoritmos ACO, AG e

PSO, e um pouco menor do que o CSA. Isso indica que os algoritmos est˜ao encontrando

boas combina¸c˜oes de valores para os parˆametros.

60 5 Experimentos de Ajuste de Parˆametros

Tabela 5.9: Glioma - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 14.9 (0.0) 15.0 (0.0) 1461

AG 14.9 (0.1) 15.0 (0.1) 228

CSA 15.0 (0.1) 14.8 (0.4) 1298

PSO 14.9 (0.0) 15.0 (0.0) 1199

Aleat´oria 14.9 (0.0) 15.0 (0.2) 2600

Padr˜ao 17.5 (0.0) 15.7 (0.0) 

Tabela 5.10: Leucemia - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Leucemia.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 13.9 (0.2) 15.0 (0.2) 1533

AG 15.3 (0.5) 16.2 (0.8) 249

CSA 15.3 (0.4) 15.8 (0.8) 1362

PSO 14.7 (0.6) 15.7 (0.4) 1633

Aleat´oria 14.6 (0.4) 15.5 (0.5) 2599

Padr˜ao 18.4 (0.0) 22.1 (0.0) 

A compara¸c˜ao entre os diferentes algoritmos bioinspirados mostra que, em geral, o

ACO encontrou os melhores resultados. Esse algoritmo conseguiu as menores taxas de

erro de valida¸c˜ao para os quatro conjuntos de dados. As taxas de erro de teste foram

menores para os conjuntos de Leucemia e Pˆancreas, e similares para o conjunto Glioma.

Por´em, para o conjunto C´olon, o ACO foi o pior algoritmo bioinspirado. O desempenho

do ACO, relativamente `as outras t´ecnicas, n˜ao ´e t˜ao bom nos conjuntos de dados em que

a diferen¸ca entre o algoritmo bioinspirado e a abordagem Padr˜ao ´e pequena. Isso pode

indicar que h´a uma grande quantidade de combina¸c˜oes de parˆametros que resultam em

taxas de erro m´ınimas para esses conjuntos de dados.

Alguns testes foram executados para avaliar a signiﬁcˆancia estat´ıstica das diferen¸cas

observadas. O primeiro teste aplicado foi o teste-t pareado corrigido, com n´ıvel de signi-

Tabela 5.11: Pˆancreas - taxa de erro de valida¸c˜ao e de teste, desvio padr˜ao (em %) e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pˆancreas.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 15.4 (0.4) 15.7 (0.9) 1486

AG 16.6 (0.4) 17.6 (0.8) 223

CSA 16.5 (0.4) 17.6 (1.5) 1391

PSO 16.1 (0.5) 17.4 (1.4) 2151

Aleat´oria 16.1 (0.3) 17.5 (1.6) 2601

Padr˜ao 17.8 (0.0) 17.3 (0.0) 

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs 61

ﬁcˆancia α = 0.05 (95% de conﬁan¸ca) e nove graus de liberdade, correspondendo `as k − 1

parti¸c˜oes. Os dados usados foram as taxas de erro para cada uma das 10 parti¸c˜oes. A

hip´otese nula ´e que os algoritmos e as abordagens conseguiram o mesmo desempenho. De

acordo com a distribui¸c˜ao de Student, quando a compara¸c˜ao entre dois algoritmos resultar

em um p-value maior do que 1.833, pode-se rejeitar a hip´otese nula. O teste estat´ıstico

mostrou que n˜ao h´a diferen¸cas signiﬁcativas para as taxas de erro de teste. Por´em, para

as taxas de erro de valida¸c˜ao, foram observadas algumas diferen¸cas signiﬁcativas. Como

podem ser observadas nas tabelas apresentadas, as taxas de erro de valida¸c˜ao, geralmente,

variam mais do que as de teste, o que justiﬁca a rejei¸c˜ao da hip´otese nula. Os resultados

para esse teste s˜ao apresentados na Tabela 5.12. Cada c´elula C

i,j

representa a compara¸c˜ao

entre o algoritmo/abordagem da linha i com o algoritmo/abordagem da coluna j. Cada

c´elula possui a inicial referente ao conjunto de dados em que o algoritmo/abordagem i ´e

signiﬁcativamente diferente do algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia

e {P}ˆancreas. Um h´ıfen ´e usado quando a diferen¸ca n˜ao ´e signiﬁcativa.

Esses resultados normalmente conﬁrmam as observa¸c˜oes anteriores. H´a, contudo, al-

gumas diferen¸cas. Para os conjuntos de dados C´olon, Glioma e Leucemia, as diferen¸cas

entre os algoritmos bioinpirados e a abordagem Padr˜ao ´e signiﬁcativa. Por´em, para o

conjunto de dados Pˆancreas, o ACO foi o ´unico algoritmo com diferen¸ca signiﬁcativa para

a abordagem Padr˜ao. Para o conjunto de dados Leucemia, o ACO foi signiﬁcativamente

diferente de todos os outros algoritmos e abordagens, com exce¸c˜ao do PSO.

Tabela 5.12: An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de valida-

¸c˜ao).

AG CSA PSO Aleat´oria Padr˜ao

ACO - - L - - - L - - - - - - - L - C G L -

AG - - - - - - L - - - L - C G L P

CSA - - L - - - L - C G L -

PSO - - - - C G L -

Aleat´oria C G L -

Adicionalmente aplicou-se o teste de Friedman (Demˇsar, 2006), para veriﬁcar se h´a

diferen¸ca signiﬁcativa entre qualquer um dos algoritmos ou abordagens, considerando as

taxas de erro de teste de todos os conjuntos de dados. O valor cr´ıtico da distribui¸c˜ao F

com α = 0.05 e 5 (c − 1) e 15 ((c − 1) × (d − 1)) graus de liberdade ´e 2.9, em que c ´e o

n´umero de classiﬁcadores e d ´e o n´umero de conjuntos de dados. Como o teste resultou

em F = 1.04, a hip´otese nula, de que n˜ao h´a diferen¸ca estat´ıstica entre os resultados

obtidos pelos algoritmos e as abordagens, foi aceita. Assim, aplicou-se o mesmo teste

para o conjunto de valida¸c˜ao, que resultou na rejei¸c˜ao da hip´otese nula, com F = 11.74.

Em seguida, aplicou-se o teste de Nemenyi (Demˇsar, 2006) para identiﬁcar quais pares

eram signiﬁcativos. Na Tabela 5.13 ´e apresentado o ranking m´edio usando o teste de

62 5 Experimentos de Ajuste de Parˆametros

Friedman para as taxas de erro de valida¸c˜ao e de teste. O valor cr´ıtico para comparar

o ranking-m´edio de dois algoritmos/abordagens com α = 0.05 ´e 3.77. O resultado do

teste conﬁrmou que o ACO foi signiﬁcativamente melhor do que a abordagem Padr˜ao no

conjunto de valida¸c˜ao.

Tabela 5.13: Ranking M´edio usando o teste de Friedman.

Algoritmo Valida¸c˜ao Teste

ACO 1.375 2.625

AG 3.875 4.250

CSA 4.625 3.125

PSO 2.500 2.625

Aleat´oria 2.625 3.375

Padr˜ao 6.000 5.000

Os n´umeros de diferentes combina¸c˜oes testadas por cada algoritmo, apresentados nas

tabelas de 5.8 a 5.11, provˆeem informa¸c˜ao sobre o compromisso entre explora¸c˜ao e pros-

pec¸c˜ao. Como mencionado anteriormente, o n´umero m´aximo de indiv´ıduos que cada

algoritmo ´e capaz de testar ´e determinado pelos seus parˆametros. Nestes experimen-

tos, os algoritmos ACO, PSO e AGs poderiam testar aproximadamente 3 000 indiv´ıduos,

enquanto que o algoritmo CSA, devido ao processo de clonagem, poderia testar aproxima-

damente 7 000 indiv´ıduos. Com os intervalos deﬁnidos, s˜ao poss´ıveis 11 000 combina¸c˜oes

para os valores dos parˆametros. A propor¸c˜ao de diferentes combina¸c˜oes testadas pelos

algoritmos ACO, PSO e CSA indica um bom balan¸co entre explora¸c˜ao e prospec¸c˜ao do

espa¸co de busca. Explora¸c˜ao ´e a habilidade de testar v´arias regi˜oes do espa¸co de busca

para localizar uma regi˜ao promissora, preferencialmente a ´otima. Prospec¸c˜ao ´e a habili-

dade de concentrar a busca em uma regi˜ao promissora de forma a melhorar o resultado

obtido at´e o momento para essa regi˜ao (Trelea, 2003). Por outro lado, o AG explorou uma

propor¸c˜ao menor de diferentes combina¸c˜oes. Isso ocorreu mesmo sem o uso do elitismo,

processo que pode aumentar a prospec¸c˜ao. Isso pode ter ocorrido devido aos valores dos

parˆametros usados para o algoritmo. Provavelmente, um aumento na probabilidade de

muta¸c˜ao minimizasse esse problema. Apesar disso, os resultados obtidos pelo AG foram

compar´aveis aos resultados obtidos por outros algoritmos. Isso signiﬁca que n˜ao h´a uma

correla¸c˜ao clara entre o total de explora¸c˜ao e a qualidade das solu¸c˜oes obtidas. Como men-

cionado na Se¸c˜ao 4.2, o elistismo n˜ao foi usado em raz˜ao dos resultados obtidos durante

alguns experimentos realizados com fun¸c˜oes de benchmark.

Na Tabela 5.14, s˜ao apresentadas as m´edias de algumas medidas referente aos valores

encontrados para os parˆametros, considerando todas as execu¸c˜oes dos algoritmos bioins-

pirados. O n´umero de neurˆonios utilizados pela abordagem Padr˜ao para os conjuntos de

dados C´olon, Glioma, Leucemia e Pˆancreas ´e 9, 17, 26 e 26, respectivamente. O parˆame-

tro η ´e igual a 0.3 e o parˆametro µ ´e igual a 0.2 para todos os conjuntos de dados. Como

5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs 63

´e poss´ıvel observar, os valores encontrados para os parˆametros abrangem quase todo o

espa¸co de busca delimitado. Para o conjunto de dados Leucemia e Pˆancreas, o n´umero

de neurˆonios ocultos encontrados ´e pequeno se comparado aos outros dois conjuntos. O

menor valor desse parˆametro, para o conjunto Glioma, foi 82. Para o conjunto Leucemia,

o valor m´ınimo para o parˆametro termo momentum ﬁcou acima de 0.7. As medianas das

taxas de aprendizado ﬁcaram acima de 0.6 para os conjuntos C´olon e Glioma, e abaixo

de 0.2 para o conjunto Pˆancreas.

Tabela 5.14: Estat´ısticas dos melhores valores de parˆametros encontrados para o conjunto

de valida¸c˜ao para todos os algoritmos bioinspirados.

Parˆametro Medida C´olon Glioma Leucemia Pˆancreas

γ M´aximo 98 99 53 80

(nr.neurˆonios)

Mediana 65 92 18 17

M´ınimo 2 82 5 3

M´aximo 0.95 0.93 0.86 0.83

Mediana 0.65 0.69 0.46 0.19

M´ınimo 0.21 0.23 0.05 0.05

M´aximo 0.93 0.83 1.00 1.00

Mediana 0.48 0.60 0.95 0.75

M´ınimo 0.18 0.50 0.78 0.08

Como os resultados para todos os valores dos parˆametros foram armazenados, ´e pos-

s´ıvel extrair algumas informa¸c˜oes. Na Tabela 5.15 s˜ao apresentadas a mediana, o m´ınimo

e o m´aximo para cada conjunto de dados. Esses valores s˜ao as m´edias para todas as

parti¸c˜oes de todas as combina¸c˜oes de valores dos parˆametros.

E poss´ıvel observar que os

algoritmos bioinspirados e a abordagem Aleat´oria conseguiram taxas de erro de valida¸c˜ao

m´ınimas ou pr´oximas das m´ınimas, dentre todas as combina¸c˜oes testadas. As taxas de

erro medianas mostram que h´a uma grande quantidade de combina¸c˜oes de valores para

os parˆametros que resultam em pequenas taxas de erro, apesar de existirem combina¸c˜oes

com taxas de erro muito elevadas.

Tabela 5.15: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes).

Medida Val./Teste C´olon Glioma Leucemia Pˆancreas

M´aximo

Valida¸c˜ao 35.2 55.5 49.4 45.8

Teste 35.2 55.5 49.4 45.8

Mediana

Valida¸c˜ao 19.2 16.8 18.7 17.7

Teste 15.9 15.0 22.3 17.3

M´ınimo

Valida¸c˜ao 15.2 14.9 13.9 15.2

Teste 10.5 11.1 11.9 12.8

64 5 Experimentos de Ajuste de Parˆametros

5.7 M´etodo Experimental C: Ajuste de Parˆametros

de RNs e SVMs

Este m´etodo experimental, assim como o m´etodo B, usa dois la¸cos aninhados. A

´unica diferen¸ca ´e que neste m´etodo, os parˆametros s˜ao ajustados para cada parti¸c˜ao do

la¸co externo, ou seja, a minimiza¸c˜ao do erro de valida¸c˜ao ´e feita independentemente para

cada parti¸c˜ao do la¸co externo. A modiﬁca¸c˜ao do m´etodo experimental ocorreu para que os

dados usados para teste no la¸co externo n˜ao fossem usados indiretamente no processo de

ajuste de parˆametros. Isso garante que os algoritmos bioinspirados utilizam estimativas

calculadas apenas com os dados de treinamento para cada parti¸c˜ao do la¸co externo. O

m´etodo adotado nestes experimentos foi utilizado tamb´em em Statnikov et al. (2005b)

e Statnikov et al. (2005a).

Suponha que exista apenas um parˆametro α a ser ajustado para um algoritmo de

aprendizado A, e que α possa assumir m diferentes valores: α

, α

, . . . , α

. O desem-

penho D

de um classiﬁcador treinado pelo algoritmo de aprendizado A com o parˆametro

´e estimado para i = 1, . . . , m no la¸co interno. O modelo ﬁnal ´e constru´ıdo treinando

o algoritmo A com o parˆametro α

melhor

no la¸co externo, em que melhor = argmax(D

para i = 1, 2, . . . , m. Assim como no m´etodo experimental B, N

e N

s˜ao o n´umero

de parti¸c˜oes para o la¸co externo e interno, respectivamente. O Algoritmo 5 ´e usado para

implementar este m´etodo experimental.

Este m´etodo para ajuste de parˆametros ´e muito custoso computacionalmente. Nestes

experimentos ´e investigado tamb´em o efeito de reduzir o n´umero de execu¸c˜oes para o la¸co

interno. Isso ´e feito para as RNs, que possuem um custo computacional 10 vezes maior

do que as SVMs, por realizarem 10 repeti¸c˜oes para cada treinamento (r = 10). O que

´e avaliado ´e o compromisso entre a perda da qualidade das taxas de erro de valida¸c˜ao e

o ganho obtido buscando mais solu¸c˜oes no tempo economizado. Portanto, ´e avaliado o

efeito da substitui¸c˜ao da m´edia dos resultados de r×N

com os resultados de uma simples

rodada (r = 1) dos algoritmos para apenas uma parti¸c˜ao (N

= 1). O processo que

utiliza a m´edia das 10 repeti¸c˜oes (r = 10) e das 10 parti¸c˜oes (N

= 10) ser´a denominado

10/10, enquanto que o processo que utiliza apenas uma repeti¸c˜ao para uma parti¸c˜ao, ser´a

denominado de 1/1.

A codiﬁca¸c˜ao adotada para as RNs ´e a mesma do m´etodo experimental B. Como dito

anteriormente, h´a 11 000 diferentes combina¸c˜oes de valores para os parˆametros. O n´umero

de itera¸c˜oes dos algoritmos bioinspirados para o processo 10/10 ´e o mesmo do m´etodo

experimental A e B. Para o processo 1/1, o n´umero de indiv´ıduos foi dobrado e, con-

seq

uentemente, ´e poss´ıvel analisar o dobro de combina¸c˜oes de valores para os parˆametros.

Neste m´etodo, a abordagem de codiﬁca¸c˜ao adotada para representar os valores de

parˆametros de SVMs utiliza potˆencias para a base 2 (Hsu et al., 2007), ou seja, para

encontrar os valores dos parˆametros C e γ os valores representados pelo indiv´ıduo s˜ao

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 65

Algoritmo 5 M´etodo experimental C para ajuste de parˆametros.

D ← conjunto de dados

l ← 1

enquanto l ≤ N

fa¸ca

conjunto treino ← (N

− 1) parti¸c˜oes de D

conjunto teste ← parti¸c˜ao restante de D

i ← 1

enquanto i ≤ m fa¸ca

n ← 1

P ← conjunto treino

enquanto n ≤ N

fa¸ca

conjunto treino valida¸c˜ao ← (N

− 1) parti¸c˜oes de P

conjunto teste valida¸c˜ao ← parti¸c˜ao restante de P

C ← Treinar A com conjunto treino valida¸c˜ao com parˆametro α

P (n) ← Testar classiﬁcador C para o conjunto teste valida¸c˜ao

n ← n + 1

ﬁm enquanto

D(i) ← m´edia(P )

i ← i + 1

ﬁm enquanto

melhor

← argmax(D(i))

M ← Treinar A com conjunto

treino usando α

melhor

ρ(l) ← Testar classiﬁcador M para conjunto teste

l ← l + 1

ﬁm enquanto

retornar m´edia(ρ)

potˆencias para a base 2. Caso o primeiro valor do indiv´ıduo seja 1 e o segundo seja

−3, por exemplo, C = 2

e γ = 2

−3

. O intervalo deﬁnido para o parˆametro C =

[−5, 15], e para o parˆametro γ = [−15, 3], ambos discretizados em fra¸c˜oes de 1. Assim, h´a

399 diferentes combina¸c˜oes de valores que podem ser usadas para os parˆametros. Como

h´a um pequeno n´umero de solu¸c˜oes, os algoritmos bioinspirados realizaram apenas 20

itera¸c˜oes com cinco indiv´ıduos na popula¸c˜ao. Essas conﬁgura¸c˜oes possibilitaram que os

algoritmos explorassem no m´aximo 100 solu¸c˜oes para os parˆametros. Conseq

uentemente,

a abordagem Aleat´oria podia testar no m´aximo 100 combina¸c˜oes de valores.

Armazenamento dos Dados

Neste m´etodo experimental, as RNs foram aplicadas a quatro conjuntos de dados. Os

resultados armazenados gerados nos experimentos B, para RNs, foram utilizados nova-

mente nestes experimentos. Por´em, esses dados foram usados de maneira diferente do uso

feito no m´etodo experimental B, como descrito no in´ıcio desta se¸c˜ao. Os 10 conjuntos de

dados descritos na Tabela 5.1 foram utilizados nos experimentos com SVMs. Os resulta-

dos obtidos foram armazenados em um array multi-dimensional, similar ao usado para as

66 5 Experimentos de Ajuste de Parˆametros

RNs. Os resultados do la¸co externo foram armazenados utilizando um array de quatro

dimens˜oes. A seguir, ´e descrito o que ´e armazenado em cada dimens˜ao:

: n´umero da parti¸c˜ao de teste;

: parˆametro custo (C);

: parˆametro gama (γ);

: medidas de desempenho (erro, precis˜ao, recall e Medida-F ) e n´umero de vetores de

suporte.

Suponha que se deseja acessar o erro de classiﬁca¸c˜ao armazenado em uma estrutura

de dados como a apresentada, sendo esse array denominado resultados. Se o n´umero da

parti¸c˜ao de teste ´e 5, C = 1 e γ = 0.01, ent˜ao esse erro pode ser acessado da seguinte

maneira:

erro = resultado(5, 1, 0.01,“erro”).

Os resultados do la¸co interno para SVMs foram armazenados utilizando um array

de cinco dimens˜oes, que possui uma dimens˜ao a mais em rela¸c˜ao ao la¸co externo, para

especiﬁcar o n´umero da parti¸c˜ao de valida¸c˜ao do la¸co interno. Assim, ´e poss´ıvel acessar a

taxa de erro obtida para qualquer parti¸c˜ao.

5.7.1 Resultados do Ajuste de Parˆametros de RNs com o M´e-

todo Experimental C

Nas Tabelas de 5.16 a 5.19 s˜ao apresentadas as taxas de erro (em porcentagem) de

classiﬁca¸c˜ao para os conjuntos de valida¸c˜ao e de teste usando as RNs geradas com os

valores dos parˆametros encontrados por cada algoritmo bioinspirado. No processo de

estima¸c˜ao denominado 10/10 foram usadas 10 parti¸c˜oes (k = 10) e 10 repeti¸c˜oes (r =

10). Os valores entre parˆenteses s˜ao os valores de desvio padr˜ao para as 30 execu¸c˜oes

dos algoritmos bioinspirados. Al´em disso ´e apresentado o n´umero de diferentes solu¸c˜oes

testadas para os parˆametros das RNs MLP. As menores taxas de erro est˜ao destacadas.

Nas Tabelas de 5.20 a 5.23 s˜ao apresentados os resultados para o processo de estima¸c˜ao

denominado 1/1 (r = 1 e N

= 1) Para esse processo o n´umero de parti¸c˜oes para o la¸co

externo se manteve, ou seja, N

= 10.

An´alise dos Resultados com o Processo de Estima¸c˜ao 10/10

E poss´ıvel observar que os algoritmos bioinspirados geralmente obtiveram melhores

resultados do que a abordagem Padr˜ao. Isso signiﬁca que a busca feita por esses algoritmos

est´a, de fato, trabalhando como esperado. Por outro lado, os resultados s˜ao similares

aos obtidos pela abordagem Aleat´oria. Isso indica que encontrar bons valores para os

parˆametros das RNs para esses conjuntos de dados n˜ao ´e dif´ıcil. Esse fato pode ser

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 67

Tabela 5.16: C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.7 (0.1) 18.1 (1.0) 1546

AG 13.7 (0.2) 16.6 (1.6) 253

CSA 13.9 (0.2) 15.8 (1.8) 1425

PSO 13.5 (0.1) 16.5 (1.7) 1517

Aleat´oria 13.2 (0.2) 16.7 (1.6) 2623

Padr˜ao 19.8 (-) 17.9 (-) 

Tabela 5.17: Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.3 (0.2) 16.0 (1.7) 1552

AG 13.0 (0.1) 14.5 (0.9) 317

CSA 12.8 (0.3) 17.5 (2.5) 1481

PSO 12.8 (0.1) 14.0 (1.3) 1477

Aleat´oria 12.6 (0.2) 17.5 (2.1) 2622

Padr˜ao 18.0 (-) 15.8 (-) 

Tabela 5.18: Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Leucemia.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.8 (0.1) 20.3 (0.9) 1608

AG 13.9 (0.3) 20.3 (0.9) 256

CSA 13.9 (0.2) 19.5 (1.3) 1384

PSO 13.3 (0.2) 19.7 (1.0) 1557

Aleat´oria 13.2 (0.1) 19.2 (1.2) 2623

Padr˜ao 18.9 (-) 23.0 (-) 

Tabela 5.19: Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pˆancreas.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.4 (0.2) 21.6 (1.5) 1615

AG 14.3 (0.5) 18.9 (1.8) 416

CSA 14.0 (0.2) 20.3 (1.8) 1536

PSO 13.4 (0.3) 19.0 (1.6) 1775

Aleat´oria 13.3 (0.2) 20.0 (1.7) 2623

Padr˜ao 17.8 (-) 17.3 (-) 

68 5 Experimentos de Ajuste de Parˆametros

Tabela 5.20: C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 0.1 (0.3) 19.7 (2.2) 8798

AG 1.1 (1.2) 17.3 (2.7) 4426

CSA 0.0 (0.0) 18.3 (3.1) 893

PSO 1.1 (1.0) 17.5 (2.4) 1289

Aleat´oria 0.0 (0.0) 17.5 (1.7) 9987

Padr˜ao 18.3 (-) 17.9 (-) 

Tabela 5.21: Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 2.0 (0.0) 22.1 (3.3) 8800

AG 3.2 (1.0) 19.3 (2.6) 4488

CSA 2.0 (0.0) 19.3 (3.4) 1452

PSO 2.9 (1.0) 19.7 (3.4) 1532

Aleat´oria 2.0 (0.0) 19.4 (3.6) 9986

Padr˜ao 16.0 (-) 15.8 (-) 

Tabela 5.22: Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Leucemia.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 1.0 (0.0) 21.2 (1.8) 8792

AG 1.0 (0.0) 22.8 (2.9) 4584

CSA 1.0 (0.0) 22.1 (2.3) 739

PSO 1.0 (0.0) 22.8 (1.9) 894

Aleat´oria 1.0 (0.0) 22.6 (2.1) 9988

Padr˜ao 9.0 (-) 23.0 (-) 

Tabela 5.23: Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e o

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pˆancreas.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 0.7 (0.8) 19.5 (2.1) 8796

AG 1.4 (0.6) 20.5 (2.0) 5408

CSA 0.5 (0.8) 20.9 (2.3) 1159

PSO 1.2 (0.7) 21.3 (2.2) 1471

Aleat´oria 0.4 (0.7) 21.6 (2.4) 9989

Padr˜ao 19.7 (-) 17.3 (-) 

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 69

conﬁrmado pelos gr´aﬁcos de A.1 a A.4, exibidos no Apˆendice A. Esses gr´aﬁcos mostram

que h´a uma grande densidade no in´ıcio das curvas, ou seja, muitas combina¸c˜oes de valores

para os parˆametros resultam em pequenas taxas de erro de valida¸c˜ao e de teste. A

compara¸c˜ao entre os diferentes algoritmos bioinspirados e as abordagens de referˆencia

mostra que o ACO encontrou os melhores resultados. Esse algoritmo obteve as menores

taxas de erro de valida¸c˜ao para todos os conjuntos de dados. Por´em, n˜ao ´e poss´ıvel

identiﬁcar o melhor algoritmo em termos das taxas de erro de teste.

Como pode ser observado, os parˆametros que resultaram nas menores taxas de erro

de valida¸c˜ao n˜ao resultaram nas menores taxas de erro de teste. Essa diferen¸ca pode ser

explicada pela baixa correla¸c˜ao que existe entre as taxas de erro de valida¸c˜ao e de teste no

m´etodo adotado para a realiza¸c˜ao destes experimentos. Essa correla¸c˜ao era maior para

o m´etodo adotado nos experimentos B. Por´em, essa melhor correla¸c˜ao ocorreu porque

estimativas do erro de teste eram embutidas indiretamente no processo de ajuste dos

parˆametros, como explicado na Se¸c˜ao 5.6, o que n˜ao acontece com estes experimentos. Na

Tabela 5.24, s˜ao mostradas as correla¸c˜oes entre as taxas de erro de valida¸c˜ao e de teste

para cada conjunto de dado.

Tabela 5.24: Correla¸c˜ao das taxas de erro de valida¸c˜ao e de teste para todas as combina-

¸c˜oes de parˆametros.

Conjunto de dados M´edia Desvio Padr˜ao

C´olon 0.436 0.322

Glioma 0.715 0.159

Leucemia 0.498 0.360

Pˆancreas 0.626 0.288

Como dito anteriormente, o n´umero m´aximo de indiv´ıduos que cada algoritmo ´e capaz

de testar ´e determinado pelos seus parˆametros. Nestes experimentos, o ACO, PSO e AG

poderiam testar aproximadamente 3 000 solu¸c˜oes, enquanto o CSA, devido ao processo de

clonagem proporcional `a aptid˜ao dos indiv´ıduos, poderia testar aproximadamente 7 000

solu¸c˜oes. H´a 11 000 diferentes combina¸c˜oes poss´ıveis de valores para os parˆametros. Assim

como no m´etodo experimental B, a propor¸c˜ao de diferentes combina¸c˜oes testadas pelo

ACO, PSO e CSA indica um bom balan¸co entre explora¸c˜ao e prospec¸c˜ao do espa¸co de

busca. Por outro lado, o AG explorou uma propor¸c˜ao muito menor de combina¸c˜oes.

Como mencionado anteriormente, o elitismo, o qual aumenta a prospec¸c˜ao, n˜ao foi usado.

Apesar disso, os resultados do AG s˜ao compar´aveis aos obtidos por outros algoritmos,

e assim como nos m´etodo experimental B, n˜ao h´a uma rela¸c˜ao clara entre o total de

explora¸c˜ao e a qualidade das solu¸c˜oes obtidas. Novamente isso pode ser atribu´ıdo ao fato

de n˜ao ser dif´ıcil encontrar bons valores para os parˆametros das RNs para esses conjuntos

de dados.

Efeito da Simpliﬁca¸c˜ao do Processo de Estima¸c˜ao

70 5 Experimentos de Ajuste de Parˆametros

Nas Tabelas de 5.20 a 5.23 ´e poss´ıvel observar que as taxas de erro de valida¸c˜ao com

o processo 1/1 s˜ao, em geral, muito menores do que as obtidas com o processo 10/10. De

fato, essas taxas de erro s˜ao quase zero, o que indica que est´a ocorrendo overﬁtting. Como

foi realizada a otimiza¸c˜ao usando apenas uma parti¸c˜ao e uma repeti¸c˜ao, as pequenas taxas

de erro de valida¸c˜ao encontradas n˜ao correspondem `as taxas de erro de teste, que foram

muito maiores, inclusive maiores do que os erros de teste encontrados usando o processo

10/10.

De acordo com esses resultados, h´a um compromisso entre a qualidade das estimativas

de valida¸c˜ao e o n´umero de solu¸c˜oes testadas. Por´em, como um grande espa¸co de busca j´a

´e explorado, ´e muito mais importante obter estimativas mais precisas. Assim, as pr´oximas

an´alises e testes estat´ısticos reportados s˜ao referentes apenas ao processo 10/10.

Testes Estat´ısticos

Assim como nos experimentos anteriores, foram realizados testes estat´ısticos para ava-

liar as diferen¸cas observadas. Para isso, novamente foram usadas as taxas de erro obtidas

pelos classiﬁcadores. Inicialmente, foi aplicado o teste-t pareado corrigido, com n´ıvel de

signiﬁcˆancia α = 0.05 (95% de conﬁan¸ca) e nove graus de liberdade, correspondendo `as

k − 1 parti¸c˜oes. A hip´otese nula ´e que os algoritmos e as abordagens conseguiram o

mesmo desempenho. O teste estat´ıstico mostrou que n˜ao h´a diferen¸cas signiﬁcativas para

as taxas de erro de teste. Por´em, quando aplicado para as taxas de erro de valida¸c˜ao,

algumas diferen¸cas signiﬁcativas foram observadas. Os resultados para o teste estat´ıstico

realizado s˜ao apresentados na Tabela 5.25. Cada c´elula C

i,j

representa a compara¸c˜ao en-

tre o algoritmo/abordagem da coluna i com o algoritmo/abordagem da coluna j. Cada

c´elula possui a inicial referente ao conjunto de dados em que o algoritmo/abordagem i ´e

signiﬁcativamente diferente do algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia

e {P}ˆancreas. Um h´ıfen ´e usado quando a diferen¸ca n˜ao ´e signiﬁcativa.

Tabela 5.25: An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de valida-

¸c˜ao).

AG CSA PSO Aleat´oria Padr˜ao

ACO C - L P C - L P C - L P C - - P C G L P

AG - - - P - G L P C G L P C G L P

CSA C - L P C - L P C G L P

PSO - - - - C G L P

Aleat´oria C G L P

Com os resultados dos testes estat´ısticos, pode-se aﬁrmar que realizar o ajuste de

parˆametros pode reduzir as taxas de erro de valida¸c˜ao. Por´em, essa melhoria n˜ao foi

grande o suﬁciente para reﬂitir nas taxas de erro de teste.

Para estes experimentos, tamb´em aplicou-se o teste de Friedman (Demˇsar, 2006) para

veriﬁcar se h´a diferen¸ca signiﬁcativa entre os algoritmos/abordagens para todos os conjun-

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 71

tos de dados. O valor cr´ıtico da distribui¸c˜ao F com α = 0.05 e 5 (c−1) e 15 ((c−1)×(d−1))

graus de liberdade ´e 2.9, em que c ´e o n´umero de classiﬁcadores e d ´e o n´umero de con-

juntos de dados. Como o teste resultou em F = 1.42, a hip´otese nula, de que n˜ao h´a

diferen¸ca estat´ıstica entre os resultados obtidos pelos algoritmos e as abordagens, foi

aceita. Aplicou-se o mesmo teste para o conjunto de valida¸c˜ao, que resultou na rejei¸c˜ao

da hip´otese nula, com F = 64.2. Em seguida, aplicou-se o teste de Nemenyi (Demˇsar,

2006) para identiﬁcar quais pares eram signiﬁcativos. Com α = 0.05 o valor cr´ıtico para

comparar o ranking-m´edio de dois algoritmos ´e 3.77. Na Tabela 5.26 ´e apresentado o

ranking m´edio usando o teste de Friedman para as taxas de erro de valida¸c˜ao e de teste.

Portanto, o teste conﬁrmou que o ACO foi signiﬁcativamente melhor do que a abordagem

Padr˜ao. Al´em disso, a abordagem Aleat´oria tamb´em foi signiﬁcativamente melhor do que

a abordagem Padr˜ao.

Tabela 5.26: Ranking M´edio usando o teste de Friedman.

Algoritmo Valida¸c˜ao Teste

ACO 1.000 5.125

AG 4.625 2.875

CSA 4.250 3.375

PSO 3.125 2.250

Aleat´oria 2.000 3.000

Padr˜ao 6.000 4.375

A partir dos resultados armazenados, ´e poss´ıvel obter algumas medidas considerando

todas as combina¸c˜oes de valores para os parˆametros. Na Tabela 5.27 s˜ao apresentadas

as medidas mediana, m´ınimo e m´aximo para cada conjunto de dados. Esses valores s˜ao

referentes `as taxas de erro de todas as combina¸c˜oes de valores dos parˆametros para todas

as parti¸c˜oes. Por meio dessa tabela, ´e poss´ıvel observar que os algoritmos bioinspirados e

a abordagem Aleat´oria conseguiram taxas de erro de valida¸c˜ao muito pr´oximas do m´ınimo

encontrado para os valores de parˆametros testados. A partir dos valores da mediana ´e

poss´ıvel observar que h´a um grande conjunto de valores de parˆametros que produzem

classiﬁcadores com pequenas taxas de erro para esses conjuntos de dados. Isso pode ser

observado tamb´em pelos gr´aﬁcos do Apˆendice A.

Na Tabela 5.28 s˜ao apresentados os valores dos parˆametros para as RNs encontrados

pelos algoritmos bioinspirados que obtiveram as menores taxa de erro de valida¸c˜ao. Os

dados apresentados s˜ao as m´edias dos valores encontrados por todos os algoritmos, para

todas as parti¸c˜oes e execu¸c˜oes. O n´umero de neurˆonios utilizados pela abordagem Pa-

dr˜ao para os conjuntos de dados C´olon, Glioma, Leucemia e Pˆancreas ´e 9, 17, 26 e 26,

respectivamente. O parˆametro η ´e igual a 0.3 e o parˆametro µ ´e igual a 0.2 para todos

os conjuntos de dados. Em geral, o n´umero de neurˆonios na camada oculta foi pequeno,

como pode ser observado pela mediana, com exce¸c˜ao do conjunto Glioma, em que a me-

72 5 Experimentos de Ajuste de Parˆametros

Tabela 5.27: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes).

Medida Val./Teste C´olon Glioma Leucemia Pˆancreas

M´aximo

Valida¸c˜ao 36.4 55.6 50.6 47.0

Teste 42.9 56.7 52.4 48.3

Mediana

Valida¸c˜ao 19.2 16.9 18.8 17.7

Teste 15.1 15.0 23.0 17.3

M´ınimo

Valida¸c˜ao 12.5 11.9 12.6 12.1

Teste 8.1 7.7 7.5 7.6

diana do n´umero de neurˆonios ´e 81. Para a taxa de aprendizado, os valores encontrados

abrangem todo o espa¸co de busca, com mediana de aproximadamente 0.5, para todos os

conjuntos de dados. Para o parˆametro termo momentum, valores superiores a 0.6 foram

mais usados. Por´em, os valores de m´ınimo e m´aximo mostram que o espa¸co de busca foi,

praticamente, todo explorado.

Tabela 5.28: Estat´ısticas dos melhores valores de parˆametros encontrados por todos os

algoritmos bioinspirados.

Parˆametro Medida C´olon Glioma Leucemia Pˆancreas

γ M´aximo 100 100 100 99

(nr. neurˆonios)

Mediana 41 81 29 29

M´ınimo 2 3 2 2

M´aximo 1.00 1.00 1.00 1.00

Mediana 0.59 0.55 0.55 0.53

M´ınimo 0.05 0.05 0.05 0.05

M´aximo 1.00 1.00 1.00 1.00

Mediana 0.80 0.60 0.88 0.88

M´ınimo 0.00 0.00 0.00 0.05

A taxa de erro de classiﬁca¸c˜ao foi a medida usada para apresentar os resultados obtidos

e para a aplica¸c˜ao dos testes estat´ısticos, pois os algoritmos bioinspirados guiaram suas

buscas usando a taxa de erro de valida¸c˜ao. Neste m´etodo experimental, o desempenho

dos classiﬁcadores tamb´em s˜ao avaliados pela ´area abaixo da curva ROC (AUC). Na

Tabela 5.29 s˜ao apresentadas as ´areas abaixo das curvas ROC para todos os algoritmos

bioinspirados e conjuntos de dados utilizados. Entre parˆenteses tamb´em s˜ao apresentados

os desvios padr˜ao para as 10 parti¸c˜oes. As maiores ´areas est˜ao destacadas. As ´areas foram

obtidas por classiﬁcadores gerados com os valores de parˆametros que resultaram na taxa

de erro mais pr´oxima da taxa de erro m´edio.

Para os conjuntos Glioma e Leucemia, o CSA obteve a maior ´area. No conjunto

Glioma, o AG e a abordagem Padr˜ao tamb´em conseguiram a mesma ´area que o CSA. Para

o conjunto C´olon, o AG conseguiu uma ´area superior `a dos outros algoritmos e abordagens.

Por ﬁm, para o conjunto Pˆancreas, a abordagem Padr˜ao conseguiu a maior ´area abaixo

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 73

da curva ROC. Esses resultados diferem um pouco do que foi obtido para as taxas de erro,

apresentadas nas tabelas anteriores. A maior diferen¸ca ocorreu para o conjunto Glioma,

pois o CSA obteve um dos piores resultados em rela¸c˜ao `a taxa de erro. As diferen¸cas

encontradas ocorreram, principalmente, por trˆes motivos: i) devido a aleatoriedade na

inicializa¸c˜ao dos pesos das RNs, o mesmo conjunto de treinamento e parˆametros pode

gerar diferentes classiﬁcadores; ii) como as diferen¸cas entre as taxas de erro de teste n˜ao

foram signiﬁcativamente diferentes, podem ocorrer varia¸c˜oes na compara¸c˜ao com AUC;

iii) ao contr´ario da taxa de erro, a AUC n˜ao ´e sens´ıvel ao desbalanceamento de classes. O

desvio padr˜ao (calculado para as 10 parti¸c˜oes de teste) ´e muito alto, principalmente para

o conjunto de dados Pˆancreas. Os valores de desvio padr˜ao para a abordagem Aleat´oria

foram, em geral, maiores do que os obtidos pelos algoritmos bioinspirados, o que signiﬁca

uma maior instabilidade da rede. No Apˆendice B, os gr´aﬁcos das curvas ROC para cada

conjunto de dados podem ser vistos nas ﬁguras B.1 a B.4.

Tabela 5.29:

Area abaixo da curva ROC para classiﬁcadores gerados utilizando valores

dos parˆametros cuja taxa de erro mais se aproxima da m´edia.

Algoritmo

Conjunto de Dados

C´olon Glioma Leucemia Pˆancreas

ACO 0.896 (0.131) 0.872 (0.210) 0.852 (0.156) 0.747 (0.213)

AG 0.938 (0.121) 0.883 (0.158) 0.920 (0.078) 0.892 (0.169)

CSA 0.927 (0.122) 0.883 (0.158) 0.924 (0.093) 0.808 (0.219)

PSO 0.908 (0.121) 0.872 (0.178) 0.910 (0.089) 0.883 (0.168)

Aleat´oria 0.908 (0.130) 0.822 (0.206) 0.826 (0.189) 0.833 (0.233)

Padr˜ao 0.888 (0.171) 0.883 (0.158) 0.912 (0.129) 0.939 (0.105)

5.7.2 Resultados do Ajuste de Parˆametros de SVMs com o M´e-

todo Experimental C

Nas Tabelas de 5.30 a 5.39 s˜ao apresentadas as taxas de erro (em porcentagem) de

classiﬁca¸c˜ao para os conjuntos de valida¸c˜ao e de teste usando os valores de parˆametros

encontrados por cada algoritmo bioinspirado para as SVMs. Os valores entre parˆenteses

s˜ao os desvios padr˜ao para as 30 execu¸c˜oes dos algoritmos bioinspirados. Al´em disso, ´e

apresentado o n´umero de solu¸c˜oes diferentes testadas para os parˆametros. Os menores

erros est˜ao destacados.

Os resultados apresentados nas tabelas permitem observar que o PSO conseguiu os

melhores resultados entre os algoritmos bioinspirados, e resultados similares `a abordagem

Aleat´oria.

E poss´ıvel indicar dois fatores principais que levaram ao bom desempenho da

abordagem Aleat´oria. Primeiro, devido ao pequeno n´umero de solu¸c˜oes, a abordagem

Aleat´oria, com um pequeno n´umero de diferentes solu¸c˜oes analisadas (em m´edia 88) co-

briu uma grande regi˜ao do espa¸co de busca. O segundo ´e o fato de que n˜ao ´e dif´ıcil

74 5 Experimentos de Ajuste de Parˆametros

Tabela 5.30: C´olon - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados C´olon.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.3 (0.8) 14.3 (2.1) 56

AG 13.8 (0.9) 16.0 (2.8) 11

CSA 12.3 (0.3) 15.1 (1.9) 66

PSO 11.8 (0.2) 14.1 (2.4) 52

Aleat´oria 11.8 (0.2) 13.6 (1.7) 88

Padr˜ao 13.7 (-) 14.3 (-) 

Tabela 5.31: Glioma - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados Glioma.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 11.5 (0.6) 16.2 (2.2) 56

AG 13.0 (0.5) 14.9 (2.2) 11

CSA 11.2 (0.3) 17.2 (2.0) 66

PSO 11.3 (0.5) 16.9 (2.1) 54

Aleat´oria 10.9 (0.2) 18.0 (1.2) 88

Padr˜ao 15.1 (-) 13.3 (-) 

Tabela 5.32: Leucemia - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Leucemia.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 10.4 (1) 13.5 (1.3) 56

AG 11.1 (0.9) 13.1 (1.4) 11

CSA 10.0 (0.2) 12.9 (0.9) 67

PSO 10.0 (0.1) 13.2 (0.8) 53

Aleat´oria 9.9 (0.1) 13.2 (1.0) 88

Padr˜ao 11.4 (-) 12.0 (-) 

Tabela 5.33: Pˆancreas - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pˆancreas.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 12.9 (0.9) 18.0 (1.1) 56

AG 14.1 (1.0) 17.9 (2.1) 12

CSA 12.5 (0.3) 17.7 (1.3) 68

PSO 12.2 (0.3) 17.7 (1.2) 52

Aleat´oria 12.1 (0.2) 17.3 (1.0) 88

Padr˜ao 13.2 (-) 13.2 (-) 

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 75

Tabela 5.34: Leucemia2 - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Leucemia2.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 28.1 (2.0) 28.3 (2.3) 56

AG 29.1 (1.1) 27.9 (1.2) 11

CSA 27.8 (0.3) 27.2 (1.0) 65

PSO 27.1 (0.3) 27.2 (0.5) 51

Aleat´oria 27.2 (0.2) 27.9 (0.7) 88

Padr˜ao 33.3 (-) 28.9 (-) 

Tabela 5.35: Pulm˜ao - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pulm˜ao.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 29.8 (0.7) 37.1 (2.0) 56

AG 31.5 (1.1) 37.7 (2.6) 11

CSA 29.8 (0.3) 38.2 (1.7) 66

PSO 29.4 (0.2) 37.3 (1.5) 52

Aleat´oria 29.4 (0.2) 37.5 (1.2) 88

Padr˜ao 34.0 (-) 37.2 (-) 

Tabela 5.36: Australian - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Australian.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 13.3 (0.1) 15.5 (0.8) 59

AG 13.8 (0.3) 15.0 (0.9) 11

CSA 13.3 (0.1) 15.0 (0.6) 62

PSO 13.2 (0.1) 15.2 (0.7) 55

Aleat´oria 13.1 (0.1) 14.8 (0.8) 88

Padr˜ao 14.3 (-) 15.1 (-) 

Tabela 5.37: Pima-indians-diabetes - taxa de erro de valida¸c˜ao e de teste (em %), desvio

padr˜ao e n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Pima-

indians-diabetes.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 22.5 (0.2) 22.5 (0.5) 57

AG 22.9 (0.2) 22.8 (0.4) 11

CSA 22.5 (0.1) 22.7 (0.5) 63

PSO 22.3 (0.1) 22.4 (0.3) 52

Aleat´oria 22.3 (0.0) 22.5 (0.4) 88

Padr˜ao 24.2 (-) 24.7 (-) 

76 5 Experimentos de Ajuste de Parˆametros

Tabela 5.38: Segment - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e

n´umero de diferentes combina¸c˜oes testadas para o conjunto de dados Segment.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 3.3 (1.7) 3.2 (1.7) 55

AG 4.2 (1.8) 4.0 (1.6) 10

CSA 3.2 (0.5) 3.1 (0.6) 60

PSO 2.5 (0.0) 2.5 (0.1) 57

Aleat´oria 2.6 (0.0) 2.6 (0.1) 88

Padr˜ao 41.9 (-) 38.8 (-) 

Tabela 5.39: Vehicle - taxa de erro de valida¸c˜ao e de teste (em %), desvio padr˜ao e n´umero

de diferentes combina¸c˜oes testadas para o conjunto de dados Vehicle.

Algoritmo Valida¸c˜ao Teste  Comb.

ACO 14.5 (0.3) 16.4 (0.5) 55

AG 16.1 (0.9) 17.1 (0.8) 11

CSA 15.6 (0.5) 16.9 (0.7) 60

PSO 14.0 (0.1) 16.1 (0.3) 51

Aleat´oria 14.3 (0.1) 16.1 (0.4) 88

Padr˜ao 23.0 (-) 23.7 (-) 

encontrar bons valores para os parˆametros da t´ecnica SVM para os conjuntos de dados

selecionados. Esse fato pode ser conﬁrmado pelos gr´aﬁcos de A.5 a A.14, exibidos no

Apˆendice A. Esses gr´aﬁcos mostram que h´a uma grande densidade no in´ıcio das curvas,

ou seja, muitas combina¸c˜oes de valores para os parˆametros resultam em pequenas taxas

de erro de valida¸c˜ao e de teste.

Ao contr´ario do que aconteceu nos experimentos com as RNs, neste m´etodo experimen-

tal, o algoritmo ACO n˜ao obteve os melhores resultados para SVMs. O principal motivo

para isso ´e o n´umero reduzido de itera¸c˜oes (20) e indiv´ıduos (5) utilizados. Isso acabou

prejudicando o ACO, que converge lentamente. A convergˆencia lenta pode representar

uma vantagem ou uma desvantagem, dependendo do problema em que o algoritmo ser´a

aplicado. Uma convergˆencia muito r´apida pode fazer com que o algoritmo ﬁque preso a

um m´ınimo local, mas pode levar a uma boa solu¸c˜ao com poucas itera¸c˜oes. Uma conver-

gˆencia mais lenta, por outro lado, pode contribuir para que o algoritmo n˜ao ﬁque preso a

m´ınimos locais, mas necessita de muitas itera¸c˜oes.

Os valores padr˜ao utilizados para as SVMs mostraram-se robustos. Apesar dos al-

goritmos bioinspirados e da abordagem Aleat´oria terem conseguido, em geral, resultados

melhores para os conjuntos de valida¸c˜ao, a abordagem Padr˜ao obteve os melhores re-

sultados para as taxas de erro de teste para os conjuntos de dados Glioma, Leucemia e

Pˆancreas. Para os conjuntos C´olon, Leucemia2, Pulm˜ao, pima, e australian os resulta-

dos s˜ao similares aos algoritmos bioinspirados e a abordagem Padr˜ao. Por´em, para os

conjuntos de dados segment e vehicle, a abordagem Padr˜ao obteve taxas de erro maiores,

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 77

principalmente para o conjunto segment, em que a diferen¸ca foi maior que 35%. Com

isso, conclui-se que o ajuste de parˆametros pode trazer grandes redu¸c˜oes das taxas de

erro para alguns conjuntos de dados. Para os conjuntos testados nestes experimentos, n˜ao

foi necess´ario utilizar algoritmos ou t´ecnicas soﬁsticadas para conseguir encontrar bons

valores para os parˆametros.

Como dito anteriormente, o n´umero de diferentes combina¸c˜oes testadas por cada algo-

ritmo provˆe informa¸c˜ao a respeito do compromisso entre explora¸c˜ao e prospec¸c˜ao. Assim

como nos experimentos anteriores, a propor¸c˜ao de diferentes combina¸c˜oes testadas pelo

ACO, PSO e CSA indica um bom balan¸co entre explora¸c˜ao e prospec¸c˜ao do espa¸co de

busca. O AG explora uma propor¸c˜ao muito menor de combina¸c˜oes. Por´em, os resulta-

dos do AG s˜ao compar´aveis aos obtidos por outros algoritmos. Novamente isso pode ser

atribu´ıdo ao fato de n˜ao ser dif´ıcil encontrar bons valores para os parˆametros da t´ecnica

SVM para esses conjuntos de dados.

Assim como nos outros experimentos, foram realizados testes estat´ısticos para avaliar

as diferen¸cas observadas. Para isso, foram usadas as taxas de erro de valida¸c˜ao e de

teste obtidas pelos classiﬁcadores. Primeiramente, foi aplicado o teste-t pareado corri-

gido, com n´ıvel de signiﬁcˆancia α = 0.05 (95% de conﬁan¸ca) e nove graus de liberdade,

correspondente `as k − 1 parti¸c˜oes. A hip´otese nula ´e que os algoritmos e as abordagens

conseguiram o mesmo desempenho. A hip´otese nula foi rejeitada para algumas compara-

¸c˜oes, ou seja, o teste estat´ıstico mostrou que h´a algumas diferen¸cas signiﬁcativas para as

taxas de erro de teste. Os resultados para o teste estat´ıstico realizado s˜ao apresentados na

Tabela 5.40. Cada c´elula C

i,j

representa a compara¸c˜ao entre o algoritmo/abordagen da

linha i com o algoritmo/abordagem da coluna j. Cada c´elula possui uma letra indicando

o conjunto de dados em que o algoritmo/abordagem i ´e signiﬁcativamente diferente do

algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia, {P}ˆancreas, L{E}ucemia2,

P{U}lm˜ao, {A}ustralian, p{I}ma, {S}egment, {V}ehicle. Um h´ıfen ´e usado quando a

diferen¸ca n˜ao ´e signiﬁcativa.

Em geral, o teste conﬁrmou os resultados comentados anteriormente. Todos os algo-

ritmos bioinspirados e a abordagem Aleat´oria obtiveram taxas de erro de teste signiﬁ-

cativamente melhores do que a abordagem Padr˜ao para os conjuntos de dados segment

e vehicle. Para o conjunto segment, a abordagem Aleat´oria e o algoritmo PSO foram

signiﬁcativamente diferentes dos algoritmos AG e CSA. O teste ainda mostrou que os

algoritmos bioinspirados foram signiﬁcativamente diferentes da abordagem Padr˜ao para

o conjunto pima. Por ﬁm, o algoritmo PSO e o ACO foram signiﬁcativamente diferentes

para os conjuntos de dados Leucemia e Leucemia2.

Adicionalmente aplicou-se o teste de Friedman (Demˇsar, 2006), para veriﬁcar se h´a

diferen¸ca signiﬁcativa entre qualquer uma das t´ecnicas, considerando todos os conjuntos de

dados. O valor cr´ıtico da distribui¸c˜ao F com α = 0.05 e 5 (c−1) e 45 ((c−1)×(d−1)) graus

de liberdade ´e 2.42, em que c ´e o n´umero de classiﬁcadores e d ´e o n´umero de conjuntos

78 5 Experimentos de Ajuste de Parˆametros

Tabela 5.40: An´alise estat´ıstica - teste–t pareado corrigido (conjunto de dados de teste).

AG CSA PSO Aleat´oria Padr˜ao

ACO ---------- ---------- --L-E----- ---------- -------ISV

AG ---------- --------S- --------S- -------ISV

CSA --------S- --------S- -------ISV

PSO ---------- -------ISV

Aleat´oria --------SV

de dados. Como o teste resultou em F = 1.22, a hip´otese nula, de que n˜ao h´a diferen¸ca

estat´ıstica entre os resultados obtidos pelos algoritmos e as abordagens, foi aceita. Assim,

aplicou-se o mesmo teste para o conjunto de valida¸c˜ao, que resultou na rejei¸c˜ao da hip´otese

nula, com F = 85.88. Em seguida, aplicou-se o teste de Nemenyi (Demˇsar, 2006) para

identiﬁcar quais pares eram signiﬁcativos. Com α = 0.05, o valor cr´ıtico para comparar

o ranking-m´edio de dois algoritmos diferentes ´e 2.38. Na Tabela 5.41 ´e apresentado o

ranking-m´edio usando o teste de Friedman para as taxas de erro de valida¸c˜ao e de teste.

Como ´e poss´ıvel observar, o teste mostrou que a abordagem Aleat´oria e o algoritmo PSO

s˜ao melhores que a abordagem Padr˜ao e o algoritmo AG. Al´em dissso, os algoritmos CSA

e ACO s˜ao melhores que a abordagem Padr˜ao. Esses resultados conﬁrmam os resultados

descritos anteriormente.

A mesma conclus˜ao do teste-t pareado corrigido pode ser utilizada para o teste de

Friedman. O ajuste de parˆametros ´e necess´ario, mesmo que n˜ao seja por um algoritmo

ou t´ecnica soﬁsticada. Se as estimativas para os conjuntos de dados de express˜ao gˆenica

fossem t˜ao boas quanto as obtidas para os conjuntos de dados da UCI, as diferen¸cas

observadas para as taxas de erro de valida¸c˜ao poderiam reﬂetir em diferen¸cas nas taxas

de erro de teste.

Tabela 5.41: Ranking m´edio usando o teste de Friedman.

Algoritmo Valida¸c˜ao Teste

ACO 3.60 4.10

AG 5.20 4.20

CSA 3.30 3.65

PSO 1.60 2.65

Aleat´oria 1.50 2.80

Padr˜ao 5.80 3.60

Na Tabela 5.42 s˜ao apresentadas as correla¸c˜oes m´edias, entre as taxas de erro de

valida¸c˜ao e de teste para as 10 parti¸c˜oes utilizadas, para todas as poss´ıveis combina¸c˜oes

de valores para os parˆametros.

E poss´ıvel observar que conjuntos de dados com um

n´umero maior de exemplos possuem, em geral, uma correla¸c˜ao maior. Outros fatores que

inﬂuenciam na correla¸c˜ao s˜ao a caracter´ıstica determin´ıstica do algoritmo de aprendizado,

a diﬁculdade de classiﬁca¸c˜ao do conjunto de dados e o vi´es na sele¸c˜ao dos exemplos de

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 79

treinamento e de teste. Como pode ser observado, as correla¸c˜oes usando SVMs foram

maiores do que as correla¸c˜oes obtidas pelas RNs nesse experimento (Tabela 5.24), com

exce¸c˜ao do conjunto Glioma. Os gr´aﬁcos de A.5 a A.14, exibidos no Apˆendice A, mostram

que a densidade das taxas de erro de valida¸c˜ao e de teste s˜ao diferentes para conjuntos

de dados com baixa correla¸c˜ao e parecidos para conjuntos de dados com alta correla¸c˜ao.

Al´em disso, para conjuntos de dados com um grande n´umero de exemplos, como segment

e vehicle, a varia¸c˜ao da densidade entre as parti¸c˜oes ´e pequena, ao contr´ario do que ocorre

em conjuntos de dados com poucos exemplos.

Tabela 5.42: Correla¸c˜ao das taxas de erro de valida¸c˜ao e de teste para todas as combina-

¸c˜oes de parˆametros.

Conjunto de dados M´edia Desvio Padr˜ao

C´olon 0.630 0.266

Glioma 0.681 0.275

Leucemia 0.922 0.057

Pˆancreas 0.905 0.066

Leucemia2 0.959 0.048

Pulm˜ao 0.665 0.402

Australian 0.972 0.017

Pima 0.876 0.068

Segment 0.998 0.000

Vehicle 0.987 0.003

Como os resultados para todos os poss´ıveis valores de parˆametros est˜ao armazenados

em uma estrutura de dados, ´e poss´ıvel obter algumas medidas. Na Tabela 5.43 s˜ao

apresentadas a mediana, o m´ınimo e o m´aximo para as taxas de erro de cada conjunto

de dados. Esses valores s˜ao as m´edias para todas as parti¸c˜oes de todas as combina¸c˜oes

de valores dos parˆametros. Por meio desta tabela, ´e poss´ıvel observar que os algoritmos

bioinspirados e a abordagem Aleat´oria conseguiram taxas de erro de valida¸c˜ao m´ınimas

ou muito pr´oximas disso. Isso novamente mostra que h´a um grande conjunto de valores

de parˆametros que produzem classiﬁcadores com baixa taxa de derro de classiﬁca¸c˜ao para

esses conjuntos de dados.

Na Tabela 5.44 s˜ao apresentadas algumas medidas referentes aos valores de parˆametros

encontrados pelos algoritmos bioinspirados. Os dados apresentados s˜ao as m´edias dos

valores encontrados em todas as parti¸c˜oes e execu¸c˜oes. Na ´ultima coluna do parˆametro γ

s˜ao apresentados os valores usados pela abordagem Padr˜ao para esse parˆametro. O valor

do parˆametro C ´e sempre 1, portanto n˜ao est´a na tabela. Os valores encontrados para o

parˆametro custo (C) abrangem quase todo o espa¸co de busca. Por´em, nenhum algoritmo

encontrou valores pr´oximos `a extremidade inferior (−5) para esse parˆametro, ao contr´ario

da extremidade superior (15). Para o parˆametro gama (γ), o valor m´aximo m´edio n˜ao

´e maior do que −0.5, sendo que o limite superior ´e 3. O valor m´ınimo m´edio foi usado

para quase todos os conjuntos de dados. Com esses resultados, n˜ao ´e poss´ıvel deﬁnir um

80 5 Experimentos de Ajuste de Parˆametros

Tabela 5.43: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10

parti¸c˜oes).

M´ınimo M´aximo Mediana

Valida¸c˜ao Teste Valida¸c˜ao Teste Valida¸c˜ao Teste

C´olon 11.7 3.4 36.7 39.2 26.8 26.7

Glioma 10.3 6.3 45.7 50.0 22.5 23.3

Leucemia 9.6 5.6 49.1 50.6 27.9 24.4

Pˆancreas 11.7 7.2 47.3 46.7 21.8 26.5

Leucemia2 26.0 20.2 68.1 68.0 62.5 62.5

Pulm˜ao 29.3 20.4 57.6 61.8 55.8 57.0

Australian 13.0 9.6 45.0 45.2 19.1 19.0

Pima 22.2 18.5 35.5 37.9 29.9 28.6

Segment 2.5 1.6 72.8 71.4 24.7 23.4

Vehicle 14.0 11.5 74.2 74.3 28.4 28.4

intervalo muito pequeno para busca dos parˆametros. Por´em, o valor de γ n˜ao precisa ser

maior que 1 e o valor de C n˜ao precisa ser menor que 2

−5

Tabela 5.44: Estat´ısticas dos melhores valores de parˆametros encontrados por todos os

algoritmos bioinspirados (2

, em que v ´e o valor encontrado para o parˆametro).

Algoritmo

Custo (C) Gama (γ)

Mediana Min. Max. Mediana Min. Max. Padr˜ao

C´olon 4.8 -1.2 15.0 -9.0 -15.0 -2.0 -5.0

Glioma 4.8 -2.0 15.0 -2.2 -15.0 -0.5 -4.0

Leucemia 3.0 -3.0 15.0 -5.2 -15.0 -1.0 -6.0

Pˆancreas 3.5 -2.2 15.0 -6.0 -15.0 -1.0 -6.0

Leucemia2 5.5 -1.0 15.0 -8.0 -15.0 -2.0 -6.0

Pulm˜ao 7.2 -0.5 15.0 -8.0 -14.8 -2.0 -6.0

Australian 1.5 -4.2 14.8 -7.8 -15.0 -2.0 -4.0

Pima 3.0 -3.0 15.0 -8.8 -15.0 -1.8 -3.0

Segment 7.8 -1.0 14.8 -12.2 -15.0 -4.0 -4.0

Vehicle 10.2 1.2 15.0 -6.6 -12.2 -2.5 -4.0

Assim como para as RNs, na Tabela 5.45 s˜ao apresentados os valores da AUC para

os conjuntos de teste. Isso ´e feito para todos os algoritmos bioinspirados e conjuntos de

dados bin´arios. No Apˆendice B, os gr´aﬁcos das curvas ROC para cada conjunto de dados

podem ser vistos nas ﬁguras B.5 a B.10. Os gr´aﬁcos das curvas ROC s˜ao apresentados

para cada conjunto de dados. O mesmo procedimento utilizado para as RNs foi adotado

para as SVMs. Essas ´areas foram obtidas por classiﬁcadores gerados com os valores de

parˆametros que resultaram na taxa de erro mais pr´oxima da taxa de erro m´edio.

E poss´ıvel observar que, em geral, para os conjuntos de dados com maior n´umero de

exemplos, como o australian e o pima, os desvios padr˜ao s˜ao menores do que conjuntos

de dados com um n´umero pequeno de exemplos. Os desvios padr˜ao da AUC para os

5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 81

conjuntos C´olon, Glioma, Leucemia e Pˆancreas foram menores do que os desvios padr˜ao

obtidos pelas RNs. Algumas diferen¸cas foram observadas em rela¸c˜ao `as taxas de erro

apresentadas anteriormente. A abordagem Padr˜ao n˜ao obteve uma ´area grande para o

conjunto Glioma. A ´area obtida pelo ACO para o Pˆancreas foi igual `a ´area obtida pela

abordagem Padr˜ao. Em geral, o algoritmo PSO conseguiu bons resultados para todos os

conjuntos de dados.

Tabela 5.45:

Area abaixo da curva ROC para classiﬁcadores gerados utilizando valores

dos parˆametros cuja taxa de erro mais se aproxima da m´edia.

Algoritmo

Conjunto de Dados

C´olon Glioma Leucemia Pˆancreas Australian Pima

ACO 0.938 (0.088) 0.900 (0.119) 0.932 (0.098) 0.958 (0.090) 0.922 (0.027) 0.836 (0.053)

AG 0.863 (0.171) 0.956 (0.073) 0.952 (0.073) 0.922 (0.108) 0.918 (0.029) 0.825 (0.052)

CSA 0.913 (0.103) 0.922 (0.084) 0.936 (0.098) 0.922 (0.108) 0.918 (0.029) 0.828 (0.056)

PSO 0.925 (0.105) 0.939 (0.081) 0.960 (0.065) 0.958 (0.090) 0.932 (0.022) 0.827 (0.055)

Aleat´oria 0.938 (0.088) 0.922 (0.115) 0.908 (0.103) 0.958 (0.090) 0.926 (0.028) 0.831 (0.051)

Padr˜ao 0.871 (0.132) 0.922 (0.115) 0.964 (0.048) 0.958 (0.090) 0.920 (0.034) 0.822 (0.052)

5.7.3 Compara¸c˜ao entre RNs e SVMs no Dom´ınio de Express˜ao

Gˆenica

Nesta se¸c˜ao, as t´ecnicas RNs e SVMs s˜ao brevemente comparadas quando aplicadas

para classiﬁca¸c˜ao de dados de express˜ao gˆenica. Os quatro conjuntos de dados de expres-

s˜ao gˆenica (C´olon, Glioma, Pˆancreas e Leucemia) classiﬁcados pelas duas t´ecnicas s˜ao

utilizados na compara¸c˜ao. Os conjuntos de dados Leucemia2 e Pulm˜ao n˜ao foram apli-

cados `as RNs, devido ao tempo de processamento necess´ario. Portanto, n˜ao puderam ser

usados na compara¸c˜ao. Na Tabela 5.46 s˜ao apresentadas algumas medidas para compara-

¸c˜ao dos classiﬁcadores. Nas linhas nomeadas Diferen¸ca, ´e computada a diferen¸ca entre os

resultados obtidos para as RNs e SVMs. A primeira compara¸c˜ao ´e entre as taxas de erro

obtidas pelos classiﬁcadores gerados com o ajuste de parˆametros. Na compara¸c˜ao, foram

usados os melhores resultados obtidos para os conjuntos de dados mencionados (tabe-

las 5.16-5.19 para RNs e tabelas 5.30- 5.33 para SVMs). Em seguida, s˜ao comparadas as

taxas de erro de teste m´ınimas entre todos as combina¸c˜oes de valores para os parˆametros

deﬁnidos. Os valores foram retirados das tabelas 5.27 e 5.43. Por ´ultimo s˜ao comparadas

as ´areas abaixo da curva ROC. Os valores foram retirados das tabelas 5.29 e 5.45, para

RNs e SVMs, respectivamente.

Como ´e poss´ıvel observar, as SVMs conseguiram resultados melhores que as RNs para

todas as compara¸c˜oes feitas. Houve apenas um empate na compara¸c˜ao da AUC para o

conjunto C´olon. Uma importante observa¸c˜ao ´e que as SVMs conseguiram taxas de erro

de teste menores do que as RNs. De fato, SVMs representam, at´e o momento, a t´ecnica

de AM com melhores resultados na classiﬁca¸c˜ao de dados de express˜ao gˆenica (Statnikov

82 5 Experimentos de Ajuste de Parˆametros

Tabela 5.46: Compara¸c˜ao entre RNs e SVMs para classiﬁca¸c˜ao de dados de express˜ao

gˆenica.

Medida

Conjunto de Dados

C´olon Glioma Leucemia Pˆancreas

Ajuste RNs 15.8 14.0 19.2 17.3

Ajuste SVMs 13.6 13.3 12.0 13.2

Diferen¸ca 2.2 0.7 7.2 4.1

Erro m´ınimo RNs 8.1 7.7 7.5 7.6

Erro m´ınimo SVMs 3.4 6.3 5.6 7.2

Diferen¸ca 4.7 1.4 1.9 0.4

AUC RNs 0.938 0.883 0.924 0.939

AUC SVMs 0.938 0.956 0.964 0.958

Diferen¸ca 0.000 -0.073 -0.040 -0.019

et al., 2008). Diaz-Uriarte & Alvarez de Andres (2006) utilizaram Florestas Aleat´orias

(RF, do inglˆes, Random Forests) (Breiman, 2001) para selecionar e classiﬁcar dados de

microarray. Nesse trabalho, os autores obtiveram resultados que sugeriam que RFs pos-

suem desempenho compar´avel `as SVMs para classiﬁca¸c˜ao de dados de expressao gˆenica.

Por´em, Statnikov et al. (2008) apresentaram v´arios vi´es que poderiam ter levado a esses

resultados:

• As RFs foram aplicadas aos conjuntos de dados antes da sele¸c˜ao de genes, enquanto

que as SVMs foram aplicadas a uma sele¸c˜ao de 200 genes (esse n´umero foi escolhido

arbitrariamente);

• A estrat´egia um-contra-um foi utilizada para gera¸c˜ao das SVMs multiclasses. Por´em,

sabe-se que outras estrat´egias, como a um-contra-todos, s˜ao melhores para dados de

express˜ao gˆenica (Statnikov et al., 2005a; Rifkin et al., 2003);

• Foram utilizadas apenas SVMs lineares, sem ajuste de parˆametros;

• A m´etrica de avalia¸c˜ao usada (propor¸c˜ao de classiﬁca¸c˜oes corretas) ´e sens´ıvel `a

distribui¸c˜ao desbalanceada de classes;

• N˜ao foram realizados testes estat´ısticos na compara¸c˜ao dos classiﬁcadores;

• Para a estima¸c˜ao do erro foi usado o m´etodo .632, que n˜ao ´e o mais apropriado para

dados de microarray.

A partir da hip´otese de que esses vi´es comprometeram os resultados obtidos por Diaz-

Uriarte & Alvarez de Andres (2006), Statnikov et al. (2008) realizaram uma compara¸c˜ao

metodologicamente mais rigorosa entre os dois algoritmos para uma extensa variedade de

conjuntos de dados de express˜ao gˆenica. Foi veriﬁcado que a hip´otese ´e verdadeira, ou

seja, as limita¸c˜oes apontadas podem ter comprometido a compara¸c˜ao entre RFs e SVMs.

5.8 Considera¸c˜oes Finais 83

Ap´os eliminar essas limita¸c˜oes, observou-se que as RFs apresentaram, para a maioria e na

m´edia, erros de classiﬁca¸c˜ao maiores do que as SVMs, quando a sele¸c˜ao de genes ´e realizada

e tamb´em quando a sele¸c˜ao n˜ao ´e realizada. A compara¸c˜ao entre RNs e SVMs realizada

nesta disserta¸c˜ao n˜ao pode ser interpretada como conclusiva, pois tamb´em apresenta vi´es

de sele¸c˜ao de genes.

Al´em do melhor desempenho em termos de taxas de erro e AUC, a cria¸c˜ao das es-

truturas de dados com os resultados das classiﬁca¸c˜oes foi mais r´apida para as SVMs. O

principal motivo para a diferen¸ca no tempo de processamento foi a maior quantidade de

combina¸c˜oes de parˆametros para as RNs e as 10 repeti¸c˜oes necess´arias para cada treina-

mento da RN, j´a que os pesos iniciais das conex˜oes s˜ao deﬁnidos aleatoriamente, sendo

necess´arias repeti¸c˜oes para obter uma estimativa razo´avel. Adicionalmente, um grande

n´umero de neurˆonios na camada oculta torna o aprendizado mais lento.

5.8 Considera¸c˜oes Finais

Neste cap´ıtulo foram apresentados os experimentos realizados para investigar o ajuste

de parˆametros de SVMs e RNs utilizando algoritmos bioinspirados. Foram utilizados

conjuntos de dados de express˜ao gˆenica e de outros dom´ınios. Inicialmente, foram apre-

sentados os conjuntos de dados, os algoritmos bioinspirados, as t´ecnicas de classiﬁca¸c˜ao

e as m´etricas empregadas na avalia¸c˜ao dos classiﬁcadores gerados. Em seguida, foram

apresentados os trˆes m´etodos experimentais propostos e os resultados experimentais para

cada um deles.

No m´etodo experimental A, a gera¸c˜ao do classiﬁcador ´e baseada no m´etodo de va-

lida¸c˜ao cruzada estratiﬁcada com k parti¸c˜oes. Uma parti¸c˜ao ´e usada para teste, outra

para valida¸c˜ao e as demais para treinamento do algoritmo de aprendizado. A taxa de

erro obtida para a parti¸c˜ao de valida¸c˜ao ´e usada como guia para a busca dos algoritmos

bioinspirados.

No m´etodo experimental B, a gera¸c˜ao do classiﬁcador ´e baseada em dois la¸cos aninha-

dos. Em cada um dos la¸cos ´e usado o m´etodo de valida¸c˜ao cruzada estratiﬁcada com k

parti¸c˜oes. O la¸co interno ´e usado para determinar a melhor combina¸c˜ao de valores para

os parˆametros e o la¸co externo ´e usado para estimar o desempenho do classiﬁcador gerado

com os melhores parˆametros encontrados no la¸co interno.

No m´etodo experimental C tamb´em s˜ao usados dois la¸cos com valida¸c˜ao cruzada. A

diferen¸ca ´e que os parˆametros s˜ao ajustados para cada parti¸c˜ao do la¸co externo. Essa

modiﬁca¸c˜ao foi necess´aria para evitar o uso indireto dos exemplos do conjunto de teste

no processo de ajuste de parˆametros.

Duas abordagens de referˆencia foram usadas na compara¸c˜ao com os algoritmos bioins-

pirados nos trˆes m´etodos propostos. Os resultados experimentais mostram que, em geral,

os algoritmos bioinspirados conseguem menores taxas de erro de valida¸c˜ao em compara-

84 5 Experimentos de Ajuste de Parˆametros

¸c˜ao com as abordagens de referˆencia. Para o conjunto de dados em que ocorreu o maior

ganho com o ajuste de parˆametros, a diferen¸ca entre a taxa de erro de teste da abordagem

Padr˜ao para o algoritmo PSO foi maior que 35%. Entretanto, para a maioria dos conjun-

tos de dados utilizados, a melhoria obtida nas taxas de erro de valida¸c˜ao n˜ao ´e grande o

suﬁciente para se reﬂetir nas taxas de erro de teste. Em alguns casos, foi observado que

o ajuste de parˆametros causou overﬁtting.

Cap´ıtulo 6

Conclus˜ao

Diversos trabalhos encontrados na literatura tratam do problema de ajuste de parˆa-

metros para SVMs (Lorena & Carvalho, 2006; Huang & Wang, 2006; Souza & Carvalho,

2005; Souza et al., 2006; Imbault & Lebart, 2004; Zhang & Jiao, 2005; Acevedo et al.,

2006) e para RNs (Castillo et al., 2007; Gao et al., 2006; Braun & Weisbrod, 1993; Dodd,

1990; Leung et al., 2003; Tsai et al., 2006). Muitos deles utilizam algoritmos bioinspirados

para isso. Contudo, n˜ao foram encontrados trabalhos que comparem diferentes algoritmos

bioinspirados para diferentes t´ecnicas de AM. O trabalho de (Hoste & Daelemans, 2005)

´e o que mais se aproxima do que foi desenvolvido nesta disserta¸c˜ao. Os autores utilizam

AGs para ajustar parˆametros de duas t´ecnicas de classiﬁca¸c˜ao (TIMBL e RIPPER) e

avaliam os efeitos desse ajuste.

Neste trabalho foi investigado o uso de algoritmos bioinspirados para ajustar os valores

dos parˆametros livres de duas t´ecnicas de classiﬁca¸c˜ao, RNs e SVMs. Esses algoritmos

foram comparados com outras abordagens usando como crit´erio o desempenho dos classiﬁ-

cadores gerados para dados de express˜ao gˆenica. Essa escolha teve como objetivo restrigir

o dom´ınio para investigar se algum algoritmo ´e mais adequado nesse dom´ınio. Para ava-

liar os resultados obtidos com dados de express˜ao gˆenica, conjuntos de outros dom´ınios,

obtidos do reposit´orio UCI, foram tamb´em usados em alguns experimentos com SVMs.

Os algoritmos bioinspirados ACO, AGs, CSA e PSO foram investigados neste traba-

lho para o ajuste de parˆametros de SVMs e RNs. Os algoritmos foram implementados

na linguagem R e as t´ecnicas de classiﬁca¸c˜ao foram simuladas a partir de ferramentas

computacionais dispon´ıveis em bibliotecas que as implementam.

Foram investigados trˆes m´etodos experimentais nesta disserta¸c˜ao. Esses m´etodos re-

presentam uma seq

uˆencia de investiga¸c˜oes no sentido de melhorar as estimativas de de-

sempenho das t´ecnicas de classiﬁca¸c˜ao e evitar o uso indireto dos dados do conjunto de

teste no processo de busca dos algoritmos bioinspirados. Os m´etodos experimentais A

e B possuem vi´es no processo de ajuste, pois usam indiretamente dados utilizados na

estimativa do erro real do classiﬁcador. No m´etodo experimental C, os parˆametros s˜ao

ajustados para cada parti¸c˜ao do m´etodo de valida¸c˜ao cruzada, eliminando esse problema.

86 6 Conclus˜ao

A seguir, na Se¸c˜ao 6.1, os principais resultados obtidos s˜ao apresentados. Na Se¸c˜ao 6.2

s˜ao discutidas as contribui¸c˜oes deste trabalho. As limita¸c˜oes, os problemas encontrados e

os trabalhos futuros motivados por esses s˜ao discutidos na Se¸c˜ao 6.3.

6.1 Principais Resultados

Nesta se¸c˜ao s˜ao apresentados os principais resultados dos experimentos realizados com

fun¸c˜oes de benchmark e para cada m´etodo experimental de ajuste de parˆametros. No ﬁnal

da se¸c˜ao s˜ao feitas algumas discuss˜oes gerais sobre os resultados e a compara¸c˜ao entre RNs

e SVMs para dados de express˜ao gˆenica.

Antes de serem empregados para o problema de ajuste de parˆametros, os algoritmos

bioinspirados investigados foram aplicados na minimiza¸c˜ao de fun¸c˜oes de benchmark. O

objetivo foi avaliar a funcionalidade e o desempenho desses algoritmos para fun¸c˜oes uni-

modais e multimodais. Para as duas fun¸c˜oes unimodais testadas, Esfera e Rosenbrock, o

algoritmo PSO conseguiu os melhores resultados e tamb´em convergiu rapidamente para

regi˜oes promissoras do espa¸co de busca. O algoritmo CSA foi o pior para a fun¸c˜ao Es-

fera, enquanto que o AG foi o pior para a fun¸c˜ao Rosenbrock e teve uma convergˆencia

lenta. N˜ao foi poss´ıvel determinar o melhor algoritmo para as fun¸c˜oes multimodais, pois,

para cada uma das trˆes fun¸c˜oes analisadas, um algoritmo diferente se destacou. Para a

fun¸c˜ao Rastrigin, o AG obteve os melhores valores e o ACO os piores. O algoritmo CSA

foi o melhor para a fun¸c˜ao Schaﬀer f6, enquanto o AG foi o pior. Por ´ultimo, para a

fun¸c˜ao Ackley, o ACO, apesar de convergir um pouco mais lentamente que os demais, foi

o algoritmo com o melhor desempenho e o CSA o pior.

Para o ajuste de parˆametros realizado no m´etodo experimental A, foram realizados

experimentos com quatro conjuntos de dados bin´arios aplicados `as SVMs com kernel

Gaussiano. Em geral, os algoritmos bioinspirados conseguiram melhores resultados do

que as abordagens de referˆencia utilizadas. Os algoritmos conseguiram as menores taxas

de erro de valida¸c˜ao para trˆes conjuntos de dados e as menores taxas de erro de teste para

dois conjuntos. Os valores padr˜ao utilizados para os parˆametros se mostraram robustos,

apresentando taxas de erro de teste melhores para os conjuntos de dados C´olon e Glioma

e resultados similares aos dos algoritmos para os conjuntos de Leucemia e Pˆancreas. A

abordagem Grade conseguiu resultados similares aos algoritmos bioinspirados em rela¸c˜ao

`a taxa de erro de teste. Diferentes valores de parˆametros foram obtidos pelos algoritmos

bioinspirados, evidenciando o grande n´umero de m´ınimos locais. Com o teste de Friedman

foi veriﬁcado que todos os algoritmos e abordagens tiveram desempenhos estatisticamente

semelhantes.

O m´etodo experimental B foi aplicado para ajuste de parˆametros de RNs MLP. Quatro

conjuntos de dados bin´arios de express˜ao gˆenica foram usados nos experimentos. Como

os resultados foram armazenados, algumas informa¸c˜oes puderam ser extra´ıdas, como a

6.1 Principais Resultados 87

correla¸c˜ao entre as taxas de erro de valida¸c˜ao e de teste. Como essas taxas estavam

fortemente correlacionadas, os algoritmos puderam guiar suas buscas a partir das taxas

de erro de valida¸c˜ao. Em geral, os algoritmos bioinspirados conseguiram os melhores

resultados. Por´em, foi observado que um grande n´umero de valores para os parˆametros

resultavam em pequenas taxas de erro, o que justiﬁca o bom desempenho da abordagem

Aleat´oria. O AG testou um n´umero menor de diferentes valores para os parˆametros em

rela¸c˜ao aos demais algoritmos. Todavia, seus resultados foram compar´aveis aos demais,

devido ao grande n´umero de valores que resultam em pequenas taxas de erro. De acordo

com o teste de Friedman, n˜ao h´a diferen¸cas signiﬁcativas nos resultados obtidos para as

taxas de erro de teste. Para as taxas de erro de valida¸c˜ao, o teste mostrou que o ACO

foi signiﬁcativamente melhor do que a abordagem Padr˜ao. Uma justiﬁcativa para essa

diferen¸ca ´e que, em geral, a abordagem Padr˜ao conseguiu menores taxas de erro de teste

do que de valida¸c˜ao, ao contr´ario dos algoritmos bioinspirados.

No m´etodo experimental C, o ajuste de parˆametros foi realizado para RNs MLP e

SVMs com kernel Gaussiano. Para os experimentos com RNs, foram usados novamente

os mesmos conjuntos de dados dos m´etodos experimentais A e B. Foi observado que as

taxas de erro de valida¸c˜ao e de teste n˜ao estavam altamente correlacionadas. Por esse

motivo, ocorreram maiores varia¸c˜oes entre essas taxas. Os algoritmos conseguiram taxas

de erro de valida¸c˜ao bem menores que a abordagem Padr˜ao. Por´em, em rela¸c˜ao `a taxa de

erro de teste, foram melhores apenas para os conjuntos de dados C´olon e Glioma. Para

a AUC, os desvios padr˜ao para a abordagem Aleat´oria foram, em geral, maiores do que

para os algoritmos bioinspirados. O teste de Friedman encontrou diferen¸cas signiﬁcativas

apenas para as taxas de erro de valida¸c˜ao. O ACO e a abordagem Aleat´oria foram

signiﬁcativamente melhores do que a abordagem Padr˜ao.

No ajuste de parˆametros de SVMs, foram usados seis conjuntos de dados de expres-

s˜ao gˆenica e quatro conjuntos obtidos do reposit´orio UCI. Em geral, conjuntos de dados

com maior n´umero de exemplos apresentaram correla¸c˜ao maior entre as taxas de erro de

valida¸c˜ao e de teste do que conjuntos com poucos exemplos. Como os conjuntos de dados

de express˜ao gˆenica possuem poucos exemplos, a correla¸c˜ao entre as taxas de erro n˜ao

foi maior que 0.7 para trˆes deles. As correla¸c˜oes utilizando SVMs foram maiores do que

RNs para os mesmos conjuntos de dados. Em geral, o algoritmo PSO e a abordagem

Aleat´oria conseguiram os melhores resultados. Podem ser apontados dois fatores para

o bom desempenho da abordagem Aleat´oria. O primeiro ´e o fato de n˜ao ser dif´ıcil en-

contrar valores de parˆametros que produzem pequenas taxas de erro de valida¸c˜ao. Em

segundo, o n´umero reduzido de solu¸c˜oes que poderiam ser testadas para SVMs favorecem

a abordagem Aleat´oria, que consegue analisar um n´umero maior de diferentes solu¸c˜oes.

O principal motivo para o mal desempenho do algoritmo ACO para os experimentos com

SVMs ´e o n´umero reduzido de itera¸c˜oes utilizadas, pois ele converge lentamente. Assim

como para RNs, o teste de Friedman encontrou diferen¸cas signiﬁcativas apenas entre as

88 6 Conclus˜ao

taxas de erro de valida¸c˜ao. Os algoritmos PSO, CSA e ACO e a abordagem Aleat´oria

foram signiﬁcativamente melhores do que a abordagem Padr˜ao. Al´em disso a abordagem

Aleat´oria e o algoritmo PSO foram melhores do que o AG.

Os resultados experimentais mostram que, em geral, os algoritmos bioinspirados conse-

guem menores taxas de erro de valida¸c˜ao em compara¸c˜ao com as abordagens de referˆencia.

Para a maioria dos conjuntos de dados e experimentos realizados, a melhoria obtida nas

taxas de erro de valida¸c˜ao n˜ao foi grande o suﬁciente para resultar em melhoria nas taxas

de erro de teste. O maior ganho com o ajuste de parˆametros ocorreu para o conjunto de

dados segment, que possui o maior n´umero de exemplos e classes, nos experimentos com

SVMs. A diferen¸ca entre a taxa de erro de teste da abordagem Padr˜ao para o algoritmo

PSO foi maior que 35%. Uma diferen¸ca acima de 7.5% tamb´em foi obtida no conjunto de

dados vehicle, o segundo maior conjunto de dados, com quatro classes. Os valores padr˜ao

para as SVMs e RNs obtiveram bons resultados para a maior parte dos conjuntos de da-

dos. Quando isso n˜ao ocorreu, encontrar valores que resultam em melhor desempenho n˜ao

foi uma tarefa dif´ıcil, pois h´a uma grande quantidade de valores que conseguem minimizar

a taxa de erro de valida¸c˜ao. Em alguns casos, foi observado que o ajuste de parˆametros

causou overﬁtting.

Na ´ultima se¸c˜ao dos experimentos para ajuste de parˆametros, foram realizadas al-

gumas compara¸c˜oes entre RNs e SVMs para classiﬁca¸c˜ao de dados de express˜ao gˆenica.

Primeiramente, as t´ecnicas foram comparadas em rela¸c˜ao `as melhores taxas de erro de

teste obtidas com o processo de ajuste de parˆametros. As SVMs conseguiram os melhores

resultados para os quatro conjuntos de dados utilizados. A menor diferen¸ca entre as taxas

de erro foi de 0.7%, para o conjunto Glioma, e a maior de 7.2%, para o conjunto Leucemia.

Entre todos os valores de parˆametros deﬁnidos para as duas t´ecnicas, as SVMs novamente

obtiveram as menores taxas de erro de teste para os quatro conjuntos de dados, com uma

diferen¸ca m´ınima de 0.4% e m´axima de 4.7% em rela¸c˜ao `as RNs. Devido aos vi´es descritos

na Se¸c˜ao 5.7.3, n˜ao ´e poss´ıvel obter conclus˜oes com a compara¸c˜ao realizada. Por´em, os

resultados apontam para um melhor desempenho das SVMs.

6.2 Contribui¸c˜oes

As principais contribui¸c˜oes deste trabalho s˜ao descritas a seguir:

• An´alise da sensibilidade das SVMs e RNs em rela¸c˜ao aos valores dos parˆametros

para dados de express˜ao gˆenica.

E conhecido que SVMs e RNs s˜ao sens´ıveis aos

valores dos parˆametros utilizados. Este estudo avalia a sensibilidade dessas t´ecnicas

restrito ao dom´ınio de express˜ao gˆenica;

• Compara¸c˜ao entre os algoritmos bioinspirados ACO, AGs, CSA e PSO para o ajuste

de parˆametros de SVMs e RNs. Na literatura, h´a in´umeros trabalhos que usam algo-

6.3 Limita¸c˜oes, Problemas Encontrados e Trabalhos Futuros 89

ritmos bioinspirados para o ajuste de parˆametros de t´ecnicas de classiﬁca¸c˜ao. Por´em,

n˜ao foram encontrados trabalhos que comparam diferentes algoritmos bioinspirados

para ajuste de uma t´ecnica de AM. Este trabalho realiza essa compara¸c˜ao para dados

de express˜ao gˆenica utilizando RNs e tamb´em para outros dom´ınios com SVMs;

• Compara¸c˜ao entre RNs e SVMs para classiﬁca¸c˜ao de dados de express˜ao gˆenica.

O problema de vi´es de sele¸c˜ao de genes nos experimentos realizados ´e reconhecido.

Entretanto, este estudo fornece ind´ıcios do desempenho das duas t´ecnicas de classi-

ﬁca¸c˜ao para dados de express˜ao gˆenica.

• Desenvolvimento de um conjunto de ferramentas computacionais para o ajuste de

parˆametros de t´ecnicas de classiﬁca¸c˜ao. Os algoritmos bioinspirados investigados

e os m´etodos experimentais para ajuste de parˆametros foram implementados na

linguagem R. Essas ferramentas podem ser utilizadas para realizar o ajuste de pa-

rˆametros de outras t´ecnicas de classiﬁca¸c˜ao. Os dados resultantes dos experimentos

ﬁcam armazenados em estruturas de dados e podem ser usados em fututras investi-

ga¸c˜oes.

Algumas das contribui¸c˜oes citadas foram publicadas em congressos nacionais e inter-

nacionais (Rossi & Carvalho, 2008; Rossi et al., 2008a,b). Essas contribui¸c˜oes resumem

alguns experimentos realizados durante os dois anos de mestrado.

6.3 Limita¸c˜oes, Problemas Encontrados e Trabalhos

Futuros

Nesta se¸c˜ao s˜ao descritas e discutidas as limita¸c˜oes deste trabalho, os problemas encon-

trados durante o seu desenvolvimento e os trabalhos futuros, motivados pelos problemas

e limita¸c˜oes encontrados.

A sele¸c˜ao de atributos em an´alise de dados de express˜ao gˆenica ´e importante n˜ao

apenas para reduzir o custo computacional, pois normalmente esses conjuntos de dados

possuem milhares de genes, mas tamb´em eliminar genes n˜ao informativos. Neste trabalho,

o problema de vi´es de sele¸c˜ao de atributos ´e reconhecido. Entretanto, decidiu-se n˜ao

trat´a-lo, pois como o objetivo n˜ao ´e encontrar o melhor classiﬁcador, mas veriﬁcar o

desempenho de diferentes algoritmos bioinspirados no ajuste de parˆametros, o trabalho

n˜ao sofre grande inﬂuˆencia da sele¸c˜ao de genes. Em trabalhos futuros, essa sele¸c˜ao de

genes pode ser realizada simultaneamente com o ajuste de parˆametros.

O uso de uma estrutura de dados para armazenar os resultados dos classiﬁcadores

economiza tempo de processamento, pois n˜ao ´e necess´ario executar o algoritmo de apren-

dizado milhares de vezes para cada algoritmo bioinspirado. O armazenamento dos resul-

tados tamb´em viabiliza a extra¸c˜ao de algumas informa¸c˜oes, como a correla¸c˜ao, que podem

90 6 Conclus˜ao

auxiliar na an´alise desses resultados e na tomada de decis˜oes do estudo. Por´em, para que

o armazenamento seja poss´ıvel, os intervalos de valores para cada parˆametro precisam ser

discretizados. Durante a discretiza¸c˜ao, podem ser perdidos valores que poderiam resultar

em menores taxas de erro ou at´e mesmo em solu¸c˜oes ´otimas. Dessa maneira, seria inte-

ressante realizar experimentos preliminares com os intervalos de valores deﬁnidos para os

parˆametros discretizados, e, posteriormente, se os resultados se mostrarem promissores,

realizar uma busca cont´ınua para esses intervalos.

Segundo Louren¸co et al. (2002) e Ide & Yasuda (2005), os algoritmos bioinspirados s˜ao

robustos. Todavia, os valores para seus parˆametros podem tamb´em inﬂuenciar em seus

desempenhos. Nesta pesquisa, os valores para esses algoritmos foram deﬁnidos com base

em trabalhos previamente publicados e em experimentos com fun¸c˜oes de benchmark. O

ajuste desses parˆametros poderia implicar em diferentes resultados. Por´em, seria invi´avel

incluir mais esse estudo neste trabalho.

Para todos os experimentos com RNs, foram utilizados apenas quatro conjuntos de

dados. Esse n´umero n˜ao ´e o ideal, mas devido ao alto custo computacional com os

experimentos para RNs, n˜ao foi poss´ıvel utilizar mais conjuntos. Os principais fatores para

o alto custo computacional nos experimentos com RNs se devem `as repeti¸c˜oes necess´arias

para obter boas estimativas e ao treinamento lento quando ´e usado um grande n´umero

de neurˆonios. Outra limita¸c˜ao ´e o uso de apenas uma camada oculta e da arquitetura

completamente conectada. Assim, seria interessante pesquisar um meio para reduzir o

tempo computacional, testar redes com mais de uma camada e possibilitar a remo¸c˜ao

de conex˜oes, ou seja, utilizar redes parcialmente conectadas, o que poderia acelerar o

processo de treinamento e melhorar o desempenho.

Nos experimentos com SVMs, foi usado apenas o kernel Gaussiano, que, segundo Hsu

et al. (2007), apresenta, em geral, melhores resultados e menos diﬁculdades num´ericas.

Por´em, alguns trabalhos utilizam o kernel polinomial, como em Statnikov et al. (2008)

e Statnikov et al. (2005a). Portanto, al´em do ajuste de parˆametros, seria interessante

testar outros kernels para avaliar se os resultados s˜ao alterados.

Referˆencias Bibliogr´aﬁcas

Abbas, A., Lichtman, A., & Pober, J. (2000). Cellular and Molecular Immunology. W.B.

Saunders, New York, 4 edition. (Citado na p´agina 30.)

Acevedo, J., Maldonado-Basc´on, S., Lafuente-Arroyo, S., G´omez-Moreno, H., & Gil-

Jim´enez, P. (2006). Model selection for support vector machines using ant colony

optimization in an electronic nose application. In Dorigo, M., Gambardella, L. M.,

Birattari, M., Martinoli, A., Poli, R., & St

utzle, T., editors, ANTS Workshop, volume

4150 of Lecture Notes in Computer Science, pag. 468–475. Springer. (Citado na p´agina

85.)

Achcar, J. A. & Rodrigues, J. (2000). Introdu¸c˜ao `a estat´ıstica para ciˆencias e tecnologia.

Technical report, Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao, Universdiade de

S˜ao Paulo, S˜ao Carlos. (Citado na p´agina 39.)

Ackley, D. H. (1987). A Connectionist Machine for Genetic Hillclimbing. Kluwer Acade-

mic Publishers, Boston, USA. (Citado na p´agina 36.)

Aimo, T. & Zilinskas, A. (1989). Global Optimization, volume 350 of Lecture Notes in

Computer Science. Springer-Verlag. (Citado na p´agina 36.)

Akaike, H. (1974). A new look at the statistical model identiﬁcation. IEEE Transactions

on Automatic Control, 19(6):716–723. (Citado na p´agina 18.)

Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D., & Levine, A. J.

(1999). Broad patterns of gene expression revealed by clustering analysis of tumor

and normal colon tissues probed by oligonucleotide arrays. Proceedings of the National

Academy of Sciences, 96(12):6745–6750. (Citado na p´agina 46.)

Alpaydin, E. (2004). Introduction to Machine Learning: Adaptive Computation and Ma-

chine Learning. The MIT Press. (Citado na p´agina 7.)

Anders, U. & Korn, O. (1999). Model selection in neural networks. Neural Networks,

12:309–323. (Citado na p´agina 18.)

Asuncion, A. & Newman, D. J. (2007). UCI machine learning repository.

http://www.ics.uci.edu/∼mlearn/MLRepository.html. (Citado nas p´aginas 3, 6 e 45.)

92 REFER

ENCIAS BIBLIOGR

AFICAS

ack, T. (1996). Evolutionary algorithms in theory and practice: evolution strategies,

evolutionary programming, genetic algorithms. Oxford University Press, Oxford, UK.

(Citado na p´agina 36.)

Bajcsy, P., Jiawei Han, L. L., & Yang, J. (2005). Survey of biodata analysis from a data

mining perspective. In Wang, J. T. L., Zaki, M. J., Toivonen, H. T. T., & Shasha, D.,

editors, Data Mining in Bioinformatics, cap´ıtulo 2, pag. 9–38. Springer-Verlag. (Citado

nas p´aginas 9 e 10.)

Bartlett, P. L., Boucheron, S., & Lugosi, G. (2002). Model selection and error estimation.

Machine Learning, 48:85–113. (Citado na p´agina 18.)

Basheer, I. A. & Hajmeer, M. (2000). Artiﬁcial neural networks: fundamentals, compu-

ting, design, and application. Journal of Microbiological Methods, 43:3–31. (Citado nas

p´aginas 2 e 17.)

Beer, D. G., Kardia, S. L., Huang, C.-C., Giordano, T. J., Levin, A. M., Misek, D. E., Lin,

L., Chen, G., Gharib, T. G., Thomas, D. G., Lizyness, M. L., Kuick, R., Hayasaka, S.,

Taylor, J. M., Iannettoni, M. D., Orringer, M. B., & Hanash, S. (2002). Gene-expression

proﬁles predict survival of patients with lung adenocarcinoma. Nature Medicine, 8:816–

824. (Citado na p´agina 46.)

Ben-Dor, A., Bruhn, L., Friedman, N., Nachman, I., Schummer, M., & Yakhini, Z. (2000).

Tissue classiﬁcation with gene expression proﬁles. In Proceedings of the fourth annual

international conference on Computational molecular biology, pag. 54–64, New York,

NY, USA. ACM Press. (Citado na p´agina 47.)

Blum, C. (2005). Ant colony optimization: Introduction and recent trends. Physics of

Life Reviews, 2:353–373. (Citado na p´agina 25.)

Braun, H. & Weisbrod, J. (1993). Evolving neural feedforward networks. In Proceedings

of the International Conference on Artiﬁcial Neural Networks and Genetic Algorithms,

pag. 25–32. Springer-Verlag. (Citado nas p´aginas 20 e 85.)

Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32. (Citado na p´agina

82.)

Carvalho, A. C. P. L. F., Braga, A. P., & Ludermir, T. B. (2003). Computa¸c˜ao evolutiva.

In Rezende, S. O., editor, Sistemas Inteligentes: Fundamentos e Aplica¸c˜oes, cap´ıtulo 9,

pag. 225–248. Editora Manole Ltda. (Citado na p´agina 32.)

Carvalho, A. C. P. L. F., Delbem, A. C. B., Romero, R. A. F., Sim˜oes, E., & sP. Telles,

G. (2004). Computa¸c˜ao bioinspirada. Apostila do Minicurso da XXIII Jornada de

Atualiza¸c˜ao em Inform´atica. (Citado nas p´aginas 23 e 31.)

REFER

ENCIAS BIBLIOGR

AFICAS 93

Castillo, P. A., Merelo, J. J., Arenas, M. G., & Romero, G. (2007). Comparing evolu-

tionary hybrid systems for design and optimization of multilayer perceptron structure

along training parameters. Information Sciences, 177(14):2884–2905. (Citado nas p´a-

ginas 20 e 85.)

Castro, L. N. (2006). Fundamentals of Natural Computing: Basic Concepts, Algorithms,

and Aplications. Chapman & Hall/CRC. (Citado nas p´aginas 24, 27, 28 e 30.)

Castro, L. N. (2007). Fundamentals of natural computing: an overview. Physics of Life

Reviews, 4(1):1–36. (Citado nas p´aginas 2 e 23.)

Castro, L. N. & Timmis, J. (2002). Artiﬁcial immune systems: A novel paradigm to

pattern recognition. In Corchado, J. M., Alonso, L., & Fyfe, C., editors, Artiﬁcial

Neural Networks in Pattern Recognition, pag. 67–84. University of Paisley. (Citado nas

p´aginas 3, 29 e 30.)

Castro, L. N. & Von-Zuben, F. (2002). Learning and optimization using the clonal selec-

tion principle. IEEE Transactions on Evolutionary Computation, 6(3):239–251. (Citado

nas p´aginas 3, 30, 35 e 38.)

Castrogiovanni, M., Nicosia, G., & Rascun`a, R. (2007). Experimental analysis of the aging

operator for static and dynamic optimisation problems. In Apolloni, B., Howlett, R. J.,

& Jain, L. C., editors, Proceedings of 11th International Conference on Knowledge-

Based Intelligent Information and Engineering Systems, Lecture Notes in Computer

Science, pag. 804–811. Springer. (Citado na p´agina 38.)

Chang, C.-C. & Lin, C.-J. (2001). LIBSVM: a Library for Support Vector Machines.

Dispon´ıvel em: http://www.csie.ntu.edu.tw/~cjlin/libsvm. (Citado na p´agina

19.)

Chapelle, O., Sch

olkopf, B., & Zien, A. (2006). Semi-supervised learning. MIT Press.

(Citado na p´agina 7.)

Chapelle, O., Vapnik, V., Bousquet, O., & Mukherjee, S. (2002). Choosing multiple

parameters for support vector machines. Machine Learning, 46(1-3):131–159. (Citado

nas p´aginas 18 e 19.)

Chunhong, Z. & Licheng, J. (2004). Automatic parameters selection for SVM based on

GA. In Proceedings of the 6th World Congress on Intelligent Control and Automation,

pag. 1869–1872. IEEE Computer Society Press. (Citado na p´agina 2.)

Cohen, W. W. (1995). Fast eﬀective rule induction. In Proceedings of the 12th Internati-

onal Conference on Machine Learning, pag. 115–123. (Citado na p´agina 2.)

94 REFER

ENCIAS BIBLIOGR

AFICAS

Cristianini, N. & Shawe-Taylor, J. (2000). An introduction to support vector machines:

and other kernel-based learning methods. Cambridge University Press, New York, NY,

USA. (Citado nas p´aginas 3, 14 e 19.)

Cutello, V., Nicosia, G., & Pavone, M. (2006). Real coded clonal selection algorithm for

unconstrained global optimization using a hybrid inversely proportional hypermutation

operator. In Proceedings of the ACM Symposium on Applied Computing, pag. 950–954,

New York, NY, USA. ACM. (Citado na p´agina 38.)

Daelemans, W., Zavrel, J., van der Sloot, K., & van den Bosch, A. (2002). Timbl:

Tilburg memory-based learner, version 4.3, reference guide. Technical Report ILK 02-

10, Tilburg University. (Citado na p´agina 2.)

De-Robertis, E. M. F. & Hib, J. (2001). Bases da Biologia Celular e Molecular. Guanabara

Koogan, Rio de Janeiro, 3 edition. (Citado na p´agina 46.)

Demˇsar, J. (2006). Statistical comparisons of classiﬁers over multiple data sets. Journal

of Machine Learning Research, 7:1–30. (Citado nas p´aginas 4, 14, 50, 54, 61, 70, 71, 77

e 78.)

Diaz-Uriarte, R. & Alvarez de Andres, S. (2006). Gene selection and classiﬁcation of

microarray data using random forest. BMC Bioinformatics, 7(1):3. (Citado na p´agina

82.)

Dodd, N. (1990). Optimisation of network structure using genetic techniques. In Procee-

dings of the International Joint Conference on Neural Networks, pag. 965–970. (Citado

nas p´aginas 20 e 85.)

Dorigo, M., Birattari, M., & Stutzle, T. (2006). Ant colony optimization: Artiﬁcial ants

as a computational intelligence technique. IEEE Computational Intelligence Magazine,

1(4):28–39. (Citado nas p´aginas 23 e 25.)

Dorigo, M. & Di-Caro, G. (1999). The ant colony optimization metaheuristic. In Corne,

D., Dorigo, M., & Glover, F., editors, New Ideas in Optimization, pag. 11–32. McGraw

Hill, London, UK. (Citado na p´agina 25.)

Draghici, S. & Potter, R. B. (2003). Predicting HIV drug resistance with neural networks.

Bioinformatics, 19(1):98–107. (Citado na p´agina 16.)

Dudoit, S., Fridlyand, J., & Speed, T. P. (2002). Comparison of discrimination methods

for the classiﬁcation of tumors using gene expression data. Journal of the American

Statistical Association, 97(457):77–87. (Citado na p´agina 47.)

REFER

ENCIAS BIBLIOGR

AFICAS 95

Eberhart, R. C. & Shi, Y. (2000). Comparing inertia weights and constriction factors in

particle swarm optimization. In Proceedings of the Congress on Evolutionary Compu-

tation, volume 1, pag. 84–88. (Citado na p´agina 38.)

Elbeltagi, E., Hegazy, T., & Grierson, D. (2005). Comparison among ﬁve evolutionary-

based optimization algorithms. Advanced Engineering Informatics, 19(1):43–53. (Citado

nas p´aginas 35 e 38.)

Elshamy, W., Emara, H. M., & Bahgat, A. (2007). Clubs-based particle swarm optimiza-

tion. In IEEE Swarm Intelligence Symposium, pag. 289–296. (Citado nas p´aginas 36,

40, 41 e 42.)

Eshelman, L. J. & Schaﬀer, J. D. (1993). Real-coded genetic algorithms and interval-

schemata. In Whitley, L. D., editor, Foundation of Genetic Algorithms 2, pag. 187–202.

Morgan Kaufmann Publishers, San Mateo. (Citado na p´agina 33.)

Eusuﬀ, M. M. & Lansey, K. E. (2003). Optimization of water distribution network design

using the shuﬄed frog leaping algorithm. Journal of Water Resources Planning and

Management, 129(3):210–225. (Citado na p´agina 35.)

Faceli, K., Carvalho, A. C. P. L. F., & Souto, M. C. P. (2005). An´alise de dados de

express˜ao gˆenica. Technical report, Universidade de S˜ao Paulo - ICMC, S˜ao Carlos.

Relat´orio T´ecnico 250. (Citado nas p´aginas 46 e 47.)

Fahlman, S. E. (1988). Faster-learning variations on back-propagation: An empirical

study. In Proceedings of the 1988 Connectionist Models Summer School, Los Altos,

CA. Morgan Kaufmann. (Citado na p´agina 20.)

Fawcett, T. (2006). An introduction to roc analysis. Pattern Recognition Letters,

27(8):861–874. ROC Analysis in Pattern Recognition. (Citado na p´agina 12.)

Freitas, A. A. (2003). A survey of evolutionary algorithms for data mining and knowledge

discovery. In Ghosh, A. & Tsutsui, S., editors, Advances in evolutionary computing:

theory and applications, pag. 819–845. Springer-Verlag New York, Inc., New York, NY,

USA. (Citado na p´agina 35.)

Gao, L., Zhou, C., Gao, H.-B., & Shi, Y.-R. (2006). Credit scoring model based on neural

network with particle swarm optimization. In Proceedings of the Second International

Conference on Advances in Natural Computation, pag. 76–79. Springer-Verlag. (Citado

nas p´aginas 20 e 85.)

Glover, F. & Laguna, F. (1997). Tabu Search. Kluwer Academic Publishers, Norwell, MA,

USA. (Citado nas p´aginas 19 e 24.)

96 REFER

ENCIAS BIBLIOGR

AFICAS

Goldberg, D. E. & Holland, J. H. (1988). Genetic algorithms and machine learning.

Machine Learning, 3(2-3):95–99. (Citado nas p´aginas 3 e 31.)

Hagan, M. T., Demuth, H. B., & Beale, M. H. (1996). Neural Network Design. PWS

Publishing, Boston, 1 edition. (Citado na p´agina 17.)

Haslinger, C., Schweifer, N., Stilgenbauer, S., Dohner, H., Lichter, P., Kraut, N., Stratowa,

C., & Abseher, R. (2004). Microarray Gene Expression Proﬁling of B-Cell Chronic

Lymphocytic Leukemia Subgroups Deﬁned by Genomic Aberrations and VH Mutation

Status. Journal of Clinical Oncology, 22(19):3937–3949. (Citado na p´agina 46.)

Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. (Citado

nas p´aginas xxi, 3, 14, 15 e 16.)

Herrera, F., Herrera-Viedma, E., Lozano, M., & Verdegay, J. L. (1994). Fuzzy tools

to improve genetic algorithms. In Proceedings of the Second European Congress on

Intelligent Techniques and Soft Computing, pag. 1532–1539. (Citado na p´agina 33.)

Herrera, F., Lozano, M., & Verdegay, J. L. (1998). Tackling real-coded genetic algorithms:

Operators and tools for behavioural analysis. Artiﬁcial Intelligence Review, 12(4):265–

319. (Citado nas p´aginas 32, 33 e 34.)

Hintz, K. J. & Spoﬀord, J. J. (1990). Evolving a neural network. In Proceedings of the

IEEE International Symposium on Intelligent Control, pag. 479–484. (Citado na p´agina

20.)

Holland, J. (1975). Adaptation in Natural and Artiﬁcial Systems. University of Michigan

Press, Ann Arbor. (Citado nas p´aginas 24 e 31.)

Hoste, V. & Daelemans, W. (2005). Comparing learning approaches to coreference resolu-

tion. There is more to it than ’bias’. In Proceedings of the Workshop on Meta-Learning,

pag. 20–27. (Citado nas p´aginas 2, 3 e 85.)

Hsu, C.-W., Chang, C.-C., & Lin, C.-J. (2007). A Practical Guide to Support Vector

Classiﬁcation. Department of Computer Science - National Taiwan University, Taipei,

Taiwan. (Citado nas p´aginas 49, 52, 64 e 90.)

Huang, C.-L. & Wang, C.-J. (2006). A GA-based feature selection and parameters optimi-

zation for support vector machines. Expert Systems with Applications, 31(2):231–240.

(Citado nas p´aginas 19, 38 e 85.)

Hutter, F. & Hamadi, Y. (2005). Parameter adjustment based on performance predic-

tion: Towards an instance-aware problem solver. Technical report, Microsoft Research,

Redmond, WA. (Citado na p´agina 18.)

REFER

ENCIAS BIBLIOGR

AFICAS 97

Ide, A. & Yasuda, K. (2005). A basic study of adaptive particle swarm optimization.

Electrical Engineering in Japan, 151(3):41–49. (Citado nas p´aginas 42 e 90.)

Imbault, F. & Lebart, K. (2004). A stochastic optimization approach for parameter

tuning of support vector machines. In Proceedings of the 17th International Conference

on Pattern Recognition, pag. 597–600. (Citado nas p´aginas 19 e 85.)

Ishikawa, M., Yoshida, K., Yamashita, Y., Ota, J., Takada, S., Kisanuki, H., Koinuma,

K., Choi, Y. L., Kaneda, R., Iwao, T., Tamada, K., Sugano, K., & Mano, H. (2005).

Experimental trial for diagnosis of pancreatic ductal carcinoma based on gene expression

proﬁles of pancreatic ductal cells. Cancer Science, 96(7):387–393. (Citado na p´agina

46.)

Kearns, M., Mansour, Y., Ng, A. Y., & Ron, D. (1997). An experimental and theoreti-

cal comparison of model selection methods. Machine Learning, 27:7–50. (Citado nas

p´aginas 17 e 18.)

Kennedy, J. (2005). Particle swarms: optimization based on sociocognition. In Castro, L.

& Zuben, F. V., editors, Recent Development in Biologically Inspired Computing, pag.

235–269. Idea Group. (Citado na p´agina 35.)

Kennedy, J. & Eberhart, R. (1995). Particle swarm optimization. In Proceedings of the

IEEE International Conference on Neural Networks, volume 4, pag. 1942–1948, Perth,

Australia. (Citado nas p´aginas 3, 26 e 38.)

Kennedy, J. & Eberhart, R. (2001). Swarm Intelligence. Morgan Kaufmann Publishers.

(Citado na p´agina 27.)

Kim, D. H. (2002). Parameter tuning of fuzzy neural networks by immune algorithm.

In Proceedings of the IEEE International Conference on Fuzzy Systems, pag. 408–413.

(Citado na p´agina 21.)

Kirkpatrick, S., Gelatt, C. D., J., & Vecchi, M. P. (1983). Optimization by Simulated

Annealing. Science, 220(4598):671–680. (Citado na p´agina 19.)

Kohavi, R. & John, G. H. (1995). Automatic parameter selection by minimizing estimated

error. In Prieditis, A. & Russel, S., editors, Proceedings of the Twelfth International

Conference on Machine Learning, pag. 304–312, San Francisco, CA. Morgan Kaufmann.

(Citado nas p´aginas 1 e 18.)

Lacerda, E. G. M., Carvalho, A. C. P. L. F., & Ludermir, T. B. (2002). Model selection

via genetic algorithms for RBF networks. Journal of Intelligent and Fuzzy Systems,

13(2-4):111–122. (Citado na p´agina 2.)

98 REFER

ENCIAS BIBLIOGR

AFICAS

Larranaga, P., Calvo, B., Santana, R., Bielza, C., Galdiano, J., Inza, I., Lozano, J. A.,

Armananzas, R., Santafe, G., Perez, A., & Robles, V. (2006). Machine learning in

bioinformatics. Brieﬁngs in Bioinformatics, 7(1):86–112. (Citado na p´agina 10.)

Leung, F. H. F., Lam, H. K., Ling, S. H., & Tam, P. K. S. (2003). Tuning of the

structure and parameters of a neural network using an improved genetic algorithm.

IEEE Transactions on Neural Networks, 14(1):79–88. (Citado nas p´aginas 2, 20 e 85.)

Lorena, A. C. & Carvalho, A. C. P. L. F. (2006). Multiclass SVM design and parameter

selection with genetic algorithms. In Proceedings of the Ninth Brazilian Symposium on

Neural Networks, pag. 23, Washington, DC, USA. IEEE Computer Society. (Citado

nas p´aginas 2, 19 e 85.)

Louren¸co, H. R., Martin, O., & Stutzle, T. (2002). Iterated local search. In Glover, F.

& Kochenberger, G., editors, Handbook of Metaheuristics, volume 57, pag. 321–353.

Kluwer Academic Publishers. (Citado nas p´aginas 24, 42 e 90.)

Maniezzo, V., Gambardella, L. M., & Luigi, F. (2004). Ant colony optimization. In

Onwubolu, G. C. & Babu, B. V., editors, New Optimization Techniques in Engineering,

pag. 101–117. Springer-Verlag, Berlin, Heidelberg. (Citado nas p´aginas 24 e 26.)

McCulloch, W. S. & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous

activity. Bulletin of Mathematical Biophysics, 5:115–133. (Citado nas p´aginas 16 e 17.)

Meyer, D. (2001). Support vector machines. R News, 1(3):23–26. (Citado na p´agina 49.)

Mezura-Montes, E. & Lopez-Ramirez, B. C. (2007). Comparing bio-inspired algorithms in

constrained optimization problems. In IEEE Congress on Evolutionary Computation,

pag. 662–669. (Citado na p´agina 35.)

Michalewicz, Z. (1992). Genetic Algorithms + Data Structures = Evolution Programs.

Springer-Verlag. (Citado na p´agina 33.)

Michie, D., Spiegelhalter, D. J., & Taylor, C. C. (1994). Introduction. In Michie, D.,

Spiegelhalter, D. J., & Taylor, C. C., editors, Machine Learning, Neural and Statistical

Classiﬁcation. Ellis Horwood. (Citado na p´agina 47.)

Miller, G. F., Todd, P. M., & Hegde, S. U. (1989). Designing neural networks using genetic

algorithms. In Proceedings of the 3rd International Conference on Genetic Algorithms,

pag. 379–384, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. (Citado na

p´agina 20.)

Millonas, M. M. (1994). Swarms, phase transitions, and collective intelligence. In Langton,

C. G., editor, Artiﬁcial Life III, volume XVII of Santa Fe Institute Studies in the

REFER

ENCIAS BIBLIOGR

AFICAS 99

Sciences of Complexity, pag. 417–445. Addison-Wesley Longman Publishing, New York,

NY. (Citado na p´agina 24.)

Mitchell, T. M. (1982). Generalization as search. Artiﬁcial Intelligence, 18:203–266.

(Citado na p´agina 18.)

Mitchell, T. M. (1997). Machine Learning. McGraw Hill, New York. (Citado nas p´aginas

1, 7, 13 e 15.)

Monard, M. C. & Baranauskas, J. A. (2003). Conceitos sobre aprendizado de m´aquina.

In Rezende, S. O., editor, Sistemas Inteligentes: Fundamentos e Aplica¸c˜oes, cap´ıtulo 4,

pag. 89–114. Editora Manole Ltda. (Citado nas p´aginas 1, 7, 9 e 10.)

Moscato, P. (1989). On evolution, search, optimization, genetic algorithms and martial

arts: Towards memetic algorithms. Technical Report Caltech Concurrent Computation

Program 826, California Institute of Technology, Pasadena, California, USA. (Citado

na p´agina 35.)

Nadeau, C. & Bengio, Y. (2003). Inference for the generalization error. Machine Learning,

52(3):239–281. (Citado nas p´aginas 14, 50 e 54.)

Narayanan, A., Keedwell, E. C., & Olsson, B. (2002). Artiﬁcial intelligence techniques for

bioinformatics. Applied Bioinformatics, 1(4):191–222. (Citado na p´agina 16.)

Nolﬁ, S. & Floreano, D. (2004). Evolutionary Robotics: The Biology, Intelligence, and

Technology of Self-Organizing Machines. Bradford Book. (Citado na p´agina 35.)

Nutt, C. L., Mani, D. R., Betensky, R. A., Tamayo, P., Cairncross, J. G., Ladd, C., Pohl,

U., Hartmann, C., McLaughlin, M. E., Batchelor, T. T., Black, P. M., von Deimling, A.,

Pomeroy, S. L., Golub, T. R., & Louis, D. N. (2003). Gene expression-based classiﬁca-

tion of malignant gliomas correlates better with survival than histological classiﬁcation.

Cancer Research, 63(7):1602–1607. (Citado na p´agina 46.)

Perelson, A. S. & Oster, G. (1979). Theoretical studies of clonal selection: Minimal anti-

body repertoire size and reliability of self-nonself discrimination. Journal of Theoretical

Biology, 81(4):645–670. (Citado na p´agina 30.)

Phadke, M. S. (1995). Quality Engineering Using Robust Design. Prentice Hall PTR,

Upper Saddle River, NJ, USA. (Citado na p´agina 20.)

Price, K., Storn, R. M., & Lampinen, J. A. (2005). Diﬀerential Evolution: A Practical

Approach to Global Optimization (Natural Computing Series). Springer-Verlag New

York, Inc., Secaucus, NJ, USA. (Citado na p´agina 35.)

100 REFER

ENCIAS BIBLIOGR

AFICAS

Rechenberg, I. (1973). Evolutionsstrategie: optimierung technischer systeme nach prinzi-

pien der biologischen evolution. Frommann-Holzboog. (Citado na p´agina 35.)

Rifkin, R., Mukherjee, S., Tamayo, P., Ramaswamy, S., Yeang, C.-H., Angelo, M., Reich,

M., Poggio, T., Lander, E. S., Golub, T. R., & Mesirov, J. P. (2003). An analytical

method for multi-class cancer classiﬁcation. SIAM Review, 45(4):706–723. (Citado na

p´agina 82.)

Rosenbrock, H. H. (1960). An automatic method for ﬁnding the greatest or least value of

a function. The Computer Journal, 3(3):175–184. (Citado na p´agina 36.)

Rossi, A. L. D. & Carvalho, A. C. P. L. F. (2008). Bio-inspired optimization techniques

for SVM parameter tuning. In Proceedings of 10th Brazilian Symposium on Neural

Networks, pag. 435–440. IEEE Computer Society. (Citado na p´agina 89.)

Rossi, A. L. D., Carvalho, A. C. P. L. F., & Soares, C. (2008a). Bio-inspired parameter

tunning of MLP networks for gene expression analysis. In Proceedings of 8th Interna-

tional Conference on Hybrid Intelligent Systems, pag. 57–62. IEEE Computer Society.

(Citado na p´agina 89.)

Rossi, A. L. D., Soares, C., & Carvalho, A. C. P. L. F. (2008b). Bioinspired parame-

ter tuning of MLP networks for gene expression analysis: quality of ﬁtness estimates

vs number of solutions analyzed. In Proceedings of 15th International Conference on

Neuro- Information Processing of the Asia Paciﬁc Neural Network Assembly. Aceito.

(Citado na p´agina 89.)

Schaﬀer, J. D., Caruana, R. A., Eshelman, L. J., & Das, R. (1989). A study of control

parameters aﬀecting online performance of genetic algorithms for function optimization.

In Schaﬀer, J., editor, Proceedings of the Third international Conference on Genetic

Algorithms, pag. 51–60, San Francisco, CA. Morgan Kaufmann Publishers. (Citado na

p´agina 36.)

Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quantitative monitoring of

gene expression patterns with a complementary dna microarray. Science, 270:467–470.

(Citado na p´agina 47.)

Schwarz, G. (1978). Estimating the dimension of a model. In Annals of Statistics, vo-

lume 6, pag. 461–464. (Citado na p´agina 18.)

Seiﬀert, U., Hammer, B., Kaski, S., & Villmann, T. (2006). Neural networks and machine

learning in bioinformatics - theory and applications. In Proceedings of the European

Symposium on Artiﬁcial Neural Networks, pag. 521–532, Bruges, Belgium. (Citado na

p´agina 16.)

REFER

ENCIAS BIBLIOGR

AFICAS 101

Shi, Y. & Eberhart, R. (1998). A modiﬁed particle swarm optimizer. In Proceedings of the

IEEE International Conference on Evolutionary Computation, pag. 69–73, Anchorage,

Alaska. (Citado nas p´aginas 29, 36 e 38.)

Socha, K. (2004). ACO for continuous and mixed-variable optimization. In Dorigo, M.,

Birattari, M., Blum, C., Gambardella, L. M., Mondada, F., & St

utzle, T., editors,

Proceedings of the 4th International Workshop on Ant Colony Optimization, volume

3172 of Lecture Notes in Computer Science, pag. 25–36. Springer. (Citado nas p´aginas

26, 27 e 38.)

Socha, K. & Dorigo, M. (2008). Ant colony optimization for continuous domains. European

Journal of Operational Research, 185(3):1155–1173. (Citado nas p´aginas 3, 26, 27, 35,

38 e 48.)

Sousa, T., Silva, A., & Neves, A. (2004). Particle swarm based data mining algorithms

for classiﬁcation tasks. Parallel Comput., 30(5-6):767–783. (Citado na p´agina 35.)

Souto, M. C. P., Lorena, A. C., Delbem, A. C. B., & Carvalho, A. C. P. L. F. (2003).

T´ecnicas de aprendizado de m´aquina para problemas de biologia molecular. In II Jor-

nada de Atualiza¸c˜ao em Inteligˆencia Artiﬁcial, pag. 1–40, Campinas - Brasil. (Citado

nas p´aginas xix, 14, 15, 32 e 33.)

Souza, B. F. (2005). Sele¸c˜ao de caracter´ısticas em SVMs aplicadas a dados de express˜ao

gˆenica. Master’s thesis, Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao- Univer-

sidade de S˜ao Paulo, S˜ao Carlos, SP. (Citado na p´agina 47.)

Souza, B. F. & Carvalho, A. C. P. L. F. (2005). Gene selection based on multi-class

support vector machines and genetic algorithms. Genetics and Molecular Research,

4(3):599–607. (Citado nas p´aginas 19 e 85.)

Souza, B. F., Carvalho, A. C. P. L. F., Calvo, R., & Ishii, R. P. (2006). Multiclass SVM

model selection using particle swarm optimization. In Proceedings of the Sixth Interna-

tional Conference on Hybrid Intelligent Systems, pag. 31, Washington, DC, USA. IEEE

Computer Society. (Citado nas p´aginas 2, 19 e 85.)

Statnikov, A., Aliferis, C. F., Tsamardinos, I., Hardin, D., & Levy, S. (2005a). A com-

prehensive evaluation of multicategory classiﬁcation methods for microarray gene ex-

pression cancer diagnosis. Bioinformatics, 21(5):631–643. (Citado nas p´aginas 48, 64,

82 e 90.)

Statnikov, A., Tsamardinos, I., Dosbayev, Y., & Aliferis, C. F. (2005b). GEMS: A system

for automated cancer diagnosis and biomarker discovery from microarray gene expres-

sion data. International Journal of Medical Informatics, 74(7-8):491 – 503. MedInfo

2004. (Citado na p´agina 64.)

102 REFER

ENCIAS BIBLIOGR

AFICAS

Statnikov, A., Wang, L., & Aliferis, C. (2008). A comprehensive comparison of random

forests and support vector machines for microarray-based cancer classiﬁcation. BMC

Bioinformatics, 9(1):319. (Citado nas p´aginas 81, 82 e 90.)

Tan, P.-N., Steinbach, M., & Kumar, V. (2005). Introduction to data mining. Addison-

Wesley, Boston, MA, USA. (Citado na p´agina 8.)

Ter

asvirta, T., Lin, C., & Granger, C. W. J. (1993). Power of the neural network linearity

test. Journal of Time Series Analysis, 14(2):209–220. (Citado na p´agina 18.)

Trelea, I. C. (2003). The particle swarm optimization algorithm: Convergence analysis

and parameter selection. Information Processing Letters, 85(6):317–325. (Citado na

p´agina 62.)

Tsai, J.-T., Chou, J.-H., & Liu, T.-K. (2006). Tuning the structure and parameters of

a neural network by using hybrid taguchi-genetic algorithm. IEEE Transactions on

Neural Networks, 17(1):69–80. (Citado nas p´aginas 20 e 85.)

Vapnik, V. & Chervonenkis, A. (1971). On the uniform convergence of relative frequencies

of occurrence of events to their probabilities. Theory of Probability and Its Applications,

2(16):264–280. (Citado na p´agina 14.)

Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag. (Citado

na p´agina 14.)

Velculescu, V. E., Zhang, L., Vogelstein, B., & Kinzler, K. W. (1995). Serial analysis of

gene expression. Science, 270:484–487. (Citado na p´agina 47.)

Wang, J. T. L., Ma, Q., Shasha, D., & Wu, C. H. (2000). Application of neural networks to

biological data mining: A case study in protein sequence classiﬁcation. In Proceedings of

the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data

Mining, pag. 305–309, New York, NY, USA. ACM Press. (Citado na p´agina 16.)

Xu, P. & Chan, A. K. (2003). An eﬃcient algorithm on multi-class support vector machine

model selection. In Proceedings of the International Conference on Neural Networks,

pag. 3229–3232. (Citado na p´agina 18.)

Yeoh, E.-J., Ross, M. E., Shurtleﬀ, S. A., Williams, W. K., Patel, D., Mahfouz, R., Behm,

F. G., Raimondi, S. C., Relling, M. V., Patel, A., Cheng, C., Campana, D., Wilkins, D.,

Zhou, X., Li, J., Liu, H., Pui, C.-H., Evans, W. E., Naeve, C., Wong, L., & Downing,

J. R. (2002). Classiﬁcation, subtype discovery, and prediction of outcome in pediatric

acute lymphoblastic leukemia by gene expression proﬁling. Cancer Cell, 1(2):133–143.

(Citado na p´agina 46.)

REFER

ENCIAS BIBLIOGR

AFICAS 103

Yildiz, O. T. & Alpaydin, E. (2005). Model selection in omnivariate decision trees. In

Proceedings of the 16th European Conference on Machine Learning, volume 3720 of

Lecture Notes in Computer Science, pag. 473–484. Springer. (Citado na p´agina 18.)

Zhang, X. & Jiao, L. (2005). Simultaneous feature selection and parameters optimization

for SVM by immune clonal algorithm. In Wang, L., Chen, K., & Ong, Y.-S., editors,

ICNC (2), volume 3611 of Lecture Notes in Computer Science, pag. 905–912. Springer.

(Citado na p´agina 85.)

104 REFER

ENCIAS BIBLIOGR

AFICAS

Apˆendice A

Densidade das Taxas de Erro de

Valida¸c˜ao e de Teste

Neste apˆendice s˜ao apresentados os gr´aﬁcos referentes `as densidades das taxas de

erro de valida¸c˜ao e de teste para todas as combina¸c˜oes de parˆametros utilizados nos

experimentos da Se¸c˜ao 5.7. Os gr´aﬁcos exibidos nas ﬁguras de A.1 a A.4 mostram as

densidades para os conjuntos de dados utilizados nos experimentos com RNs, descritos na

Se¸c˜ao 5.7.1. Os gr´aﬁcos exibidos nas ﬁguras de A.5 a A.14 mostram as densidades para

os conjuntos de dados utilizados nos experimentos com SVMs, reportados na Se¸c˜ao 5.7.2.

105

106 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.0

0.2

0.4

0.6

0 20 40 60

partição 9

partição 10

partição 7

0.0

0.2

0.4

0.6

partição 8

0.0

0.2

0.4

0.6

partição 5

partição 6

partição 3

0.0

0.2

0.4

0.6

partição 4

0.0

0.2

0.4

0.6

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.1: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

C´olon para todas as combina¸c˜oes de valores de parˆametros para RNs.

107

Taxa de erro (%)

Densidade

0.0

0.5

1.0

1.5

0 20 40 60

partição 9

partição 10

partição 7

0.0

0.5

1.0

1.5

partição 8

0.0

0.5

1.0

1.5

partição 5

partição 6

partição 3

0.0

0.5

1.0

1.5

partição 4

0.0

0.5

1.0

1.5

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.2: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Glioma para todas as combina¸c˜oes de valores de parˆametros para RNs.

108 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.0

0.5

1.0

1.5

2.0

0 20 40 60

partição 9

partição 10

partição 7

0.0

0.5

1.0

1.5

2.0

partição 8

0.0

0.5

1.0

1.5

2.0

partição 5

partição 6

partição 3

0.0

0.5

1.0

1.5

2.0

partição 4

0.0

0.5

1.0

1.5

2.0

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.3: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia para todas as combina¸c˜oes de valores de parˆametros para RNs.

109

Taxa de erro (%)

Densidade

0.0

0.5

1.0

0 10 20 30 40 50

partição 9

partição 10

partição 7

0.0

0.5

1.0

partição 8

0.0

0.5

1.0

partição 5

partição 6

partição 3

0.0

0.5

1.0

partição 4

0.0

0.5

1.0

partição 1

0 10 20 30 40 50

partição 2

Validação

Teste

Figura A.4: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pˆancreas para todas as combina¸c˜oes de valores de parˆametros para RNs.

110 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.00

0.05

0.10

0 20 40 60

partição 9

partição 10

partição 7

0.00

0.05

0.10

partição 8

0.00

0.05

0.10

partição 5

partição 6

partição 3

0.00

0.05

0.10

partição 4

0.00

0.05

0.10

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.5: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

C´olon para todas as combina¸c˜oes de valores de parˆametros para SVMs.

111

Taxa de erro (%)

Densidade

0.00

0.02

0.04

0.06

0.08

0.10

0 20 40 60

partição 9

partição 10

partição 7

0.00

0.02

0.04

0.06

0.08

0.10

partição 8

0.00

0.02

0.04

0.06

0.08

0.10

partição 5

partição 6

partição 3

0.00

0.02

0.04

0.06

0.08

0.10

partição 4

0.00

0.02

0.04

0.06

0.08

0.10

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.6: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Glioma para todas as combina¸c˜oes de valores de parˆametros para SVMs.

112 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.00

0.01

0.02

0.03

0.04

0.05

0 20 40 60

partição 9

partição 10

partição 7

0.00

0.01

0.02

0.03

0.04

0.05

partição 8

0.00

0.01

0.02

0.03

0.04

0.05

partição 5

partição 6

partição 3

0.00

0.01

0.02

0.03

0.04

0.05

partição 4

0.00

0.01

0.02

0.03

0.04

0.05

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.7: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia para todas as combina¸c˜oes de valores de parˆametros para SVMs.

113

Taxa de erro (%)

Densidade

0.00

0.02

0.04

0.06

0.08

0 20 40 60

partição 9

partição 10

partição 7

0.00

0.02

0.04

0.06

0.08

partição 8

0.00

0.02

0.04

0.06

0.08

partição 5

partição 6

partição 3

0.00

0.02

0.04

0.06

0.08

partição 4

0.00

0.02

0.04

0.06

0.08

partição 1

0 20 40 60

partição 2

Validação

Teste

Figura A.8: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pˆancreas para todas as combina¸c˜oes de valores de parˆametros para SVMs.

114 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.00

0.02

0.04

0.06

0.08

0 20 40 60 80

partição 9

partição 10

partição 7

0.00

0.02

0.04

0.06

0.08

partição 8

0.00

0.02

0.04

0.06

0.08

partição 5

partição 6

partição 3

0.00

0.02

0.04

0.06

0.08

partição 4

0.00

0.02

0.04

0.06

0.08

partição 1

0 20 40 60 80

partição 2

Validação

Teste

Figura A.9: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Leucemia2 para todas as combina¸c˜oes de valores de parˆametros para SVMs.

115

Taxa de erro (%)

Densidade

0.00

0.05

0.10

0.15

0 20 40 60 80

partição 9

partição 10

partição 7

0.00

0.05

0.10

0.15

partição 8

0.00

0.05

0.10

0.15

partição 5

partição 6

partição 3

0.00

0.05

0.10

0.15

partição 4

0.00

0.05

0.10

0.15

partição 1

0 20 40 60 80

partição 2

Validação

Teste

Figura A.10: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

Pulm˜ao para todas as combina¸c˜oes de valores de parˆametros para SVMs.

116 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.00

0.02

0.04

0.06

0 10 20 30 40 50

partição 9

partição 10

partição 7

0.00

0.02

0.04

0.06

partição 8

0.00

0.02

0.04

0.06

partição 5

partição 6

partição 3

0.00

0.02

0.04

0.06

partição 4

0.00

0.02

0.04

0.06

partição 1

0 10 20 30 40 50

partição 2

Validação

Teste

Figura A.11: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

australian para todas as combina¸c˜oes de valores de parˆametros para SVMs.

117

Taxa de erro (%)

Densidade

0.00

0.05

0.10

0.15

10 20 30 40

partição 9

partição 10

partição 7

0.00

0.05

0.10

0.15

partição 8

0.00

0.05

0.10

0.15

partição 5

partição 6

partição 3

0.00

0.05

0.10

0.15

partição 4

0.00

0.05

0.10

0.15

partição 1

10 20 30 40

partição 2

Validação

Teste

Figura A.12: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

pima para todas as combina¸c˜oes de valores de parˆametros para SVMs.

118 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Taxa de erro (%)

Densidade

0.000

0.005

0.010

0.015

0.020

0 20 40 60 80 100

partição 9

partição 10

partição 7

0.000

0.005

0.010

0.015

0.020

partição 8

0.000

0.005

0.010

0.015

0.020

partição 5

partição 6

partição 3

0.000

0.005

0.010

0.015

0.020

partição 4

0.000

0.005

0.010

0.015

0.020

partição 1

0 20 40 60 80 100

partição 2

Validação

Teste

Figura A.13: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

segment para todas as combina¸c˜oes de valores de parˆametros para SVMs.

119

Taxa de erro (%)

Densidade

0.00

0.01

0.02

0.03

0 20 40 60 80

partição 9

partição 10

partição 7

0.00

0.01

0.02

0.03

partição 8

0.00

0.01

0.02

0.03

partição 5

partição 6

partição 3

0.00

0.01

0.02

0.03

partição 4

0.00

0.01

0.02

0.03

partição 1

0 20 40 60 80

partição 2

Validação

Teste

Figura A.14: Densidade da taxa de erro de valida¸c˜ao e de teste para o conjunto de dados

vehicle para todas as combina¸c˜oes de valores de parˆametros para SVMs.

120 A Densidade das Taxas de Erro de Valida¸c˜ao e de Teste

Apˆendice B

Curvas ROC

Neste apˆendice s˜ao apresentados os gr´aﬁcos de curva ROC para os conjuntos de dados

bin´arios utilizados nos experimentos da Se¸c˜ao 5.7. As ﬁguras de B.1 a B.4 s˜ao referentes

aos resultados obtidos nos experimentos com RNs, relatados na Se¸c˜ao 5.7.1. As ﬁguras

de B.5 a B.10 s˜ao referentes aos resultados obtidos nos experimentos com SVMs, repor-

tados na Se¸c˜ao 5.7.2.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.1: Curvas ROC para o con-

junto de dados C´olon usando RNs com

parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.2: Curvas ROC para o con-

junto de dados Glioma usando RNs com

parˆametros ajustados.

121

122 B Curvas ROC

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.3: Curvas ROC para o con-

junto de dados Leucemia usando RNs

com parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.4: Curvas ROC para o con-

junto de dados Pˆancreas usando RNs

com parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.5: Curvas ROC para o con-

junto de dados C´olon usando SVMs com

parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.6: Curvas ROC para o con-

junto de dados Glioma usando SVMs

com parˆametros ajustados.

123

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.7: Curvas ROC para o con-

junto de dados Leucemia usando SVMs

com parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.8: Curvas ROC para o con-

junto de dados Pˆancreas usando SVMs

com parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.9: Curvas ROC para o con-

junto de dados australian usando SVMs

com parˆametros ajustados.

Taxa de Falsos Positivos

Taxa de Verdadeiros Positivos

0.0 0.2 0.4 0.6 0.8 1.0

ACO

CSA

PSO

Aleatória

Padrão

Figura B.10: Curvas ROC para o con-

junto de dados pima usando SVMs com

parˆametros ajustados.

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo