Download PDF
ads:
Ajuste de parˆametros de t´ecnicas de classifica¸ao por
algoritmos bioinspirados
Andr´e Luis Debiaso Rossi
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ads:
SERVI ¸CO DE P
´
OS-GRADUA¸C
˜
AO DO ICMC–USP
Data de Dep´osito: 20 de fevereiro de 2009
Assinatura:
Ajuste de parˆametros de t´ecnicas de classifica¸ao por
algoritmos bioinspirados
Andr´e Luis Debiaso Rossi
Orientador: Prof. Dr. Andr´e Carlos Ponce de Leon Ferreira de Carvalho
Disserta¸ao apresentada ao Instituto de Ciˆencias Mate-
aticas e de Computa¸ao ICMC USP, como parte
dos requisitos para obten¸ao do t´ıtulo de Mestre em Ci-
ˆencias de Computa¸ao e Matem´atica Computacional.
USP ao Carlos
Fevereiro/2009
Dedicat´oria
Aos meus Pais, Jo˜ao e Maria.
v
Agradecimentos
Em primeiro lugar gostaria de agradecer a Deus, por estar sempre ao presente em
minha vida.
Ao meu orientador Prof. Dr. Andr´e Carvalho, pela orienta¸ao durante os dois anos de
mestrado, pela ajuda nesta disserta¸ao, por proporcionar as condi¸oes necess´arias para o
desenvolvimento deste trabalho, pela confian¸ca depositada em mim, pelos momentos de
positivismo e pela amizade.
Ao Prof. Dr. Carlos Soares do LIAAD, Porto - Portugal, pela contribui¸ao com este
trabalho, pela recep¸ao em Porto e pelo seu entusiasmo como pesquisador.
Aos meus pais Jo˜ao e Maria Inˆes, pelo amor incondicional e pelo exemplo de honesti-
dade e humildade.
Aos meus irm˜aos Fl´avio, Regina e Ana Elisa, pelas brincadeiras e por estarem sempre
prontos para ajudar.
`
A minha namorada Joyce, pelo apoio, demonstra¸oes de amor e pelo seu sorriso, que
me faz ao bem.
Aos meus familiares, que me apoiam desde a gradua¸ao.
Aos amigos e professores do BIOCOMP e do LABIC, pelo acolhimento, pelos ensi-
namentos e tamb´em pelos momentos de descontra¸ao. Em especial `a Ronaldo Cristiano
Prati, pelos algoritmos dos testes estat´ısticos e pela ajuda com o L
A
T
E
X, `a Ana Carolina
Lorena, pela ajuda e corre¸oes do projeto que se tornaria este trabalho e `a Bruno Feres
de Souza, pelos conjuntos de dados e ensinamentos.
Aos amigos com quem morei, mesmo que por pouco tempo, durante esses dois anos
em ao Carlos: abio, Vin´ıcius e egis, pelo incentivo e companheirismo.
A todos os funcion´arios do ICMC da USP, pela competˆencia e dedica¸ao.
`
A FAPESP e ao CNPq, pelo apoio financeiro para a realiza¸ao deste estudo.
vii
Resumo
Aprendizado de aquina ´e uma ´area de pesquisa na qual se investiga como desenvol-
ver sistemas capazes de aprender com a experiˆencia. Muitos algoritmos de aprendizado
possuem parˆametros cujos valores devem ser especificados pelo usu´ario. Em geral, esses
valores influenciam diretamente no processo de aquisi¸ao do conhecimento, podendo gerar
diferentes modelos. Recentemente, algoritmos de otimiza¸ao bioinspirados tˆem sido apli-
cados com sucesso no ajuste de parˆametros de t´ecnicas de aprendizado de m´aquina. Essas
t´ecnicas podem apresentar diferentes sensibilidades em rela¸ao aos valores escolhidos para
seus parˆametros e diferentes algoritmos de ajuste de parˆametros podem apresentar desem-
penhos singulares. Esta disserta¸ao investiga a utiliza¸ao de algoritmos bioinspirados para
o ajuste de parˆametros de redes neurais artificiais e aquinas de vetores de suporte em
problemas de classifica¸ao. O objetivo dessa investiga¸ao ´e verificar quais ao as t´ecnicas
que mais se beneficiam do ajuste de parˆametros e quais ao os algoritmos mais eficientes
para essas t´ecnicas. Os resultados experimentais mostram que os algoritmos bioinspirados
conseguem encontrar melhores clasificadores que outras abordagens. Por´em, essa melho-
ria ´e estatisticamente significativa apenas para alguns conjuntos de dados. Foi poss´ıvel
verificar que o uso dos valores padr˜ao para os parˆametros das ecnicas de classifica¸ao
leva a desempenhos similares aos obtidos com os algoritmos bioinspirados. Entretanto,
para alguns conjuntos de dados, o ajuste de parˆametros pode melhorar significativamente
o desempenho de um classificador.
ix
Abstract
Machine learning is a research area whose main goal is to design computational
systems capable of learning through experience. Many machine learning te-
chniques have free parameters whose values are generally defined by the user.
Usually, these values directly affect the knowledge acquisition process directly,
resulting in different models. Recently, bioinspired optimization algorithms
have been successfully applied to the parameter tuning of machine learning
techniques. These techniques may present variable sensitivity to the selection
of the values of its parameters and different parameter tuning algorithms may
present different behaviors. This thesis investigates the use of bioinspired al-
gorithms for the parameter tuning of artificial neural networks and support
vector machines in classification problems. The goal of this thesis is to investi-
gate which techniques benefits most from parameter tuning and which are the
most efficient algorithms to use with these techniques. Experimental results
show that these bioinspired algorithms can find better classifiers when compa-
red to other approaches. However, this improvement is statistically significant
only to some datasets. It was possible to verify that the use of standard para-
meter values for the classification techniques leads to similar performances to
those obtained with the bioinspired algorithms. However, for some datasets,
the parameter tuning may significantly improve a classifier performance.
xi
Esta disserta¸ao foi preparada com o formatador de textos L
A
T
E
X. A bibliografia ´e
gerada automaticamente pelo BibT
E
X, utilizando o estilo apalike com modifica¸oes para
o portuguˆes. O estilo utilizado no documento e as modifica¸oes no estilo apalike foram
desenvolvidos por Ronaldo Cristiano Prati.
c
Copyright 2009 Andr´e Luis Debiaso Rossi
Todos os Direitos Reservados
xiii
Sum´ario
Dedicat´oria v
Agradecimentos vii
Resumo ix
Abstract xi
Sum´ario xv
Lista de Abreviaturas xvii
Lista de Figuras xix
Lista de Tabelas xxi
Lista de Algoritmos xxv
1 Introdu¸ao 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 M´etodos e ecnicas Investigadas . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Principais Resultados Experimentais . . . . . . . . . . . . . . . . . . . . . 4
1.5 Organiza¸ao do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Aprendizado de aquina 7
2.1 Classifica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Problemas de Classifica¸ao em Bioinform´atica . . . . . . . . . . . . 9
2.1.2 Avalia¸ao de Classificadores . . . . . . . . . . . . . . . . . . . . . . 10
2.2 aquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Sele¸ao de Modelo e Ajuste de Parˆametros . . . . . . . . . . . . . . . . . . 17
2.5 Considera¸oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
xv
3 Computa¸ao Natural 23
3.1 Inteligˆencia de Enxames . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Otimiza¸ao por Colˆonia de Formigas . . . . . . . . . . . . . . . . . 25
3.1.2 Otimiza¸ao por Enxame de Part´ıculas . . . . . . . . . . . . . . . . 26
3.2 Sistema Imunol´ogico Artificial . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Algoritmos Gen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Considera¸oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Experimentos com Fun¸oes de Benchmark 35
4.1 Fun¸oes de Benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Algoritmos Bioinspirados Implementados . . . . . . . . . . . . . . . . . . . 38
4.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Considera¸oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Experimentos de Ajuste de Parˆametros 45
5.1 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Algoritmos Bioinspirados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 T´ecnicas de Classifica¸ao Investigadas . . . . . . . . . . . . . . . . . . . . . 49
5.4 Avalia¸ao dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5 M´etodo Experimental A: Ajuste de Parˆametros de SVMs . . . . . . . . . . 51
5.6 M´etodo Experimental B: Ajuste de Parˆametros de RNs . . . . . . . . . . . 55
5.7 M´etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs . . . . . . 64
5.7.1 Resultados do Ajuste de Parˆametros de RNs com o etodo Expe-
rimental C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.7.2 Resultados do Ajuste de Parˆametros de SVMs com o M´etodo Ex-
perimental C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.7.3 Compara¸ao entre RNs e SVMs no Dom´ınio de Express˜ao Gˆenica . 81
5.8 Considera¸oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 Conclus˜ao 85
6.1 Principais Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Contribui¸oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.3 Limita¸oes, Problemas Encontrados e Trabalhos Futuros . . . . . . . . . . 89
Referˆencias Bibliogr´aficas 91
A Densidade das Taxas de Erro de Valida¸ao e de Teste 105
B Curvas ROC 121
Lista de Abreviaturas
ACO Otimiza¸ao por Colˆonia de Formigas (do inglˆes, Ant Colony Optimization)
AD
´
Arvore de Decis˜ao
AG Algoritmo Gen´etico
Ag Ant´ıgeno (do inglˆes, Antigen)
AIC Akaike Information Criterion
AM Aprendizado de aquina
AUC
´
Area sob uma Curva ROC (do inglˆes, Area Under an ROC Curve)
BSS Between-groups Sum of Squares
CE Computa¸ao Evolutiva
CSA Algoritmo de Sele¸ao Clonal (do inglˆes, Clonal Selection Algorithm)
CV Valida¸ao Cruzada (do inglˆes, Cross-validation)
DNA
´
Acido Desoxirribonucl´eico (do inglˆes, Desoxyribonucleic Acid)
FDP Fun¸ao de Densidade de Probabilidade
FN Falso Negativo
FP Falso Positivo
HTGA hybrid Taguchi-Genetic Algorithm
IA Algoritmo Imunol´ogico (do inglˆes, Immune Algorithm)
IC Inteligˆencia Computacional
McESE MacMaster Expert System Environment
MLP Perceptron multi-camadas (do inglˆes, Multi-Layer Perceptron)
xvii
mRNA
´
Acido Ribonucl´eico mensageiro (do inglˆes, Messenger Ribonucleic Acid)
PDB Protein Data Bank
PIR Protein Information Resource
PSO Otimiza¸ao por Enxame de Part´ıculas (do inglˆes, Particle Swarm Optimization)
RBF Func˜ao de Base Radial (do inglˆes, Radial Basis Function)
RF Random Forests
RN Rede Neural Artificial
RNA
´
Acido Ribonucl´eico (do inglˆes, Ribonucleic Acid)
ROC Receiver Operating Characteristics
SAGE Serial Analysis of Genes Expression
SCOP Structural Classification of Protein
SI Sistema Imunol´ogico
SIA Sistema Imunol´ogico Artificial
SVM aquina de Vetores de Suporte (do inglˆes, Support Vector Machine)
TFP Taxa de Falsos Positivos
TNoM Threshold Number of Misclassification
TVP Taxa de Verdadeiros Positivos
UCI University of California - Irvine
VN Verdadeiro Negativo
VP Verdadeiro Positivo
WEKA Waikato Environment for Knowledge Analysis
WSS Within-groups Sum of Squares
Lista de Figuras
2.1 Diagrama do processo de indu¸ao de um classificador e sua utiliza¸ao na
dedu¸ao de novos exemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Exemplo de curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 A id´eia do hiperplano ´otimo para exemplos linearmente separ´aveis. . . . . 15
2.4 Neurˆonio artificial e o esquema de uma rede feed-forward. . . . . . . . . . . 17
3.1 Formigas em busca de alimento. Ao passar do tempo, o menor caminho
possuir´a a maior quantidade de feromˆonio depositado. . . . . . . . . . . . . 25
3.2 Representa¸ao da vizinhan¸ca topol´ogica para part´ıculas. . . . . . . . . . . 28
3.3 Representa¸ao da vizinhan¸ca global (`a esquerda) e local (`a direita). . . . . 28
3.4 Representa¸ao de um cromossomo bin´ario em um AG. . . . . . . . . . . . . 31
3.5 Operador gen´etico de crossover de um ponto (Souto et al., 2003). . . . . . 32
3.6 Operador gen´etico de muta¸ao (Souto et al., 2003). . . . . . . . . . . . . . 33
4.1 Gr´afico das fun¸oes de benchmark utilizadas. . . . . . . . . . . . . . . . . . 37
4.2 Convergˆencia dos algoritmos bioinspirados para fun¸oes unimodais. . . . . 41
4.3 Convergˆencia dos algoritmos bioinspirados para fun¸oes multimodais. . . . 43
5.1 M´etodo Experimental A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 M´etodo Experimental B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Representa¸ao de um indiv´ıduo para ajuste de parˆametros de RNs. . . . . 57
A.1 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
olon para todas as combina¸oes de valores de parˆametros para RNs. . . . 106
A.2 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Glioma para todas as combina¸oes de valores de parˆametros para RNs. . . 107
A.3 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia para todas as combina¸oes de valores de parˆametros para RNs. . 108
A.4 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
ancreas para todas as combina¸oes de valores de parˆametros para RNs. . 109
A.5 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
olon para todas as combina¸oes de valores de parˆametros para SVMs. . . 110
xix
A.6 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Glioma para todas as combina¸oes de valores de parˆametros para SVMs. . 111
A.7 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia para todas as combina¸oes de valores de parˆametros para SVMs. 112
A.8 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
ancreas para todas as combina¸oes de valores de parˆametros para SVMs. 113
A.9 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia2 para todas as combina¸oes de valores de parˆametros para SVMs. 114
A.10 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Pulm˜ao para todas as combina¸oes de valores de parˆametros para SVMs. . 115
A.11 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
australian para todas as combina¸oes de valores de parˆametros para SVMs. 116
A.12 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
pima para todas as combina¸oes de valores de parˆametros para SVMs. . . 117
A.13 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
segment para todas as combina¸oes de valores de parˆametros para SVMs. . 118
A.14 Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
vehicle para todas as combina¸oes de valores de parˆametros para SVMs. . . 119
B.1 Curvas ROC para o conjunto de dados olon usando RNs com parˆametros
ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.2 Curvas ROC para o conjunto de dados Glioma usando RNs com parˆametros
ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.3 Curvas ROC para o conjunto de dados Leucemia usando RNs com parˆa-
metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.4 Curvas ROC para o conjunto de dados ancreas usando RNs com parˆame-
tros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.5 Curvas ROC para o conjunto de dados olon usando SVMs com parˆametros
ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.6 Curvas ROC para o conjunto de dados Glioma usando SVMs com parˆame-
tros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.7 Curvas ROC para o conjunto de dados Leucemia usando SVMs com parˆa-
metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B.8 Curvas ROC para o conjunto de dados ancreas usando SVMs com parˆa-
metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B.9 Curvas ROC para o conjunto de dados australian usando SVMs com parˆa-
metros ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B.10 Curvas ROC para o conjunto de dados pima usando SVMs com parˆametros
ajustados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Lista de Tabelas
2.1 Conjunto de dados para o diagn´ostico da sa´ude de pacientes. . . . . . . . . 8
2.2 Matriz de confus˜ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Principais kernels utilizados nas SVMs (Haykin, 1999). . . . . . . . . . . . 16
4.1 Fun¸oes de benchmark utilizadas para verifica¸ao da funcionalidade e de-
sempenho dos algoritmos bioinspirados investigados. . . . . . . . . . . . . . 36
4.2 Valores para os parˆametros dos algoritmos bioinspirados. . . . . . . . . . . 39
4.3 Resultados para cada algoritmo bioinspirado para as fun¸oes unimodais
ap´os 10 000 itera¸oes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Resultados para cada algoritmo bioinspirado para as fun¸oes multimodais
ap´os 10 000 itera¸oes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1 Conjuntos de dados utilizados nos experimentos. . . . . . . . . . . . . . . . 46
5.2 Valores para os parˆametros dos algoritmos bioinspirados. . . . . . . . . . . 49
5.3 olon - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados olon (em %). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4 Glioma - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados Glioma (em %). . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.5 Leucemia - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o
conjunto de dados Leucemia (em %). . . . . . . . . . . . . . . . . . . . . . 53
5.6 ancreas - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o
conjunto de dados ancreas (em %). . . . . . . . . . . . . . . . . . . . . . 54
5.7 Intervalos de valores encontrados para os parˆametros γ e C. . . . . . . . . 54
5.8 olon - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e n´umero
de diferentes combina¸oes testadas para o conjunto de dados olon. . . . . 59
5.9 Glioma - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma. 60
5.10 Leucemia - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %)
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
xxi
5.11 ancreas - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %)
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
ancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.12 An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de vali-
da¸ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.13 Ranking M´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 62
5.14 Estat´ısticas dos melhores valores de parˆametros encontrados para o con-
junto de valida¸ao para todos os algoritmos bioinspirados. . . . . . . . . . 63
5.15 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.16 olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados olon. 67
5.17 Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma. 67
5.18 Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e o n´umero de diferentes combina¸oes testadas para o conjunto de dados
Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.19 ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e o n´umero de diferentes combina¸oes testadas para o conjunto de dados
ancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.20 olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados olon. 68
5.21 Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma. 68
5.22 Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e o n´umero de diferentes combina¸oes testadas para o conjunto de dados
Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.23 ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e o n´umero de diferentes combina¸oes testadas para o conjunto de dados
ancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.24 Correla¸ao das taxas de erro de valida¸ao e de teste para todas as combi-
na¸oes de parˆametros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.25 An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de vali-
da¸ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.26 Ranking M´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 71
5.27 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.28 Estat´ısticas dos melhores valores de parˆametros encontrados por todos os
algoritmos bioinspirados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.29
´
Area abaixo da curva ROC para classificadores gerados utilizando valores
dos parˆametros cuja taxa de erro mais se aproxima da edia. . . . . . . . 73
5.30 olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e n´umero
de diferentes combina¸oes testadas para o conjunto de dados olon. . . . . 74
5.31 Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma. 74
5.32 Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
Leucemia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.33 ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
ancreas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.34 Leucemia2 - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
Leucemia2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.35 Pulm˜ao - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Pulm˜ao. 75
5.36 Australian - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
Australian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.37 Pima-indians-diabetes - taxa de erro de valida¸ao e de teste (em %), desvio
padr˜ao e n´umero de diferentes combina¸oes testadas para o conjunto de
dados Pima-indians-diabetes. . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.38 Segment - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao
e n´umero de diferentes combina¸oes testadas para o conjunto de dados
Segment. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.39 Vehicle - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Vehicle. 76
5.40 An´alise estat´ıstica - teste–t pareado corrigido (conjunto de dados de teste). 78
5.41 Ranking m´edio usando o teste de Friedman. . . . . . . . . . . . . . . . . . 78
5.42 Correla¸ao das taxas de erro de valida¸ao e de teste para todas as combi-
na¸oes de parˆametros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.43 Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.44 Estat´ısticas dos melhores valores de parˆametros encontrados por todos os
algoritmos bioinspirados (2
v
, em que v ´e o valor encontrado para o parˆametro). 80
5.45
´
Area abaixo da curva ROC para classificadores gerados utilizando valores
dos parˆametros cuja taxa de erro mais se aproxima da edia. . . . . . . . 81
5.46 Compara¸ao entre RNs e SVMs para classifica¸ao de dados de express˜ao
gˆenica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Lista de Algoritmos
1 Algoritmo ACO
R
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Algoritmo PSO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3 Algoritmo CLONALG para problemas de otimiza¸ao. . . . . . . . . . . . . 31
4 Algoritmo Gen´etico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 M´etodo experimental C para ajuste de parˆametros. . . . . . . . . . . . . . 65
xxv
Cap´ıtulo 1
Introdu¸ao
Neste trabalho foi investigada a utiliza¸ao de algoritmos computacionais inspirados na
natureza, ou bioinspirados, para ajustar os valores dos parˆametros livres de ecnicas de
Aprendizado de aquina (AM). Foi realizada uma compara¸ao entre abordagens cl´assicas
e os algoritmos bioinspirados para o ajuste de paametros, avaliando o desempenho obtido
pelas ecnicas de AM na classifica¸ao de dados, principalmente do dom´ınio de express˜ao
gˆenica.
Com o passar dos anos, a computa¸ao tem sido utilizada para solucionar problemas
das mais diversas ´areas do conhecimento. Por´em, algoritmos e linguagens de programa¸ao
cl´assicas n˜ao s˜ao capazes de solucionar muitos problemas advindos das novas necessidades
de utiliza¸ao dos computadores. O surgimento da ´area de Inteligˆencia Computacional
(IC), criou in´umeras expectativas. Entretanto, em arias situa¸oes, os resultados obtidos
ficaram muito aqu´em dos esperados.
Aprendizado de aquina ´e uma ´area de pesquisa que estuda como desenvolver siste-
mas capazes de adquirir conhecimento de forma autom´atica. A forma de obten¸ao desse
conhecimento ´e o que leva pesquisadores dessa ´area a desenvolverem t´ecnicas computacio-
nais que tornam poss´ıvel o aprendizado (Monard & Baranauskas, 2003). ecnicas de AM
tˆem alcan¸cado grande sucesso na execu¸ao de tarefas espec´ıficas, como reconhecimento da
fala, minera¸ao de dados, reconhecimento de padr˜oes, al´em de muitas outras (Mitchell,
1997). Na Bioinform´atica, as ecnicas de AM tˆem sido amplamente utilizadas em proble-
mas como reconhecimento de genes, an´alise de express˜ao enica e predi¸ao da estrutura
de prote´ınas. A an´alise de dados biol´ogicos desperta grande interesse da comunidade
cient´ıfica por auxiliar a cria¸ao de novas drogas e tratamentos para doen¸cas.
Grande parte dos algoritmos de AM possuem parˆametros cujos valores devem ser
especificados pelo usu´ario. Os valores para esses parˆametros livres, em geral, influenciam
diretamente no desempenho de modelos induzidos (Kohavi & John, 1995). O problema
de encontrar os melhores valores para os parˆametros livres ´e denominado de ajuste de
parˆametros. A utiliza¸ao de etodos de busca exaustiva pode tornar-se impratic´avel,
devido ao n´umero de parˆametros e ao grande n´umero de poss´ıveis valores para alguns
1
2 1 Introdu¸ao
parˆametros.
Diferentes algoritmos e etodos ao utilizados para o ajuste de valores de parˆametros
de t´ecnicas de AM, como algoritmos de busca exaustiva e etodos tradicionais de otimi-
za¸ao. Atualmente, como uma alternativa a esses etodos, algoritmos bioinpirados ao
empregados para o ajuste de parˆametros. Esses algoritmos fazem parte de uma ´area deno-
minada Computa¸ao Natural, a qual ´e formada por trˆes frentes de estudo: a inspira¸ao na
natureza para desenvolvimento de novas t´ecnicas computacionais; a simula¸ao e emula¸ao
de fenˆomenos naturais e a utiliza¸ao de novos materiais para realizar computa¸ao (Castro,
2007).
Na Se¸ao 1.1 ´e apresentada a motivao para a realiza¸ao deste estudo. Os objetivos
ao descritos na Se¸ao 1.2. Na Se¸ao 1.3 ao apresentados os etodos e as ecnicas inves-
tigadas. Na Se¸ao 1.4 ao mostrados os principais resultados obtidos nos experimentos.
Por ´ultimo, na Se¸ao 1.5, ´e descrita a organiza¸ao geral dessa disserta¸ao.
1.1 Motivao
A influˆencia dos valores dos parˆametros livres no desempenho de ecnicas de AM tˆem
levado pesquisadores a desenvolverem diferentes algoritmos e t´ecnicas a fim de melhorar
o desempenho obtido, reduzir o custo computacional e automatizar o processo de ajuste
de parˆametros.
Para RNs, por exemplo, Basheer & Hajmeer (2000) afirmam que bons valores para os
parˆametros s˜ao encontrados, geralmente, por meio de tentativa e erro. Segundo os autores,
a escolha de valores para os parˆametros do algoritmo de aprendizado backpropagation para
RNs influencia na convergˆencia do aprendizado e no desempenho geral da rede.
Diversos trabalhos que utilizam algoritmos bioinspirados com o objetivo de ajustar os
parˆametros de t´ecnicas de AM j´a foram publicados. Chunhong & Licheng (2004) e Lorena
& Carvalho (2006) utilizaram algoritmos gen´eticos para ajustar os parˆametros de aqui-
nas de vetores de suporte, enquanto que Souza et al. (2006) utilizaram otimiza¸ao por
enxame de part´ıculas para a mesma ecnica de AM. Em Lacerda et al. (2002) e Leung
et al. (2003) os autores ajustaram os parˆametros de redes neurais utilizando algoritmos
gen´eticos.
Contudo, ao ´e do nosso conhecimento trabalhos comparando resultados entre dife-
rentes ecnicas bioinspiradas aplicadas `a diferentes ecnicas de AM. O ´unico trabalho
encontrado na literatura que compara algoritmos gen´eticos para ajustar parˆametros de
dois algoritmos de AM, TIMBL (Daelemans et al., 2002) e RIPPER (Cohen, 1995) foi
de Hoste & Daelemans (2005).
Diferentes ecnicas de AM podem apresentar diferentes sensibilidades referentes `a es-
colha dos valores de seus parˆametros. Da mesma maneira, diferentes m´etodos para ajustar
esses parˆametros podem apresentar desempenhos distintos. Tendo essas afirma¸oes como
1.2 Objetivos 3
verdadeiras, seria interessante avaliar a utiliza¸ao de diferentes etodos para ajuste de
parˆametros de diferentes ecnicas de AM.
1.2 Objetivos
Neste estudo foi investigada a utiliza¸ao de algoritmos bioinspirados para o ajuste dos
valores dos parˆametros livres de t´ecnicas de AM. Este trabalho tem os seguintes objetivos:
verificar se a otimiza¸ao dos valores dos parˆametros de diferentes t´ecnicas de AM
faz com que essas apresentem desempenhos semelhantes. Como as t´ecnicas possuem
diferentes vi´es indutivos, espera-se que isso ao ocorra;
verificar se os algoritmos de otimiza¸ao bioinspirados possuem desempenhos seme-
lhantes na otimiza¸ao dos valores dos parˆametros livres. Pela mesma raz˜ao anterior,
tamb´em espera-se que isso ao ocorra;
comparar os resultados obtidos por algoritmos de otimiza¸ao bioinspirados com ou-
tros etodos para esse problema, como valores padr˜oes para os parˆametros e busca
exaustiva;
verificar quais ao as t´ecnicas de AM que mais se beneficiam do ajuste de parˆametros
e quais m´etodos de ajuste se mostram mais eficientes para diferentes ecnicas de AM.
1.3 M´etodos e T´ecnicas Investigadas
Neste trabalho, quatro algoritmos bioinspirados s˜ao aplicados para ajustar os parˆame-
tros de duas t´ecnicas de AM. Os algoritmos s˜ao baseados em: Otimiza¸ao por Enxame de
Part´ıculas (PSO, do inglˆes, Particle Swarm Optimization) (Kennedy & Eberhart, 1995),
Algoritmo de Sele¸ao Clonal (CSA, do inglˆes, Clonal Selection Algorithm) (Castro &
Von-Zuben, 2002), que faz parte dos Sistemas Imunol´ogicos Artificiais (SIAs) (Castro &
Timmis, 2002), Otimiza¸ao por Colˆonia de Formigas (ACO, do inglˆes, Ant Colony Opti-
mization) (Socha & Dorigo, 2008) e Algoritmos Gen´eticos (AGs) (Goldberg & Holland,
1988). O ajuste de parˆametros ser´a realizado para as ecnicas: aquinas de Vetores de
Suporte (SVMs, do inglˆes, Support Vector Machines) (Cristianini & Shawe-Taylor, 2000)
e Redes Neurais Artificiais (RNs) (Haykin, 1999). Os classificadores ao gerados para
diferentes conjuntos de dados de express˜ao enica. Al´em disso, conjuntos de dados do
reposit´orio da Universidade da Calif´ornia - Irvine (UCI, do inglˆes, University of Califor-
nia - Irvine) (Asuncion & Newman, 2007) foram utilizados em alguns experimentos.
´
E
importante utilizar mais de um conjunto de dados nas compara¸oes para ao estar sujeito
`a tendˆencia de um conjunto em particular, como adverte Hoste & Daelemans (2005). O
4 1 Introdu¸ao
desempenho obtido pelos classificadores gerados com o ajuste de parˆametros realizado
pelos algoritmos bioinspirados ao comparados empiricamente com outras abordagens.
Foram desenvolvidos trˆes etodos experimentais para o ajuste de parˆametros. Os trˆes
m´etodos representam uma evolu¸ao nos etodos experimentais para se obter estimativas
de desempenho de classifica¸ao confi´aveis e evitar o uso indireto dos dados do conjunto
de teste no processo de busca dos algoritmos bioinspirados. O primeiro etodo desenvol-
vido, denominado de M´etodo Experimental A, foi aplicado apenas `a SVMs e o segundo,
denominado etodo Experimental B, apenas `a RNs. Os dois etodos possuiam vi´es no
processo de ajuste, pois usavam indiretamente dados utilizados na estimativa do erro real
do classificador. Portanto, um novo etodo foi proposto. Este, utiliza um procedimento
de valida¸ao cruzada aninhado que permite realizar o ajuste de parˆametros e a estima-
¸ao final do classificador simultaneamente, sem o vi´es existente nos outros dois etodos.
Por´em, a a desvantagem de ter um custo computacional mais elevado.
Nos experimentos com os trˆes etodos desenvolvidos, foram realizadas compara¸oes
utilizando os algoritmos bioinspirados implementados e duas abordagens de referˆencia. A
abordagem Padr˜ao, utilizada em todos os experimentos, usa valores estabelecidos pela im-
plementa¸ao da t´ecnica de AM para os parˆametros livres. A outra abordagem, utilizada
no m´etodo experimental A, usa um algoritmo de ajuste da biblioteca que implementa
as SVMs. Esse algoritmo, denominado grid search, realiza uma busca pararela em uma
grade. Para os m´etodos experimentais B e C, al´em da Padr˜ao, ´e usada uma abordagem
denominada Aleat´oria, que gera um determinado n´umero de valores aleat´orios para os
parˆametros, dentro de intervalos definidos. O n´umero de valores gerados ´e aproximada-
mente igual ao n´umero de avalia¸oes que os algoritmos bioinspirados realizam da fun¸ao
de aptid˜ao.
1.4 Principais Resultados Experimentais
No m´etodo experimental A, os algoritmos bioinspirados conseguiram as menores taxas
de erro de valida¸ao (processo de estima¸ao do erro de teste utilizado no ajuste de parˆa-
metros) para trˆes, dos quatro conjuntos de dados de express˜ao gˆenica utilizados. Por´em,
a melhoria obtida na taxa de erro de valida¸ao ao foi refletida em melhoria para o erro
de teste. Isso foi comprovado por meio do teste estat´ıstico de Friedman (Demˇsar, 2006),
que apontou que os algoritmos e as abordagens possuem desempenhos estatisticamente
semelhantes.
Para os m´etodos experimentais B e C, os valores de parˆametros foram discretizados
para um intervalo definido e os resultados foram armazenados em uma estrutura de dados
apropriada. Dessa maneira, ´e poss´ıvel extrair informa¸oes que auxiliam na an´alise dos
resultados obtidos, como a correla¸ao entre as taxas de erro de valida¸ao e de teste.
Para o etodo experimental B, essas taxas ao altamente correlacionadas para os quatro
1.5 Organiza¸ao do Texto 5
conjuntos de dados utilizados, o que indica que a taxa de erro de valida¸ao ´e uma boa
estimativa para os algoritmos bioinspirados guiarem suas buscas. O desempenho obtido
pelos classificadores gerados com os parˆametros ajustados pelos algoritmos bioinspirados
foi melhor do que as abordagens de referˆencia. O algoritmo ACO conseguiu a menor taxa
de erro de valida¸ao para trˆes, dos quatro conjuntos de dados. Por´em, essa melhoria foi
pequena e ao refletiu em melhorias para as taxas de erro de teste. O teste de Friedman
encontrou diferen¸cas significativas apenas para as taxas de erro de valida¸ao, em que o
algoritmo ACO foi melhor do que a abordagem Padr˜ao. Outras diferen¸cas significativas
para o conjunto de valida¸ao foram encontradas com o teste-t pareado corrigido.
O ajuste de parˆametros com o m´etodo experimental C foi realizado para RNs e SVMs.
Para os experimentos com RNs, foram utilizados quatros conjuntos de dados de express˜ao
gˆenica. O ACO conseguiu as menores taxas de erro de valida¸ao para os quatro conjuntos.
Por´em, isso ao se refletiu para as taxas de erro de teste, em que diferentes algoritmos e
abordagens conseguiram os menores valores. O teste de Friedman encontrou diferen¸cas
significativas apenas para as taxas de erro de valida¸ao, em que o ACO e a abordagem
Aleat´oria foram melhores do que a abordagem Padr˜ao. Para os experimentos com SVMs,
foram utilizados seis conjuntos de dados de express˜ao gˆenica e quatro conjuntos do repo-
sit´orio UCI. Em geral, o algoritmo PSO e a abordagem Padr˜ao conseguiram as menores
taxas de erro de valida¸ao e de teste. A correla¸ao para conjuntos de dados com muitos
exemplos foi maior do que para pequenos conjuntos. Al´em disso, as correla¸oes entre as
taxas de erro de teste e de valida¸ao foram maiores para as SVMs do que para as RNs.
O teste-t pareado corrigido encontrou diferen¸cas significativas para algumas compara¸oes
e conjuntos de dados. O teste de Friedman apenas detectou diferen¸cas significativas para
as taxas de erro de valida¸ao. O algoritmo PSO e a abordagem Aleat´oria foram melhores
que a abordagem Padr˜ao e o algoritmo AG. Os algoritmos CSA e ACO tamb´em foram
melhores que a abordagem Padr˜ao.
Na compara¸ao entre RNs e SVMs para classifica¸ao de dados de express˜ao enica, as
SVMs conseguiram os melhores resultados para os quatro conjuntos de dados. A menor
diferen¸ca entre as taxas de erro foi de 0.7%, para o conjunto Glioma, e a maior de 7.2%,
para o conjunto Leucemia. Devido ao vi´es de sele¸ao de atributos nos experimentos reali-
zados, ao ´e poss´ıvel obter conclus˜oes com a compara¸ao realizada. Por´em, os resultados
apontam para o melhor desempenho das SVMs.
1.5 Organiza¸ao do Texto
No Cap´ıtulo 2 ao introduzidos os principais conceitos de AM necess´arios para a com-
preens˜ao deste trabalho. O desempenho das t´ecnicas de AM ser´a avaliado, principalmente,
por meio da classifica¸ao de dados de express˜ao gˆenica. Assim, na primeira se¸ao, ´e apre-
sentado o problema de classifica¸ao e a avalia¸ao de classificadores. Nas duas se¸oes
6 1 Introdu¸ao
seguintes ao introduzidas as t´ecnicas de classifica¸ao SVMs e RNs. Na pr´oxima se¸ao
ao apresentados o problema de sele¸ao de modelo e de ajuste de parˆametros. Na ´ultima
se¸ao ao feitas algumas considera¸oes finais sobre o conte´udo abordado.
No Cap´ıtulo 3 a Computa¸ao Natural ´e introduzida; ´area `a qual pertencem os algo-
ritmos bioinspirados que ser˜ao utilizados no ajuste dos valores dos parˆametros livres das
t´ecnicas de AM apresentadas no Cap´ıtulo 2. Nas se¸oes seguintes ao apresentados os
quatro algoritmos bioinspirados utilizados, ou seja, ACO, PSO, CSA e AGs. Na ´ultima
se¸ao ao feitas algumas as considera¸oes finais sobre esse cap´ıtulo.
No Cap´ıtulo 4 ao descritos os experimentos para fun¸oes de benchmark. Antes de
utilizar o algoritmos bioinspirados implementados para o ajuste de parˆametros, eles foram
aplicados `as fun¸oes de benchmark para verificar suas funcionalidades. Primeiramente s˜ao
descritas as fun¸oes utilizadas. Em seguida, ao apresentados os algoritmos implementados
e seus parˆametros. Na pr´oxima se¸ao ao apresentados os resultados obtidos. Na ´ultima
se¸ao, ao feitas algumas considera¸oes finais.
No Cap´ıtulo 5 ao apresentados os experimentos realizados para ajuste de parˆame-
tros de SVMs e RNs. Inicialmente, algumas caracter´ısticas dos conjuntos de dados de
express˜ao enica e do reposit´orio da UCI (Asuncion & Newman, 2007) ao apresentados.
Posteriormente, ao apresentados os algoritmos bioinspirados utilizados nos experimentos
realizados. Em seguida, ao apresentados os pacotes (bibliotecas) que implementam as
t´ecnicas de AM investigadas. Na Se¸ao seguinte, ao descritos os etodos e as etricas
empregadas para avaliar o desempenho dos classificadores. Nas pr´oximas trˆes se¸oes ao
apresentados os diferentes etodos experimentais, que representam a evolu¸ao do proce-
dimento experimental no sentido de buscar um modelo com menor vi´es, assim como os
resultados obtidos.
No Cap´ıtulo 6 ao apresentados e discutidos os principais resultados obtidos, as con-
tribui¸oes e as limita¸oes deste trabalho e algumas dire¸oes para trabalhos futuros.
Cap´ıtulo 2
Aprendizado de aquina
Aprendizado de aquina ´e uma ´area baseada em IC e Estat´ıstica que estuda como
desenvolver sistemas capazes de adquirir conhecimento de forma autom´atica, ou seja,
sistemas que melhoram automaticamente com a experiˆencia. O modo de obten¸ao do co-
nhecimento ´e o que leva pesquisadores dessa ´area a desenvolverem t´ecnicas computacionais
que tornem poss´ıvel o aprendizado (Monard & Baranauskas, 2003; Mitchell, 1997).
Ainda est´a longe a possibilidade de tornar as aquinas t˜ao h´abeis de aprender quanto
os humanos. Por´em, algoritmos para tarefas espec´ıficas em obtido grande sucesso, como
no reconhecimento da fala, na minera¸ao de dados, no reconhecimento de padr˜oes e muitas
outras (Mitchell, 1997).
Muitas t´ecnicas de AM utilizam conhecimentos da Inteligˆencia Computacional e da
Estat´ıstica para constru¸ao de modelos capazes de inferir a partir de um conjunto de da-
dos. Os exemplos desse conjunto s˜ao chamados de dados de treinamento e a partir desses
faz-se a inferˆencia indutiva, podendo gerar hip´oteses verdadeiras ou ao (Alpaydin, 2004;
Monard & Baranauskas, 2003). Todo algoritmo de aprendizado, ou algoritmo de indu¸ao,
ou simplesmente indutor, possui um vi´es (bias) indutivo, que ´e a preferˆencia de uma hip´o-
tese sobre outra, que n˜ao s˜ao igualmente prov´aveis. Os exemplos de um conjunto de dados
ao formados por atributos e cada atributo especifica uma caracter´ıstica particular para
esse conjunto. O aprendizado indutivo pode ser dividido em aprendizado supervisionado
e ao-supervisionado. Atualmente o aprendizado parcialmente supervisionado tamb´em
tem atra´ıdo consider´avel aten¸ao da comunidade de AM (Chapelle et al., 2006).
No aprendizado supervisionado, cada exemplo apresentado ao algoritmo de aprendi-
zado possui um atributo especial que especifica o r´otulo da classe real `a qual este exemplo
pertence. Se os otulos das classes forem discretos, o problema ´e conhecido como clas-
sifica¸ao; se forem cont´ınuos, como regress˜ao, tamb´em conhecido como aproxima¸ao de
fun¸oes.
No aprendizado ao-supervisionado ou agrupamento, o algoritmo de aprendizado ao
tem conhecimento dos otulos das classes reais. Dessa maneira, o algoritmo agrupa os
exemplos por meio de extra¸ao de padr˜oes de seus atributos.
7
8 2 Aprendizado de aquina
No aprendizado parcialmente supervisionado, exemplos em que os otulos das classes
ao conhecidos e tamem exemplos em que os otulos das classes ao ao conhecidos
ao apresentados ao algoritmo de aprendizado. O algoritmo utiliza todos os exemplos
rotulados e ao rotulados durante o aprendizado.
Para avaliar o desempenho obtido com o ajuste de parˆametros as ecnicas de AM ser˜ao
aplicadas a problemas de classifica¸ao de dados de Bioinform´atica, mais especificamente
de express˜ao enica. Portanto na Se¸ao 2.1 ´e descrito o problema de classifica¸ao, suas
aplica¸oes na ´area de Bioinform´atica e a avalia¸ao de classificadores. Nas se¸oes 2.2 e 2.3
ser˜ao apresentadas as ecnicas de AM: SVMs e RNs, respectivamente, para as quais este
trabalho investigou a utiliza¸ao de ecnicas para o ajuste de parˆametros. Em seguida, na
Se¸ao 2.4, o problema de sele¸ao de modelo ´e investigado e alguns trabalhos publicados na
´area ao apresentados. Finalizando, na Se¸ao 2.5 ao feitas algumas considera¸oes finais.
2.1 Classifica¸ao
Em um problema de classifica¸ao os dados de entrada podem ser descritos pelo par
ordenado (X, y), em que X ´e um vetor que representa os atributos de um exemplo,
X = (x
1
, x
2
, x
3
, ..., x
n
), e y ´e o otulo da classe `a qual este exemplo pertence. Na Tabela 2.1
tem-se um conjunto de dados para classifica¸ao do estado de sa´ude de um paciente. Nessa
tabela cada linha representa um exemplo do conjunto de dados e cada coluna um atributo
deste exemplo. O atributo Diagn´ostico ´e especial, pois possui o r´otulo da classe para cada
exemplo, ou seja, doente ou saud´avel.
Tabela 2.1: Conjunto de dados para o diagn´ostico da sa´ude de pacientes.
Exemplo Febre Enjˆoo Manchas Dor Diagn´ostico
T1 sim sim pequenas sim doente
T2 ao ao grandes ao saud´avel
T3 sim sim pequenas ao saud´avel
T4 sim ao grandes sim doente
T5 sim ao pequenas sim saud´avel
T6 ao ao grandes sim doente
T´ecnicas de AM podem ser utilizadas em problemas de classifica¸ao e cada uma utiliza
um algoritmo de aprendizado para construir um modelo (classificador) que relaciona os
atributos e os otulos das classes. Um ponto importante dos algoritmos de aprendizado ´e
construir modelos que possuam boa capacidade de generaliza¸ao, ou seja, consigam predi-
zer, com alta taxa de acerto, r´otulos das classes para exemplos que n˜ao foram apresentados
anteriormente (Tan et al., 2005).
Outra caracter´ıstica dos classificadores a ser observada ´e em rela¸ao a interpretabi-
lidade proporcionada ao ser humano. Os classificadores do tipo caixa-preta ao aqueles
2.1 Classifica¸ao 9
que possuem uma representa¸ao interna que, geralmente, ao se consegue interpretar fa-
cilmente, ou seja, ´e dif´ıcil conhecer as caracter´ısticas do problema que o levaram a uma
determinada dedu¸ao. Um exemplo de classificador desse tipo s˜ao as RNs. Os classificado-
res orientados a conhecimento, como as
´
Arvores de Decis˜ao (ADs) e sistemas fuzzy, criam
estruturas simolicas que normalmente ao mais compreens´ıveis do que os classificadores
do tipo caixa-preta (Monard & Baranauskas, 2003).
Na Figura 2.1 est´a ilustrado um diagrama do processo de indu¸ao de um classificador
e posteriormente a sua utiliza¸ao. Primeiro o conjunto de treinamento, no qual os otulos
das classes dos exemplos ao conhecidos, ´e utilizado por um algoritmo de aprendizado
para construir um modelo. Ap´os a constru¸ao, esse classificador pode ser aplicado para
predizer os otulos das classes para exemplos do conjunto de teste.
Figura 2.1: Diagrama do processo de indu¸ao de um classificador e sua utiliza¸ao na
dedu¸ao de novos exemplos.
2.1.1 Problemas de Classifica¸ao em Bioinform´atica
Entender as rela¸oes e intera¸oes entre os atributos de um conjunto de dados pode
ser muito complicado. Isso pode acontecer, por exemplo, com dados biol´ogicos que, ge-
ralmente, possuem muitos atributos. A classifica¸ao de dados da ´area de Bioinform´atica
auxilia no entendimento das condi¸oes e das caracter´ısticas de arios objetos biol´ogicos.
Um problema que tem sido muito tratado, por exemplo, ´e o de classificar elulas como
normais e tumorais (Bajcsy et al., 2005).
Muitos bancos de dados de prote´ınas atualmente mantˆem algum tipo de classifica¸ao
destas seq
¨
uˆencias, como o SCOP
1
(do inglˆes, Structural Classification of Protein), PIR
2
(do inglˆes, Protein Information Resource) e o PDB
3
(do inglˆes, Protein Data Bank). Esses
bancos podem possuir mais de um tipo de classifica¸ao para as prote´ınas armazenadas.
1
http://scop.mrc-lmb.cam.ac.uk/scop/
2
http://pir.georgetown.edu/pirwww/index.shtml
3
http://www.pdb.org
10 2 Aprendizado de aquina
Devido aos projetos genoma, uma grande quantidade de dados biol´ogicos est˜ao sendo
criados, sendo impratic´avel a classifica¸ao ou organiza¸ao desses dados por especialistas.
Diferentes classificadores tˆem sido usados para este problema, como SVMs, classificadores
Bayesianos, k-vizinhos mais pr´oximos, RNs e outros (Bajcsy et al., 2005). Uma descri¸ao
de diferentes t´ecnicas computacionais para a classifica¸ao na ´area de Bioinform´atica pode
ser vista em Larranaga et al. (2006).
2.1.2 Avalia¸ao de Classificadores
Apesar do potencial de diferentes t´ecnicas de AM, ao a um algoritmo ´unico que
apresente o melhor desempenho para todos os problemas. Um ponto importante ao avaliar
diferentes ecnicas de AM ´e o etodo de amostragem dos dados que ser˜ao usados para
a indu¸ao do classificador. O princ´ıpio dos etodos de amostragem ´e a forma¸ao de
conjuntos disjuntos para treinamento e teste, ou seja, um exemplo deve pertencer ao
conjunto de treinamento, utilizado para o aprendizado, ou ao conjunto de teste, utilizado
para avaliar o desempenho do classificador, e nunca em ambos. O problema de se utilizar
os mesmos dados para treinamento e teste ´e que o classificador produzido, em geral,
ao apresentar´a desempenho similar para dados ao conhecidos. Assim, os etodos de
amostragem auxiliam na obten¸ao de uma estimativa de erro do classificador mais fiel. A
seguir ao apresentados alguns etodos de amostragem (Monard & Baranauskas, 2003):
Holdout: Este estimador divide os exemplos de um conjunto de dados em um uma
porcentagem fixa p para treinamento e (1 p) para teste. Normalmente p > 1/2,
sendo p = 2/3 um valor muito usado;
Amostragem Aleat´oria: Na amostragem aleat´oria ao gerados H conjuntos de treina-
mento e teste aleatoriamente e enao, ao induzidas H hip´oteses a partir de cada
conjunto de treinamento. O erro final ´e a edia dos erros das H hip´oteses para os
conjuntos de testes independentes;
Valida¸ao Cruzada (CV, do inglˆes, Cross-Validation): Este m´etodo divide os
exemplos em parti¸oes disjuntas, chamadas de folds. O n´umero de folds utiliza-
dos pode variar conforme a quantidade de exemplos e a propor¸ao de exemplos em
cada classe. Para k-fold cross-validation o conjunto de dados ´e dividido em k folds,
sendo que (k 1) ao usados para treinamento e o fold restante para teste. Este
processo se repete k vezes at´e que todos os folds tenham sido utilizados para teste.
No caso da valida¸ao cruzada estratificada a propor¸ao de exemplos em cada uma
das classes ´e mantida para cada fold gerado.
Leave-One-Out: Este estimador ´e um caso espec´ıfico do k-fold cross-validation em que
k = n´umero de exemplos. Assim (k 1) exemplos ao utilizados para treinar o
2.1 Classifica¸ao 11
classificador e apenas um exemplo ´e utilizado para teste. Esse etodo tem alto
custo computacional, a que esse processo se repete k vezes, para que todos os
exemplos sejam usados uma vez para teste.
Bootstrap: Neste m´etodo repete-se o processo de classifica¸ao diversas vezes. Em cada
experimento um novo conjunto de treinamento ´e obtido por amostragem com repo-
si¸ao a partir dos exemplos originais.
Uma vez escolhido um m´etodo de amostragem, deve-se definir o m´etodo para avaliar o
desempenho dos classificadores. Uma maneira ´e basear-se no n´umero correto e incorreto
de predi¸oes realizadas pelo classificador. Isso ´e feito organizando esses umeros em
uma tabela, chamada matriz de confus˜ao. Na Tabela 2.2 ´e ilustrado um exemplo dessa
matriz para um problema de classifica¸ao bin´aria, ou seja, os exemplos ao classificados
como pertencentes `a classe positiva ou negativa. Nessa tabela as linhas indicam a classe
verdadeira e as colunas indicam a classe predita.
Tabela 2.2: Matriz de confus˜ao.
Classe Predita
Classe Verdadeira Positiva Negativa
Positiva VP FN
Negativa FP VN
As siglas utilizadas na Tabela 2.2 (VP, VN, FP e FN) ao descritas a seguir:
Verdadeiro Positivo (VP): total de exemplos preditos como pertencentes `a classe
positiva e que realmente pertencem `a essa classe;
Verdadeiro Negativo (VN): total de exemplos preditos como pertencentes `a classe
negativa e que realmente pertencem `a essa classe;
Falso Positivo (FP): total de exemplos preditos como pertencentes `a classe positiva
mas que na verdade pertencem `a classe negativa;
Falso Negativo (FN): total de exemplos preditos como pertencentes `a classe negativa
mas que na verdade pertencem `a classe positiva.
A soma dos valores que aparecem na diagonal principal da Tabela 2.2 representa o
n´umero total de exemplos classificados corretamente. A soma dos valores que ao se
encontram na diagonal principal ´e igual ao n´umero de exemplos classificados incorreta-
mente. Utilizando a matriz de confus˜ao ´e poss´ıvel calcular a taxa de acerto e a taxa de
erro, conforme as equa¸oes 2.1 e 2.2, respectivamente. A taxa de acerto indica a taxa
de exemplos classificados corretamente e a taxa de erro, a taxa de exemplos classificados
incorretamente.
12 2 Aprendizado de aquina
Taxa de acerto =
V P + V N
V P + V N + F P + F N
(2.1)
Taxa de erro = 1 Taxa de acerto (2.2)
A Taxa de Verdadeiros Positivos (TVP), tamem conhecida como sensibilidade ou
recall, estima a probabilidade de um exemplo pertencente `a classe positiva ser predito
como positivo. A especificidade estima a probabilidade de um exemplo pertencente `a
classe negativa ser predito corretamente como negativo. A Taxa de Falsos Positivos (TFP)
estima a probabilidade de um exemplo pertencente `a classe negativa ser predito como
positivo. Essas trˆes medidas ao estimadas pelas equa¸oes 2.3, 2.4 e 2.5, respectivamente.
T V P =
V P
V P + F N
(2.3)
especificidade =
V N
V N + F P
(2.4)
T F P =
F P
F P + V N
(2.5)
A medida de precis˜ao, dada pela equa¸ao 2.6, estima a probabilidade da predi¸ao
positiva estar correta. Uma outra medida, a Medida-F (F-measure), combina de maneira
balanceada as medidas de precis˜ao e recall. A medida-F ´e dada pela equa¸ao 2.7.
precis˜ao =
V P
(V P + F P )
(2.6)
medida-F =
2
1/precis˜ao + 1/recall
(2.7)
Atualmente, curvas ROC (do inglˆes, Receiver Operating Characteristics) tˆem sido
muito utilizadas em AM para avaliar classificadores. Curvas ROC s˜ao gr´aficos bidimensi-
onais em que a taxa de VP ´e plotada no eixo Y e a taxa de FP ´e plotada no eixo X. Um
gr´afico ROC apresenta um balan¸co entre custos (falsos positivos) e benef´ıcios (verdadei-
ros positivos) (Fawcett, 2006). Uma curva ROC pode ser utilizada quando classificadores
bin´arios a serem comparados produzem como sa´ıda valores de probabilidade ou scores,
denominados de classificadores probabil´ısticos (Fawcett, 2006). A curva ROC permite
visualizar, organizar e selecionar classificadores bin´arios baseados em seu desempenho.
Uma ´unica medida para descrever essa curva ´e a ´area abaixo da curva (AUC, do inglˆes,
Area Under Curve). Essa medida pode variar de zero a um. Quanto maior a ´area, melhor
´e o classificador. A Figura 2.2 mostra um exemplo de uma curva ROC cuja AUC ´e 0.883.
2.1 Classifica¸ao 13
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 2.2: Exemplo de curva ROC.
Testes estat´ısticos
A taxa de acerto ou a taxa de erro pode ser utilizada para comparar dois algoritmos
de aprendizado A e B utilizando um teste de hip´oteses pareado (Mitchell, 1997). Com
esse teste, ´e poss´ıvel avaliar se houve diferen¸ca estat´ıstica significante entre o desempenho
dos algoritmos A e B para um determinado conjunto de dados. Seja um conjunto de
dados particionado segundo o etodo de amostragem k-fold cross-validation. Considere
agora e
i
(f
A
) a taxa de erro (ou de acerto) obtido por um classificador f
A
induzido pelo
algoritmo de aprendizado A e e
i
(f
B
) a taxa de erro (ou de acerto) obtido por um classi-
ficador f
B
induzido pelo algoritmo de aprendizado B. Uma alternativa para aplicar um
teste estat´ıstico seria, primeiro, determinar as diferen¸cas entre os erros obtidos por cada
classificador, para cada parti¸ao de teste i, segundo a Equa¸ao 2.8.
dif
i
= e
i
(f
A
) e
i
(f
B
) (2.8)
Com as diferen¸cas entre cada parti¸ao de teste, calcular a m´edia e o desvio padr˜ao
segundo as equa¸oes 2.9 e 2.10, respectivamente.
¯m
d
=
1
k
k
i=1
dif
i
(2.9)
s
d
=
1
k 1
k
i=1
(dif
i
¯m
d
)
2
(2.10)
14 2 Aprendizado de aquina
A hip´otese nula ´e de que ao a diferen¸ca estat´ıstica entre os resultados obtidos pelos
algoritmos A e B. Assim, calcula-se o valor de teste t obtido conforme a equa¸ao 2.11.
Esse teste ´e chamado de teste-t pareado corrigido e foi proposto por Nadeau & Bengio
(2003).
t
obt
=
¯m
d
(
1
k
+
1
k1
)s
2
d
(2.11)
A hip´otese nula ´e rejeitada se t
obt
for maior que t
k1
,
1
α
2
, em que t
k1
´e a distribui¸ao t
de Student com k 1 graus de liberdade e α corresponde ao n´ıvel de significˆancia do teste.
Assim pode-se afirmar se os resultados obtidos pelos algoritmos A e B ao estatisticamente
diferentes com um n´ıvel de significˆancia α.
O teste-t pareado corrigido ao pode ser aplicado para ultiplos algoritmos e ul-
tiplos conjuntos de dados. Para esses tipos de compara¸ao, o teste ao-param´etrico de
Friedman (Demˇsar, 2006) pode ser usado. Os testes ao-param´etricos ao exigem que
as distribui¸oes da vari´avel na popula¸ao sejam conhecidas. Com esse teste, ´e poss´ıvel
verificar se h´a ou n˜ao diferen¸cas significativas entre os diferentes classificadores para todos
os conjuntos de dados. Por´em, o teste de Friedman n˜ao determina quais s˜ao os algoritmos
significativamente diferentes. Portanto, caso o teste de Friedman rejeite a hip´otese nula,
ou seja, rejeite a hip´otese de que ao a diferen¸ca significativa entre os classificadores, o
teste `a posteriori Nemenyi (Demˇsar, 2006) pode ser aplicado para verificar onde ocorrem
as diferen¸cas. O desempenho de dois classificadores ´e significativamente diferente se o
ranking-m´edio de Friedman diferir por pelo menos uma diferen¸ca cr´ıtica. Essa diferen¸ca ´e
calculada com base no n´umero de classificadores, n´umero de algoritmos e na distribui¸ao
de Student (Demˇsar, 2006).
2.2 aquinas de Vetores de Suporte
As SVMs ao baseadas na Teoria do Aprendizado Estat´ıstico (Vapnik & Chervonen-
kis, 1971), mais especificamente, na Teoria de Minimiza¸ao do Risco Estrutural (Vapnik,
1995). Os vetores de suporte utilizados pelas SVMs ao exemplos que est˜ao pr´oximos da
superf´ıcie de decis˜ao e portanto, s˜ao os mais dif´ıceis de serem classificados (Haykin, 1999).
ao esses exemplos que influenciam diretamente na localiza¸ao da superf´ıcie de decis˜ao.
As SVMs em sendo utilizadas com sucesso em diversos problemas de Bioinform´atica,
como a classifica¸ao de dados de express˜ao gˆenica e a detec¸ao de homologia entre prote´ı-
nas (Cristianini & Shawe-Taylor, 2000). Entre as caracter´ısticas que a tornaram popular
na Bioinform´atica est˜ao a boa capacidade de generaliza¸ao e a robustez em lidar com
dados de grande dimens˜ao (Souto et al., 2003).
Para o problema de classifica¸ao, o princ´ıpio das SVMs est´a em encontrar um hi-
perplano ´otimo que separa satisfatoriamente os dados de entrada. O hiperplano ´otimo
2.2 aquinas de Vetores de Suporte 15
´e definido como aquele para o qual a margem de separa¸ao entre as classes ´e maximi-
zada (Haykin, 1999). Utilizando o hiperplano as SVMs ao capazes de classificar apenas
conjuntos de entrada linearmente separ´aveis. Um conjunto de dados ´e linearmente sepa-
avel quando ´e poss´ıvel separar as diferentes classes com um hiperplano (Mitchell, 1997).
Um hiperplano ´otimo e os vetores de suporte para exemplos linearmente separ´aveis est˜ao
ilustrados na Figura 2.3.
Figura 2.3: A id´eia do hiperplano ´otimo para exemplos linearmente separ´aveis.
Quando essas classes ao podem ser separadas satisfatoriamente por um hiperplano, as
SVMs devem ser generalizadas. Isso pode ser feito com o uso de fun¸oes de mapeamento
Φ
1
, ..., Φ
M
no dom´ınio do espa¸co de entrada. Por meio destas fun¸oes, cada exemplo do
conjunto de treinamento ´e mapeado para um novo espa¸co, o espa¸co de caracter´ısticas.
Neste espa¸co os exemplos podem se tornar linearmente separ´aveis e ent˜ao um hiperplano
´otimo pode ser encontrado (Haykin, 1999).
A escolha da fun¸ao de mapeamento apropriada varia com o espa¸co de caracter´ısticas
estudado. A ´unica informa¸ao necess´aria sobre o mapeamento ´e a defini¸ao de como o
produto interno Φ(x
i
).Φ(x
j
) pode ser realizado para cada par de exemplos x
i
e x
j
(Souto
et al., 2003). Essa informa¸ao ´e obtida com os kernels: fun¸oes que em como entrada dois
pontos x
i
e x
j
do espa¸co de entrada e calculam o produto escalar K(x
i
, x
j
) = Φ(x
i
).Φ(x
j
)
no espa¸co de caracter´ısticas (Haykin, 1999).
Dentre os kernels mais utilizados est˜ao o linear, o polinomial, o de fun¸oes de base
radial (RBF, do inglˆes, Radial Basis Function) ou gaussiano e o sigmoidal. Cada kernel
possui um conjunto de parˆametros livres, ou seja, parˆametros cujos valores devem ser
especificados pelo usu´ario. Na Tabela 2.3 ao apresentados esses kernels e alguns de seus
parˆametros. Al´em disso um parˆametro das SVMs, denominado custo, precisa ser especi-
ficado. Esse ´e um parˆametro regulador que controla o equil´ıbrio entre a complexidade do
modelo e o n´umero de exemplos ao-separ´aveis (Haykin, 1999).
16 2 Aprendizado de aquina
Tabela 2.3: Principais kernels utilizados nas SVMs (Haykin, 1999).
Kernels Fun¸ao K(x
i
, x
j
)
correspondente
Parˆametros
polinomial (x
T
i
x
j
+ 1)
p
A potˆencia p deve ser espe-
cificada pelo usu´ario
RBF exp(
1
2σ
2
x
i
x
j
2
) A amplitude σ
2
´e especifi-
cada pelo usu´ario
sigmoidal tanh(β
0
x
i
x
j
+ β
1
) Satisfeito apenas para al-
guns valores β
0
e β
1
2.3 Redes Neurais Artificiais
As RNs ao inspiradas no erebro e no sistema nervoso. Ambos ao sistemas com-
plexos, paralelamente distribu´ıdos e ao-lineares. As RNs ao compostas por unidades
de processamento simples, denominados neurˆonios ou os, dispostos em uma ou mais
camadas e interligados por meio de conex˜oes.
As RNs em sido aplicadas em uma grande variedade de dom´ınios, entre eles, a Bio-
inform´atica (Narayanan et al., 2002). Segundo Seiffert et al. (2006), o comportamento
robusto das RNs frente a dados com ru´ıdos e a alta adaptabilidade fornecem muitos
dos requisitos necess´arios dessa ´area. Exemplos de aplica¸oes de RNs em problemas de
Bioinform´atica ao os trabalhos de Wang et al. (2000), que utiliza RNs para classifica¸ao
de seq
¨
uˆencias de prote´ınas, e Draghici & Potter (2003), que usou RNs para predizer a
resistˆencia do v´ırus HIV a drogas.
O primeiro modelo formal para um neurˆonio artificial foi desenvolvido por McCul-
loch & Pitts (1943), que mostraram que seu modelo era capaz de realizar, a princ´ıpio, a
computa¸ao de qualquer fun¸ao comput´avel utilizando um n´umero suficiente de neurˆo-
nios artificiais e pesos sin´apticos ajust´aveis (Haykin, 1999). Os neurˆonios artificiais ao
unidades de processamento de informa¸ao que realizam um trabalho relativamente sim-
ples: recebem entradas de outros neurˆonios ou do meio externo e usam essas entradas
para computar um sinal de sa´ıda que ´e propagado para outras unidades ou para o meio
externo.
Cada unidade ´e composta basicamente por trˆes elementos (Haykin, 1999):
Sinapse - peso acoplado a cada entrada do neurˆonio que determina se a entrada
ter´a efeito inibit´orio ou excitat´orio, resultando na ativao ou ao do neurˆonio;
Somador ou net input - realiza a soma ponderada entre as entradas e seus res-
pectivos pesos;
Fun¸ao de Ativao - determina o n´ıvel de ativao baseado no resultado produ-
zido pelo somador, limitando o valor de sa´ıda de cada neurˆonio.
2.4 Sele¸ao de Modelo e Ajuste de Parˆametros 17
Na Figura 2.4 ´e apresentado o esquema de um neurˆonio artificial e de uma rede neural
do tipo feed-forward, ou seja o fluxo de processamento ´e estritamente da entrada para a
sa´ıda.
(a) Modelo de um neurˆonio artificial desenvolvido
por McCulloch & Pitts (1943).
(b) Esquema de uma rede feed-
forward.
Figura 2.4: Neurˆonio artificial e o esquema de uma rede feed-forward.
Diversas fun¸oes podem ser utilizadas como fun¸oes de ativao e devem ser especi-
ficadas pelo usu´ario. A escolha depende da especifica¸ao do problema que o neurˆonio se
prop˜oe a resolver (Hagan et al., 1996). As fun¸oes log´ıstica, de limiar e tangente hiper-
olica ao trˆes exemplos de fun¸oes de ativao muito utilizadas. Segundo Basheer &
Hajmeer (2000) uma escolha ´otima de outros parˆametros, como o tamanho da rede e a
taxa de aprendizagem, afetam o desempenho final da rede.
Os pesos associados a cada conex˜ao entre os neurˆonios (sinapse) ao respons´aveis pelo
armazenamento do conhecimento. Um algoritmo de aprendizado de RNs deve ser capaz
de atribuir pesos a essas conex˜oes durante o processo de treinamento, de maneira que a
rede neural seja capaz de classificar corretamente o maior n´umero de exemplos poss´ıveis
do conjunto de treinamento e seja capaz de generalizar para novos exemplos.
2.4 Sele¸ao de Modelo e Ajuste de Parˆametros
Diversos modelos podem apresentar bom desempenho preditivo quando utilizados para
resolver um determinado problema de classifica¸ao. O problema de escolher o melhor entre
os diversos modelos dispon´ıveis ´e chamado de sele¸ao de modelo. Para todos os casos, o
objetivo ´e minimizar o erro de generaliza¸ao, pois minimizar o erro de treinamento pode
causar overfitting, ou seja, o modelo gerado pode memorizar os exemplos do conjunto de
treinamento ao inv´es de extrair suas caracter´ısticas gerais, o que, por exemplo, prejudica o
desempenho para novos exemplos (Kearns et al., 1997). Na pr´atica, o problema de sele¸ao
de modelo pode ser reduzido ao ajuste dos valores de parˆametros quando se tem algum
conhecimento pr´evio do problema. Na Se¸ao 2.4, o problema de ajuste de parˆametros ser´a
discutido com maiores detalhes e alguns trabalhos ser˜ao apresentados.
Uma ecnica para sele¸ao de modelo de SVMs envolve a minimiza¸ao do erro de gene-
18 2 Aprendizado de aquina
raliza¸ao usando informa¸oes do gradiente sobre o conjunto de parˆametros. Por´em, essa
abordagem apresenta problemas, como a necessidade de fun¸oes diferenci´aveis e o alto
risco de atingir um m´ınimo local (Chapelle et al., 2002). Os AGs foram usados por Xu
& Chan (2003) para a sele¸ao de modelo para SVMs multi-classes. Os resultados para os
problemas investigados mostraram que o etodo melhora o desempenho de classifica¸ao
com complexidade aceit´avel.
Em Anders & Korn (1999), os autores utilizam diferentes estrat´egias baseadas em
conceitos estat´ısticos para a sele¸ao de modelo para RNs, como teste de hip´oteses, crit´erios
de informa¸ao e CV. Com os resultados obtidos nesse trabalho, verificou-se que o teste de
hip´otese de Ter
¨
asvirta et al. (1993) foi a estrat´egia mais est´avel.
Para a sele¸ao de modelos em ADs, Yildiz & Alpaydin (2005) utilizaram diferentes
abordagens, como crit´erios de informa¸ao Akaike (AIC, do inglˆes, Akaike Information
Criterion (Akaike, 1974) e Bayesianos (Schwarz, 1978), al´em da CV. Este ´ultimo produziu
´arvores mais simples que os outros dois m´etodos, com a desvantagem de um maior tempo
de treinamento.
Estudos de diversos m´etodos de sele¸ao de modelo podem ser encontrados em Kearns
et al. (1997) e Bartlett et al. (2002).
Ajuste de Parˆametros
Grande parte dos algoritmos de AM possuem parˆametros cujos valores devem ser
especificados pelo usu´ario. Esses valores para os parˆametros livres, em geral, influenciam
diretamente no desempenho de modelos induzidos (Kohavi & John, 1995), o que pode ser
entendido como uma deficiˆencia das t´ecnicas de AM. O objetivo do processo de ajuste
desses parˆametros pode ser visto como encontrar os melhores valores dos parˆametros
livres para um determinado conjunto de dados (Hutter & Hamadi, 2005). O ajuste de
parˆametros com o intuito de obter melhor desempenho e maior robustez dessas t´ecnicas
´e uma tarefa subjetiva, que pode consumir muito tempo.
Para definir um conjunto de valores, as atuais t´ecnicas de ajuste normalmente conside-
ram a intera¸ao entre o vi´es (bias) do algoritmo de indu¸ao (Mitchell, 1982) e o conjunto
de treinamento dispon´ıvel. T´ecnicas comuns, como a busca exaustiva, ao intrat´aveis
quando a mais do que dois parˆametros para serem ajustados (Chapelle et al., 2002).
Heur´ısticas podem ser aplicadas com relativo sucesso para uma variedade de conjuntos
de dados. Por´em, a melhor estrat´egia ´e obter valores dos parˆametros que funcionem bem
para o conjunto particular de dados que est´a sendo analisado (Kohavi & John, 1995). A
abordagem mais comum para definir os valores dos parˆametros livres ´e por tentativa e
erro, a qual ´e altamente subjetiva. Al´em disso, a busca pelos melhores valores para os
parˆametros, geralmente, envolve a otimiza¸ao por um grande espa¸co de busca, o que torna
esse problema muito custoso computacionalmente.
2.4 Sele¸ao de Modelo e Ajuste de Parˆametros 19
Por essa raz˜ao, t´ecnicas alternativas de otimiza¸ao tˆem sido aplicadas para ajustar
de forma autom´atica os parˆametros livres de algoritmos de AM. Algumas dessas ecnicas
tˆem obtido resultados promissores, como AGs, Simulated Annealing (Kirkpatrick et al.,
1983), Tabu Search (Glover & Laguna, 1997) e PSO.
Ajuste de Parˆametros de SVMs
O desempenho das SVMs ´e diretamente influenciado pela escolha da fun¸ao de kernel
e os valores de seus parˆametros (Chapelle et al., 2002). Como dito anteriormente, essa
dependˆencia dos valores dos parˆametros ao ´e uma exclusividade das SVMs. Muitos al-
goritmos de aprendizado dependem de uma escolha adequada para encontrarem um bom
modelo. O conhecimento sobre o dom´ınio pode auxiliar na escolha da fun¸ao de kernel
apropriada, reduzindo o problema de sele¸ao de modelo para o ajuste de parˆametros (Cris-
tianini & Shawe-Taylor, 2000).
Para o ajuste de parˆametros de SVMs, etodos de otimiza¸ao baseados no gradiente
ao muito utilizados. Poem, segundo Imbault & Lebart (2004), esses m´etodos ao re-
solvem totalmente o problema, a menos que um ponto inicial seja conhecido. Os autores
mostraram que o problema de ajuste de parˆametros apresenta m´ınimo local e compara-
ram m´etodos cl´assicos de ajuste que utilizam busca local com AGs e Simulated Annealing,
que ao m´etodos de minimiza¸ao global, sendo o primeiro, uma ecnica bioinspirada. Um
fator importante dos etodos de minimiza¸ao global ´e que esses ao desenvolvidos para
evitar m´ınimos locais. Os resultados mostraram que os dois etodos citados obtiveram
solu¸oes pr´oximas da ´otima de forma mais robusta e eficiente.
Algoritmos Gen´eticos tamb´em foram utilizados por Lorena & Carvalho (2006) para
ajustar os parˆametros de SVMs multiclasses com kernel gaussiano. Os autores obtiveram
maiores taxas de acerto utilizando AGs se comparado aos resultados obtidos utilizando-
se valores fixos para os parˆametros. Esse resultado ocorreu para as quatro bases de
dados testadas. Huang & Wang (2006) e Souza & Carvalho (2005) utilizaram AGs para
selecionar caracter´ısticas (atributos) de conjuntos de dados e ajustar parˆametros de SVMs
simultaneamente. No primeiro caso, foram realizados testes utilizando arios conjuntos
de dados e a abordagem baseada em AGs teve boa taxa de acerto se comparada com a
t´ecnica grid search. No segundo caso, foi utilizado um conjunto de dados de express˜ao
gˆenica e os resultados obtidos foram equivalentes a outros encontrados na literatura.
Em Souza et al. (2006), a t´ecnica PSO foi utilizada para ajustar parˆametros de SVMs
multiclasses com kernel gaussiano. Foram testadas quatro bases de dados e os resultados
obtidos foram comparados com os obtidos por outras t´ecnicas de ajuste. Essas ecnicas
foram denominadas grid search, que usa a busca exaustiva Naive, que usa os mesmos
valores padr˜oes da biblioteca LIBSVM (Chang & Lin, 2001) para todas as SVMs bin´arias, e
Global, que usa um conjunto de valida¸ao para estimar o erro de generaliza¸ao. As t´ecnicas
PSO e Global conseguiram os menores erros de classifica¸ao para uma base, enquanto
20 2 Aprendizado de aquina
que a grid search obteve melhores resultados para as outras duas bases. Apesar disso,
os resultados obtidos pela PSO ficaram pr´oximos aos melhores alcan¸cados e, segundo
os autores, ao foi poss´ıvel determinar o melhor m´etodo para todas as bases de dados
testadas.
Ajuste de Parˆametros de RNs
Algoritmos evolutivos ao empregados para ajuste de parˆametros e treinamento de
RNs desde o in´ıcio da ecada de 90, como pode ser visto em Miller et al. (1989); Dodd
(1990); Hintz & Spofford (1990); Braun & Weisbrod (1993), e ainda ao utilizados nos dias
atuais. Os trabalhos de Leung et al. (2003) e Tsai et al. (2006) prop˜oem modifica¸oes nos
AGs para a otimiza¸ao autom´atica e simultˆanea da topologia (estrutura) das RNs e dos
parˆametros do algoritmo de treinamento. Em Leung et al. (2003), os autores realizaram
experimentos com fun¸oes benchmark. Os resultados obtidos pelo AG proposto superaram
os obtidos pelo AG padr˜ao, que utilizou crossover aritm´etico e muta¸ao ao-uniforme.
Duas aplica¸oes foram testadas com as RNs para ilustrar o desempenho dos algoritmos
propostos. Em ambas, o AG proposto superou o AG padr˜ao no ajuste de parˆametros, e o
algoritmo de aprendizado backpropagation, para o treinamento da rede. Tsai et al. (2006)
aplicaram um algoritmo h´ıbrido, que combina AG com o m´etodo Taguchi (Phadke, 1995),
o qual chamaram de HTGA (do inglˆes, hybrid Taguchi-Genetic Algorithm), para ajustar
a estrutura e os parˆametros de RNs. Os autores utilizaram as mesmas aplica¸oes testadas
em Leung et al. (2003) e compararam os resultados obtidos. O HTGA foi superior em
rela¸ao ao valor de aptid˜ao encontrado, enquanto que a complexidade da rede variou
conforme a aplica¸ao.
Um estudo comparativo entre sistemas evolutivos h´ıbridos para gera¸ao e otimiza¸ao
da estrutura de uma RN multi-camadas foi realizado por Castillo et al. (2007). Esse
estudo usou um etodo chamado G-Prop para otimizar o n´umero de neurˆonios ocultos e
os pesos iniciais das RNs e outro m´etodo chamado ev-QP para buscar pelos parˆametros de
um algoritmo de treinamento. Utilizou-se tamb´em um algoritmo co-evolutivo, chamado
co-evolutive, para tratar dos parˆametros referente `a arquitetura, aos pesos iniciais e aos
parˆametros do algoritmo de treinamento. Os resultados mostraram que os algoritmos
evolutivos apresentaram melhor habilidade de classifica¸ao do que o QuickProp (Fahlman,
1988). O primeiro m´etodo (GProp) obteve pequenas taxas de erro de classifica¸ao. Por´em,
o tempo de processamento foi um pouco superior se comparado a outros m´etodos. O
segundo m´etodo (ev-QP) teve o menor tempo de processamento, mas produziu as maiores
taxas de erro. O m´etodo co-evolutivo obteve os menores tempo de processamento e, ao
mesmo tempo, melhorou a habilidade de classifica¸ao.
Em Gao et al. (2006), a ecnica PSO foi aplicada para ajustar simultaneamente a es-
trutura e os pesos das conex˜oes de RNs. Os autores propuseram uma modifica¸ao no PSO,
chamado de SPSO, para solucionar esse problema. Os resultados obtidos foram compara-
2.5 Considera¸oes Finais 21
dos com o algoritmo backpropagation e com um AG desenvolvido para o mesmo prop´osito.
As redes foram aplicadas para o problema de pontua¸ao de cr´edito. O SPSO convergiu
mais rapidamente e conseguiu maior acur´acia do que o algoritmo backpropagation. O AG
foi o que obteve as menores taxas de acur´acia.
Um algoritmo baseado no sistema imunol´ogico, denominado Immune Algorithm (IA),
foi empregado por Kim (2002) para ajustar parˆametros de RNs fuzzy. O algoritmo foi
utilizado para gerar regras fuzzy para estruturas de rede neural-fuzzy. Os autores relatam
que por meio das simula¸oes realizadas foi poss´ıvel constatar a capacidade do IA em
otimizar regras fuzzy.
2.5 Considera¸oes Finais
Neste cap´ıtulo, foram abordados os principais conceitos de AM e as duas t´ecnicas de
AM que foram utilizadas durante este estudo: SVMs e RNs. Como essas ecnicas foram
aplicadas em tarefas de classifica¸ao, foram descritas brevemente os principais conceitos
relacionados a esse tema e sua utiliza¸ao em dados da ´area de Bioinform´atica.
Em seguida, foi abordado o problema da sele¸ao de modelo e de ajuste de parˆametros
para t´ecnicas de AM. Alguns trabalhos publicados que utilizam ecnicas bioinspiradas
para o ajuste de parˆametros foram citados.
No pr´oximo cap´ıtulo ao apresentados os conceitos de Computa¸ao Natural e as ec-
nicas bioinspiradas utilizadas neste estudo para o ajuste de parˆametros das ecnicas de
AM.
22 2 Aprendizado de aquina
Cap´ıtulo 3
Computa¸ao Natural
Ao contr´ario da divis˜ao das ciˆencias atuais, que est´a cada vez mais sendo especiali-
zada, a Computa¸ao Natural utiliza o conhecimento de diversas ´areas para melhorar a
compreens˜ao da vida e desenvolver novos paradigmas computacionais. A Computa¸ao
Natural usa elementos da Computa¸ao, Biologia, F´ısica, Engenharia e Qu´ımica.
A Computa¸ao Natural ou Bioinspirada ´e formada por trˆes frentes de estudo:
A natureza como fonte de inspira¸ao para a computa¸ao: estuda como conceitos,
princ´ıpios e mecanismos da natureza podem ser utilizados para a cria¸ao de novas
t´ecnicas computacionais.
´
E poss´ıvel observar na natureza solu¸oes eficientes e ele-
gantes para resolver uma grande variedade de problemas. Muitos desses problemas
ao podem ser solucionados por ecnicas computacionais tradicionais, por´em a natu-
reza ´e capaz de resolvˆe-los facilmente. Como exemplo, podem ser citados problemas
de otimiza¸ao e de reconhecimento de padr˜oes (Carvalho et al., 2004).
Simula¸ao e emula¸ao da natureza por meio da computa¸ao: ´e basicamente um
processo de s´ıntese com o objetivo de criar formas, padr˜oes e comportamentos que
reproduzam a vida como os a conhecemos. Os resultados dos estudos dessa ´area
podem ser utilizados para simular arios fenˆomenos naturais, possibilitando um
maior entendimento da natureza (Castro, 2007).
Utiliza¸ao de materiais naturais para executar computa¸ao: estuda o uso de ma-
teriais naturais, como mol´eculas de DNA, para realizar computa¸ao. Esses novos
paradigmas computacionais podem substituir ou serem acrescentados aos materiais
de sil´ıcio usados atualmente para computar (Castro, 2007).
Este estudo envolve a primeira frente de estudo da Computa¸ao Natural, pois fez uso
de t´ecnicas bioinspiradas. As t´ecnicas bioinspiradas tˆem sido formalizadas como metaheu-
r´ısticas para problemas de otimiza¸ao. Segundo Dorigo et al. (2006), metaheur´ıstica ´e um
conjunto de conceitos algor´ıtmicos que pode ser utilizado para definir etodos heur´ısti-
cos aplic´aveis a um amplo conjunto de problemas. Exemplos de metaheur´ısticas incluem
23
24 3 Computa¸ao Natural
a busca tabu (Glover & Laguna, 1997) a busca local iterativa (Louren¸co et al., 2002) e
a computa¸ao evolutiva (Holland, 1975). Os algoritmos definidos como metaheur´ısticas,
conforme Maniezzo et al. (2004), possuem algumas heur´ısticas asicas para escapar do
m´ınimo local: iniciam a partir de uma solu¸ao nula e adicionam elementos at´e obter uma
boa solu¸ao ou iniciam com uma solu¸ao completa e iterativamente modificam alguns
elementos dessa at´e um crit´erio de parada.
O ajuste dos valores dos parˆametros de ecnicas de AM foram investigadas neste estudo
com uso de t´ecnicas bioinspiradas. Assim, as se¸oes seguintes apresentam os principais
conceitos relacionados `as t´ecnicas bioinspiradas. Na Se¸ao 3.1 ´e apresentada uma introdu-
¸ao `a inteligˆencia de enxames e `as ecnicas ACO e PSO, pertencentes `a esse paradigma.
Na Se¸ao 3.2 os SIAs ao apresentados, com ˆenfase para o princ´ıpio da sele¸ao clonal.
Em seguida, na Se¸ao 3.3 os conceitos referentes aos AGs ao abordados. Por ´ultimo, ao
feitas algumas considera¸oes finais na Se¸ao 3.4.
3.1 Inteligˆencia de Enxames
A inteligˆencia de enxames, ou inteligˆencia coletiva, se refere a agentes (indiv´ıduos)
que apresentam um n´ıvel superior de inteligˆencia dentro do comportamento social. Os
indiv´ıduos devem ser capazes de interagir entre si e com o ambiente. A vida social ´e
interessante sob arios aspectos para algumas esp´ecies. As vantagens podem ser uma
maior facilidade de encontrar comida, divis˜ao do trabalho, melhor aproveitamento de
suas capacidades e at´e mesmo evitar predadores e facilitar a ca¸ca (Castro, 2006).
Os algoritmos de inteligˆencia de enxames ao compostos por indiv´ıduos simples que
atuam de forma auto-organizada, isto ´e, sem qualquer forma de controle central sobre
os membros do enxame. Segundo Millonas (1994), os sistemas baseados em inteliencia
coletiva possuem cinco princ´ıpios:
proximidade: indiv´ıduos de uma popula¸ao devem interagir entre si;
qualidade: indiv´ıduos devem ser capazes de avaliar a intera¸ao entre eles e com o ambi-
ente;
diversidade: a capacidade de um sistema reagir contra oes inesperadas;
estabilidade: os indiv´ıduos ao podem modificar seu comportamento em resposta a
todas modifica¸oes do ambiente;
adaptabilidade: os indiv´ıduos devem ser capazes de se adaptar `as mudan¸cas do ambiente
e da popula¸ao.
3.1 Inteligˆencia de Enxames 25
As ecnicas ACO e PSO ao baseadas em sistemas de enxames. A primeira ´e base-
ada no comportamento de formigas em busca por alimento e a segunda na organiza¸ao
existente entre bandos de assaros, peixes e no comportamento social humano.
3.1.1 Otimiza¸ao por Colˆonia de Formigas
As formigas, de forma especial, em servido de inspira¸ao para um grande n´umero de
t´ecnicas baseadas em inteligˆencia de enxames. Dentre essas, a mais estudada e de maior
sucesso ´e a ecnica de otimiza¸ao de prop´osito geral, conhecida como ACO (Dorigo et al.,
2006). A ACO ´e inspirada no comportamento das formigas na busca por alimento. O
principal aspecto desse comportamento ´e a comunica¸ao que ocorre entre os indiv´ıduos
da colˆonia por meio do dep´osito de feromˆonio nas trilhas percorridas.
Inicialmente, as formigas exploram de maneira aleat´oria uma ´area em busca de ali-
mento. Durante a movimenta¸ao, essas formigas depositam feromˆonio pelo solo ao longo
do caminho percorrido (Blum, 2005). O feromˆonio ´e uma substˆancia qu´ımica cujo odor
´e sentido pelas formigas. Ao escolher um caminho dentre mais de uma op¸ao, ´e prov´avel
que as formigas escolham o caminho marcado com uma maior concentra¸ao de feromˆo-
nio. Como a probabilidade das formigas que alcan¸caram a comida pelo menor caminho
retornarem antes das que escolheram o caminho mais longo ´e maior, o menor caminho
ficar´a com uma maior concentra¸ao de feromˆonio e provavelmente ser´a o caminho seguido
pelas outras formigas. Na Figura 3.1 est´a ilustrada essa id´eia, mostrando o aumento de
formigas que utilizam o caminho mais curto entre o ninho e a fonte de alimento ao longo
do tempo.
Figura 3.1: Formigas em busca de alimento. Ao passar do tempo, o menor caminho
possuir´a a maior quantidade de feromˆonio depositado. (Fonte: http://lsin.unisantos.br/
lvcon/lvcon).
A ACO explora um mecanismo similar para resolver problemas de otimiza¸ao e foi
formalizado como metaheur´ıstica para problemas de otimiza¸ao combinatorial por Dorigo
& Di-Caro (1999).
26 3 Computa¸ao Natural
O funcionamento da ACO pode ser resumido como um conjunto de agentes compu-
tacionais concorrentes e ass´ıncronos (como uma colˆonia de formigas) que se movimentam
atrav´es de estados do problema, que correspondem `as solu¸oes parciais. A movimenta¸ao
dos agentes ´e baseada em dois parˆametros: trilha e atratividade. Durante seu movimento,
cada formiga constr´oi incrementalmente uma solu¸ao para o problema. Durante a fase
de constru¸ao ou finaliza¸ao de uma solu¸ao, a formiga avalia a solu¸ao encontrada e
modifica o valor de feromˆonio associado com as trilhas usadas. O total de feromˆonio nas
trilhas direcionar´a a busca para as demais formigas (Maniezzo et al., 2004).
Um algoritmo ACO inclui dois mecanismos adicionais: evapora¸ao da trilha e, opcio-
nalmente, oes daemon. A evapora¸ao da trilha decrementa a quantidade de feromˆonio
em todas as trilhas com o passar do tempo com o intuito de evitar o ac´umulo ilimitado
de feromˆonio. oes daemons podem ser utilizadas para permitir oes centralizadas, o
que ao acontece com as colˆonias naturais de formigas (Maniezzo et al., 2004).
Em ACO para problemas combinatoriais, formigas constroem solu¸oes incremental-
mente. Inicialmente cada formiga come¸ca com uma solu¸ao vazia s
0
e a cada passo de
constru¸ao i uma componente da solu¸ao ´e adicionada. A defini¸ao de componente da so-
lu¸ao ´e dependente da aplica¸ao. Para o problema do caixeiro viajante, por exemplo, uma
componente da solu¸ao ´e uma cidade que ´e adicionada ao percurso. Para escolher qual
componente da solu¸ao C
i
deve ser adicionada a s
i
, uma escolha probabil´ıstica ´e feita,
considerando-se normalmente o total de feromˆonio τ associado com uma determinada
componente e uma poss´ıvel informa¸ao heur´ıstica sobre o problema (Socha, 2004).
A ACO foi desenvolvida inicialmente para resolver problemas de otimiza¸ao combina-
torial, logo a vers˜ao original n˜ao se aplica `a problemas de otimiza¸ao de dom´ınio cont´ınuo.
Uma extens˜ao para a ACO foi desenvolvida por Socha (2004), a qual permite a otimiza¸ao
de problemas com vari´aveis cont´ınuas e mistas (discretas e cont´ınuas). Posteriormente, So-
cha & Dorigo (2008) desenvolveram o ACO
R
para problemas de dom´ınios cont´ınuos. A
id´eia principal do ACO
R
´e substituir a distribui¸ao de probabilidade discreta utilizada no
ACO convencional por uma cont´ınua, isto ´e, por uma Fun¸ao de Densidade de Probabi-
lidade (FDP).
No Algoritmo 1 ao descritos os passos do ACO para dom´ınios cont´ınuos. As solu¸oes
encontradas por uma formiga l ´e dada por s
l
. Ao inv´es de escolher uma componente da
solu¸ao como em problemas combinatoriais, uma formiga gera um umero aleat´orio de
acordo com uma FDP P
i
(x
i
) no passo i.
3.1.2 Otimiza¸ao por Enxame de Part´ıculas
A PSO ´e uma ecnica de otimiza¸ao global desenvolvida por Kennedy & Eberhart
(1995) e foi introduzida inicialmente para otimiza¸ao de fun¸oes cont´ınuas ao lineares.
O fato de que o compartilhamento de informa¸oes entre indiv´ıduos oferece uma vantagem
3.1 Inteligˆencia de Enxames 27
Algoritmo 1 Algoritmo ACO
R
(Socha, 2004; Socha & Dorigo, 2008).
τ distribui¸ao de probabilidade inicial P
i
(x
i
), i {1..n}
enquanto Crit´erio de parada ao for satisfeito fa¸ca
para cada formiga l fa¸ca
s
0
l
para cada componente i da solu¸ao fa¸ca
escolher valor x
i
aleatoriamente de acordo com distribui¸ao de probabilidade
P
i
(x
i
)
s
i
l
s
i1
l
x
i
fim para
fim para
SI
best
melhor solu¸ao da itera¸ao
SG
best
melhor solu¸ao entre as SG
best
anteriores e a SI
best
τ atualiza¸ao do feromˆonio baseado em uma ou mais solu¸oes encontradas
fim enquanto
evolutiva foi essencial no seu desenvolvimento. A PSO ´e baseada no comportamento social
de assaros, peixes e principalmente no comportamento social humano.
As part´ıculas se movimentam por um espa¸co de busca e ao capazes de armazenar
informa¸oes passadas e compartilhar informa¸oes com outras part´ıculas. Esses dois tipos
de informa¸oes correspondem `a aprendizagem individual (cognitiva) e `a transmiss˜ao cul-
tural (social). Dessa forma, as part´ıculas utilizam as melhores solu¸oes no seu processo de
“evolu¸ao”. Kennedy & Eberhart (2001) usaram trˆes princ´ıpios para explicar de forma
breve o processo de adapta¸ao cultural:
avaliar: cada part´ıcula deve avaliar a solu¸ao encontrada por ela no espa¸co de busca;
comparar: cada part´ıcula deve comparar a solu¸ao obtida por ela com as solu¸oes obtidas
pelas demais part´ıculas;
imitar: as part´ıculas devem imitar a part´ıcula que mais se aproximou da solu¸ao desejada.
O compartilhamento de informa¸oes ´e realizado entre part´ıculas consideradas vizinhas.
A vizinhan¸ca considerada pelo PSO ´e topol´ogica e ao se refere ao espa¸co de atributos
de cada part´ıcula. Um poss´ıvel arranjo topol´ogico para considerar vizinhan¸ca entre as
part´ıculas est´a ilustrado na Figura 3.2. a basicamente duas formas de se definir vizi-
nhan¸ca nesse contexto, global e local. A vizinhan¸ca global considera que cada part´ıcula
´e conectada a todas as outras e por isso o compartilhamento de informa¸oes ocorre entre
todo o enxame. Na vizinhan¸ca local cada part´ıcula ´e composta por ela pr´opria e seus
k-vizinhos mais pr´oximos (Castro, 2006). Na Figura 3.3 ´e apresentada uma topologia
para vizinhan¸ca global (`a esquerda) e para vizinhan¸ca local com k = 2 (`a direita).
A PSO pode ser aplicada basicamente a problemas bin´arios ou cont´ınuos. Cada part´ı-
cula ´e representada pela sua posi¸ao atual, velocidade e melhor posi¸ao encontrada. Cada
28 3 Computa¸ao Natural
Figura 3.2: Representa¸ao da vizinhan¸ca topol´ogica para part´ıculas. (Fonte: http://lsin.
unisantos.br/lvcon/lvcon).
Figura 3.3: Representa¸ao da vizinhan¸ca global (`a esquerda) e local (`a direita). (Fonte:
http://lsin.unisantos.br/lvcon/lvcon).
part´ıcula ´e tratada como um ponto em um espa¸co D-dimensional. A posi¸ao da part´ıcula
i ´e dada por X
i
= (x
i1
, x
i2
, . . . , x
iD
); sua velocidade ´e dada por V
i
= (v
i1
, v
i2
, . . . , v
iD
) e a
melhor posi¸ao encontrada por esta part´ıcula por P
i
= (p
i1
, p
i2
, . . . , p
iD
) (Castro, 2006).
Para o caso da vizinhan¸ca global, a melhor posi¸ao encontrada entre todas as part´ıculas
´e representada pelo s´ımbolo p
g
.
Uma part´ıcula ir´a se mover em uma determinada dire¸ao em fun¸ao da sua posi¸ao
atual, da sua velocidade, da melhor posi¸ao encontrada por ela e da melhor posi¸ao
encontrada pelos seus vizinhos. As equa¸oes 3.1 e 3.2 determinam a forma com que a
velocidade e a posi¸ao das part´ıculas ao atualizadas, respectivamente. Para evitar a
explos˜ao de velocidade das part´ıculas um limite de velocidade foi introduzido. A posi¸ao
da part´ıcula pode tamb´em ser restrita ao intervalo do espa¸co de busca definido. No
Algoritmo 2 ao descritos os passos para o PSO.
v
id
(t + 1) = w · v
id
(t) + ϕ
1
· r
1
· (p
id
x
id
(t)) + ϕ
2
· r
2
· (p
gd
x
id
(t)) (3.1)
x
id
(t + 1) = x
id
(t) + v
id
(t) (3.2)
3.2 Sistema Imunol´ogico Artificial 29
onde t representa a itera¸ao, w o peso da in´ercia, cujo papel ´e balancear a busca global e
a local e foi introduzido por Shi & Eberhart (1998), r
1
e r
2
ao dois valores independentes
distribu´ıdos uniformemente no intervalo [0, 1], ϕ
1
e ϕ
2
ao constantes de acelera¸ao.
Algoritmo 2 Algoritmo PSO.
τ 1
enquanto Crit´erio de parada ao for satisfeito fa¸ca
para cada particula i fa¸ca
se aptid˜ao de x
id
> p
id
enao
p
id
x
id
fim se
Atualizar velocidade da part´ıcula conforme a Equa¸ao 3.1
Atualizar posi¸ao da part´ıcula conforme a Equa¸ao 3.2
fim para
τ t + 1
fim enquanto
3.2 Sistema Imunol´ogico Artificial
O Sistema Imunol´ogico (SI) dos vertebrados ´e ao complexo quanto o erebro. O
funcionamento do SI ´e interessante ao apenas do ponto de vista biol´ogico, mas tamb´em
sobre uma perspectiva computacional. O SI ´e respons´avel por inspecionar o organismo
em busca de elulas do pr´oprio corpo que apresentem mal funcionamento, como ancer e
c´elulas tumorais, al´em de doen¸cas causadas por elementos oportunistas. Todo elemento
reconhecido pelo SI ´e chamado de ant´ıgeno (Ag).
O SIA ´e um sistema computacional inspirado na teoria da imunologia e fun¸oes imu-
nol´ogicas observadas e engloba princ´ıpios e modelos que ao aplicados para solucionar
problemas reais. SIAs em sido aplicados em uma grande variedade de ´areas de dom´ınio,
como reconhecimento de padr˜oes e classifica¸ao, otimiza¸ao, an´alise de dados e seguran¸ca
de computadores.
Os principais aspectos relacionados ao desenvolvimento de um modelo baseado em
SIAs ao: uma representa¸ao para criar modelos abstratos de ´org˜aos, elulas e mol´eculas
imunol´ogicas, um conjunto de fun¸oes de afinidade a fim de quantificar as intera¸oes entre
os “elementos artificiais” e um conjunto de algoritmos de prop´osito geral para governar a
dinˆamica do SIA (Castro & Timmis, 2002).
No SI, o linf´ocito ´e a elula respons´avel pela imunidade. Existem dois tipos de linf´oci-
tos: os linf´ocitos T (c´elulas-T) e os linf´ocitos B (c´elulas-B). Apesar da grande similaridade,
estas c´elulas diferem na forma de reconhecimento dos ant´ıgenos (Ags) e de sua fun¸ao.
O reconhecimento antigˆenico ´e a primeira etapa para que o SI inicie uma resposta imu-
nol´ogica. Os Ags que pertencem originalmente ao organismo, e ao inofensivos ao seu
30 3 Computa¸ao Natural
funcionamento, ao denominados de ant´ıgenos pr´oprios. Os ant´ıgenos que causam doen-
¸cas ao organismo ao chamados de ant´ıgenos ao-pr´oprios (Castro, 2006).
As elulas-T ao maturadas no timo e protegidas por uma barreira de sangue capaz
de excluir de forma eficiente ant´ıgenos ao-pr´oprios do timo, ou seja, aqueles que ao
pertencem originalmente ao ambiente t´ımico. As c´elulas-T que contˆem receptores capazes
de reconhecer Ags-pr´oprios presentes no timo ao eliminadas desse conjunto por meio de
um processo chamado de sele¸ao negativa. Todas as c´elulas-T que saem do timo para
circular por todo o corpo ao ditas tolerantes a elas pr´oprias, ou seja, elas ao ao auto-
reativas (Castro & Timmis, 2002; Abbas et al., 2000).
Com um papel complementar `a sele¸ao negativa, a sele¸ao clonal ´e uma teoria que
aborda a organiza¸ao da resposta imunol´ogica ao reconhecer, por meio das elulas-B,
um padr˜ao antigˆenico ao-pr´oprio. De forma breve, quando um ant´ıgeno ao-pr´oprio ´e
reconhecido pelos receptores das c´elulas-B com uma certa afinidade, ele ´e selecionado para
se proliferar e produzir anticorpos em grande volume. Os anticorpos ao liberados pelas
c´elulas-B para atuar contra os ant´ıgenos ao-pr´oprios invasores (Castro & Timmis, 2002;
Abbas et al., 2000).
Como forma de modelar esse reconhecimento realizado pelos receptores das c´elulas, Pe-
relson & Oster (1979) introduziram o conceito de forma-espa¸co. Esse conceito diz que
todas as propriedades dos receptores celulares que determinaram as intera¸oes entre as
mol´eculas podem ser descritas por uma estrutura de dados. Assim um anticorpo Ab pode
ser representado por um conjunto de coordenadas Ab =< Ab
1
, Ab
2
, ..., Ab
L
>, e um an-
t´ıgeno por Ag =< Ag
1
, Ag
2
, ..., Ag
L
>. Essa estrutura pode ser formada, por exemplo,
por valores bin´arios, reais ou inteiros, e ´e suficiente para quantificar a afinidade ou com-
plementariedade entre mol´eculas. Para quantificar a afinidade no caso de anticorpos e
ant´ıgenos formados por coordenadas cujos valores ao reais pode se utilizar a distˆancia
Euclidiana ou de Manhatan, por exemplo. Para coordenadas bin´arias, pode-se utilizar a
distˆancia de Hamming, por exemplo (Castro, 2006).
Para problemas de otimiza¸ao, ao inv´es de se utilizar ant´ıgenos usa-se uma fun¸ao
objetivo para avaliar a qualidade da resposta de cada anticorpo. Inspirados neste princ´ı-
pio Castro & Von-Zuben (2002) desenvolveram um algoritmo denominado CLONALG.
O algoritmo inicialmente gera uma popula¸ao de anticorpos que em seguida ao ava-
liados por uma fun¸ao objetivo. Todos os anticorpos ao clonados de acordo com suas
aptid˜oes. Quanto maior a aptid˜ao, maior o n´umero de opias geradas. Cada clone pro-
duzido ´e mutado proporcionalmente ao seu valor de aptid˜ao. Quanto maior a aptid˜ao,
menor a taxa de muta¸ao. Finalmente um determinado n´umero de anticorpos com as me-
nores aptid˜oes na popula¸ao ao substitu´ıdos pelos melhores indiv´ıduos mutados. Esses
passos ao repetidos at´e um crit´erio de parada ser satisfeito. No Algoritmo 3 ´e descrito o
CLONALG para problemas de otimiza¸ao, conforme (Castro, 2006).
3.3 Algoritmos Gen´eticos 31
Algoritmo 3 Algoritmo CLONALG para problemas de otimiza¸ao.
Criar uma popula¸ao inicial de anticorpos P
t 1;
enquanto Crit´erio de parada ao for satisfeito fa¸ca
Avaliar aptid˜ao de P
P 1 Selecionar n1 anticorpos de P com maiores aptid˜oes
C Clonar cada anticorpo de P 1 proporcional a sua aptid˜ao
C1 Mutar cada anticorpo de C proporcional a sua aptid˜ao
Avaliar aptid˜ao de C1
P 1 Selecionar n1 melhores clones mutados
P Substituir os n2 anticorpos de menores aptid˜oes de P pelos n2 de maior aptid˜ao
de P 1
t t + 1
fim enquanto
3.3 Algoritmos Gen´eticos
A Computa¸ao Evolutiva (CE) ´e um paradigma de computa¸ao inspirado na teoria da
sele¸ao natural dos seres vivos, relatada por Charles Darwin em seu livro “A Origem das
Esp´ecies”. Segundo essa teoria, os indiv´ıduos mais resistentes e bem adaptados possuem
maior chance de sobrevivˆencia, o que pode ser visto como um processo de “otimiza¸ao
natural”. A CE ´e aplicada principalmente na resolu¸ao de problemas de otimiza¸ao e os
algoritmos desse paradigma apresentam caracter´ısticas como auto-organiza¸ao e compor-
tamento adaptativo (Goldberg & Holland, 1988). Segundo Carvalho et al. (2004), uma
das principais caracter´ısticas da CE ´e que seus algoritmos ao constitu´ıdos por passos ge-
n´ericos e adapt´aveis, podendo serem utilizados na solu¸ao de diferentes problemas. Entre
as ´areas que fazem parte da CE, est˜ao os AGs, propostos por Holland (1975). Por´em,
seu desenvolvimento ocorreu com maior intensidade a partir do trabalho de Goldberg &
Holland (1988), no final da ecada de 80.
Em AGs, cada poss´ıvel solu¸ao para um determinado problema ´e chamado de indiv´ıduo
ou cromossomo e o conjunto desses cromossomos forma uma popula¸ao. Uma codifica¸ao
desses indiv´ıduos geralmente ´e necess´aria, sendo a bin´aria a mais utilizada. Nesse caso,
cada bit de um indiv´ıduo ´e chamado de gene. Uma representa¸ao de um cromossomo
bin´ario formado por 10 genes ´e apresentado na Figura 3.4.
Figura 3.4: Representa¸ao de um cromossomo bin´ario em um AG.
A busca por uma solu¸ao em AGs ocorre em um processo iterativo, em que cada
itera¸ao ´e denominada gera¸ao. A cada gera¸ao, o princ´ıpio da sele¸ao ´e aplicado para
32 3 Computa¸ao Natural
escolher os indiv´ıduos que ser˜ao recombinados (crossover) e/ou modificados (muta¸ao).
Al´em disso, alguns algoritmos utilizam o conceito de elitismo, que seleciona indiv´ıduos
com os melhores valores de aptid˜ao para a gera¸ao seguinte.
Um AG pode utilizar uma popula¸ao inicial gerada aleatoriamente quando n˜ao a um
conhecimento pr´evio sobre regi˜oes mais promissoras dentro do espa¸co de busca. Cada
indiv´ıduo gerado ´e uma poss´ıvel solu¸ao do problema em quest˜ao, que ´e avaliado por uma
fun¸ao de aptid˜ao, que fornece uma medida de sua qualidade. Essa medida ´e utilizada
durante a sele¸ao de indiv´ıduos, que pode ser realizada de diferentes formas.
O crossover ´e o operador gen´etico respons´avel pelo cruzamento de caracter´ısticas entre
pares de indiv´ıduos (pais) com o objetivo de gerar descendentes. Se o cruzamento de um
ponto for utilizado, determina-se um ponto em que os cromossomos pais ao divididos e
cada descendente gerado ser´a formado por examente um trecho de cada um dos cromos-
somos progenitores. Na Figura 3.5 ´e apresentada a aplica¸ao do operador de crossover
de um ponto. A freq
¨
uˆencia com que esse operador ´e aplicado ´e definido por uma taxa de
cruzamento. O operador gen´etico de muta¸ao ´e respons´avel pela manuten¸ao da diversi-
dade gen´etica na popula¸ao, modificando um ou mais genes de um cromossomo. A taxa
de muta¸ao define a freq
¨
uˆencia de aplica¸ao do operador de muta¸ao que, geralmente, ´e
aplicado com uma probabilidade baixa (Carvalho et al., 2003). A utiliza¸ao do operador
de muta¸ao para um cromossomo bin´ario ´e mostrado na Figura 3.6. No Algoritmo 4 ao
descritos os principais passos dos AGs, conforme (Carvalho et al., 2003).
Figura 3.5: Operador gen´etico de crossover de um ponto (Souto et al., 2003).
Para problemas de otimiza¸ao de parˆametros em dom´ınio cont´ınuo, ´e mais natural
representar os genes por n´umeros reais. O uso do alfabeto bin´ario para representar valores
no espa¸co cont´ınuo pode produzir o efeito denominado penhasco de Hamming (Hamming
cliff ). Isso acontece quando a codifica¸ao bin´aria de dois valores adjacentes difere em
todos os bits. Por exemplo, os valores 31 e 32 ao representados por 011111 e 100000,
respectivamente (Herrera et al., 1998).
Com a utiliza¸ao da codifica¸ao real para problemas de dom´ınio cont´ınuo, ao a
diferen¸ca entre a codifica¸ao e o espa¸co de busca (Herrera et al., 1998), pois cada gene
3.3 Algoritmos Gen´eticos 33
Figura 3.6: Operador gen´etico de muta¸ao (Souto et al., 2003).
Algoritmo 4 Algoritmo Gen´etico.
t = 0;
Gerar Popula¸ao Inicial P (0)
para cada indiv´ıduo i da popula¸ao atual P (t) fa¸ca
Avaliar aptid˜ao do indiv´ıduo i
fim para
enquanto Crit´erio de parada ao for satisfeito fa¸ca
t = t + 1
Selecionar popula¸ao P (t) a partir de P (t 1)
Aplicar operadores de cruzamento sobre P (t)
Aplicar operadores de muta¸ao sobre P (t)
Avaliar P (t)
fim enquanto
representa uma vari´avel do problema. Dessa forma, o tamanho do cromossomo tem o
mesmo tamanho do vetor de solu¸oes para o problema. Para empregar um AG com codi-
fica¸ao real (AG
CR
) na solu¸ao de problemas, foram desenvolvidos diferentes operadores
de crossover e muta¸ao. Em Herrera et al. (1998) ao analisados diferentes operadores e
os autores concluem que o operador de muta¸ao ao-uniforme (Michalewicz, 1992) e os
operadores de crossover BLX-α (Eshelman & Schaffer, 1993) e logical FCB (Herrera et al.,
1994) ao os mais adequados para serem utilizados com o AG
CR
. A seguir, o operador
de crossover BLX-α e o operador de muta¸ao ao-uniforme ao apresentados. Optou-se
aqui por apresentar o BLX-α pela sua simplicidade se comparado ao logical FCB.
Sejam C
1
= (c
1
1
, . . . , c
n
1
) e C
2
= (c
1
1
, . . . , c
n
1
) dois cromossomos selecionados para apli-
ca¸ao do operador de crossover. Para o operador BLX-α, um descendente ´e gerado:
H = (h
1
, . . . , h
i
, . . . , h
n
), onde h
i
´e um n´umero aleatoriamente (uniformemente) escolhido
no intervalo [c
min
I · α, c
max
+ I · α], c
min
= minimo(c
1
i
, c
2
i
), c
max
= maximo(c
1
i
, c
2
i
),
I = c
max
c
min
e α determina o balanceamento entre prospec¸ao (exploitation) e explora-
¸ao (exploration), e seu valor deve ser definido pelo usu´ario. No trabalho de Herrera et al.
(1998), diferentes valores para α foram testados. O melhor balanceamento foi alcan¸cado
quando α = 0.5. A seguir ser´a explicado o operador de muta¸ao ao-uniforme.
Seja C = (c
1
, ..., c
i
, ..., c
n
) um cromossomo e c
i
[a
i
, b
i
] um gene que foi selecionado
34 3 Computa¸ao Natural
aleatoriamente para muta¸ao. A aplica¸ao da muta¸ao ao-uniforme sobre esse gene
resultar´a em um gene c
i
, cujo valor ´e definido da seguinte forma. Seja t a gera¸ao em que
o operador est´a sendo aplicado e t
max
o n´umero aximo de gera¸oes. Enao
c
i
=
c
i
+ ∆(t, b
i
c
i
) se τ = 0
c
i
∆(t, c
i
a
i
) se τ = 1
em que τ ´e um n´umero aleat´orio bin´ario (0 ou 1) e
∆(t, y) = y
1 r
(
1
t
t
max
)
b
,
sendo r um n´umero aleat´orio pertencente ao intervalo [0, 1] e b um parˆametro escolhido
pelo usu´ario que determina o grau de dependˆencia do n´umero de gera¸oes. Em Herrera
et al. (1998), foi utilizado b = 5.
3.4 Considera¸oes Finais
Este cap´ıtulo iniciou com a apresenta¸ao das trˆes frentes de estudo que a Computa¸ao
Natural engloba. Posteriormente, os conceitos envolvidos na inteligˆencia de enxames
foram brevemente descritos e as metaheur´ısticas bioinspiradas ACO e PSO, pertencentes
a esse paradigma foram abordadas.
Os SIAs tamb´em foram apresentados, com particular aten¸ao ao princ´ıpio de sele¸ao
clonal. O funcionamento do algoritmo CLONALG para otimiza¸ao, desenvolvido com
base nesse princ´ıpio, foi explicado e seu algoritmo descrito. A ´ultima metaheur´ıstica
abordada neste cap´ıtulo foram os AGs. Foram apresentados operadores de crossover e de
muta¸ao que podem ser utilizados com AGs com codifica¸ao real.
As ecnicas bioinspiradas apresentadas neste cap´ıtulo foram utilizadas para ajustar os
valores dos parˆametros livres das t´ecnicas de AM descritas no Cap´ıtulo 2.
Cap´ıtulo 4
Experimentos com Fun¸oes de
Benchmark
Algoritmos bioinspirados tˆem sido utilizados em diversas ´areas, como rob´otica (Nolfi &
Floreano, 2004), minera¸ao de dados (Freitas, 2003; Sousa et al., 2004), otimiza¸ao (Ken-
nedy, 2005; Socha & Dorigo, 2008), seguran¸ca de redes (Castro & Von-Zuben, 2002), al´em
de muitas outras. Neste estudo, foram investigados os algoritmos bioinspirados ACO, AG,
CSA e PSO para o ajuste de parˆametros de ecnicas de AM. Para testar a funcionalidade
desses algoritmos, eles foram aplicados a cinco problemas de otimiza¸ao bem conheci-
dos. Na literatura podem ser encontrados outros trabalhos que compararam algoritmos
bioinspirados aplicados a problemas de otimiza¸ao, como os dois trabalhos mencionados
a seguir.
O trabalho de Elbeltagi et al. (2005) compara cinco algoritmos evolutivos. Nessa
compara¸ao, os autores utilizaram ACO, Algoritmos Mem´eticos (MA, do inglˆes, Memetic
Algorithms) (Moscato, 1989), PSO, AG e Shuffled Frog Leaping (SFL) (Eusuff & Lansey,
2003) aplicados a dois problemas cont´ınuos e um problema discreto. Segundo os autores,
o PSO foi o que, geralmente, obteve melhores resultados em termos de taxa de sucesso e
qualidade de solu¸ao, e o segundo melhor em termos de tempo de processamento.
Em Mezura-Montes & Lopez-Ramirez (2007), os autores compararam quatro algorit-
mos bioinspirados aplicados a quatro problemas de otimiza¸ao com restri¸oes. O objetivo
era associar caracter´ısticas das fun¸oes testadas com os algoritmos utilizados, a saber:
Evolu¸ao Diferencial (ED) (Price et al., 2005), PSO, AG e (µ + λ)-Estrat´egia Evolutiva
(EE) (Rechenberg, 1973) . Os autores conclu´ıram que o ED foi o mais competitivo para
o conjunto de fun¸oes testadas, e o PSO o que convergiu mais rapidamente para regi˜oes
promissoras do espa¸co de busca.
Neste cap´ıtulo ao apresentados os experimentos realizados com cinco fun¸oes de ben-
chmark. Esses experimentos em como objetivo avaliar a funcionalidade e o desempenho
dos algoritmos bioinspirados investigados para fun¸oes unimodais e multimodais. Inici-
almente, na Se¸ao 4.1, ao apresentadas as fun¸oes de benchmark utilizadas nos experi-
35
36 4 Experimentos com Fun¸oes de Benchmark
mentos preliminares. Os algoritmos bioinspirados implementados e seus parˆametros ao
apresentados na Se¸ao 4.2. Na Se¸ao 4.3 ao apresentados os resultados obtidos. Finali-
zando, na Se¸ao 4.4 ao feitas algumas considera¸oes finais sobre este cap´ıtulo.
4.1 Fun¸oes de Benchmark
Na Tabela 4.1 ao apresentadas as fun¸oes testadas, suas ormulas, dimens˜oes e interva-
los de busca utilizados. Essas fun¸oes s˜ao comumente utilizadas para comparar algoritmos
evolutivos (B
¨
ack, 1996). Na Figura 4.1 est˜ao ilustrados os gr´aficos bidimensionais des-
sas fun¸oes
1
. As dimens˜oes e os intervalos utilizados para cada fun¸ao foram os mesmos
utilizados por Elshamy et al. (2007). Os autores desse trabalho realizaram experimentos
com modifica¸oes propostas por eles para o PSO e compararam com o PSO modificado,
proposto por Shi & Eberhart (1998), utilizando vizinhan¸ca local e vizinhan¸ca global.
Tabela 4.1: Fun¸oes de benchmark utilizadas para verifica¸ao da funcionalidade e desem-
penho dos algoritmos bioinspirados investigados.
Fun¸ao Equa¸ao Dim. Intervalo
Esfera
f
1
(x) =
n
i=1
x
i
2
30 [100, 100]
Rosenbrock
f
2
(x) =
n1
i=1
[100(x
i+1
x
i
2
)
2
+ (x
i
1)
2
]
30 [30, 30]
Rastrigin
f
3
(x) =
n
i=1
[x
i
2
10cos(2πx
i
) + 10]
30 [5.12, 5.12]
Schaffer f6
f
4
(x) = 0.5 +
sen
2
x
2
+y
2
0.5
(1+0.001(x
2
+y
2
))
2
2 [100, 100]
Ackley
f
5
(x) = 20exp
0.2
1
n
n
i=1
x
i
2
exp
1
n
n
i=1
cos(2πx
i
)
+ 20 + e
30 [32, 32]
As fun¸oes Esfera e Rosenbrock (Rosenbrock, 1960) ao fun¸oes unimodais e testam
a habilidade do algoritmo frente `a superf´ıcies planas. As fun¸oes Rastrigin (Aimo &
Zilinskas, 1989), Schaffer f6 (Schaffer et al., 1989), e Ackley (Ackley, 1987) ao multimodais
e com um grande n´umero de m´ınimos locais, testando assim a habilidade dos algoritmos
em escapar de m´ınimos locais (Elshamy et al., 2007). O m´ınimo global para todas as
fun¸oes ´e zero. Para isso, todas as vari´aveis x
i
precisam ser iguais a zero, com exce¸ao da
fun¸ao Rosenbrock, em que todas as vari´aveis x
i
precisam ser iguais a um.
1
As figuras 4.1(a), 4.1(b), 4.1(c) e 4.1(e) foram obtidas do site: http://www.geatbx.com/docu/
fcnindex-01.html
4.1 Fun¸oes de Benchmark 37
(a) Gr´afico da fun¸ao Esfera (b) Gr´afico da fun¸ao Rosenbrock
(c) Gr´afico da fun¸ao Rastrigin (d) Gr´afico da fun¸ao Schaffer f6
(e) Gr´afico da fun¸ao Ackley
Figura 4.1: Gr´afico das fun¸oes de benchmark utilizadas.
38 4 Experimentos com Fun¸oes de Benchmark
4.2 Algoritmos Bioinspirados Implementados
Quatro algoritmos bioinspirados foram implementados para a realiza¸ao dos experi-
mentos: Otimiza¸ao por Enxame de Part´ıculas (PSO, do inglˆes, Particle Swarm Opti-
mization), Algoritmo de Sele¸ao Clonal (CSA, do inglˆes, Clonal Selection Algorithm),
Otimiza¸ao por Colˆonia de Formigas (ACO, do inglˆes, Ant Colony Optimization) e Algo-
ritmos Gen´eticos (AGs). Os algoritmos foram implementados na linguagem R. O R ´e um
software livre para computa¸ao estat´ıstica e possui uma grande quantidade de pacotes
dispon´ıveis gratuitamente, muitos deles podem ser obtidos pelo site do projeto R
2
.
O algoritmo ACO para dom´ınios cont´ınuos foi implementado com base em Socha
(2004) e Socha & Dorigo (2008). A principal diferen¸ca para o ACO cl´assico ´e o uso de
uma fun¸ao de probabilidade cont´ınua, ao inv´es de uma fun¸ao de probabilidade discreta.
Os parˆametros do ACO foram definidos com base no estudo de Socha & Dorigo (2008).
Um AG com codifica¸ao real foi implementado usando sele¸ao por torneio, operador
de crossover BLX-α e operador de muta¸ao ao-uniforme. Em raz˜ao dos resultados
obtidos durante alguns experimentos realizados com fun¸oes de benchmark, o elitismo
ao foi usado. Para fun¸oes multimodais ´e importante explorar arias regi˜oes do espa¸co
de busca para ao ficar preso `a m´ınimos locais. Portanto, melhores resultados foram
obtidos sem o uso do elitismo, que aumenta a prospec¸ao em detrimento da explora¸ao.
Os valores usados para os parˆametros do AG ao baseados em valores comumente usados
na literatura, como em Huang & Wang (2006) e Elbeltagi et al. (2005).
O algoritmo PSO foi implementado como especificado em Shi & Eberhart (1998), em
que um peso de in´ercia ´e adicionado ao algoritmo PSO original (Kennedy & Eberhart,
1995). A topologia de vizinhan¸ca global foi adotada. Os valores usados para acelera¸ao,
peso de in´ercia e velocidade das part´ıculas foram definidos conforme Eberhart & Shi
(2000).
Os anticorpos do algoritmo CSA foram desenvolvidos com codifica¸ao real. O n´umero
de anticorpos selecionados para clonagem foi definido de acordo com Castro & Von-Zuben
(2002). O procedimento que substitui anticorpos da mem´oria ao foi usado. Ao inv´es
disso, foi aplicado o operador de idade (Cutello et al., 2006; Castrogiovanni et al., 2007).
Esse operador elimina anticorpos que ao mutaram com sucesso por um determinado
n´umero de itera¸oes. O n´umero de clones gerados ´e proporcional `a solu¸ao da quali-
dade gerada pelo anticorpo. A hipermuta¸ao ´e inversamente proporcional `a qualidade do
anticorpo.
Na Tabela 4.2 ao descritos os valores usados para os parˆametros dos algoritmos bi-
oinspirados aplicados para otimizar as fun¸oes de benchmark.
Nos experimentos com fun¸oes de benchmark, cada indiv´ıduo dos algoritmos bioins-
pirados ´e composto por V
t
n´umeros reais, em que V
t
´e o n´umero de vari´aveis da fun¸ao
2
http://www.r-project.org/
4.2 Algoritmos Bioinspirados Implementados 39
Tabela 4.2: Valores para os parˆametros dos algoritmos bioinspirados.
Alg. Parˆametro S´ımbolo Valor
ACO
N´umero de formigas P
an
60
Velocidade de convergˆencia ξ 0.70
Local do processo de busca q 10
4
Tamanho do arquivo de solu¸oes k 60
PSO
N´umero de part´ıculas P
pa
60
Constante de acelera¸ao 1 ϕ
1
1.494
Constante de acelera¸ao 2 ϕ
2
1.494
Peso de controle da for¸ca de in´er-
cia
w 0.729
Velocidade axima υ 0.7
CSA
N´umero de anticorpos P
ab
40
Taxa da popula¸ao selecionada
para clonagem
n
1
1
Tempo de vida lt 6
Taxa de hipermuta¸ao h
r
0.5
AG
N´umero de cromossomos P
ch
60
Probabilidade de crossover p
c
0.7
Probabilidade de muta¸ao p
m
0.05
Press˜ao seletiva p
s
3
Balan¸co entre explora¸ao e pros-
pec¸ao
α 0.5
Grau de dependˆencia do n´umero
de itera¸oes
b 5
a ser minimizada. Nos experimentos para ajuste de parˆametros, cada indiv´ıduo ´e com-
posto por N
t
n´umeros reais, em que N
t
´e o n´umero de parˆametros a serem ajustados para
a t´ecnica de classifica¸ao. As solu¸oes iniciais (valores para os parˆametros das t´ecnicas
de classifica¸ao e valores para as vari´aveis das fun¸oes) ao geradas aleatoriamente sobre
os intervalos definidos. Como os algoritmos bioinspirados empregados ao estoc´asticos,
foram executadas 30 repeti¸oes para cada conjunto de dados ou fun¸oes, com diferentes
popula¸oes iniciais. O valor 30 foi definido por ser a quantidade m´ınima de dados em
uma popula¸ao com distribui¸ao normal, conforme o teorema central do limite (Achcar &
Rodrigues, 2000).
A minimiza¸ao das fun¸oes de benchmark ´e realizada at´e que uma condi¸ao de pa-
rada para os algoritmos bioinspirados seja satisfeita. Essa condi¸ao pode ser um n´umero
aximo de itera¸oes ou um erro m´ınimo a ser alcan¸cado, por exemplo. Em todos os expe-
rimentos realizados neste trabalho, o n´umero aximo de itera¸oes foi estabelecido como
crit´erio de parada. Esse crit´erio foi adotado porque possibilita verificar a convergˆencia de
todos os algoritmos bioinspirados para o mesmo n´umero de itera¸oes.
40 4 Experimentos com Fun¸oes de Benchmark
4.3 Resultados
O n´umero de itera¸oes adotado para todos os algoritmos bioinspirados ´e o mesmo
utilizado por Elshamy et al. (2007), ou seja, 10 000. Ao final das itera¸oes, o algoritmo
retorna o menor valor encontrado para a fun¸ao. Como os algoritmos ao estoasticos,
foram realizadas 30 execu¸oes independentes para cada fun¸ao.
Na Tabela 4.3 ao apresentadas as m´edias e os desvios padr˜ao (em parˆenteses) das
30 execu¸oes dos algoritmos bioinspirados para as fun¸oes unimodais. O menor valor
para cada fun¸ao est´a destacado. A convergˆencia dos algoritmos bioinspirados para essas
fun¸oes pode ser analisada por meio dos gr´aficos exibidos na Figura 4.2.
Em rela¸ao a fun¸ao Esfera, pode-se observar que o PSO conseguiu valores muito
menores que os demais algoritmos implementados. Em raz˜ao dos resultados publicados
em Elshamy et al. (2007), era esperado que o PSO conseguisse valores pr´oximos do m´ınimo
global. Para a fun¸ao Rosenbrock, o PSO novamente se sobressaiu aos demais algoritmos.
Dos algoritmos implementados, o AG foi o segundo melhor para a fun¸ao Esfera e o pior
para a fun¸ao Rosenbrock.
Para a fun¸ao Esfera, ´e poss´ıvel observar a partir do gr´afico da Figura 4.2(a), que o
PSO ao ficou preso a um m´ınimo local durante as 10 000 itera¸oes realizadas. O mesmo
ao ocorreu para o algoritmo AG e o CSA, que ficaram presos a um m´ınimo local logo nas
primeiras itera¸oes, e assim ao conseguiram resultados muito pr´oximos do m´ınimo global.
O AG conseguiu nas ´ultimas itera¸oes reduzir um pouco o m´ınimo local encontrado. A
convergˆencia do ACO foi muito lenta, e ap´os a itera¸ao 7 000, aproximadamente, estagnou.
Por meio dos gr´aficos de convergˆencia para a fun¸ao Rosenbrock, que s˜ao apresentados
no gr´afico da Figura 4.2(b), pode-se observar que o CSA e o PSO convergiram rapidamente
para valores pr´oximos do m´ınimo global. O ACO convergiu um pouco mais lentamente,
chegando a regi˜oes promissoras do espa¸co de busca encontradas pelo CSA e PSO por volta
da itera¸ao 2 000. O AG apresentou os piores resultados para os dois crit´erios avaliados
para esse problema. Convergiu mais lentamente para um m´ınimo local e obteve o valor
mais distante do m´ınimo global.
Com os resuldados apresentados para as fun¸oes unimodais, pode-se afirmar que o
PSO superou os demais algoritmos testados para os dois crit´erios analisados. Convergiu
rapidamente para ´areas promissoras e conseguiu os menores resultados para as fun¸oes.
Tabela 4.3: Resultados para cada algoritmo bioinspirado para as fun¸oes unimodais ap´os
10 000 itera¸oes.
Algoritmo Esfera Rosenbrock
ACO 7.8e-17 (5.2e-17) 2.3e+01 (1.2e+01)
AG 1.4e-17 (2.6e-17) 1.4e+02 (1.3e+02)
CSA 1.3e+00 (1.2e-01) 3.9e+01 (1.3e+00)
PSO 4.0e-219 (0.0e+00) 2.2e+00 (2.3e+00)
Elshamy et al. (2007) 1.1e-152 6.9e+000
4.3 Resultados 41
ACO
AG
PSO
CSA
Convergência para a função Esfera
Iterações
Mínimo obtido
0 2000 4000 6000 8000 10000
1e−200 1e−100 1e+00 1e+100 1e+200
(a) Fun¸ao Esfera.
ACO
AG
PSO
CSA
Convergência para a função Rosenbrock
Iterações
Mínimo obtido
0 2000 4000 6000 8000 10000
0 200 400 600 800 1000
(b) Fun¸ao Rosenbrock.
Figura 4.2: Convergˆencia dos algoritmos bioinspirados para fun¸oes unimodais.
Na Tabela 4.4 s˜ao apresentadas as edias de 30 execu¸oes dos valores m´ınimos obtidos
pelos algoritmos bioinspirados para as fun¸oes multimodais. Nessa tabela tamb´em ao
apresentados os melhores resultados do trabalho de Elshamy et al. (2007). Os desvios
padr˜ao ao apresentados entre parˆenteses, e os menores valores para cada fun¸ao est˜ao
destacados. Na Figura 4.3 ao apresentados os gr´aficos de convergˆencia para essas fun¸oes.
Todos os algoritmos bioinspirados tiveram grande dificuldade na minimiza¸ao da fun-
¸ao Rastrigin. Isso pode ser observado pela distˆancia do m´ınimo global. Os algoritmos
ficaram presos aos in´umeros pontos de m´ınimos locais existentes.
´
E poss´ıvel observar, por
meio do gr´afico ilustrado na Figura 4.3(a), que os algoritmos ACO e CSA ao ficaram
presos a um m´ınimo local. Por´em, a convergˆencia desses algoritmos foi muito lenta. O
AG obteve o menor valor para a fun¸ao Rastrigin e tamb´em convergiu ao apido quanto
os demais algoritmos. O PSO tamem convergiu rapidamente, mas ficou preso a m´ınimos
locais e ao superou o AG.
O gr´afico dos resultados obtidos para a fun¸ao Schaffer f6 ´e apresentado na figura 4.3(b).
Como pode ser observado, os algoritmos bioinspirados ACO, AG e PSO convergiram rapi-
damente para um m´ınimo local. Por´em, ficaram presos em m´ınimos locais e ao consegui-
ram reduzir significativamente o valor encontrado ap´os a itera¸ao 2000, aproximadamente.
A ´unica excess˜ao foi o CSA, que apresentou uma apida convergˆencia, sem ficar preso a
m´ınimos locais. A partir da itera¸ao 5000, aproximadamente, a velocidade de conver-
gˆencia reduziu, mas ao estagnou. at´e o final das itera¸oes. O AG, apesar do melhor
resultado para a fun¸ao Rastrigin, foi o pior algoritmo para a fun¸ao Schaffer f6.
O gr´afico apresentado na Figura 4.3(c) mostra que o ACO obteve o menor valor para
a fun¸ao Ackley. Esse algoritmo convergiu um pouco mais lentamente que os demais
algoritmos. Por´em, ao ocorreu a convergˆencia prematura para um m´ınimo local. Os
demais algoritmos estagnaram logo nas primeiras itera¸oes. Assim como para a fun¸ao
42 4 Experimentos com Fun¸oes de Benchmark
Rastrigin, o CSA novamente ao conseguiu bons resultados, e foi o pior algoritmo. O
PSO e o AG conseguiram resultados similares ao ACO.
ao ´e poss´ıvel apontar o melhor algoritmo para as fun¸oes unimodais. Para cada uma
das trˆes fun¸oes testadas, o valor m´ınimo foi obtido por trˆes algoritmos diferentes. O PSO
conseguiu o segundo menor valor para as trˆes fun¸oes. Portanto, caso fosse necess´ario
optar por um algoritmo, o PSO seria o mais adequado. Os resultados mostram que ´e
importante analisar as caracter´ısticas do problema antes de optar por um dos algoritmos
analisados.
Tabela 4.4: Resultados para cada algoritmo bioinspirado para as fun¸oes multimodais
ap´os 10 000 itera¸oes.
Algoritmo Rastrigin Schaffer f6 Ackley
ACO 1.7e+02 (1.5e+01) 1.0e-03 (1.1e-03) 1.0e-13 (4.8e-14)
AG 2.6e+01 (6.6e+00) 4.6e-03 (3.3e-03) 2.3e+00 (1.0e+00)
CSA 1.2e+02 (1.3e+01) 1.1e-05 (7.3e-06) 1.9e+01 (2.0e-01)
PSO 5.3e+01 (1.4e+01) 9.7e-04 (3.0e-03) 7.9e-01 (8.1e-01)
Elshamy et al. (2007) 3.4e+001 0 3.0e-002
Apesar da robustez dos algoritmos bioinspirados (Louren¸co et al., 2002; Ide & Ya-
suda, 2005), seus desempenhos podem variar devido ao ajuste de seus parˆametros. Uma
maior velocidade de convergˆencia para o ACO, por exemplo, pode ser obtido com o au-
mento desse parˆametro (ξ). Por´em, isso pode resultar em uma convergˆencia prematura
do algoritmo para um m´ınimo local.
4.4 Considera¸oes Finais
Os experimentos realizados analisaram dois aspectos dos algoritmos bioinspirados
frente a fun¸oes unimodais e multimodais. Os aspectos considerados foram a velocidade
de convergˆencia e a proximidade dos valores encontrados em rela¸ao ao m´ınimo global.
Em geral, os resultados mostram que o PSO se sobressaiu para fun¸oes unimodais, encon-
trando os menores valores para esses problemas com um n´umero reduzido de itera¸oes.
Para as fun¸oes multimodais ao foi poss´ıvel determinar o melhor algoritmo. Entretanto,
o PSO conseguiu o segundo menor valor para as trˆes fun¸oes, e convergia rapidamente
para o m´ınimo local. Para Schaffer f6, o CSA conseguiu os menores valores. Por´em, sua
convergˆencia ocorreu lentamente. A principal contribui¸ao destes experimentos foi veri-
ficar a funcionalidade dos algoritmos bioinspirados e relacion´a-los com as caracter´ısticas
das fun¸oes unimodais e multimodais utilizados. Essa rela¸ao pode auxiliar na escolha
algoritmo mais apropriado para um dado problema.
4.4 Considera¸oes Finais 43
ACO
AG
PSO
CSA
Convergência para a função Rastrigin
Iterações
Mínimo obtido
0 2000 4000 6000 8000 10000
10 20 50 100 200 500 1000
(a) Rastrigin.
ACO
AG
PSO
CSA
Convergência para a função Schaffer f6
Iterações
Mínimo obtido
0 2000 4000 6000 8000 10000
1e−05 1e−03 1e−01
(b) Schaffer f6.
ACO
AG
PSO
CSA
Convergência para a função Ackley
Iterações
Mínimo obtido
0 2000 4000 6000 8000 10000
0 5 10 15 20 25 30
(c) Ackley.
Figura 4.3: Convergˆencia dos algoritmos bioinspirados para fun¸oes multimodais.
44 4 Experimentos com Fun¸oes de Benchmark
Cap´ıtulo 5
Experimentos de Ajuste de
Parˆametros
Como mencionado anteriormente, este estudo tem como objetivo utilizar algoritmos
de otimiza¸ao bioinspirados para ajustar os valores dos parˆametros livres de ecnicas de
classifica¸ao. Esses algoritmos ser˜ao comparados para o ajuste de parˆametros utilizando
como crit´erio o desempenho obtido pelos classificadores para dados de express˜ao gˆenica.
Essa escolha teve por motivao restringir o dom´ınio e o formato dos dados de forma a
investigar se um algoritmo ´e mais adequado para esse dom´ınio. Para avaliar os algorit-
mos com outros formatos e dom´ınios, foram usados tamb´em, em alguns experimentos,
conjuntos de dados do reposit´orio UCI (Asuncion & Newman, 2007).
Nesta se¸ao, s˜ao apresentados os trˆes m´etodos experimentais empregados para o ajuste
de parˆametros das ecnicas de classifica¸ao SVMs e RNs. Esses trˆes m´etodos representam
a evolu¸ao ao longo do mestrado na defini¸ao do m´etodo a ser empregado para obter
estimativas de desempenho de classifica¸ao confi´aveis e evitar o uso indireto dos dados do
conjunto de teste no processo de busca dos algoritmos bioinspirados.
Este cap´ıtulo est´a organizado como segue. Na Se¸ao 5.1, ao descritas as principais
caracter´ısticas dos conjuntos de dados utilizados nos experimentos e as opera¸oes de pr´e-
processamento realizadas. Na Se¸ao 5.2 ao apresentados os algoritmos bioinspirados que
foram aplicados ao problema de ajuste de parˆametros. Na Se¸ao 5.3 ao apresentadas as
ferramentas de software utilizadas que implementam as t´ecnicas de classifica¸ao SVMs
e RNs. As etricas e os m´etodos de avalia¸ao dos classificadores ao apresentados na
Se¸ao 5.4. No m´etodo experimental A, apresentado na Se¸ao 5.5, s˜ao definidos os m´etodos
e os programas empregados para o ajuste de parˆametros de SVMs. As estimativas de
desempenho s˜ao obtidas por meio da valida¸ao cruzada estratificada com k parti¸oes. No
m´etodo experimental B, apresentado na Se¸ao 5.6, ao definidos os m´etodos empregados
para o ajuste de parˆametros de RNs. Os resultados obtidos ao baseadas em dois la¸cos
aninhados com valida¸ao cruzada estratificada. O etodo experimental C, apresentado
na Se¸ao 5.7, ´e semelhante ao m´etodo experimental B. As principais diferen¸cas est˜ao
45
46 5 Experimentos de Ajuste de Parˆametros
no processo de ajuste de parˆametros, em que os valores para os parˆametros ao obtidos
para cada parti¸ao do la¸co mais externo, e no armazenamento das estimativas. Este
m´etodo experimental ´e usado para o ajuste de parˆametros de RNs e SVMs. Os resultados
experimentais obtidos para cada m´etodo ao apresentados no final da respectiva se¸ao.
5.1 Conjuntos de Dados
Na Tabela 5.1 ao descritos os conjuntos de dados utilizados nos experimentos relata-
dos neste cap´ıtulo e suas principais caracter´ısticas. Nessa tabela ao apresentados, para
cada conjunto de dados, o n´umero de exemplos ( Ex.), o n´umero de atributos ( Attr.)
(desconsiderando o atributo classe), o n´umero de classes do problema ( Classes), o n´u-
mero de exemplos por classe ( Ex. por classe) e a Taxa de Erro Minorit´aria (TEM). A
TEM ´e a taxa de erro de um classificador que sempre prediz como sa´ıda a classe com o
maior n´umero de exemplos, ao apresentando, portanto, capacidade de generaliza¸ao.
Tabela 5.1: Conjuntos de dados utilizados nos experimentos.
Conjunto Ex. Attr. Classes Ex. por classe TEM (%)
olon 62 32 2 40/22 35.5
Glioma 50 16 2 22/28 44.0
Leucemia 100 50 2 49/51 49.0
ancreas 49 50 2 26/23 46.9
Leucemia2 248 50 6 79/15/27/20/43/64 31.9
Pulm˜ao 86 50 3 28/37/21 43.0
Australian 690 14 2 307/383 44.5
Pima 768 8 2 268/500 34.9
Segment 2310 19 7 330/330/330/330/330/330/330 14.3
Vehicle 846 18 4 218/212/217/199 23.5
Os conjuntos olon (Alon et al., 1999), Glioma (Nutt et al., 2003), Leucemia (Has-
linger et al., 2004), ancreas (Ishikawa et al., 2005), Leucemia2 (Yeoh et al., 2002) e
Pulm˜ao (Beer et al., 2002) contˆem dados de express˜ao gˆenica.
A an´alise de dados de express˜ao enica pode ser realizada com diferentes prop´ositos,
como classificar c´elulas entre normais e tumorais. O processo de express˜ao gˆenica consiste
na convers˜ao de instru¸oes contidas em trechos da cadeia de DNA (do inglˆes, Desoxy-
ribonucleic Acid), chamados de genes, em prote´ınas. A transcri¸ao do DNA em RNA
(Ribonucleic Acid) mensageiro (mRNA) e a tradu¸ao do mRNA em prote´ına, constituem
o dogma central da Biologia Molecular. A quantidade de mRNA presente em uma elula
e de prote´ına produzida est˜ao relacionadas, por´em nem sempre ao iguais (De-Robertis
& Hib, 2001; Faceli et al., 2005). a duas abordagens para avaliar a express˜ao enica: a
an´alise do transcriptoma e a an´alise do proteoma. A primeira utiliza o produto da trans-
cri¸ao, ou seja, o mRNA. A segunda analisa a prote´ına diretamente. Apesar da an´alise do
5.1 Conjuntos de Dados 47
proteoma ser feita diretamente com o produto final da express˜ao de um gene, essa an´alise
´e muito mais trabalhosa do que a do transcriptoma. Com o avan¸co de tecnologias ligadas
`a an´alise do proteoma, o uso dessa abordagem tem crescido. Entretanto, o transcriptoma
´e ainda a forma mais utilizada para an´alise de dados de express˜ao gˆenica (Faceli et al.,
2005). A mensura¸ao da express˜ao gˆenica por meio da an´alise do transcriptoma pode
ser feita por diversas ecnicas, que geram dados em larga escala, entre elas encontram-
se os etodos Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995) e
microarray (Schena et al., 1995).
Os conjuntos de dados australian (Australian Credit Approval), pima (Pima Indians
Diabetes), segment (Image Segmentation) e vehicle (Vehicle Silhouettes) foram usados no
projeto Statlog (Michie et al., 1994) e foram obtidos do reposit´orio UCI. A nomenclatura
original dos conjuntos de dados foi mantida em inglˆes, pois eles ao amplamente conhecidos
por esses nomes. Todos os conjuntos de dados possuem apenas atributos num´ericos, com
exce¸ao do conjunto australian, que possui 8 atributos categ´oricos.
Pr´e-processamento dos dados
Duas opera¸oes de processamento dos dados foram realizadas. Primeiro, os atributos
de entrada foram normalizados para que ficassem com edia zero e desvio padr˜ao um,
para os dados a serem usados pelas SVMs, e entre zero e um para as RNs. A normali-
za¸ao adotada para as SVMs ´e amplamente utilizada em experimentos de AM. Por´em,
para RNs, ´e comum a normaliza¸ao entre zero e um, pois valores pr´oximos de zero geram
uma pequena corre¸ao nos pesos da rede. Para os experimentos reportados na Se¸ao 5.7,
os dados ao foram normalizados para SVMs, pois esse procedimento ´e realizado inter-
namente pela implementa¸ao dessa ecnica. A normaliza¸ao dos dados foi embutida na
valida¸ao cruzada, ou seja, a edia e o desvio padr˜ao para a normaliza¸ao fora definidos
com base com base apenas nos dados de treinamento e posteriormente usados nos dados
de teste.
A segunda opera¸ao realizada foi a sele¸ao de atributos. A sele¸ao de atributos em
an´alise de dados de express˜ao enica, chamada de sele¸ao de genes, ´e importante ao
apenas para reduzir o custo computacional, pois normalmente a milhares de genes, mas
tamb´em eliminar genes ao informativos. A sele¸ao de atributos dos conjuntos de da-
dos olon e Glioma foram feitos por Souza (2005). O autor utilizou o m´etodo Threshold
Number of Misclassification (TNoM) (Ben-Dor et al., 2000) com 32 e 16 atributos, respec-
tivamente. Para os conjuntos de dados ancreas e Leucemia, o etodo between-groups to
within-groups sum of squares (BSS/WSS) (Dudoit et al., 2002) foi usado com 50 atributos
para ambos. O melhor n´umero de genes varia entre os conjuntos de dados. O valor 50
foi escolhido por ser um n´umero pequeno de genes, o que acelera o processo de classifi-
ca¸ao, e por ser um valor utilizado nos trabalhos de sele¸ao de genes, como por exemplo
48 5 Experimentos de Ajuste de Parˆametros
em Statnikov et al. (2005a). Para os experimentos reportados na Se¸ao 5.7, o m´etodo
BSS/WSS foi embutido no processo de valida¸ao cruzada, ou seja, a sele¸ao de atributos
foi realizada apenas usando o conjunto de treinamento,
Neste trabalho, ao foi realizado nenhum estudo para determinar o melhor n´umero de
genes para cada conjunto de dados. Portanto, o problema de vi´es na sele¸ao de genes ´e
reconhecido. Por´em, esse vi´es ao anula o prop´osito deste estudo, o qual ao ´e ter o melhor
classificador poss´ıvel, mas comparar diferentes algoritmos bioinspirados e abordagens para
o ajuste de parˆametros das ecnicas de classifica¸ao.
5.2 Algoritmos Bioinspirados
Os algoritmos bioinspirados usados durante os experimentos apresentados neste cap´ı-
tulo ao os mesmos usados nos experimentos com fun¸oes de benchmark no Cap´ıtulo 4.
As diferen¸cas se resumem aos valores de parˆametros adotados para esses algoritmos. Para
facilitar a visualiza¸ao desses parˆametros, a Tabela 4.2, com os parˆametros desses algorit-
mos, foi usada como base para a constru¸ao da Tabela 5.2, com as devidas modifica¸oes
nos valores dos parˆametros.
O processo de ajuste dos parˆametros das ecnicas de classifica¸ao ´e realizado at´e que
uma condi¸ao de parada para os algoritmos bioinspirados seja satisfeita. Essa condi¸ao
pode ser um n´umero m´aximo de itera¸oes ou um erro m´ınimo a ser alcan¸cado, por exem-
plo. Em todos os experimentos realizados neste trabalho, o n´umero aximo de itera¸oes
foi estabelecido como crit´erio de parada. A decis˜ao por esse crit´erio ocorreu por ao
ser poss´ıvel definir um erro m´ınimo comum para todos os conjuntos de dados e fun¸oes
testadas.
Este trabalho ao compara o desempenho dos algoritmos bioinspirados em rela¸ao ao
tempo de processamento. Esse fator ´e muito dependente da linguagem de programa¸ao,
configura¸ao do computador usado para rodar os experimentos e habilidades do programa-
dor. Ao inv´es disso, compara-se o n´umero de execu¸oes necess´arias das fun¸oes de aptid˜ao,
que neste trabalho, ao as t´ecnicas de classifica¸ao. Embora esse etodo trate dos pro-
blemas associados com o tempo de processamento, isso ao considera a complexidade de
tempo dos algoritmos (Socha & Dorigo, 2008).
Os classificadores gerados com os conjuntos de treinamento s˜ao utilizados como fun¸ao
de aptid˜ao. Os algoritmos bioinspirados usam a taxa de erro de valida¸ao gerada por esses
classificadores para guiarem suas buscas, ou seja, o objetivo dos algoritmos ´e minimizar
essa etrica, que ´e calculada para os diferentes m´etodos experimentais implementados.
A taxa de erro de um classificador para um conjunto de dados ´e dada pela Equa¸ao 2.2.
5.3 ecnicas de Classifica¸ao Investigadas 49
Tabela 5.2: Valores para os parˆametros dos algoritmos bioinspirados.
Alg. Parˆametro S´ımbolo Valor
ACO
N´umero de formigas P
an
30
Velocidade de convergˆencia ξ 0.70
Local do processo de busca q 10
4
Tamanho do arquivo de solu¸oes k 30
PSO
N´umero de part´ıculas P
pa
30
Constante de acelera¸ao 1 ϕ
1
1.494
Constante de acelera¸ao 2 ϕ
2
1.494
Peso de controle da for¸ca de in´er-
cia
w 0.729
Velocidade axima υ 0.7
CSA
N´umero de anticorpos P
ab
40
Taxa da popula¸ao selecionada
para clonagem
n
1
1
Tempo de vida lt 6
Taxa de hipermuta¸ao h
r
0.5
AG
N´umero de cromossomos P
ch
30
Probabilidade de crossover p
c
0.7
Probabilidade de muta¸ao p
m
0.05
Press˜ao seletiva p
s
3
Balan¸co entre explora¸ao e pros-
pec¸ao
α 0.5
Grau de dependˆencia do n´umero
de itera¸oes
b 5
5.3 T´ecnicas de Classifica¸c˜ao Investigadas
Para a gera¸ao dos classificadores, foram utilizados pacotes do ambiente R que im-
plementam os algoritmos de aprendizado para gera¸ao de modelos de SVMs e RNs para
classifica¸ao.
Para as SVMs, foi utilizado o pacote e1071, que ´e uma interface para a biblioteca
LIBSVM, desenvolvida por Meyer (2001). Essa biblioteca implementa diferentes kernels
para as SVMs, e cada um deles possui diferentes parˆametros. O kernel RBF (Gaussiano)
foi utilizado nesta pesquisa por ser o que apresenta, em geral, melhores resultados e menos
dificuldades num´ericas do que outros kernels (Hsu et al., 2007). Para o uso do kernel RBF
´e necess´ario ajustar dois parˆametros, um referente ao kernel RBF, denominado gama (γ)
e o outro `a pr´opria SVM, denominado custo (C), conforme descrito na Se¸ao 2.2.
Para as RNs, existem diferentes pacotes do ambiente R que poderiam ser utilizados,
como o AMORE, o neural e o nnet. Neste trabalho, foi utilizado o pacote AMORE com
uma rede Perceptron Multi-camadas (MLP, do inglˆes, Multi-Layer Perceptron) treinada
pelo algoritmo backpropagation com momentum. O pacote AMORE foi escolhido porque
propicia maior flexibilidade em rela¸ao aos parˆametros da rede, possibilitando um maior
50 5 Experimentos de Ajuste de Parˆametros
controle sobre ela. Entre os parˆametros que esse pacote permite ajustar, est˜ao a taxa de
aprendizado da rede, o termo momentum, a fun¸ao de ativao, o n´umero de camadas
e o n´umero de neurˆonios em cada camada. A MLP ´e a arquitetura de rede mais popu-
lar, e tem sido empregada com sucesso em uma grande variedade de problemas. Redes
MLP possuem uma ou mais camadas ocultas de neurˆonios, cujo pesos das conex˜oes ao
normalmente ajustados por algoritmos de aprendizado baseados em gradiente. Nos expe-
rimentos realizados, foi usada apenas uma camada oculta, que possibilita a representa¸ao
de in´umeras fun¸oes, suficientes para o prop´osito desse estudo, o qual ao ´e ter a melhor
arquitetura poss´ıvel, mas comparar diferentes abordagens para o ajuste de parˆametros.
As RNs MLP podem ser totalmente ou parcialmente conectadas. Uma rede neural ´e deno-
minada totalmente conectada quando cada um dos os de uma camada est´a conectado a
todos os n´os da camada seguinte e ´e dita parcialmente conectada quando alguns neurˆonios
de camadas adjacentes ao estiverem conectados. As RNs utilizadas nesta pesquisa ao
totalmente conectadas. Os parˆametros ajustados foram a taxa de aprendizado, o termo
momentum e o n´umero de neurˆonios na camada oculta.
5.4 Avalia¸ao dos Experimentos
Para avaliar o ajuste de parˆametros realizado pelos algoritmos bioinspirados e outras
abordagens, os classificadores gerados com os melhores parˆametros encontrados foram
comparados em rela¸ao `a taxa de erro de classifica¸ao obtida para diferentes conjuntos
de dados. A taxa de erro foi utilizada pelos algoritmos bioinspirados para guiarem suas
buscas pelo conjunto de valores para os parˆametros das t´ecnicas de classifica¸ao. Portanto,
essa m´etrica ´e utilizada na compara¸ao dos resultados obtidos. Al´em disso, em problemas
de classifica¸ao bin´aria, os experimentos da Se¸ao 5.7 tamb´em foram analisados por meio
de gr´aficos de curva ROC (do inglˆes, Receiver Operating Characteristics) e ´area sob a
curva ROC (AUC, do inglˆes, Area Under an ROC Curve).
Para avaliar se houve diferen¸ca estat´ıstica entre os diferentes classificadores gerados,
foram aplicados testes estat´ısticos. Inicialmente, foi aplicado o teste t pareado corrigido,
desenvolvido por Nadeau & Bengio (2003) e descrito na Se¸ao 2.1.2. Com esse teste,
apenas dois algoritmos podem ser comparados de cada vez. Para os experimentos das
se¸oes 5.6 e 5.7, tamb´em foi aplicado o teste de Friedman (Demˇsar, 2006), que permite a
compara¸ao de m´ultiplos algoritmos e m´ultiplos conjuntos de dados. Como apresentado
na Se¸ao 2.1.2, esse teste permite verificar se a ou ao diferen¸cas significativas entre os
diferentes classificadores para todos os conjuntos de dados. Nos testes em que houveram
diferen¸cas significativas, o teste `a posteriori Nemenyi (Demˇsar, 2006) foi aplicado para
verificar onde ocorreram as diferen¸cas.
5.5 etodo Experimental A: Ajuste de Parˆametros de SVMs 51
5.5 M´etodo Experimental A: Ajuste de Parˆametros
de SVMs
Neste m´etodo experimental, a gera¸ao do classificador ´e baseado no etodo de reamos-
tragem de valida¸ao cruzada estratificada com k parti¸oes. Uma, dentre as k parti¸oes,
foi separada para teste e as demais foram usadas para treinamento. Do conjunto de trei-
namento, uma parti¸ao ´e separada para valida¸ao. Os exemplos presentes no conjunto
de valida¸ao ao usados para estimar o erro de generaliza¸ao das SVMs. A taxa de erro
m´edio obtido para as k parti¸oes de valida¸ao ´e a estimativa para a taxa de erro edio
de teste do classificador. Essa estimativa ´e usada pelos algoritmos bioinspirados para
guiarem suas buscas no espa¸co de solu¸oes `a procura do conjunto ´otimo de valores para
os parˆametros das SVMs. Para cada solu¸ao (combina¸ao de valores dos parˆametros), o
algoritmo de aprendizado ´e executado k vezes. Na Figura 5.1 ´e apresentado um exemplo
desse m´etodo experimental para k = 4 parti¸oes.
Figura 5.1: M´etodo Experimental A.
Para os conjuntos de dados olon, Glioma e ancreas foi utilizado k = 3. Para o
conjunto de dados de Leucemia, k = 5. O n´umero de parti¸oes k, para cada conjunto
de dados, foi definido conforme o n´umero de exemplos por classe, de maneira a garantir
a presen¸ca de exemplos de todas as classes em todos as parti¸oes. O kernel Gaussiano
(RBF) foi usado para as SVMs,e portanto, os parˆametros gama (γ) e custo (C) foram
ajustados, como mencionado na Se¸ao 5.3.
Neste etodo experimental, ao usadas duas abordagens de referˆencia para compa-
ra¸ao com os algoritmos bioinspirados. A primeira, usa os valores padr˜ao adotados pela
biblioteca LIBSVM: γ = 1/a, em que a ´e o n´umero de atributos do conjunto de da-
dos, e C = 1. Essa abordagem ser´a denominada nos experimentos de Padr˜ao. A segunda
abordagem, denominada neste trabalho de Grade, usa uma fun¸ao da biblioteca LIBSVM,
chamada tune, para ajustar os parˆametros das SVMs. Essa fun¸ao usa o kernel Gaussiano
com valida¸ao cruzada via busca de grade (grid seach) paralela.
Os valores dos parˆametros da SVM ao representados diretamente nos algoritmos
bioinspirados utilizando codifica¸ao real. Nessa codifica¸ao, um indiv´ıduo do algoritmo
52 5 Experimentos de Ajuste de Parˆametros
bioinspirado representa uma solu¸ao direta (valores) para os parˆametros. Assim, um
indiv´ıduo do algoritmo bioinspirado ´e formado por dois n´umeros reais. O primeiro n´umero
representa o parˆametro custo (C) e o segundo representa o parˆametro gama (γ). Logo,
um indiv´ıduo ´e formado pelo par ordenado (C, γ). Neste m´etodo experimental, o intervalo
definido para os valores do parˆametro C = [2
2
, 2
12
] e do parˆametro γ = [2
10
, 2
4
]. Esses
intervalos foram estabelecidos com base no trabalho de Hsu et al. (2007).
Para os algoritmos bioinspirados ACO, PSO e AG, ao realizadas 100 itera¸oes para
para cada execu¸ao. Isso implica em 3 000 (n´umero de indiv´ıduos multiplicado pelo n´u-
mero de itera¸oes) avalia¸oes da fun¸ao de aptid˜ao pelo algoritmo PSO e 3 030 para os
algoritmos ACO e AG. As 30 avalia¸oes a mais devem-se a avalia¸ao da popula¸ao inicial
por esses algoritmos. A avalia¸ao da fun¸ao de aptid˜ao, para o processo de ajuste de
parˆametros, ´e a execu¸ao da valida¸ao cruzada. O algoritmo bioinspirado CSA realiza
60 itera¸oes. Esse menor n´umero de itera¸oes ´e compensado por um maior n´umero de
indiv´ıduos (60). O CSA realiza aproximadamente 7 000 avalia¸oes da fun¸ao de aptid˜ao.
A raz˜ao do alto n´umero de avalia¸oes associadas a esse algoritmo ´e que ele gera muitos
clones, que ao avaliados pela fun¸ao de aptid˜ao.
Resultados do Ajuste de Parˆametros de SVMs com o etodo
Experimental A
Nas tabelas 5.3, 5.4, 5.5 e 5.6, as taxas de erro de classifica¸ao obtidas pelas SVMs com
os parˆametros ajustados ao apresentadas em porcentagem. O desvio padr˜ao referente `as
30 execu¸oes dos algoritmos bioinspirados ao apresentados em parˆenteses, tamem em
porcentagem. Os menores erros est˜ao destacados. As taxas de erro apresentadas foram
obtidas pelos classificadores gerados com os parˆametros encontrados pelos algoritmos bi-
oinspirados para as menores taxas de erro de valida¸ao.
Tabela 5.3: olon - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados olon (em %).
Algoritmo Valida¸ao Teste
ACO 15.6 (8.1) 17.3 (7.3)
PSO 17.9 (-) 16.2 (0.9)
CSA 15.9 (2.5) 15.3 (1.5)
AG 16.5 (2.3) 15.6 (1.2)
Grade 13.8 (0.9) 13.0 (0.6)
Padr˜ao 16.2 (-) 11.4 (-)
A abordagem Grade obteve a menor taxa de erro de valida¸ao para o conjunto de dados
olon. Por´em, os valores padr˜ao para os parˆametros (abordagem Padr˜ao) obtiveram as
menores taxas de erro de teste. Nesse conjunto de dados, ocorreu uma grande diferen¸ca
entre as taxas de erro de valida¸ao e de teste para a abordagem Padr˜ao. A taxa de erro de
5.5 etodo Experimental A: Ajuste de Parˆametros de SVMs 53
Tabela 5.4: Glioma - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados Glioma (em %).
Algoritmo Valida¸ao Teste
ACO 10.2 (-) 16.4 (10.0)
PSO 13.6 (1.3) 15.9 (3.3)
CSA 12.9 (1.8) 15.0 (1.8)
AG 10.5 (1.1) 16.8 (2.2)
Grade 14.6 (2.1) 16.9 (2.8)
Padr˜ao 16.0 (-) 12.0 (-)
Tabela 5.5: Leucemia - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados Leucemia (em %).
Algoritmo Valida¸ao Teste
ACO 10.0 (-) 11.0 (0.3)
PSO 14.5 (11.6) 16.3 (13.8)
CSA 10.0 (4.9) 11.0 (4.0)
AG 33.6 (15.6) 39.1 (18.7)
Grade 12.2 (0.9) 12.3 (0.6)
Padr˜ao 10.9 (-) 11.9 (-)
valida¸ao obtida pelas SVMs com os valores padr˜ao foram compar´aveis `as obtidas pelos
algoritmos bioinpirados. Em algumas execu¸oes, o algoritmo ACO obteve taxa de erro de
valida¸ao e de teste de 12.9%. Contudo, para outras, o algoritmo ficou preso em m´ınimos
locais e ao conseguiu taxas de erro inferiores a 35.5%.
Para o conjunto Glioma, todos os algoritmos bioinspirados, especialmente o ACO e o
AG, obtiveram taxas de erro de valida¸ao menores do que as abordagens de referˆencia.
Por´em, o mesmo ao ocorreu para as taxas de erro de teste, em que a abordagem Padao
conseguiu os melhores resultados. Por causa da diferen¸ca consider´avel entre as taxas
de erro de valida¸ao e de teste, o desempenho dos algoritmos foi afetado. Esse fato ´e
observado mais facilmente para os algoritmos ACO e AG. Aparentemente, os algoritmos
bioinspirados levaram a um overfitting.
O ACO e o CSA obtiveram as menores taxas de erro de valida¸ao e de teste para o
conjunto de dados Leucemia. O AG ao conseguiu bons resultados para os conjuntos de
valida¸ao e de teste. Em algumas execu¸oes, o AG obteve uma taxa de erro de valida¸ao
de 10.0% e uma taxa de erro de teste de 11.0%. Por´em, em outras execu¸oes, ocorreu
convergˆencia prematura e o AG ficou preso em m´ınimos locais e n˜ao foi capaz de encontrar
taxas de erro menores do que 43.6% para valida¸ao e 51.0% para teste. Esse fato levou a
uma taxa de erro edio superior a dos outros algoritmos.
Para o conjunto ancreas, os algoritmos PSO, CSA e AG apresentaram taxas de
erro de valida¸ao menores que as abordagens Padr˜ao e Grade. O ACO e a abordagem
Grade conseguiram resultados compar´aveis, que foram melhores que a abordagem Padr˜ao.
54 5 Experimentos de Ajuste de Parˆametros
Tabela 5.6: ancreas - taxa de erro de valida¸ao e de teste e desvio padr˜ao para o conjunto
de dados ancreas (em %).
Algoritmo Valida¸ao Teste
ACO 15.0 (8.9) 16.9 (8.3)
PSO 12.3 (-) 14.4 (1.5)
CSA 12.3 (-) 13.9 (1.6)
AG 12.3 (-) 14.3 (1.5)
Grade 14.5 (2.6) 14.9 (1.0)
Padr˜ao 16.5 (-) 16.5 (-)
O CSA obteve os melhores resultados para o conjunto de teste. Entre os algoritmos
bioinspirados, apenas o ACO ao superou as abordagens Padr˜ao e Grade.
As SVMs obtiveram pequenas taxas de erro para diferentes valores de parˆametros,
evidenciando o grande n´umero de m´ınimos locais presentes no problema de ajuste de pa-
ametros para esses conjuntos de dados. Na Tabela 5.7, ao apresentados os intervalos
dos valores para os parˆametros gama (γ) e custo (C) para os melhores resultados obtidos
e os valores padr˜ao utilizados para o parˆametro γ. O valor padr˜ao para o parˆametro C
´e sempre um.
´
E importante observar que, apesar do limite superior do intervalo definido
para o parˆametro γ ser 2
4
, o maior valor para os quatro conjuntos de dados ´e aproxima-
damente 0.28. O menor valor para esse parˆametro, em dois conjuntos de dados, ´e o limite
inferior do intervalo, 2
10
. Por outro lado, os valores encontrados para o parˆametro C
normalmente ao maiores que 1, com excess˜ao do conjunto Leucemia, e muitas vezes, ao
pr´oximos do limite superior especificado.
Tabela 5.7: Intervalos de valores encontrados para os parˆametros γ e C.
Conjunto de Dados
γ C
m´ınimo aximo padr˜ao m´ınimo m´aximo
olon 9.77e-04 1.90e-03 3.12e-02 7.94e+00 5.64e+01
Glioma 9.77e-04 2.75e-01 6.25e-02 1.13e+00 3.47e+03
Leucemia 9.32e-03 5.63e-02 1.00e-02 2.50e-01 4.1e+03
ancreas 4.34e-02 4.34e-02 1.00e-02 1.72e+02 3.87e+03
Para avaliar se a diferen¸ca entre as taxas de erro obtidas, o teste-t pareado corrigido,
proposto por Nadeau & Bengio (2003), foi aplicado com 95% de confian¸ca. A hip´otese
nula ´e de que ao a diferen¸ca estat´ıstica entre as taxas de erro obtidas.
Para o conjunto olon, a hip´otese nula foi rejeitada na compara¸ao entre o ACO e a
abordagem Padr˜ao. Para o conjunto Glioma e ancreas, ao houve diferen¸ca estat´ıstica
entre nenhum algoritmo e as abordagens de referˆencia. Para o conjunto Leucemia, houve
diferen¸ca entre o AG e todos os outros algoritmos e as abordagens de referˆencia.
Adicionalmente, aplicou-se o teste de Friedman (Demˇsar, 2006), para verificar se a
diferen¸ca significativa entre os algoritmos/abordagens. O valor cr´ıtico da distribui¸ao F
5.6 etodo Experimental B: Ajuste de Parˆametros de RNs 55
com α = 0.05 e 5 (c 1) e 15 ((c 1) × (d 1)) graus de liberdade ´e 2.9, em que c ´e o
n´umero de classificadores e d ´e o n´umero de conjuntos de dados. A hip´otese nula ´e que
ao a diferen¸cas significativas entre os algoritmos/abordagens. Como o teste resultou
em F = 1.36, a hip´otese nula ao pode ser rejeitada. Em seguida, aplicou-se o mesmo
teste para o conjunto de valida¸ao, que novamente ao pode rejeitar a hip´otese nula, com
F = 1.11. Portanto, todos os algoritmos/abordagens em desempenhos estatisticamente
semelhantes.
5.6 M´etodo Experimental B: Ajuste de Parˆametros
de RNs
O ajuste de parˆametros neste m´etodo experimental ´e baseado em dois la¸cos aninhados.
O la¸co interno ´e usado para determinar a melhor combina¸ao de valores para os parˆametros
da RN, ou seja, os valores de parˆametros em que foi obtido o melhor desempenho para o
conjunto de dados de valida¸ao. O la¸co externo ´e usado para estimar o desempenho do
classificador gerado com os melhores parˆametros encontrados no la¸co interno.
A confian¸ca das estimativas obtidas, tanto para o la¸co interno como para o la¸co externo,
ao afetadas pela natureza aleat´oria dos exemplos usados para treinamento, valida¸ao e
teste. Para reduzir a variˆancia existente, ´e usada valida¸ao cruzada estratificada para os
dois la¸cos. Nestes experimentos, o n´umero de parti¸oes para o la¸co externo (N
D
) ´e igual
ao n´umero de parti¸oes para o la¸co interno (N
P
), N
D
= N
P
= 10. No la¸co externo, uma,
dentre as N
D
parti¸oes, ´e usada como conjunto de teste. No la¸co interno, uma, dentre
as N
P
parti¸oes, ´e usada como conjunto de valida¸ao. Das nove parti¸oes restantes para
cada la¸co, oito ao usadas para treinamento e uma ´e usada para a parada antecipada
do treinamento das RNs, ou seja, se o erro obtido para os dados contidos nessa parti¸ao
come¸carem a aumentar, o processo de treinamento ´e interrompido.
Na Figura 5.2 ´e mostrado um exemplo do uso de valida¸ao cruzada para os dois la¸cos
aninhados, com N
D
= N
P
= 4. O conjunto de dados D, no la¸co externo, ´e dividido em
quatro parti¸oes: d1, d2, d3 e d4. Para formar as parti¸oes do la¸co interno, as parti¸oes
de treinamento utilizadas no la¸co externo ao juntadas em uma ´unica parti¸ao P , que
posteriormente, ´e dividida em 4 parti¸oes (p1, p2, p3 e p4). A taxa de erro m´edio obtida
no la¸co interno ´e a estimativa para a taxa de erro de teste de uma parti¸ao do la¸co externo.
No exemplo da Figura 5.2, a taxa de erro edio de valida¸ao, 10.3%, ´e a estimativa para
a parti¸ao d1, em que a taxa de erro ´e 10%. A taxa de erro de teste para uma solu¸ao
(combina¸ao de valores para os parˆametros) para o conjunto de dados D ´e a m´edia da
taxa de erro de teste para cada uma das parti¸oes do la¸co externo. Esse valor ´e 10.9%
no exemplo da figura citada. A taxa de erro de valida¸ao para o conjunto de dados D, ´e
a m´edia das N
D
taxas de erro edio obtidas no la¸co interno. O objetivo dos algoritmos
56 5 Experimentos de Ajuste de Parˆametros
bioinspirados ´e minimizar a taxa de erro de valida¸ao para o conjunto de dados D.
Figura 5.2: M´etodo Experimental B.
A minimiza¸ao da taxa de erro de valida¸ao ´e realizada pelos algoritmos bioinspirados
at´e que o crit´erio de parada seja satisfeito. Como resposta, os algoritmos bioinspirados
fornecem a melhor solu¸ao (valores para os parˆametros) obtida, ou seja, a solu¸ao com
a menor taxa de erro m´edio obtida no la¸co interno. Esses valores para os parˆametros
ao usados para obter a estimativa do erro real, utilizando as parti¸oes de teste no la¸co
externo.
Para cada combinao de valores dos parˆametros, o algoritmo de aprendizado ´e exe-
cutado N
D
×N
P
vezes. Uma combina¸ao de valores para os parˆametros pode resultar em
pesos finais diferentes para a rede, usando o mesmo conjunto de dados para treinamento.
Isso ocorre porque os pesos da rede foram inicializados aleatoriamente. Para reduzir o
efeito dessa variˆancia, adotou-se, neste etodo experimental, r = 10 repeti¸oes para cada
treinamento realizado. O ideal seriam pelo menos 30 repeti¸oes, mas devido ao alto custo
computacional foram realizadas apenas 10 repeti¸oes de cada treinamento. Assim, o n´u-
mero total de execu¸oes do algoritmo de aprendizado para uma combina¸ao de valores
dos parˆametros E
t
= r × N
D
× N
P
.
O exemplo a seguir tenta esclarecer a id´eia do custo computacional envolvido no e-
todo experimental proposto. Suponha que um algoritmo de aprendizado possua dois
parˆametros a serem ajustados. Suponha ainda, que ser˜ao testados 12 diferentes valores
para o primeiro parˆametro e 15 diferentes valores para o segundo parˆametro, um total de
5.6 etodo Experimental B: Ajuste de Parˆametros de RNs 57
180 diferentes poss´ıveis combina¸oes. Se forem usadas 10 parti¸oes para os dois la¸cos, ou
seja, N
D
= N
P
= 10, e 5 repeti¸oes (r = 5), o algoritmo de aprendizado ser´a executado
10 ×5 × 180 = 9 000 vezes para o la¸co externo e 10 ×10 ×5 × 180 = 90 000 vezes para o
la¸co interno. Assim, o algoritmo de aprendizado ser´a executado no total 99 000 vezes.
Para as RNs, um indiv´ıduo ou solu¸ao de um algoritmo bioinspirado representa de
maneira direta uma solu¸ao para os parˆametros de uma RN. Como foram ajustados trˆes
parˆametros para as RNs, conforme descrito na Se¸ao 5.3, um indiv´ıduo ´e composto por
trˆes n´umeros reais. O primeiro valor refere-se ao n´umero de neurˆonios na camada oculta
(γ), e pode assumir um valor dentro do intervalo [2, 100]. O segundo valor, refere-se ao
parˆametro taxa de aprendizado (η), e pode assumir qualquer valor dentro do intervalo
[0.05, 1]. O terceiro valor refere-se ao parˆametro termo momentum (µ) e pode assumir
qualquer valor dentro do intervalo [0, 1]. Na Figura 5.3 ´e ilustrado um exemplo de um
indiv´ıduo com γ = 36, η = 0.1 e µ = 0.8.
Figura 5.3: Representa¸ao de um indiv´ıduo para ajuste de parˆametros de RNs.
Os resultados obtidos ao armazenados em uma estrutura de dados apropriada, expli-
cada a seguir. Com essa estrutura, todos os algoritmos bioinspirados usados nos experi-
mentos podem acessar os resultados rapidamente, evitando executar o algoritmo de apren-
dizado milhares de vezes para cada algoritmo bioinspirado. Para que o armazenamento
seja poss´ıvel, os intervalos definidos para os parˆametros foram discretizados, e os valores
encontrados pelos algoritmos bioinspirados ao arredondados para o valor mais pr´oximo.
Os valores para os parˆametros η e µ foram arredondados para fra¸oes de 0.05 e 0.1, res-
pectivamente. Assim, o dom´ınio dos valores para o parˆametro η ´e {0.05, 0.1, 0.15 . . . , 1},
e para o parˆametro µ o dom´ınio ´e {0, 0.1, 0.2, . . . , 1}. Adicionalmente, os valores para o
parˆametro γ foram arredondados para valores pares, {2, 4, . . . , 100}. Assim, ao poss´ıveis
11 000 diferentes combina¸oes de valores para os parˆametros.
Neste m´etodo experimental, foram propostas duas abordagens de referˆencia para o
ajuste de parˆametros de RNs. A primeira, usa os valores padr˜ao adotados pelo WEKA
para RNs MLP, ou seja, γ = (A + F )/2, η = 0.3 e µ = 0.2, em que A e F ao o
n´umero de atributos e o n´umero de classes, respectivamente. Essa abordagem ´e referida
como Padr˜ao. A segunda abordagem de referˆencia consiste em gerar aleatoriamente s
diferentes combina¸oes de valores para os parˆametros, em que s ´e o n´umero aproximado
de indiv´ıduos testados pelos algoritmos bioinspirados. A melhor combina¸ao, ou seja,
com a menor taxa de erro de valida¸ao, ´e usada para a gera¸ao dos classificadores no la¸co
externo. Essa abordagem ´e referida neste trabalho como Aleat´oria.
Como mencionado anteriormente, o n´umero de itera¸oes foi definido como o crit´erio
de parada para os algoritmos bioinspirados. Neste etodo experimental, os algoritmos
58 5 Experimentos de Ajuste de Parˆametros
bioinspirados ACO, AG e PSO param ap´os 100 itera¸oes. O algoritmo CSA, ara ap´os
60 itera¸oes. Ap´os o t´ermino das itera¸oes os algoritmos retornam os parˆametros que
resultaram no classificador com a menor taxa de erro de valida¸ao. O n´umero de itera¸oes
estabelecidas para o CSA ´e menor que os demais algoritmos, pois o CSA realiza aproxima-
damente o dobro de avalia¸oes da fun¸ao de aptid˜ao devido ao processo de clonagem, em
que cada clone precisa ser avaliado pela fun¸ao de aptid˜ao. Nestes experimentos, assim
como na se¸ao anterior, foram usados quatro conjuntos de dados de express˜ao gˆenica a
saber: olon, Glioma, Leucemia e ancreas.
Armazenamento dos Dados
Para armazenar os resultados obtidos, foi utilizado um array multi-dimensional. Os
resultados do la¸co externo foram armazenados em um array de seis dimens˜oes. A seguir,
´e descrito o que ´e armazenado em cada dimens˜ao:
1
a
: n´umero da parti¸ao de teste;
2
a
: parˆametro referente ao n´umero de neurˆonios na camada oculta (γ);
3
a
: parˆametro referente `a taxa de aprendizado (η);
4
a
: parˆametro referente ao termo momentum (µ);
5
a
: n´umero da repeti¸ao (r);
6
a
: medidas de desempenho (erro, precis˜ao, recall e Medida-F).
Suponha que se deseja acessar o erro de classifica¸ao armazenado em um array deno-
minado resultados com os seguintes valores para as dimens˜oes de um a cinco: 3, 36, 0.1, 0.8
e 4, respectivamente. Esse erro pode ser acessado da seguinte maneira:
erro = resultado(3, 36, 0.1, 0.8, 4, “erro”).
Os resultados do la¸co interno para RNs foram armazenados utilizando um array com
uma dimens˜ao a mais em rela¸ao ao la¸co externo. Essa dimens˜ao especifica o umero
da parti¸ao de valida¸ao do la¸co interno. Assim, ´e poss´ıvel acessar o erro obtido para
qualquer parti¸ao de valida¸ao.
Resultados do Ajuste de Parˆametros de RNs com o M´etodo Ex-
perimental B
Primeiramente, antes de utilizar os algoritmos bioinspirados para o ajuste de parˆame-
tros, foi verificado se a correla¸ao entre as taxas de erro de valida¸ao e de teste. Isso ´e
poss´ıvel pois os resultados de classifica¸ao para todas as combina¸oes de parˆametros est˜ao
armazenados. A correla¸ao entre duas vari´aveis reflete o grau que essas vari´aveis est˜ao
5.6 etodo Experimental B: Ajuste de Parˆametros de RNs 59
relacionadas. O coeficiente de correla¸ao de Pearson (r), ou simplesmente correla¸ao de
Pearson, reflete o grau de rela¸ao linear entre duas vari´aveis. O coeficiente r pode assumir
valores entre 1 e 1. Quando r = 1, sifgnifica que a uma correla¸ao positiva perfeita
entre as duas vari´aveis. Quando r = 1, significa que a uma correla¸ao negativa per-
feita entre as duas vari´aveis, ou seja, grandes valores de uma vari´avel est˜ao associados
a pequenos valores da outra vari´avel. Quando r = 0, significa que as duas vari´aveis ao
absolutamente independentes. Por´em, como a correla¸ao de Pearson avalia apenas a cor-
rela¸ao entre vari´aveis lineares, pode existir uma dependˆencia ao linear e outros meios
devem ser investigados. A correla¸ao de Pearson foi aplicada para os quatro conjuntos de
dados. Para os conjuntos olon, Glioma, Leucemia e ancreas a correla¸ao (r) foi 0.87,
0.97, 0.74 e 0.89, respectivamente. Para os conjuntos de dados C´olon, Glioma e ancreas,
os algoritmos bioinspirados poder˜ao guiar suas buscas confiantes nas estimativas de vali-
da¸ao obtidas. A correla¸ao para o conjunto de dados Leucemia foi um pouco mais baixa.
Por´em, essa correla¸ao ainda ´e suficiente para guiar as buscas dos algoritmos.
Nas Tabelas 5.8, 5.9, 5.10 e 5.11 s˜ao apresentados os resultados de classifica¸ao obtidos
pelas RNs com os parˆametros ajustados por cada algoritmo bioinspirado. Nessas tabelas
ao apresentadas, em porcentagem, as taxas de erro m´edio e o desvio padr˜ao (em parˆente-
ses) referente `as 30 execu¸oes dos algoritmos bioinpirados para os conjuntos de valida¸ao
e de teste. As menores taxas de erro est˜ao destacadas. Adicionalmente, o n´umero edio
de diferentes combina¸oes (solu¸oes) ao apresentados. Esse n´umero corresponde `a m´edia
das 30 execu¸oes realizadas por cada algoritmo/abordagem. A abordagem Padr˜ao sempre
utiliza a mesma combina¸ao de valores para um conjunto de dados. Por´em, ao contr´ario
das SVMs, pode ocorrer diferen¸cas devido `a inicializa¸ao aleat´oria dos pesos da rede.
Tabela 5.8: olon - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e n´umero
de diferentes combina¸oes testadas para o conjunto de dados olon.
Algoritmo Valida¸ao Teste Comb.
ACO 15.2 (0.0) 15.6 (0.8) 1353
AG 15.4 (0.2) 13.8 (1.2) 221
CSA 15.6 (0.3) 13.4 (1.4) 1361
PSO 15.3 (0.1) 12.9 (0.9) 1200
Aleat´oria 15.4 (0.1) 15.2 (1.8) 2595
Padr˜ao 19.7 (0.0) 17.9 (0.0)
A primeira observao que pode ser feita ´e que os algoritmos bioinpirados obtiveram
resultados melhores ou semelhantes `as abordagens Aleat´oria e Padr˜ao. A menor taxa de
erro de valida¸ao e de teste, para todos os conjuntos de dados, foi obtido por um algoritmo
bioinspirado. Apenas para o conjunto de dados Glioma, para a taxa de erro de valida¸ao,
´e que a abordagem Aleat´oria conseguiu resultados iguais aos dos algoritmos ACO, AG e
PSO, e um pouco menor do que o CSA. Isso indica que os algoritmos est˜ao encontrando
boas combina¸oes de valores para os parˆametros.
60 5 Experimentos de Ajuste de Parˆametros
Tabela 5.9: Glioma - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e n´umero
de diferentes combina¸oes testadas para o conjunto de dados Glioma.
Algoritmo Valida¸ao Teste Comb.
ACO 14.9 (0.0) 15.0 (0.0) 1461
AG 14.9 (0.1) 15.0 (0.1) 228
CSA 15.0 (0.1) 14.8 (0.4) 1298
PSO 14.9 (0.0) 15.0 (0.0) 1199
Aleat´oria 14.9 (0.0) 15.0 (0.2) 2600
Padr˜ao 17.5 (0.0) 15.7 (0.0)
Tabela 5.10: Leucemia - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Leucemia.
Algoritmo Valida¸ao Teste Comb.
ACO 13.9 (0.2) 15.0 (0.2) 1533
AG 15.3 (0.5) 16.2 (0.8) 249
CSA 15.3 (0.4) 15.8 (0.8) 1362
PSO 14.7 (0.6) 15.7 (0.4) 1633
Aleat´oria 14.6 (0.4) 15.5 (0.5) 2599
Padr˜ao 18.4 (0.0) 22.1 (0.0)
A compara¸ao entre os diferentes algoritmos bioinspirados mostra que, em geral, o
ACO encontrou os melhores resultados. Esse algoritmo conseguiu as menores taxas de
erro de valida¸ao para os quatro conjuntos de dados. As taxas de erro de teste foram
menores para os conjuntos de Leucemia e ancreas, e similares para o conjunto Glioma.
Por´em, para o conjunto olon, o ACO foi o pior algoritmo bioinspirado. O desempenho
do ACO, relativamente `as outras t´ecnicas, ao ´e ao bom nos conjuntos de dados em que
a diferen¸ca entre o algoritmo bioinspirado e a abordagem Padr˜ao ´e pequena. Isso pode
indicar que a uma grande quantidade de combina¸oes de parˆametros que resultam em
taxas de erro m´ınimas para esses conjuntos de dados.
Alguns testes foram executados para avaliar a significˆancia estat´ıstica das diferen¸cas
observadas. O primeiro teste aplicado foi o teste-t pareado corrigido, com n´ıvel de signi-
Tabela 5.11: ancreas - taxa de erro de valida¸ao e de teste, desvio padr˜ao (em %) e
n´umero de diferentes combina¸oes testadas para o conjunto de dados ancreas.
Algoritmo Valida¸ao Teste Comb.
ACO 15.4 (0.4) 15.7 (0.9) 1486
AG 16.6 (0.4) 17.6 (0.8) 223
CSA 16.5 (0.4) 17.6 (1.5) 1391
PSO 16.1 (0.5) 17.4 (1.4) 2151
Aleat´oria 16.1 (0.3) 17.5 (1.6) 2601
Padr˜ao 17.8 (0.0) 17.3 (0.0)
5.6 etodo Experimental B: Ajuste de Parˆametros de RNs 61
ficˆancia α = 0.05 (95% de confian¸ca) e nove graus de liberdade, correspondendo `as k 1
parti¸oes. Os dados usados foram as taxas de erro para cada uma das 10 parti¸oes. A
hip´otese nula ´e que os algoritmos e as abordagens conseguiram o mesmo desempenho. De
acordo com a distribui¸ao de Student, quando a compara¸ao entre dois algoritmos resultar
em um p-value maior do que 1.833, pode-se rejeitar a hip´otese nula. O teste estat´ıstico
mostrou que ao a diferen¸cas significativas para as taxas de erro de teste. Por´em, para
as taxas de erro de valida¸ao, foram observadas algumas diferen¸cas significativas. Como
podem ser observadas nas tabelas apresentadas, as taxas de erro de valida¸ao, geralmente,
variam mais do que as de teste, o que justifica a rejei¸ao da hip´otese nula. Os resultados
para esse teste s˜ao apresentados na Tabela 5.12. Cada c´elula C
i,j
representa a compara¸ao
entre o algoritmo/abordagem da linha i com o algoritmo/abordagem da coluna j. Cada
c´elula possui a inicial referente ao conjunto de dados em que o algoritmo/abordagem i ´e
significativamente diferente do algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia
e {P}ˆancreas. Um h´ıfen ´e usado quando a diferen¸ca ao ´e significativa.
Esses resultados normalmente confirmam as observoes anteriores. a, contudo, al-
gumas diferen¸cas. Para os conjuntos de dados olon, Glioma e Leucemia, as diferen¸cas
entre os algoritmos bioinpirados e a abordagem Padr˜ao ´e significativa. Por´em, para o
conjunto de dados ancreas, o ACO foi o ´unico algoritmo com diferen¸ca significativa para
a abordagem Padr˜ao. Para o conjunto de dados Leucemia, o ACO foi significativamente
diferente de todos os outros algoritmos e abordagens, com exce¸ao do PSO.
Tabela 5.12: An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de valida-
¸ao).
AG CSA PSO Aleat´oria Padr˜ao
ACO - - L - - - L - - - - - - - L - C G L -
AG - - - - - - L - - - L - C G L P
CSA - - L - - - L - C G L -
PSO - - - - C G L -
Aleat´oria C G L -
Adicionalmente aplicou-se o teste de Friedman (Demˇsar, 2006), para verificar se a
diferen¸ca significativa entre qualquer um dos algoritmos ou abordagens, considerando as
taxas de erro de teste de todos os conjuntos de dados. O valor cr´ıtico da distribui¸ao F
com α = 0.05 e 5 (c 1) e 15 ((c 1) × (d 1)) graus de liberdade ´e 2.9, em que c ´e o
n´umero de classificadores e d ´e o n´umero de conjuntos de dados. Como o teste resultou
em F = 1.04, a hip´otese nula, de que ao a diferen¸ca estat´ıstica entre os resultados
obtidos pelos algoritmos e as abordagens, foi aceita. Assim, aplicou-se o mesmo teste
para o conjunto de valida¸ao, que resultou na rejei¸ao da hip´otese nula, com F = 11.74.
Em seguida, aplicou-se o teste de Nemenyi (Demˇsar, 2006) para identificar quais pares
eram significativos. Na Tabela 5.13 ´e apresentado o ranking m´edio usando o teste de
62 5 Experimentos de Ajuste de Parˆametros
Friedman para as taxas de erro de valida¸ao e de teste. O valor cr´ıtico para comparar
o ranking-m´edio de dois algoritmos/abordagens com α = 0.05 ´e 3.77. O resultado do
teste confirmou que o ACO foi significativamente melhor do que a abordagem Padr˜ao no
conjunto de valida¸ao.
Tabela 5.13: Ranking edio usando o teste de Friedman.
Algoritmo Valida¸ao Teste
ACO 1.375 2.625
AG 3.875 4.250
CSA 4.625 3.125
PSO 2.500 2.625
Aleat´oria 2.625 3.375
Padr˜ao 6.000 5.000
Os n´umeros de diferentes combinoes testadas por cada algoritmo, apresentados nas
tabelas de 5.8 a 5.11, provˆeem informa¸ao sobre o compromisso entre explora¸ao e pros-
pec¸ao. Como mencionado anteriormente, o n´umero aximo de indiv´ıduos que cada
algoritmo ´e capaz de testar ´e determinado pelos seus parˆametros. Nestes experimen-
tos, os algoritmos ACO, PSO e AGs poderiam testar aproximadamente 3 000 indiv´ıduos,
enquanto que o algoritmo CSA, devido ao processo de clonagem, poderia testar aproxima-
damente 7 000 indiv´ıduos. Com os intervalos definidos, ao poss´ıveis 11 000 combina¸oes
para os valores dos parˆametros. A propor¸ao de diferentes combina¸oes testadas pelos
algoritmos ACO, PSO e CSA indica um bom balan¸co entre explora¸ao e prospec¸ao do
espa¸co de busca. Explora¸ao ´e a habilidade de testar arias regi˜oes do espa¸co de busca
para localizar uma regi˜ao promissora, preferencialmente a ´otima. Prospec¸ao ´e a habili-
dade de concentrar a busca em uma regi˜ao promissora de forma a melhorar o resultado
obtido at´e o momento para essa regi˜ao (Trelea, 2003). Por outro lado, o AG explorou uma
propor¸ao menor de diferentes combina¸oes. Isso ocorreu mesmo sem o uso do elitismo,
processo que pode aumentar a prospec¸ao. Isso pode ter ocorrido devido aos valores dos
parˆametros usados para o algoritmo. Provavelmente, um aumento na probabilidade de
muta¸ao minimizasse esse problema. Apesar disso, os resultados obtidos pelo AG foram
compar´aveis aos resultados obtidos por outros algoritmos. Isso significa que ao a uma
correla¸ao clara entre o total de explora¸ao e a qualidade das solu¸oes obtidas. Como men-
cionado na Se¸ao 4.2, o elistismo ao foi usado em raz˜ao dos resultados obtidos durante
alguns experimentos realizados com fun¸oes de benchmark.
Na Tabela 5.14, ao apresentadas as edias de algumas medidas referente aos valores
encontrados para os parˆametros, considerando todas as execu¸oes dos algoritmos bioins-
pirados. O n´umero de neurˆonios utilizados pela abordagem Padr˜ao para os conjuntos de
dados olon, Glioma, Leucemia e ancreas ´e 9, 17, 26 e 26, respectivamente. O parˆame-
tro η ´e igual a 0.3 e o parˆametro µ ´e igual a 0.2 para todos os conjuntos de dados. Como
5.6 etodo Experimental B: Ajuste de Parˆametros de RNs 63
´e poss´ıvel observar, os valores encontrados para os parˆametros abrangem quase todo o
espa¸co de busca delimitado. Para o conjunto de dados Leucemia e ancreas, o n´umero
de neurˆonios ocultos encontrados ´e pequeno se comparado aos outros dois conjuntos. O
menor valor desse parˆametro, para o conjunto Glioma, foi 82. Para o conjunto Leucemia,
o valor m´ınimo para o parˆametro termo momentum ficou acima de 0.7. As medianas das
taxas de aprendizado ficaram acima de 0.6 para os conjuntos olon e Glioma, e abaixo
de 0.2 para o conjunto ancreas.
Tabela 5.14: Estat´ısticas dos melhores valores de parˆametros encontrados para o conjunto
de valida¸ao para todos os algoritmos bioinspirados.
Parˆametro Medida olon Glioma Leucemia ancreas
γ aximo 98 99 53 80
(nr.neurˆonios)
Mediana 65 92 18 17
M´ınimo 2 82 5 3
aximo 0.95 0.93 0.86 0.83
η
Mediana 0.65 0.69 0.46 0.19
M´ınimo 0.21 0.23 0.05 0.05
µ
aximo 0.93 0.83 1.00 1.00
Mediana 0.48 0.60 0.95 0.75
M´ınimo 0.18 0.50 0.78 0.08
Como os resultados para todos os valores dos parˆametros foram armazenados, ´e pos-
s´ıvel extrair algumas informa¸oes. Na Tabela 5.15 ao apresentadas a mediana, o m´ınimo
e o aximo para cada conjunto de dados. Esses valores ao as edias para todas as
parti¸oes de todas as combina¸oes de valores dos parˆametros.
´
E poss´ıvel observar que os
algoritmos bioinspirados e a abordagem Aleat´oria conseguiram taxas de erro de valida¸ao
m´ınimas ou pr´oximas das m´ınimas, dentre todas as combina¸oes testadas. As taxas de
erro medianas mostram que a uma grande quantidade de combina¸oes de valores para
os parˆametros que resultam em pequenas taxas de erro, apesar de existirem combina¸oes
com taxas de erro muito elevadas.
Tabela 5.15: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes).
Medida Val./Teste olon Glioma Leucemia ancreas
aximo
Valida¸ao 35.2 55.5 49.4 45.8
Teste 35.2 55.5 49.4 45.8
Mediana
Valida¸ao 19.2 16.8 18.7 17.7
Teste 15.9 15.0 22.3 17.3
M´ınimo
Valida¸ao 15.2 14.9 13.9 15.2
Teste 10.5 11.1 11.9 12.8
64 5 Experimentos de Ajuste de Parˆametros
5.7 M´etodo Experimental C: Ajuste de Parˆametros
de RNs e SVMs
Este m´etodo experimental, assim como o etodo B, usa dois la¸cos aninhados. A
´unica diferen¸ca ´e que neste etodo, os parˆametros ao ajustados para cada parti¸ao do
la¸co externo, ou seja, a minimiza¸ao do erro de valida¸ao ´e feita independentemente para
cada parti¸ao do la¸co externo. A modifica¸ao do etodo experimental ocorreu para que os
dados usados para teste no la¸co externo ao fossem usados indiretamente no processo de
ajuste de parˆametros. Isso garante que os algoritmos bioinspirados utilizam estimativas
calculadas apenas com os dados de treinamento para cada parti¸ao do la¸co externo. O
m´etodo adotado nestes experimentos foi utilizado tamem em Statnikov et al. (2005b)
e Statnikov et al. (2005a).
Suponha que exista apenas um parˆametro α a ser ajustado para um algoritmo de
aprendizado A, e que α possa assumir m diferentes valores: α
1
, α
2
, α
3
, . . . , α
m
. O desem-
penho D
i
de um classificador treinado pelo algoritmo de aprendizado A com o parˆametro
α
i
´e estimado para i = 1, . . . , m no la¸co interno. O modelo final ´e constru´ıdo treinando
o algoritmo A com o parˆametro α
melhor
no la¸co externo, em que melhor = argmax(D
i
),
para i = 1, 2, . . . , m. Assim como no m´etodo experimental B, N
D
e N
P
ao o n´umero
de parti¸oes para o la¸co externo e interno, respectivamente. O Algoritmo 5 ´e usado para
implementar este etodo experimental.
Este m´etodo para ajuste de parˆametros ´e muito custoso computacionalmente. Nestes
experimentos ´e investigado tamb´em o efeito de reduzir o n´umero de execu¸oes para o la¸co
interno. Isso ´e feito para as RNs, que possuem um custo computacional 10 vezes maior
do que as SVMs, por realizarem 10 repeti¸oes para cada treinamento (r = 10). O que
´e avaliado ´e o compromisso entre a perda da qualidade das taxas de erro de valida¸ao e
o ganho obtido buscando mais solu¸oes no tempo economizado. Portanto, ´e avaliado o
efeito da substitui¸ao da edia dos resultados de r×N
P
com os resultados de uma simples
rodada (r = 1) dos algoritmos para apenas uma parti¸ao (N
P
= 1). O processo que
utiliza a edia das 10 repeti¸oes (r = 10) e das 10 parti¸oes (N
P
= 10) ser´a denominado
10/10, enquanto que o processo que utiliza apenas uma repeti¸ao para uma parti¸ao, ser´a
denominado de 1/1.
A codifica¸ao adotada para as RNs ´e a mesma do m´etodo experimental B. Como dito
anteriormente, h´a 11 000 diferentes combina¸oes de valores para os parˆametros. O n´umero
de itera¸oes dos algoritmos bioinspirados para o processo 10/10 ´e o mesmo do m´etodo
experimental A e B. Para o processo 1/1, o n´umero de indiv´ıduos foi dobrado e, con-
seq
¨
uentemente, ´e poss´ıvel analisar o dobro de combina¸oes de valores para os parˆametros.
Neste etodo, a abordagem de codifica¸ao adotada para representar os valores de
parˆametros de SVMs utiliza potˆencias para a base 2 (Hsu et al., 2007), ou seja, para
encontrar os valores dos parˆametros C e γ os valores representados pelo indiv´ıduo ao
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 65
Algoritmo 5 etodo experimental C para ajuste de parˆametros.
D conjunto de dados
l 1
enquanto l N
D
fa¸ca
conjunto treino (N
D
1) parti¸oes de D
conjunto teste parti¸ao restante de D
i 1
enquanto i m fa¸ca
n 1
P conjunto treino
enquanto n N
P
fa¸ca
conjunto treino valida¸ao (N
P
1) parti¸oes de P
conjunto teste valida¸ao parti¸ao restante de P
C Treinar A com conjunto treino valida¸ao com parˆametro α
i
P (n) Testar classificador C para o conjunto teste valida¸ao
n n + 1
fim enquanto
D(i) m´edia(P )
i i + 1
fim enquanto
α
melhor
argmax(D(i))
M Treinar A com conjunto
treino usando α
melhor
ρ(l) Testar classificador M para conjunto teste
l l + 1
fim enquanto
retornar edia(ρ)
potˆencias para a base 2. Caso o primeiro valor do indiv´ıduo seja 1 e o segundo seja
3, por exemplo, C = 2
1
e γ = 2
3
. O intervalo definido para o parˆametro C =
[5, 15], e para o parˆametro γ = [15, 3], ambos discretizados em fra¸oes de 1. Assim, h´a
399 diferentes combina¸oes de valores que podem ser usadas para os parˆametros. Como
a um pequeno n´umero de solu¸oes, os algoritmos bioinspirados realizaram apenas 20
itera¸oes com cinco indiv´ıduos na popula¸ao. Essas configura¸oes possibilitaram que os
algoritmos explorassem no aximo 100 solu¸oes para os parˆametros. Conseq
¨
uentemente,
a abordagem Aleat´oria podia testar no aximo 100 combina¸oes de valores.
Armazenamento dos Dados
Neste etodo experimental, as RNs foram aplicadas a quatro conjuntos de dados. Os
resultados armazenados gerados nos experimentos B, para RNs, foram utilizados nova-
mente nestes experimentos. Por´em, esses dados foram usados de maneira diferente do uso
feito no etodo experimental B, como descrito no in´ıcio desta se¸ao. Os 10 conjuntos de
dados descritos na Tabela 5.1 foram utilizados nos experimentos com SVMs. Os resulta-
dos obtidos foram armazenados em um array multi-dimensional, similar ao usado para as
66 5 Experimentos de Ajuste de Parˆametros
RNs. Os resultados do la¸co externo foram armazenados utilizando um array de quatro
dimens˜oes. A seguir, ´e descrito o que ´e armazenado em cada dimens˜ao:
1
a
: n´umero da parti¸ao de teste;
2
a
: parˆametro custo (C);
3
a
: parˆametro gama (γ);
4
a
: medidas de desempenho (erro, precis˜ao, recall e Medida-F ) e n´umero de vetores de
suporte.
Suponha que se deseja acessar o erro de classifica¸ao armazenado em uma estrutura
de dados como a apresentada, sendo esse array denominado resultados. Se o n´umero da
parti¸ao de teste ´e 5, C = 1 e γ = 0.01, ent˜ao esse erro pode ser acessado da seguinte
maneira:
erro = resultado(5, 1, 0.01,“erro”).
Os resultados do la¸co interno para SVMs foram armazenados utilizando um array
de cinco dimens˜oes, que possui uma dimens˜ao a mais em rela¸ao ao la¸co externo, para
especificar o n´umero da parti¸ao de valida¸ao do la¸co interno. Assim, ´e poss´ıvel acessar a
taxa de erro obtida para qualquer parti¸ao.
5.7.1 Resultados do Ajuste de Parˆametros de RNs com o e-
todo Experimental C
Nas Tabelas de 5.16 a 5.19 ao apresentadas as taxas de erro (em porcentagem) de
classifica¸ao para os conjuntos de valida¸ao e de teste usando as RNs geradas com os
valores dos parˆametros encontrados por cada algoritmo bioinspirado. No processo de
estima¸ao denominado 10/10 foram usadas 10 parti¸oes (k = 10) e 10 repeti¸oes (r =
10). Os valores entre parˆenteses ao os valores de desvio padr˜ao para as 30 execu¸oes
dos algoritmos bioinspirados. Al´em disso ´e apresentado o n´umero de diferentes solu¸oes
testadas para os parˆametros das RNs MLP. As menores taxas de erro est˜ao destacadas.
Nas Tabelas de 5.20 a 5.23 ao apresentados os resultados para o processo de estima¸ao
denominado 1/1 (r = 1 e N
P
= 1) Para esse processo o n´umero de parti¸oes para o la¸co
externo se manteve, ou seja, N
D
= 10.
An´alise dos Resultados com o Processo de Estima¸ao 10/10
´
E poss´ıvel observar que os algoritmos bioinspirados geralmente obtiveram melhores
resultados do que a abordagem Padr˜ao. Isso significa que a busca feita por esses algoritmos
est´a, de fato, trabalhando como esperado. Por outro lado, os resultados ao similares
aos obtidos pela abordagem Aleat´oria. Isso indica que encontrar bons valores para os
parˆametros das RNs para esses conjuntos de dados ao ´e dif´ıcil. Esse fato pode ser
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 67
Tabela 5.16: olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados olon.
Algoritmo Valida¸ao Teste Comb.
ACO 12.7 (0.1) 18.1 (1.0) 1546
AG 13.7 (0.2) 16.6 (1.6) 253
CSA 13.9 (0.2) 15.8 (1.8) 1425
PSO 13.5 (0.1) 16.5 (1.7) 1517
Aleat´oria 13.2 (0.2) 16.7 (1.6) 2623
Padr˜ao 19.8 (-) 17.9 (-)
Tabela 5.17: Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma.
Algoritmo Valida¸ao Teste Comb.
ACO 12.3 (0.2) 16.0 (1.7) 1552
AG 13.0 (0.1) 14.5 (0.9) 317
CSA 12.8 (0.3) 17.5 (2.5) 1481
PSO 12.8 (0.1) 14.0 (1.3) 1477
Aleat´oria 12.6 (0.2) 17.5 (2.1) 2622
Padr˜ao 18.0 (-) 15.8 (-)
Tabela 5.18: Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Leucemia.
Algoritmo Valida¸ao Teste Comb.
ACO 12.8 (0.1) 20.3 (0.9) 1608
AG 13.9 (0.3) 20.3 (0.9) 256
CSA 13.9 (0.2) 19.5 (1.3) 1384
PSO 13.3 (0.2) 19.7 (1.0) 1557
Aleat´oria 13.2 (0.1) 19.2 (1.2) 2623
Padr˜ao 18.9 (-) 23.0 (-)
Tabela 5.19: ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados ancreas.
Algoritmo Valida¸ao Teste Comb.
ACO 12.4 (0.2) 21.6 (1.5) 1615
AG 14.3 (0.5) 18.9 (1.8) 416
CSA 14.0 (0.2) 20.3 (1.8) 1536
PSO 13.4 (0.3) 19.0 (1.6) 1775
Aleat´oria 13.3 (0.2) 20.0 (1.7) 2623
Padr˜ao 17.8 (-) 17.3 (-)
68 5 Experimentos de Ajuste de Parˆametros
Tabela 5.20: olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados olon.
Algoritmo Valida¸ao Teste Comb.
ACO 0.1 (0.3) 19.7 (2.2) 8798
AG 1.1 (1.2) 17.3 (2.7) 4426
CSA 0.0 (0.0) 18.3 (3.1) 893
PSO 1.1 (1.0) 17.5 (2.4) 1289
Aleat´oria 0.0 (0.0) 17.5 (1.7) 9987
Padr˜ao 18.3 (-) 17.9 (-)
Tabela 5.21: Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Glioma.
Algoritmo Valida¸ao Teste Comb.
ACO 2.0 (0.0) 22.1 (3.3) 8800
AG 3.2 (1.0) 19.3 (2.6) 4488
CSA 2.0 (0.0) 19.3 (3.4) 1452
PSO 2.9 (1.0) 19.7 (3.4) 1532
Aleat´oria 2.0 (0.0) 19.4 (3.6) 9986
Padr˜ao 16.0 (-) 15.8 (-)
Tabela 5.22: Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados Leucemia.
Algoritmo Valida¸ao Teste Comb.
ACO 1.0 (0.0) 21.2 (1.8) 8792
AG 1.0 (0.0) 22.8 (2.9) 4584
CSA 1.0 (0.0) 22.1 (2.3) 739
PSO 1.0 (0.0) 22.8 (1.9) 894
Aleat´oria 1.0 (0.0) 22.6 (2.1) 9988
Padr˜ao 9.0 (-) 23.0 (-)
Tabela 5.23: ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e o
n´umero de diferentes combina¸oes testadas para o conjunto de dados ancreas.
Algoritmo Valida¸ao Teste Comb.
ACO 0.7 (0.8) 19.5 (2.1) 8796
AG 1.4 (0.6) 20.5 (2.0) 5408
CSA 0.5 (0.8) 20.9 (2.3) 1159
PSO 1.2 (0.7) 21.3 (2.2) 1471
Aleat´oria 0.4 (0.7) 21.6 (2.4) 9989
Padr˜ao 19.7 (-) 17.3 (-)
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 69
confirmado pelos gr´aficos de A.1 a A.4, exibidos no Apˆendice A. Esses gr´aficos mostram
que h´a uma grande densidade no in´ıcio das curvas, ou seja, muitas combina¸oes de valores
para os parˆametros resultam em pequenas taxas de erro de valida¸ao e de teste. A
compara¸ao entre os diferentes algoritmos bioinspirados e as abordagens de referˆencia
mostra que o ACO encontrou os melhores resultados. Esse algoritmo obteve as menores
taxas de erro de valida¸ao para todos os conjuntos de dados. Por´em, ao ´e poss´ıvel
identificar o melhor algoritmo em termos das taxas de erro de teste.
Como pode ser observado, os parˆametros que resultaram nas menores taxas de erro
de valida¸ao ao resultaram nas menores taxas de erro de teste. Essa diferen¸ca pode ser
explicada pela baixa correla¸ao que existe entre as taxas de erro de valida¸ao e de teste no
m´etodo adotado para a realiza¸ao destes experimentos. Essa correla¸ao era maior para
o m´etodo adotado nos experimentos B. Por´em, essa melhor correla¸ao ocorreu porque
estimativas do erro de teste eram embutidas indiretamente no processo de ajuste dos
parˆametros, como explicado na Se¸ao 5.6, o que n˜ao acontece com estes experimentos. Na
Tabela 5.24, ao mostradas as correla¸oes entre as taxas de erro de valida¸ao e de teste
para cada conjunto de dado.
Tabela 5.24: Correla¸ao das taxas de erro de valida¸ao e de teste para todas as combina-
¸oes de parˆametros.
Conjunto de dados edia Desvio Padr˜ao
olon 0.436 0.322
Glioma 0.715 0.159
Leucemia 0.498 0.360
ancreas 0.626 0.288
Como dito anteriormente, o n´umero m´aximo de indiv´ıduos que cada algoritmo ´e capaz
de testar ´e determinado pelos seus parˆametros. Nestes experimentos, o ACO, PSO e AG
poderiam testar aproximadamente 3 000 solu¸oes, enquanto o CSA, devido ao processo de
clonagem proporcional `a aptid˜ao dos indiv´ıduos, poderia testar aproximadamente 7 000
solu¸oes. a 11 000 diferentes combina¸oes poss´ıveis de valores para os parˆametros. Assim
como no etodo experimental B, a propor¸ao de diferentes combina¸oes testadas pelo
ACO, PSO e CSA indica um bom balan¸co entre explora¸ao e prospec¸ao do espa¸co de
busca. Por outro lado, o AG explorou uma propor¸ao muito menor de combina¸oes.
Como mencionado anteriormente, o elitismo, o qual aumenta a prospec¸ao, ao foi usado.
Apesar disso, os resultados do AG ao compar´aveis aos obtidos por outros algoritmos,
e assim como nos etodo experimental B, ao a uma rela¸ao clara entre o total de
explora¸ao e a qualidade das solu¸oes obtidas. Novamente isso pode ser atribu´ıdo ao fato
de n˜ao ser dif´ıcil encontrar bons valores para os parˆametros das RNs para esses conjuntos
de dados.
Efeito da Simplifica¸ao do Processo de Estima¸ao
70 5 Experimentos de Ajuste de Parˆametros
Nas Tabelas de 5.20 a 5.23 ´e poss´ıvel observar que as taxas de erro de valida¸ao com
o processo 1/1 ao, em geral, muito menores do que as obtidas com o processo 10/10. De
fato, essas taxas de erro s˜ao quase zero, o que indica que est´a ocorrendo overfitting. Como
foi realizada a otimiza¸ao usando apenas uma parti¸ao e uma repeti¸ao, as pequenas taxas
de erro de valida¸ao encontradas ao correspondem `as taxas de erro de teste, que foram
muito maiores, inclusive maiores do que os erros de teste encontrados usando o processo
10/10.
De acordo com esses resultados, h´a um compromisso entre a qualidade das estimativas
de valida¸ao e o n´umero de solu¸oes testadas. Por´em, como um grande espa¸co de busca j´a
´e explorado, ´e muito mais importante obter estimativas mais precisas. Assim, as pr´oximas
an´alises e testes estat´ısticos reportados ao referentes apenas ao processo 10/10.
Testes Estat´ısticos
Assim como nos experimentos anteriores, foram realizados testes estat´ısticos para ava-
liar as diferen¸cas observadas. Para isso, novamente foram usadas as taxas de erro obtidas
pelos classificadores. Inicialmente, foi aplicado o teste-t pareado corrigido, com n´ıvel de
significˆancia α = 0.05 (95% de confian¸ca) e nove graus de liberdade, correspondendo `as
k 1 parti¸oes. A hip´otese nula ´e que os algoritmos e as abordagens conseguiram o
mesmo desempenho. O teste estat´ıstico mostrou que ao a diferen¸cas significativas para
as taxas de erro de teste. Por´em, quando aplicado para as taxas de erro de valida¸ao,
algumas diferen¸cas significativas foram observadas. Os resultados para o teste estat´ıstico
realizado ao apresentados na Tabela 5.25. Cada elula C
i,j
representa a compara¸ao en-
tre o algoritmo/abordagem da coluna i com o algoritmo/abordagem da coluna j. Cada
c´elula possui a inicial referente ao conjunto de dados em que o algoritmo/abordagem i ´e
significativamente diferente do algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia
e {P}ˆancreas. Um h´ıfen ´e usado quando a diferen¸ca ao ´e significativa.
Tabela 5.25: An´alise estat´ıstica - teste-t pareado corrigido (conjunto de dados de valida-
¸ao).
AG CSA PSO Aleat´oria Padr˜ao
ACO C - L P C - L P C - L P C - - P C G L P
AG - - - P - G L P C G L P C G L P
CSA C - L P C - L P C G L P
PSO - - - - C G L P
Aleat´oria C G L P
Com os resultados dos testes estat´ısticos, pode-se afirmar que realizar o ajuste de
parˆametros pode reduzir as taxas de erro de valida¸ao. Por´em, essa melhoria ao foi
grande o suficiente para reflitir nas taxas de erro de teste.
Para estes experimentos, tamb´em aplicou-se o teste de Friedman (Demˇsar, 2006) para
verificar se a diferen¸ca significativa entre os algoritmos/abordagens para todos os conjun-
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 71
tos de dados. O valor cr´ıtico da distribui¸ao F com α = 0.05 e 5 (c1) e 15 ((c1)×(d1))
graus de liberdade ´e 2.9, em que c ´e o n´umero de classificadores e d ´e o n´umero de con-
juntos de dados. Como o teste resultou em F = 1.42, a hip´otese nula, de que ao a
diferen¸ca estat´ıstica entre os resultados obtidos pelos algoritmos e as abordagens, foi
aceita. Aplicou-se o mesmo teste para o conjunto de valida¸ao, que resultou na rejei¸ao
da hip´otese nula, com F = 64.2. Em seguida, aplicou-se o teste de Nemenyi (Demˇsar,
2006) para identificar quais pares eram significativos. Com α = 0.05 o valor cr´ıtico para
comparar o ranking-m´edio de dois algoritmos ´e 3.77. Na Tabela 5.26 ´e apresentado o
ranking m´edio usando o teste de Friedman para as taxas de erro de valida¸ao e de teste.
Portanto, o teste confirmou que o ACO foi significativamente melhor do que a abordagem
Padr˜ao. Al´em disso, a abordagem Aleat´oria tamb´em foi significativamente melhor do que
a abordagem Padr˜ao.
Tabela 5.26: Ranking edio usando o teste de Friedman.
Algoritmo Valida¸ao Teste
ACO 1.000 5.125
AG 4.625 2.875
CSA 4.250 3.375
PSO 3.125 2.250
Aleat´oria 2.000 3.000
Padr˜ao 6.000 4.375
A partir dos resultados armazenados, ´e poss´ıvel obter algumas medidas considerando
todas as combina¸oes de valores para os parˆametros. Na Tabela 5.27 ao apresentadas
as medidas mediana, m´ınimo e aximo para cada conjunto de dados. Esses valores ao
referentes `as taxas de erro de todas as combina¸oes de valores dos parˆametros para todas
as parti¸oes. Por meio dessa tabela, ´e poss´ıvel observar que os algoritmos bioinspirados e
a abordagem Aleat´oria conseguiram taxas de erro de valida¸ao muito pr´oximas do m´ınimo
encontrado para os valores de parˆametros testados. A partir dos valores da mediana ´e
poss´ıvel observar que a um grande conjunto de valores de parˆametros que produzem
classificadores com pequenas taxas de erro para esses conjuntos de dados. Isso pode ser
observado tamb´em pelos gr´aficos do Apˆendice A.
Na Tabela 5.28 ao apresentados os valores dos parˆametros para as RNs encontrados
pelos algoritmos bioinspirados que obtiveram as menores taxa de erro de valida¸ao. Os
dados apresentados ao as m´edias dos valores encontrados por todos os algoritmos, para
todas as parti¸oes e execu¸oes. O n´umero de neurˆonios utilizados pela abordagem Pa-
dr˜ao para os conjuntos de dados olon, Glioma, Leucemia e ancreas ´e 9, 17, 26 e 26,
respectivamente. O parˆametro η ´e igual a 0.3 e o parˆametro µ ´e igual a 0.2 para todos
os conjuntos de dados. Em geral, o n´umero de neurˆonios na camada oculta foi pequeno,
como pode ser observado pela mediana, com exce¸ao do conjunto Glioma, em que a me-
72 5 Experimentos de Ajuste de Parˆametros
Tabela 5.27: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes).
Medida Val./Teste olon Glioma Leucemia ancreas
aximo
Valida¸ao 36.4 55.6 50.6 47.0
Teste 42.9 56.7 52.4 48.3
Mediana
Valida¸ao 19.2 16.9 18.8 17.7
Teste 15.1 15.0 23.0 17.3
M´ınimo
Valida¸ao 12.5 11.9 12.6 12.1
Teste 8.1 7.7 7.5 7.6
diana do n´umero de neurˆonios ´e 81. Para a taxa de aprendizado, os valores encontrados
abrangem todo o espa¸co de busca, com mediana de aproximadamente 0.5, para todos os
conjuntos de dados. Para o parˆametro termo momentum, valores superiores a 0.6 foram
mais usados. Por´em, os valores de m´ınimo e aximo mostram que o espa¸co de busca foi,
praticamente, todo explorado.
Tabela 5.28: Estat´ısticas dos melhores valores de parˆametros encontrados por todos os
algoritmos bioinspirados.
Parˆametro Medida olon Glioma Leucemia ancreas
γ aximo 100 100 100 99
(nr. neurˆonios)
Mediana 41 81 29 29
M´ınimo 2 3 2 2
η
aximo 1.00 1.00 1.00 1.00
Mediana 0.59 0.55 0.55 0.53
M´ınimo 0.05 0.05 0.05 0.05
µ
aximo 1.00 1.00 1.00 1.00
Mediana 0.80 0.60 0.88 0.88
M´ınimo 0.00 0.00 0.00 0.05
A taxa de erro de classifica¸ao foi a medida usada para apresentar os resultados obtidos
e para a aplica¸ao dos testes estat´ısticos, pois os algoritmos bioinspirados guiaram suas
buscas usando a taxa de erro de valida¸ao. Neste m´etodo experimental, o desempenho
dos classificadores tamb´em ao avaliados pela ´area abaixo da curva ROC (AUC). Na
Tabela 5.29 ao apresentadas as ´areas abaixo das curvas ROC para todos os algoritmos
bioinspirados e conjuntos de dados utilizados. Entre parˆenteses tamb´em s˜ao apresentados
os desvios padr˜ao para as 10 parti¸oes. As maiores ´areas est˜ao destacadas. As ´areas foram
obtidas por classificadores gerados com os valores de parˆametros que resultaram na taxa
de erro mais pr´oxima da taxa de erro m´edio.
Para os conjuntos Glioma e Leucemia, o CSA obteve a maior ´area. No conjunto
Glioma, o AG e a abordagem Padr˜ao tamb´em conseguiram a mesma ´area que o CSA. Para
o conjunto olon, o AG conseguiu uma ´area superior `a dos outros algoritmos e abordagens.
Por fim, para o conjunto ancreas, a abordagem Padr˜ao conseguiu a maior ´area abaixo
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 73
da curva ROC. Esses resultados diferem um pouco do que foi obtido para as taxas de erro,
apresentadas nas tabelas anteriores. A maior diferen¸ca ocorreu para o conjunto Glioma,
pois o CSA obteve um dos piores resultados em rela¸ao `a taxa de erro. As diferen¸cas
encontradas ocorreram, principalmente, por trˆes motivos: i) devido a aleatoriedade na
inicializa¸ao dos pesos das RNs, o mesmo conjunto de treinamento e parˆametros pode
gerar diferentes classificadores; ii) como as diferen¸cas entre as taxas de erro de teste ao
foram significativamente diferentes, podem ocorrer varia¸oes na compara¸ao com AUC;
iii) ao contr´ario da taxa de erro, a AUC n˜ao ´e sens´ıvel ao desbalanceamento de classes. O
desvio padr˜ao (calculado para as 10 parti¸oes de teste) ´e muito alto, principalmente para
o conjunto de dados ancreas. Os valores de desvio padr˜ao para a abordagem Aleat´oria
foram, em geral, maiores do que os obtidos pelos algoritmos bioinspirados, o que significa
uma maior instabilidade da rede. No Apˆendice B, os gr´aficos das curvas ROC para cada
conjunto de dados podem ser vistos nas figuras B.1 a B.4.
Tabela 5.29:
´
Area abaixo da curva ROC para classificadores gerados utilizando valores
dos parˆametros cuja taxa de erro mais se aproxima da edia.
Algoritmo
Conjunto de Dados
olon Glioma Leucemia ancreas
ACO 0.896 (0.131) 0.872 (0.210) 0.852 (0.156) 0.747 (0.213)
AG 0.938 (0.121) 0.883 (0.158) 0.920 (0.078) 0.892 (0.169)
CSA 0.927 (0.122) 0.883 (0.158) 0.924 (0.093) 0.808 (0.219)
PSO 0.908 (0.121) 0.872 (0.178) 0.910 (0.089) 0.883 (0.168)
Aleat´oria 0.908 (0.130) 0.822 (0.206) 0.826 (0.189) 0.833 (0.233)
Padr˜ao 0.888 (0.171) 0.883 (0.158) 0.912 (0.129) 0.939 (0.105)
5.7.2 Resultados do Ajuste de Parˆametros de SVMs com o M´e-
todo Experimental C
Nas Tabelas de 5.30 a 5.39 ao apresentadas as taxas de erro (em porcentagem) de
classifica¸ao para os conjuntos de valida¸ao e de teste usando os valores de parˆametros
encontrados por cada algoritmo bioinspirado para as SVMs. Os valores entre parˆenteses
ao os desvios padr˜ao para as 30 execu¸oes dos algoritmos bioinspirados. Al´em disso, ´e
apresentado o n´umero de solu¸oes diferentes testadas para os parˆametros. Os menores
erros est˜ao destacados.
Os resultados apresentados nas tabelas permitem observar que o PSO conseguiu os
melhores resultados entre os algoritmos bioinspirados, e resultados similares `a abordagem
Aleat´oria.
´
E poss´ıvel indicar dois fatores principais que levaram ao bom desempenho da
abordagem Aleat´oria. Primeiro, devido ao pequeno n´umero de solu¸oes, a abordagem
Aleat´oria, com um pequeno n´umero de diferentes solu¸oes analisadas (em edia 88) co-
briu uma grande regi˜ao do espa¸co de busca. O segundo ´e o fato de que ao ´e dif´ıcil
74 5 Experimentos de Ajuste de Parˆametros
Tabela 5.30: olon - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e n´umero
de diferentes combina¸oes testadas para o conjunto de dados olon.
Algoritmo Valida¸ao Teste Comb.
ACO 12.3 (0.8) 14.3 (2.1) 56
AG 13.8 (0.9) 16.0 (2.8) 11
CSA 12.3 (0.3) 15.1 (1.9) 66
PSO 11.8 (0.2) 14.1 (2.4) 52
Aleat´oria 11.8 (0.2) 13.6 (1.7) 88
Padr˜ao 13.7 (-) 14.3 (-)
Tabela 5.31: Glioma - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e n´umero
de diferentes combina¸oes testadas para o conjunto de dados Glioma.
Algoritmo Valida¸ao Teste Comb.
ACO 11.5 (0.6) 16.2 (2.2) 56
AG 13.0 (0.5) 14.9 (2.2) 11
CSA 11.2 (0.3) 17.2 (2.0) 66
PSO 11.3 (0.5) 16.9 (2.1) 54
Aleat´oria 10.9 (0.2) 18.0 (1.2) 88
Padr˜ao 15.1 (-) 13.3 (-)
Tabela 5.32: Leucemia - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Leucemia.
Algoritmo Valida¸ao Teste Comb.
ACO 10.4 (1) 13.5 (1.3) 56
AG 11.1 (0.9) 13.1 (1.4) 11
CSA 10.0 (0.2) 12.9 (0.9) 67
PSO 10.0 (0.1) 13.2 (0.8) 53
Aleat´oria 9.9 (0.1) 13.2 (1.0) 88
Padr˜ao 11.4 (-) 12.0 (-)
Tabela 5.33: ancreas - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados ancreas.
Algoritmo Valida¸ao Teste Comb.
ACO 12.9 (0.9) 18.0 (1.1) 56
AG 14.1 (1.0) 17.9 (2.1) 12
CSA 12.5 (0.3) 17.7 (1.3) 68
PSO 12.2 (0.3) 17.7 (1.2) 52
Aleat´oria 12.1 (0.2) 17.3 (1.0) 88
Padr˜ao 13.2 (-) 13.2 (-)
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 75
Tabela 5.34: Leucemia2 - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Leucemia2.
Algoritmo Valida¸ao Teste Comb.
ACO 28.1 (2.0) 28.3 (2.3) 56
AG 29.1 (1.1) 27.9 (1.2) 11
CSA 27.8 (0.3) 27.2 (1.0) 65
PSO 27.1 (0.3) 27.2 (0.5) 51
Aleat´oria 27.2 (0.2) 27.9 (0.7) 88
Padr˜ao 33.3 (-) 28.9 (-)
Tabela 5.35: Pulm˜ao - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Pulm˜ao.
Algoritmo Valida¸ao Teste Comb.
ACO 29.8 (0.7) 37.1 (2.0) 56
AG 31.5 (1.1) 37.7 (2.6) 11
CSA 29.8 (0.3) 38.2 (1.7) 66
PSO 29.4 (0.2) 37.3 (1.5) 52
Aleat´oria 29.4 (0.2) 37.5 (1.2) 88
Padr˜ao 34.0 (-) 37.2 (-)
Tabela 5.36: Australian - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Australian.
Algoritmo Valida¸ao Teste Comb.
ACO 13.3 (0.1) 15.5 (0.8) 59
AG 13.8 (0.3) 15.0 (0.9) 11
CSA 13.3 (0.1) 15.0 (0.6) 62
PSO 13.2 (0.1) 15.2 (0.7) 55
Aleat´oria 13.1 (0.1) 14.8 (0.8) 88
Padr˜ao 14.3 (-) 15.1 (-)
Tabela 5.37: Pima-indians-diabetes - taxa de erro de valida¸ao e de teste (em %), desvio
padr˜ao e n´umero de diferentes combina¸oes testadas para o conjunto de dados Pima-
indians-diabetes.
Algoritmo Valida¸ao Teste Comb.
ACO 22.5 (0.2) 22.5 (0.5) 57
AG 22.9 (0.2) 22.8 (0.4) 11
CSA 22.5 (0.1) 22.7 (0.5) 63
PSO 22.3 (0.1) 22.4 (0.3) 52
Aleat´oria 22.3 (0.0) 22.5 (0.4) 88
Padr˜ao 24.2 (-) 24.7 (-)
76 5 Experimentos de Ajuste de Parˆametros
Tabela 5.38: Segment - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e
n´umero de diferentes combina¸oes testadas para o conjunto de dados Segment.
Algoritmo Valida¸ao Teste Comb.
ACO 3.3 (1.7) 3.2 (1.7) 55
AG 4.2 (1.8) 4.0 (1.6) 10
CSA 3.2 (0.5) 3.1 (0.6) 60
PSO 2.5 (0.0) 2.5 (0.1) 57
Aleat´oria 2.6 (0.0) 2.6 (0.1) 88
Padr˜ao 41.9 (-) 38.8 (-)
Tabela 5.39: Vehicle - taxa de erro de valida¸ao e de teste (em %), desvio padr˜ao e n´umero
de diferentes combina¸oes testadas para o conjunto de dados Vehicle.
Algoritmo Valida¸ao Teste Comb.
ACO 14.5 (0.3) 16.4 (0.5) 55
AG 16.1 (0.9) 17.1 (0.8) 11
CSA 15.6 (0.5) 16.9 (0.7) 60
PSO 14.0 (0.1) 16.1 (0.3) 51
Aleat´oria 14.3 (0.1) 16.1 (0.4) 88
Padr˜ao 23.0 (-) 23.7 (-)
encontrar bons valores para os parˆametros da ecnica SVM para os conjuntos de dados
selecionados. Esse fato pode ser confirmado pelos gr´aficos de A.5 a A.14, exibidos no
Apˆendice A. Esses gr´aficos mostram que a uma grande densidade no in´ıcio das curvas,
ou seja, muitas combina¸oes de valores para os parˆametros resultam em pequenas taxas
de erro de valida¸ao e de teste.
Ao contr´ario do que aconteceu nos experimentos com as RNs, neste etodo experimen-
tal, o algoritmo ACO ao obteve os melhores resultados para SVMs. O principal motivo
para isso ´e o n´umero reduzido de itera¸oes (20) e indiv´ıduos (5) utilizados. Isso acabou
prejudicando o ACO, que converge lentamente. A convergˆencia lenta pode representar
uma vantagem ou uma desvantagem, dependendo do problema em que o algoritmo ser´a
aplicado. Uma convergˆencia muito apida pode fazer com que o algoritmo fique preso a
um m´ınimo local, mas pode levar a uma boa solu¸ao com poucas itera¸oes. Uma conver-
gˆencia mais lenta, por outro lado, pode contribuir para que o algoritmo ao fique preso a
m´ınimos locais, mas necessita de muitas itera¸oes.
Os valores padr˜ao utilizados para as SVMs mostraram-se robustos. Apesar dos al-
goritmos bioinspirados e da abordagem Aleat´oria terem conseguido, em geral, resultados
melhores para os conjuntos de valida¸ao, a abordagem Padr˜ao obteve os melhores re-
sultados para as taxas de erro de teste para os conjuntos de dados Glioma, Leucemia e
ancreas. Para os conjuntos olon, Leucemia2, Pulm˜ao, pima, e australian os resulta-
dos ao similares aos algoritmos bioinspirados e a abordagem Padr˜ao. Por´em, para os
conjuntos de dados segment e vehicle, a abordagem Padr˜ao obteve taxas de erro maiores,
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 77
principalmente para o conjunto segment, em que a diferen¸ca foi maior que 35%. Com
isso, conclui-se que o ajuste de parˆametros pode trazer grandes redu¸oes das taxas de
erro para alguns conjuntos de dados. Para os conjuntos testados nestes experimentos, n˜ao
foi necess´ario utilizar algoritmos ou t´ecnicas sofisticadas para conseguir encontrar bons
valores para os parˆametros.
Como dito anteriormente, o n´umero de diferentes combina¸oes testadas por cada algo-
ritmo provˆe informa¸ao a respeito do compromisso entre explora¸ao e prospec¸ao. Assim
como nos experimentos anteriores, a propor¸ao de diferentes combina¸oes testadas pelo
ACO, PSO e CSA indica um bom balan¸co entre explora¸ao e prospec¸ao do espa¸co de
busca. O AG explora uma propor¸ao muito menor de combina¸oes. Por´em, os resulta-
dos do AG ao compar´aveis aos obtidos por outros algoritmos. Novamente isso pode ser
atribu´ıdo ao fato de ao ser dif´ıcil encontrar bons valores para os parˆametros da ecnica
SVM para esses conjuntos de dados.
Assim como nos outros experimentos, foram realizados testes estat´ısticos para avaliar
as diferen¸cas observadas. Para isso, foram usadas as taxas de erro de valida¸ao e de
teste obtidas pelos classificadores. Primeiramente, foi aplicado o teste-t pareado corri-
gido, com n´ıvel de significˆancia α = 0.05 (95% de confian¸ca) e nove graus de liberdade,
correspondente `as k 1 parti¸oes. A hip´otese nula ´e que os algoritmos e as abordagens
conseguiram o mesmo desempenho. A hip´otese nula foi rejeitada para algumas compara-
¸oes, ou seja, o teste estat´ıstico mostrou que a algumas diferen¸cas significativas para as
taxas de erro de teste. Os resultados para o teste estat´ıstico realizado s˜ao apresentados na
Tabela 5.40. Cada elula C
i,j
representa a compara¸ao entre o algoritmo/abordagen da
linha i com o algoritmo/abordagem da coluna j. Cada elula possui uma letra indicando
o conjunto de dados em que o algoritmo/abordagem i ´e significativamente diferente do
algoritmo/abordagem j: {C}´olon, {G}lioma, {L}eucemia, {P}ˆancreas, L{E}ucemia2,
P{U}lm˜ao, {A}ustralian, p{I}ma, {S}egment, {V}ehicle. Um h´ıfen ´e usado quando a
diferen¸ca ao ´e significativa.
Em geral, o teste confirmou os resultados comentados anteriormente. Todos os algo-
ritmos bioinspirados e a abordagem Aleat´oria obtiveram taxas de erro de teste signifi-
cativamente melhores do que a abordagem Padr˜ao para os conjuntos de dados segment
e vehicle. Para o conjunto segment, a abordagem Aleat´oria e o algoritmo PSO foram
significativamente diferentes dos algoritmos AG e CSA. O teste ainda mostrou que os
algoritmos bioinspirados foram significativamente diferentes da abordagem Padr˜ao para
o conjunto pima. Por fim, o algoritmo PSO e o ACO foram significativamente diferentes
para os conjuntos de dados Leucemia e Leucemia2.
Adicionalmente aplicou-se o teste de Friedman (Demˇsar, 2006), para verificar se a
diferen¸ca significativa entre qualquer uma das ecnicas, considerando todos os conjuntos de
dados. O valor cr´ıtico da distribui¸ao F com α = 0.05 e 5 (c1) e 45 ((c1)×(d1)) graus
de liberdade ´e 2.42, em que c ´e o n´umero de classificadores e d ´e o n´umero de conjuntos
78 5 Experimentos de Ajuste de Parˆametros
Tabela 5.40: An´alise estat´ıstica - teste–t pareado corrigido (conjunto de dados de teste).
AG CSA PSO Aleat´oria Padr˜ao
ACO ---------- ---------- --L-E----- ---------- -------ISV
AG ---------- --------S- --------S- -------ISV
CSA --------S- --------S- -------ISV
PSO ---------- -------ISV
Aleat´oria --------SV
de dados. Como o teste resultou em F = 1.22, a hip´otese nula, de que ao a diferen¸ca
estat´ıstica entre os resultados obtidos pelos algoritmos e as abordagens, foi aceita. Assim,
aplicou-se o mesmo teste para o conjunto de valida¸ao, que resultou na rejei¸ao da hip´otese
nula, com F = 85.88. Em seguida, aplicou-se o teste de Nemenyi (Demˇsar, 2006) para
identificar quais pares eram significativos. Com α = 0.05, o valor cr´ıtico para comparar
o ranking-m´edio de dois algoritmos diferentes ´e 2.38. Na Tabela 5.41 ´e apresentado o
ranking-m´edio usando o teste de Friedman para as taxas de erro de valida¸ao e de teste.
Como ´e poss´ıvel observar, o teste mostrou que a abordagem Aleat´oria e o algoritmo PSO
ao melhores que a abordagem Padr˜ao e o algoritmo AG. Al´em dissso, os algoritmos CSA
e ACO ao melhores que a abordagem Padr˜ao. Esses resultados confirmam os resultados
descritos anteriormente.
A mesma conclus˜ao do teste-t pareado corrigido pode ser utilizada para o teste de
Friedman. O ajuste de parˆametros ´e necess´ario, mesmo que ao seja por um algoritmo
ou t´ecnica sofisticada. Se as estimativas para os conjuntos de dados de express˜ao gˆenica
fossem ao boas quanto as obtidas para os conjuntos de dados da UCI, as diferen¸cas
observadas para as taxas de erro de valida¸ao poderiam refletir em diferen¸cas nas taxas
de erro de teste.
Tabela 5.41: Ranking m´edio usando o teste de Friedman.
Algoritmo Valida¸ao Teste
ACO 3.60 4.10
AG 5.20 4.20
CSA 3.30 3.65
PSO 1.60 2.65
Aleat´oria 1.50 2.80
Padr˜ao 5.80 3.60
Na Tabela 5.42 ao apresentadas as correla¸oes edias, entre as taxas de erro de
valida¸ao e de teste para as 10 parti¸oes utilizadas, para todas as poss´ıveis combina¸oes
de valores para os parˆametros.
´
E poss´ıvel observar que conjuntos de dados com um
n´umero maior de exemplos possuem, em geral, uma correla¸ao maior. Outros fatores que
influenciam na correla¸ao s˜ao a caracter´ıstica determin´ıstica do algoritmo de aprendizado,
a dificuldade de classifica¸ao do conjunto de dados e o vi´es na sele¸ao dos exemplos de
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 79
treinamento e de teste. Como pode ser observado, as correla¸oes usando SVMs foram
maiores do que as correla¸oes obtidas pelas RNs nesse experimento (Tabela 5.24), com
exce¸ao do conjunto Glioma. Os gr´aficos de A.5 a A.14, exibidos no Apˆendice A, mostram
que a densidade das taxas de erro de valida¸ao e de teste ao diferentes para conjuntos
de dados com baixa correla¸ao e parecidos para conjuntos de dados com alta correla¸ao.
Al´em disso, para conjuntos de dados com um grande n´umero de exemplos, como segment
e vehicle, a varia¸ao da densidade entre as parti¸oes ´e pequena, ao contario do que ocorre
em conjuntos de dados com poucos exemplos.
Tabela 5.42: Correla¸ao das taxas de erro de valida¸ao e de teste para todas as combina-
¸oes de parˆametros.
Conjunto de dados edia Desvio Padr˜ao
olon 0.630 0.266
Glioma 0.681 0.275
Leucemia 0.922 0.057
ancreas 0.905 0.066
Leucemia2 0.959 0.048
Pulm˜ao 0.665 0.402
Australian 0.972 0.017
Pima 0.876 0.068
Segment 0.998 0.000
Vehicle 0.987 0.003
Como os resultados para todos os poss´ıveis valores de parˆametros est˜ao armazenados
em uma estrutura de dados, ´e poss´ıvel obter algumas medidas. Na Tabela 5.43 ao
apresentadas a mediana, o m´ınimo e o aximo para as taxas de erro de cada conjunto
de dados. Esses valores ao as m´edias para todas as parti¸oes de todas as combinoes
de valores dos parˆametros. Por meio desta tabela, ´e poss´ıvel observar que os algoritmos
bioinspirados e a abordagem Aleat´oria conseguiram taxas de erro de valida¸ao m´ınimas
ou muito pr´oximas disso. Isso novamente mostra que a um grande conjunto de valores
de parˆametros que produzem classificadores com baixa taxa de derro de classifica¸ao para
esses conjuntos de dados.
Na Tabela 5.44 ao apresentadas algumas medidas referentes aos valores de parˆametros
encontrados pelos algoritmos bioinspirados. Os dados apresentados ao as edias dos
valores encontrados em todas as parti¸oes e execu¸oes. Na ´ultima coluna do parˆametro γ
ao apresentados os valores usados pela abordagem Padr˜ao para esse parˆametro. O valor
do parˆametro C ´e sempre 1, portanto ao est´a na tabela. Os valores encontrados para o
parˆametro custo (C) abrangem quase todo o espa¸co de busca. Por´em, nenhum algoritmo
encontrou valores pr´oximos `a extremidade inferior (5) para esse parˆametro, ao contr´ario
da extremidade superior (15). Para o parˆametro gama (γ), o valor aximo m´edio ao
´e maior do que 0.5, sendo que o limite superior ´e 3. O valor m´ınimo m´edio foi usado
para quase todos os conjuntos de dados. Com esses resultados, ao ´e poss´ıvel definir um
80 5 Experimentos de Ajuste de Parˆametros
Tabela 5.43: Medidas da taxa de erro de cada conjunto de dados (m´edia para as 10
parti¸oes).
M´ınimo M´aximo Mediana
Valida¸ao Teste Valida¸ao Teste Valida¸ao Teste
olon 11.7 3.4 36.7 39.2 26.8 26.7
Glioma 10.3 6.3 45.7 50.0 22.5 23.3
Leucemia 9.6 5.6 49.1 50.6 27.9 24.4
ancreas 11.7 7.2 47.3 46.7 21.8 26.5
Leucemia2 26.0 20.2 68.1 68.0 62.5 62.5
Pulm˜ao 29.3 20.4 57.6 61.8 55.8 57.0
Australian 13.0 9.6 45.0 45.2 19.1 19.0
Pima 22.2 18.5 35.5 37.9 29.9 28.6
Segment 2.5 1.6 72.8 71.4 24.7 23.4
Vehicle 14.0 11.5 74.2 74.3 28.4 28.4
intervalo muito pequeno para busca dos parˆametros. Por´em, o valor de γ ao precisa ser
maior que 1 e o valor de C ao precisa ser menor que 2
5
.
Tabela 5.44: Estat´ısticas dos melhores valores de parˆametros encontrados por todos os
algoritmos bioinspirados (2
v
, em que v ´e o valor encontrado para o parˆametro).
Algoritmo
Custo (C) Gama (γ)
Mediana Min. Max. Mediana Min. Max. Padr˜ao
olon 4.8 -1.2 15.0 -9.0 -15.0 -2.0 -5.0
Glioma 4.8 -2.0 15.0 -2.2 -15.0 -0.5 -4.0
Leucemia 3.0 -3.0 15.0 -5.2 -15.0 -1.0 -6.0
ancreas 3.5 -2.2 15.0 -6.0 -15.0 -1.0 -6.0
Leucemia2 5.5 -1.0 15.0 -8.0 -15.0 -2.0 -6.0
Pulm˜ao 7.2 -0.5 15.0 -8.0 -14.8 -2.0 -6.0
Australian 1.5 -4.2 14.8 -7.8 -15.0 -2.0 -4.0
Pima 3.0 -3.0 15.0 -8.8 -15.0 -1.8 -3.0
Segment 7.8 -1.0 14.8 -12.2 -15.0 -4.0 -4.0
Vehicle 10.2 1.2 15.0 -6.6 -12.2 -2.5 -4.0
Assim como para as RNs, na Tabela 5.45 ao apresentados os valores da AUC para
os conjuntos de teste. Isso ´e feito para todos os algoritmos bioinspirados e conjuntos de
dados bin´arios. No Apˆendice B, os gr´aficos das curvas ROC para cada conjunto de dados
podem ser vistos nas figuras B.5 a B.10. Os gr´aficos das curvas ROC ao apresentados
para cada conjunto de dados. O mesmo procedimento utilizado para as RNs foi adotado
para as SVMs. Essas ´areas foram obtidas por classificadores gerados com os valores de
parˆametros que resultaram na taxa de erro mais pr´oxima da taxa de erro edio.
´
E poss´ıvel observar que, em geral, para os conjuntos de dados com maior n´umero de
exemplos, como o australian e o pima, os desvios padr˜ao ao menores do que conjuntos
de dados com um n´umero pequeno de exemplos. Os desvios padr˜ao da AUC para os
5.7 etodo Experimental C: Ajuste de Parˆametros de RNs e SVMs 81
conjuntos olon, Glioma, Leucemia e ancreas foram menores do que os desvios padr˜ao
obtidos pelas RNs. Algumas diferen¸cas foram observadas em rela¸ao `as taxas de erro
apresentadas anteriormente. A abordagem Padr˜ao ao obteve uma ´area grande para o
conjunto Glioma. A ´area obtida pelo ACO para o ancreas foi igual `a ´area obtida pela
abordagem Padr˜ao. Em geral, o algoritmo PSO conseguiu bons resultados para todos os
conjuntos de dados.
Tabela 5.45:
´
Area abaixo da curva ROC para classificadores gerados utilizando valores
dos parˆametros cuja taxa de erro mais se aproxima da edia.
Algoritmo
Conjunto de Dados
olon Glioma Leucemia ancreas Australian Pima
ACO 0.938 (0.088) 0.900 (0.119) 0.932 (0.098) 0.958 (0.090) 0.922 (0.027) 0.836 (0.053)
AG 0.863 (0.171) 0.956 (0.073) 0.952 (0.073) 0.922 (0.108) 0.918 (0.029) 0.825 (0.052)
CSA 0.913 (0.103) 0.922 (0.084) 0.936 (0.098) 0.922 (0.108) 0.918 (0.029) 0.828 (0.056)
PSO 0.925 (0.105) 0.939 (0.081) 0.960 (0.065) 0.958 (0.090) 0.932 (0.022) 0.827 (0.055)
Aleat´oria 0.938 (0.088) 0.922 (0.115) 0.908 (0.103) 0.958 (0.090) 0.926 (0.028) 0.831 (0.051)
Padr˜ao 0.871 (0.132) 0.922 (0.115) 0.964 (0.048) 0.958 (0.090) 0.920 (0.034) 0.822 (0.052)
5.7.3 Compara¸ao entre RNs e SVMs no Dom´ınio de Express˜ao
Gˆenica
Nesta se¸ao, as t´ecnicas RNs e SVMs ao brevemente comparadas quando aplicadas
para classifica¸ao de dados de express˜ao gˆenica. Os quatro conjuntos de dados de expres-
ao enica (C´olon, Glioma, ancreas e Leucemia) classificados pelas duas t´ecnicas ao
utilizados na compara¸ao. Os conjuntos de dados Leucemia2 e Pulm˜ao ao foram apli-
cados `as RNs, devido ao tempo de processamento necess´ario. Portanto, ao puderam ser
usados na compara¸ao. Na Tabela 5.46 s˜ao apresentadas algumas medidas para compara-
¸ao dos classificadores. Nas linhas nomeadas Diferen¸ca, ´e computada a diferen¸ca entre os
resultados obtidos para as RNs e SVMs. A primeira compara¸ao ´e entre as taxas de erro
obtidas pelos classificadores gerados com o ajuste de parˆametros. Na compara¸ao, foram
usados os melhores resultados obtidos para os conjuntos de dados mencionados (tabe-
las 5.16-5.19 para RNs e tabelas 5.30- 5.33 para SVMs). Em seguida, ao comparadas as
taxas de erro de teste m´ınimas entre todos as combina¸oes de valores para os parˆametros
definidos. Os valores foram retirados das tabelas 5.27 e 5.43. Por ´ultimo ao comparadas
as ´areas abaixo da curva ROC. Os valores foram retirados das tabelas 5.29 e 5.45, para
RNs e SVMs, respectivamente.
Como ´e poss´ıvel observar, as SVMs conseguiram resultados melhores que as RNs para
todas as compara¸oes feitas. Houve apenas um empate na compara¸ao da AUC para o
conjunto olon. Uma importante observao ´e que as SVMs conseguiram taxas de erro
de teste menores do que as RNs. De fato, SVMs representam, at´e o momento, a ecnica
de AM com melhores resultados na classifica¸ao de dados de express˜ao gˆenica (Statnikov
82 5 Experimentos de Ajuste de Parˆametros
Tabela 5.46: Compara¸ao entre RNs e SVMs para classifica¸ao de dados de express˜ao
gˆenica.
Medida
Conjunto de Dados
olon Glioma Leucemia ancreas
Ajuste RNs 15.8 14.0 19.2 17.3
Ajuste SVMs 13.6 13.3 12.0 13.2
Diferen¸ca 2.2 0.7 7.2 4.1
Erro m´ınimo RNs 8.1 7.7 7.5 7.6
Erro m´ınimo SVMs 3.4 6.3 5.6 7.2
Diferen¸ca 4.7 1.4 1.9 0.4
AUC RNs 0.938 0.883 0.924 0.939
AUC SVMs 0.938 0.956 0.964 0.958
Diferen¸ca 0.000 -0.073 -0.040 -0.019
et al., 2008). Diaz-Uriarte & Alvarez de Andres (2006) utilizaram Florestas Aleat´orias
(RF, do inglˆes, Random Forests) (Breiman, 2001) para selecionar e classificar dados de
microarray. Nesse trabalho, os autores obtiveram resultados que sugeriam que RFs pos-
suem desempenho compar´avel `as SVMs para classifica¸ao de dados de expressao enica.
Por´em, Statnikov et al. (2008) apresentaram arios vi´es que poderiam ter levado a esses
resultados:
As RFs foram aplicadas aos conjuntos de dados antes da sele¸ao de genes, enquanto
que as SVMs foram aplicadas a uma sele¸ao de 200 genes (esse n´umero foi escolhido
arbitrariamente);
A estrat´egia um-contra-um foi utilizada para gera¸ao das SVMs multiclasses. Por´em,
sabe-se que outras estrat´egias, como a um-contra-todos, s˜ao melhores para dados de
express˜ao gˆenica (Statnikov et al., 2005a; Rifkin et al., 2003);
Foram utilizadas apenas SVMs lineares, sem ajuste de parˆametros;
A m´etrica de avalia¸ao usada (propor¸ao de classifica¸oes corretas) ´e sens´ıvel `a
distribui¸ao desbalanceada de classes;
ao foram realizados testes estat´ısticos na compara¸ao dos classificadores;
Para a estima¸ao do erro foi usado o m´etodo .632, que n˜ao ´e o mais apropriado para
dados de microarray.
A partir da hip´otese de que esses vi´es comprometeram os resultados obtidos por Diaz-
Uriarte & Alvarez de Andres (2006), Statnikov et al. (2008) realizaram uma compara¸ao
metodologicamente mais rigorosa entre os dois algoritmos para uma extensa variedade de
conjuntos de dados de express˜ao enica. Foi verificado que a hip´otese ´e verdadeira, ou
seja, as limita¸oes apontadas podem ter comprometido a compara¸ao entre RFs e SVMs.
5.8 Considera¸oes Finais 83
Ap´os eliminar essas limita¸oes, observou-se que as RFs apresentaram, para a maioria e na
m´edia, erros de classifica¸ao maiores do que as SVMs, quando a sele¸ao de genes ´e realizada
e tamb´em quando a sele¸ao ao ´e realizada. A compara¸ao entre RNs e SVMs realizada
nesta disserta¸ao ao pode ser interpretada como conclusiva, pois tamb´em apresenta vi´es
de sele¸ao de genes.
Al´em do melhor desempenho em termos de taxas de erro e AUC, a cria¸ao das es-
truturas de dados com os resultados das classifica¸oes foi mais apida para as SVMs. O
principal motivo para a diferen¸ca no tempo de processamento foi a maior quantidade de
combina¸oes de parˆametros para as RNs e as 10 repeti¸oes necess´arias para cada treina-
mento da RN, a que os pesos iniciais das conex˜oes ao definidos aleatoriamente, sendo
necess´arias repeti¸oes para obter uma estimativa razo´avel. Adicionalmente, um grande
n´umero de neurˆonios na camada oculta torna o aprendizado mais lento.
5.8 Considera¸oes Finais
Neste cap´ıtulo foram apresentados os experimentos realizados para investigar o ajuste
de parˆametros de SVMs e RNs utilizando algoritmos bioinspirados. Foram utilizados
conjuntos de dados de express˜ao enica e de outros dom´ınios. Inicialmente, foram apre-
sentados os conjuntos de dados, os algoritmos bioinspirados, as t´ecnicas de classifica¸ao
e as etricas empregadas na avalia¸ao dos classificadores gerados. Em seguida, foram
apresentados os trˆes m´etodos experimentais propostos e os resultados experimentais para
cada um deles.
No m´etodo experimental A, a gera¸ao do classificador ´e baseada no m´etodo de va-
lida¸ao cruzada estratificada com k parti¸oes. Uma parti¸ao ´e usada para teste, outra
para valida¸ao e as demais para treinamento do algoritmo de aprendizado. A taxa de
erro obtida para a parti¸ao de valida¸ao ´e usada como guia para a busca dos algoritmos
bioinspirados.
No m´etodo experimental B, a gera¸ao do classificador ´e baseada em dois la¸cos aninha-
dos. Em cada um dos la¸cos ´e usado o etodo de valida¸ao cruzada estratificada com k
parti¸oes. O la¸co interno ´e usado para determinar a melhor combina¸ao de valores para
os parˆametros e o la¸co externo ´e usado para estimar o desempenho do classificador gerado
com os melhores parˆametros encontrados no la¸co interno.
No etodo experimental C tamb´em ao usados dois la¸cos com valida¸ao cruzada. A
diferen¸ca ´e que os parˆametros ao ajustados para cada parti¸ao do la¸co externo. Essa
modifica¸ao foi necess´aria para evitar o uso indireto dos exemplos do conjunto de teste
no processo de ajuste de parˆametros.
Duas abordagens de referˆencia foram usadas na compara¸ao com os algoritmos bioins-
pirados nos trˆes etodos propostos. Os resultados experimentais mostram que, em geral,
os algoritmos bioinspirados conseguem menores taxas de erro de valida¸ao em compara-
84 5 Experimentos de Ajuste de Parˆametros
¸ao com as abordagens de referˆencia. Para o conjunto de dados em que ocorreu o maior
ganho com o ajuste de parˆametros, a diferen¸ca entre a taxa de erro de teste da abordagem
Padr˜ao para o algoritmo PSO foi maior que 35%. Entretanto, para a maioria dos conjun-
tos de dados utilizados, a melhoria obtida nas taxas de erro de valida¸ao ao ´e grande o
suficiente para se refletir nas taxas de erro de teste. Em alguns casos, foi observado que
o ajuste de parˆametros causou overfitting.
Cap´ıtulo 6
Conclus˜ao
Diversos trabalhos encontrados na literatura tratam do problema de ajuste de parˆa-
metros para SVMs (Lorena & Carvalho, 2006; Huang & Wang, 2006; Souza & Carvalho,
2005; Souza et al., 2006; Imbault & Lebart, 2004; Zhang & Jiao, 2005; Acevedo et al.,
2006) e para RNs (Castillo et al., 2007; Gao et al., 2006; Braun & Weisbrod, 1993; Dodd,
1990; Leung et al., 2003; Tsai et al., 2006). Muitos deles utilizam algoritmos bioinspirados
para isso. Contudo, n˜ao foram encontrados trabalhos que comparem diferentes algoritmos
bioinspirados para diferentes ecnicas de AM. O trabalho de (Hoste & Daelemans, 2005)
´e o que mais se aproxima do que foi desenvolvido nesta disserta¸ao. Os autores utilizam
AGs para ajustar parˆametros de duas ecnicas de classifica¸ao (TIMBL e RIPPER) e
avaliam os efeitos desse ajuste.
Neste trabalho foi investigado o uso de algoritmos bioinspirados para ajustar os valores
dos parˆametros livres de duas ecnicas de classifica¸ao, RNs e SVMs. Esses algoritmos
foram comparados com outras abordagens usando como crit´erio o desempenho dos classifi-
cadores gerados para dados de express˜ao gˆenica. Essa escolha teve como objetivo restrigir
o dom´ınio para investigar se algum algoritmo ´e mais adequado nesse dom´ınio. Para ava-
liar os resultados obtidos com dados de express˜ao gˆenica, conjuntos de outros dom´ınios,
obtidos do reposit´orio UCI, foram tamb´em usados em alguns experimentos com SVMs.
Os algoritmos bioinspirados ACO, AGs, CSA e PSO foram investigados neste traba-
lho para o ajuste de parˆametros de SVMs e RNs. Os algoritmos foram implementados
na linguagem R e as t´ecnicas de classifica¸ao foram simuladas a partir de ferramentas
computacionais dispon´ıveis em bibliotecas que as implementam.
Foram investigados trˆes m´etodos experimentais nesta disserta¸ao. Esses m´etodos re-
presentam uma seq
¨
uˆencia de investiga¸oes no sentido de melhorar as estimativas de de-
sempenho das t´ecnicas de classifica¸ao e evitar o uso indireto dos dados do conjunto de
teste no processo de busca dos algoritmos bioinspirados. Os m´etodos experimentais A
e B possuem vi´es no processo de ajuste, pois usam indiretamente dados utilizados na
estimativa do erro real do classificador. No m´etodo experimental C, os parˆametros ao
ajustados para cada parti¸ao do etodo de valida¸ao cruzada, eliminando esse problema.
85
86 6 Conclus˜ao
A seguir, na Se¸ao 6.1, os principais resultados obtidos s˜ao apresentados. Na Se¸ao 6.2
ao discutidas as contribui¸oes deste trabalho. As limita¸oes, os problemas encontrados e
os trabalhos futuros motivados por esses ao discutidos na Se¸ao 6.3.
6.1 Principais Resultados
Nesta se¸ao s˜ao apresentados os principais resultados dos experimentos realizados com
fun¸oes de benchmark e para cada m´etodo experimental de ajuste de parˆametros. No final
da se¸ao s˜ao feitas algumas discuss˜oes gerais sobre os resultados e a compara¸ao entre RNs
e SVMs para dados de express˜ao gˆenica.
Antes de serem empregados para o problema de ajuste de parˆametros, os algoritmos
bioinspirados investigados foram aplicados na minimiza¸ao de fun¸oes de benchmark. O
objetivo foi avaliar a funcionalidade e o desempenho desses algoritmos para fun¸oes uni-
modais e multimodais. Para as duas fun¸oes unimodais testadas, Esfera e Rosenbrock, o
algoritmo PSO conseguiu os melhores resultados e tamb´em convergiu rapidamente para
regi˜oes promissoras do espa¸co de busca. O algoritmo CSA foi o pior para a fun¸ao Es-
fera, enquanto que o AG foi o pior para a fun¸ao Rosenbrock e teve uma convergˆencia
lenta. ao foi poss´ıvel determinar o melhor algoritmo para as fun¸oes multimodais, pois,
para cada uma das trˆes fun¸oes analisadas, um algoritmo diferente se destacou. Para a
fun¸ao Rastrigin, o AG obteve os melhores valores e o ACO os piores. O algoritmo CSA
foi o melhor para a fun¸ao Schaffer f6, enquanto o AG foi o pior. Por ´ultimo, para a
fun¸ao Ackley, o ACO, apesar de convergir um pouco mais lentamente que os demais, foi
o algoritmo com o melhor desempenho e o CSA o pior.
Para o ajuste de parˆametros realizado no etodo experimental A, foram realizados
experimentos com quatro conjuntos de dados bin´arios aplicados `as SVMs com kernel
Gaussiano. Em geral, os algoritmos bioinspirados conseguiram melhores resultados do
que as abordagens de referˆencia utilizadas. Os algoritmos conseguiram as menores taxas
de erro de valida¸ao para trˆes conjuntos de dados e as menores taxas de erro de teste para
dois conjuntos. Os valores padr˜ao utilizados para os parˆametros se mostraram robustos,
apresentando taxas de erro de teste melhores para os conjuntos de dados olon e Glioma
e resultados similares aos dos algoritmos para os conjuntos de Leucemia e ancreas. A
abordagem Grade conseguiu resultados similares aos algoritmos bioinspirados em rela¸ao
`a taxa de erro de teste. Diferentes valores de parˆametros foram obtidos pelos algoritmos
bioinspirados, evidenciando o grande n´umero de m´ınimos locais. Com o teste de Friedman
foi verificado que todos os algoritmos e abordagens tiveram desempenhos estatisticamente
semelhantes.
O m´etodo experimental B foi aplicado para ajuste de paametros de RNs MLP. Quatro
conjuntos de dados bin´arios de express˜ao gˆenica foram usados nos experimentos. Como
os resultados foram armazenados, algumas informa¸oes puderam ser extra´ıdas, como a
6.1 Principais Resultados 87
correla¸ao entre as taxas de erro de valida¸ao e de teste. Como essas taxas estavam
fortemente correlacionadas, os algoritmos puderam guiar suas buscas a partir das taxas
de erro de valida¸ao. Em geral, os algoritmos bioinspirados conseguiram os melhores
resultados. Por´em, foi observado que um grande n´umero de valores para os parˆametros
resultavam em pequenas taxas de erro, o que justifica o bom desempenho da abordagem
Aleat´oria. O AG testou um n´umero menor de diferentes valores para os parˆametros em
rela¸ao aos demais algoritmos. Todavia, seus resultados foram compar´aveis aos demais,
devido ao grande n´umero de valores que resultam em pequenas taxas de erro. De acordo
com o teste de Friedman, ao a diferen¸cas significativas nos resultados obtidos para as
taxas de erro de teste. Para as taxas de erro de valida¸ao, o teste mostrou que o ACO
foi significativamente melhor do que a abordagem Padr˜ao. Uma justificativa para essa
diferen¸ca ´e que, em geral, a abordagem Padr˜ao conseguiu menores taxas de erro de teste
do que de valida¸ao, ao contr´ario dos algoritmos bioinspirados.
No m´etodo experimental C, o ajuste de parˆametros foi realizado para RNs MLP e
SVMs com kernel Gaussiano. Para os experimentos com RNs, foram usados novamente
os mesmos conjuntos de dados dos m´etodos experimentais A e B. Foi observado que as
taxas de erro de valida¸ao e de teste ao estavam altamente correlacionadas. Por esse
motivo, ocorreram maiores varia¸oes entre essas taxas. Os algoritmos conseguiram taxas
de erro de valida¸ao bem menores que a abordagem Padr˜ao. Por´em, em rela¸ao `a taxa de
erro de teste, foram melhores apenas para os conjuntos de dados olon e Glioma. Para
a AUC, os desvios padr˜ao para a abordagem Aleat´oria foram, em geral, maiores do que
para os algoritmos bioinspirados. O teste de Friedman encontrou diferen¸cas significativas
apenas para as taxas de erro de valida¸ao. O ACO e a abordagem Aleat´oria foram
significativamente melhores do que a abordagem Padr˜ao.
No ajuste de parˆametros de SVMs, foram usados seis conjuntos de dados de expres-
ao gˆenica e quatro conjuntos obtidos do reposit´orio UCI. Em geral, conjuntos de dados
com maior n´umero de exemplos apresentaram correla¸ao maior entre as taxas de erro de
valida¸ao e de teste do que conjuntos com poucos exemplos. Como os conjuntos de dados
de express˜ao enica possuem poucos exemplos, a correla¸ao entre as taxas de erro ao
foi maior que 0.7 para trˆes deles. As correla¸oes utilizando SVMs foram maiores do que
RNs para os mesmos conjuntos de dados. Em geral, o algoritmo PSO e a abordagem
Aleat´oria conseguiram os melhores resultados. Podem ser apontados dois fatores para
o bom desempenho da abordagem Aleat´oria. O primeiro ´e o fato de ao ser dif´ıcil en-
contrar valores de parˆametros que produzem pequenas taxas de erro de valida¸ao. Em
segundo, o n´umero reduzido de solu¸oes que poderiam ser testadas para SVMs favorecem
a abordagem Aleat´oria, que consegue analisar um n´umero maior de diferentes solu¸oes.
O principal motivo para o mal desempenho do algoritmo ACO para os experimentos com
SVMs ´e o n´umero reduzido de itera¸oes utilizadas, pois ele converge lentamente. Assim
como para RNs, o teste de Friedman encontrou diferen¸cas significativas apenas entre as
88 6 Conclus˜ao
taxas de erro de valida¸ao. Os algoritmos PSO, CSA e ACO e a abordagem Aleat´oria
foram significativamente melhores do que a abordagem Padr˜ao. Al´em disso a abordagem
Aleat´oria e o algoritmo PSO foram melhores do que o AG.
Os resultados experimentais mostram que, em geral, os algoritmos bioinspirados conse-
guem menores taxas de erro de valida¸ao em compara¸ao com as abordagens de referˆencia.
Para a maioria dos conjuntos de dados e experimentos realizados, a melhoria obtida nas
taxas de erro de valida¸ao ao foi grande o suficiente para resultar em melhoria nas taxas
de erro de teste. O maior ganho com o ajuste de parˆametros ocorreu para o conjunto de
dados segment, que possui o maior n´umero de exemplos e classes, nos experimentos com
SVMs. A diferen¸ca entre a taxa de erro de teste da abordagem Padr˜ao para o algoritmo
PSO foi maior que 35%. Uma diferen¸ca acima de 7.5% tamb´em foi obtida no conjunto de
dados vehicle, o segundo maior conjunto de dados, com quatro classes. Os valores padr˜ao
para as SVMs e RNs obtiveram bons resultados para a maior parte dos conjuntos de da-
dos. Quando isso n˜ao ocorreu, encontrar valores que resultam em melhor desempenho n˜ao
foi uma tarefa dif´ıcil, pois h´a uma grande quantidade de valores que conseguem minimizar
a taxa de erro de valida¸ao. Em alguns casos, foi observado que o ajuste de parˆametros
causou overfitting.
Na ´ultima se¸ao dos experimentos para ajuste de parˆametros, foram realizadas al-
gumas compara¸oes entre RNs e SVMs para classifica¸ao de dados de express˜ao enica.
Primeiramente, as t´ecnicas foram comparadas em rela¸ao `as melhores taxas de erro de
teste obtidas com o processo de ajuste de parˆametros. As SVMs conseguiram os melhores
resultados para os quatro conjuntos de dados utilizados. A menor diferen¸ca entre as taxas
de erro foi de 0.7%, para o conjunto Glioma, e a maior de 7.2%, para o conjunto Leucemia.
Entre todos os valores de parˆametros definidos para as duas t´ecnicas, as SVMs novamente
obtiveram as menores taxas de erro de teste para os quatro conjuntos de dados, com uma
diferen¸ca m´ınima de 0.4% e axima de 4.7% em rela¸ao `as RNs. Devido aos vi´es descritos
na Se¸ao 5.7.3, ao ´e poss´ıvel obter conclus˜oes com a compara¸ao realizada. Por´em, os
resultados apontam para um melhor desempenho das SVMs.
6.2 Contribui¸oes
As principais contribui¸oes deste trabalho ao descritas a seguir:
An´alise da sensibilidade das SVMs e RNs em rela¸ao aos valores dos parˆametros
para dados de express˜ao gˆenica.
´
E conhecido que SVMs e RNs ao sens´ıveis aos
valores dos parˆametros utilizados. Este estudo avalia a sensibilidade dessas ecnicas
restrito ao dom´ınio de express˜ao enica;
Compara¸ao entre os algoritmos bioinspirados ACO, AGs, CSA e PSO para o ajuste
de paametros de SVMs e RNs. Na literatura, h´a in´umeros trabalhos que usam algo-
6.3 Limita¸oes, Problemas Encontrados e Trabalhos Futuros 89
ritmos bioinspirados para o ajuste de parˆametros de t´ecnicas de classifica¸ao. Por´em,
ao foram encontrados trabalhos que comparam diferentes algoritmos bioinspirados
para ajuste de uma ecnica de AM. Este trabalho realiza essa compara¸ao para dados
de express˜ao gˆenica utilizando RNs e tamb´em para outros dom´ınios com SVMs;
Compara¸ao entre RNs e SVMs para classifica¸ao de dados de express˜ao enica.
O problema de vi´es de sele¸ao de genes nos experimentos realizados ´e reconhecido.
Entretanto, este estudo fornece ind´ıcios do desempenho das duas ecnicas de classi-
fica¸ao para dados de express˜ao gˆenica.
Desenvolvimento de um conjunto de ferramentas computacionais para o ajuste de
parˆametros de t´ecnicas de classifica¸ao. Os algoritmos bioinspirados investigados
e os m´etodos experimentais para ajuste de parˆametros foram implementados na
linguagem R. Essas ferramentas podem ser utilizadas para realizar o ajuste de pa-
ametros de outras ecnicas de classifica¸ao. Os dados resultantes dos experimentos
ficam armazenados em estruturas de dados e podem ser usados em fututras investi-
ga¸oes.
Algumas das contribui¸oes citadas foram publicadas em congressos nacionais e inter-
nacionais (Rossi & Carvalho, 2008; Rossi et al., 2008a,b). Essas contribui¸oes resumem
alguns experimentos realizados durante os dois anos de mestrado.
6.3 Limita¸oes, Problemas Encontrados e Trabalhos
Futuros
Nesta se¸ao ao descritas e discutidas as limita¸oes deste trabalho, os problemas encon-
trados durante o seu desenvolvimento e os trabalhos futuros, motivados pelos problemas
e limita¸oes encontrados.
A sele¸ao de atributos em an´alise de dados de express˜ao gˆenica ´e importante ao
apenas para reduzir o custo computacional, pois normalmente esses conjuntos de dados
possuem milhares de genes, mas tamb´em eliminar genes ao informativos. Neste trabalho,
o problema de vi´es de sele¸ao de atributos ´e reconhecido. Entretanto, decidiu-se ao
trat´a-lo, pois como o objetivo ao ´e encontrar o melhor classificador, mas verificar o
desempenho de diferentes algoritmos bioinspirados no ajuste de parˆametros, o trabalho
ao sofre grande influˆencia da sele¸ao de genes. Em trabalhos futuros, essa sele¸ao de
genes pode ser realizada simultaneamente com o ajuste de parˆametros.
O uso de uma estrutura de dados para armazenar os resultados dos classificadores
economiza tempo de processamento, pois n˜ao ´e necess´ario executar o algoritmo de apren-
dizado milhares de vezes para cada algoritmo bioinspirado. O armazenamento dos resul-
tados tamb´em viabiliza a extra¸ao de algumas informa¸oes, como a correla¸ao, que podem
90 6 Conclus˜ao
auxiliar na an´alise desses resultados e na tomada de decis˜oes do estudo. Por´em, para que
o armazenamento seja poss´ıvel, os intervalos de valores para cada parˆametro precisam ser
discretizados. Durante a discretiza¸ao, podem ser perdidos valores que poderiam resultar
em menores taxas de erro ou at´e mesmo em solu¸oes ´otimas. Dessa maneira, seria inte-
ressante realizar experimentos preliminares com os intervalos de valores definidos para os
parˆametros discretizados, e, posteriormente, se os resultados se mostrarem promissores,
realizar uma busca cont´ınua para esses intervalos.
Segundo Louren¸co et al. (2002) e Ide & Yasuda (2005), os algoritmos bioinspirados s˜ao
robustos. Todavia, os valores para seus parˆametros podem tamb´em influenciar em seus
desempenhos. Nesta pesquisa, os valores para esses algoritmos foram definidos com base
em trabalhos previamente publicados e em experimentos com fun¸oes de benchmark. O
ajuste desses parˆametros poderia implicar em diferentes resultados. Por´em, seria invi´avel
incluir mais esse estudo neste trabalho.
Para todos os experimentos com RNs, foram utilizados apenas quatro conjuntos de
dados. Esse n´umero ao ´e o ideal, mas devido ao alto custo computacional com os
experimentos para RNs, n˜ao foi poss´ıvel utilizar mais conjuntos. Os principais fatores para
o alto custo computacional nos experimentos com RNs se devem `as repeti¸oes necess´arias
para obter boas estimativas e ao treinamento lento quando ´e usado um grande n´umero
de neurˆonios. Outra limita¸ao ´e o uso de apenas uma camada oculta e da arquitetura
completamente conectada. Assim, seria interessante pesquisar um meio para reduzir o
tempo computacional, testar redes com mais de uma camada e possibilitar a remo¸ao
de conex˜oes, ou seja, utilizar redes parcialmente conectadas, o que poderia acelerar o
processo de treinamento e melhorar o desempenho.
Nos experimentos com SVMs, foi usado apenas o kernel Gaussiano, que, segundo Hsu
et al. (2007), apresenta, em geral, melhores resultados e menos dificuldades num´ericas.
Por´em, alguns trabalhos utilizam o kernel polinomial, como em Statnikov et al. (2008)
e Statnikov et al. (2005a). Portanto, al´em do ajuste de parˆametros, seria interessante
testar outros kernels para avaliar se os resultados ao alterados.
Referˆencias Bibliogr´aficas
Abbas, A., Lichtman, A., & Pober, J. (2000). Cellular and Molecular Immunology. W.B.
Saunders, New York, 4 edition. (Citado na agina 30.)
Acevedo, J., Maldonado-Basc´on, S., Lafuente-Arroyo, S., omez-Moreno, H., & Gil-
Jim´enez, P. (2006). Model selection for support vector machines using ant colony
optimization in an electronic nose application. In Dorigo, M., Gambardella, L. M.,
Birattari, M., Martinoli, A., Poli, R., & St
¨
utzle, T., editors, ANTS Workshop, volume
4150 of Lecture Notes in Computer Science, pag. 468–475. Springer. (Citado na agina
85.)
Achcar, J. A. & Rodrigues, J. (2000). Introdu¸ao `a estat´ıstica para ciˆencias e tecnologia.
Technical report, Instituto de Ciˆencias Matem´aticas e de Computa¸ao, Universdiade de
ao Paulo, ao Carlos. (Citado na agina 39.)
Ackley, D. H. (1987). A Connectionist Machine for Genetic Hillclimbing. Kluwer Acade-
mic Publishers, Boston, USA. (Citado na agina 36.)
Aimo, T. & Zilinskas, A. (1989). Global Optimization, volume 350 of Lecture Notes in
Computer Science. Springer-Verlag. (Citado na agina 36.)
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions
on Automatic Control, 19(6):716–723. (Citado na agina 18.)
Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D., & Levine, A. J.
(1999). Broad patterns of gene expression revealed by clustering analysis of tumor
and normal colon tissues probed by oligonucleotide arrays. Proceedings of the National
Academy of Sciences, 96(12):6745–6750. (Citado na agina 46.)
Alpaydin, E. (2004). Introduction to Machine Learning: Adaptive Computation and Ma-
chine Learning. The MIT Press. (Citado na agina 7.)
Anders, U. & Korn, O. (1999). Model selection in neural networks. Neural Networks,
12:309–323. (Citado na agina 18.)
Asuncion, A. & Newman, D. J. (2007). UCI machine learning repository.
http://www.ics.uci.edu/mlearn/MLRepository.html. (Citado nas aginas 3, 6 e 45.)
91
92 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
B
¨
ack, T. (1996). Evolutionary algorithms in theory and practice: evolution strategies,
evolutionary programming, genetic algorithms. Oxford University Press, Oxford, UK.
(Citado na agina 36.)
Bajcsy, P., Jiawei Han, L. L., & Yang, J. (2005). Survey of biodata analysis from a data
mining perspective. In Wang, J. T. L., Zaki, M. J., Toivonen, H. T. T., & Shasha, D.,
editors, Data Mining in Bioinformatics, cap´ıtulo 2, pag. 9–38. Springer-Verlag. (Citado
nas aginas 9 e 10.)
Bartlett, P. L., Boucheron, S., & Lugosi, G. (2002). Model selection and error estimation.
Machine Learning, 48:85–113. (Citado na agina 18.)
Basheer, I. A. & Hajmeer, M. (2000). Artificial neural networks: fundamentals, compu-
ting, design, and application. Journal of Microbiological Methods, 43:3–31. (Citado nas
aginas 2 e 17.)
Beer, D. G., Kardia, S. L., Huang, C.-C., Giordano, T. J., Levin, A. M., Misek, D. E., Lin,
L., Chen, G., Gharib, T. G., Thomas, D. G., Lizyness, M. L., Kuick, R., Hayasaka, S.,
Taylor, J. M., Iannettoni, M. D., Orringer, M. B., & Hanash, S. (2002). Gene-expression
profiles predict survival of patients with lung adenocarcinoma. Nature Medicine, 8:816–
824. (Citado na agina 46.)
Ben-Dor, A., Bruhn, L., Friedman, N., Nachman, I., Schummer, M., & Yakhini, Z. (2000).
Tissue classification with gene expression profiles. In Proceedings of the fourth annual
international conference on Computational molecular biology, pag. 54–64, New York,
NY, USA. ACM Press. (Citado na agina 47.)
Blum, C. (2005). Ant colony optimization: Introduction and recent trends. Physics of
Life Reviews, 2:353–373. (Citado na agina 25.)
Braun, H. & Weisbrod, J. (1993). Evolving neural feedforward networks. In Proceedings
of the International Conference on Artificial Neural Networks and Genetic Algorithms,
pag. 25–32. Springer-Verlag. (Citado nas aginas 20 e 85.)
Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32. (Citado na agina
82.)
Carvalho, A. C. P. L. F., Braga, A. P., & Ludermir, T. B. (2003). Computa¸ao evolutiva.
In Rezende, S. O., editor, Sistemas Inteligentes: Fundamentos e Aplicoes, cap´ıtulo 9,
pag. 225–248. Editora Manole Ltda. (Citado na agina 32.)
Carvalho, A. C. P. L. F., Delbem, A. C. B., Romero, R. A. F., Sim˜oes, E., & sP. Telles,
G. (2004). Computa¸ao bioinspirada. Apostila do Minicurso da XXIII Jornada de
Atualiza¸ao em Inform´atica. (Citado nas aginas 23 e 31.)
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 93
Castillo, P. A., Merelo, J. J., Arenas, M. G., & Romero, G. (2007). Comparing evolu-
tionary hybrid systems for design and optimization of multilayer perceptron structure
along training parameters. Information Sciences, 177(14):2884–2905. (Citado nas a-
ginas 20 e 85.)
Castro, L. N. (2006). Fundamentals of Natural Computing: Basic Concepts, Algorithms,
and Aplications. Chapman & Hall/CRC. (Citado nas aginas 24, 27, 28 e 30.)
Castro, L. N. (2007). Fundamentals of natural computing: an overview. Physics of Life
Reviews, 4(1):1–36. (Citado nas aginas 2 e 23.)
Castro, L. N. & Timmis, J. (2002). Artificial immune systems: A novel paradigm to
pattern recognition. In Corchado, J. M., Alonso, L., & Fyfe, C., editors, Artificial
Neural Networks in Pattern Recognition, pag. 67–84. University of Paisley. (Citado nas
aginas 3, 29 e 30.)
Castro, L. N. & Von-Zuben, F. (2002). Learning and optimization using the clonal selec-
tion principle. IEEE Transactions on Evolutionary Computation, 6(3):239–251. (Citado
nas aginas 3, 30, 35 e 38.)
Castrogiovanni, M., Nicosia, G., & Rascun`a, R. (2007). Experimental analysis of the aging
operator for static and dynamic optimisation problems. In Apolloni, B., Howlett, R. J.,
& Jain, L. C., editors, Proceedings of 11th International Conference on Knowledge-
Based Intelligent Information and Engineering Systems, Lecture Notes in Computer
Science, pag. 804–811. Springer. (Citado na agina 38.)
Chang, C.-C. & Lin, C.-J. (2001). LIBSVM: a Library for Support Vector Machines.
Dispon´ıvel em: http://www.csie.ntu.edu.tw/~cjlin/libsvm. (Citado na agina
19.)
Chapelle, O., Sch
¨
olkopf, B., & Zien, A. (2006). Semi-supervised learning. MIT Press.
(Citado na agina 7.)
Chapelle, O., Vapnik, V., Bousquet, O., & Mukherjee, S. (2002). Choosing multiple
parameters for support vector machines. Machine Learning, 46(1-3):131–159. (Citado
nas aginas 18 e 19.)
Chunhong, Z. & Licheng, J. (2004). Automatic parameters selection for SVM based on
GA. In Proceedings of the 6th World Congress on Intelligent Control and Automation,
pag. 1869–1872. IEEE Computer Society Press. (Citado na agina 2.)
Cohen, W. W. (1995). Fast effective rule induction. In Proceedings of the 12th Internati-
onal Conference on Machine Learning, pag. 115–123. (Citado na agina 2.)
94 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Cristianini, N. & Shawe-Taylor, J. (2000). An introduction to support vector machines:
and other kernel-based learning methods. Cambridge University Press, New York, NY,
USA. (Citado nas aginas 3, 14 e 19.)
Cutello, V., Nicosia, G., & Pavone, M. (2006). Real coded clonal selection algorithm for
unconstrained global optimization using a hybrid inversely proportional hypermutation
operator. In Proceedings of the ACM Symposium on Applied Computing, pag. 950–954,
New York, NY, USA. ACM. (Citado na agina 38.)
Daelemans, W., Zavrel, J., van der Sloot, K., & van den Bosch, A. (2002). Timbl:
Tilburg memory-based learner, version 4.3, reference guide. Technical Report ILK 02-
10, Tilburg University. (Citado na agina 2.)
De-Robertis, E. M. F. & Hib, J. (2001). Bases da Biologia Celular e Molecular. Guanabara
Koogan, Rio de Janeiro, 3 edition. (Citado na agina 46.)
Demˇsar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal
of Machine Learning Research, 7:1–30. (Citado nas aginas 4, 14, 50, 54, 61, 70, 71, 77
e 78.)
Diaz-Uriarte, R. & Alvarez de Andres, S. (2006). Gene selection and classification of
microarray data using random forest. BMC Bioinformatics, 7(1):3. (Citado na agina
82.)
Dodd, N. (1990). Optimisation of network structure using genetic techniques. In Procee-
dings of the International Joint Conference on Neural Networks, pag. 965–970. (Citado
nas aginas 20 e 85.)
Dorigo, M., Birattari, M., & Stutzle, T. (2006). Ant colony optimization: Artificial ants
as a computational intelligence technique. IEEE Computational Intelligence Magazine,
1(4):28–39. (Citado nas aginas 23 e 25.)
Dorigo, M. & Di-Caro, G. (1999). The ant colony optimization metaheuristic. In Corne,
D., Dorigo, M., & Glover, F., editors, New Ideas in Optimization, pag. 11–32. McGraw
Hill, London, UK. (Citado na agina 25.)
Draghici, S. & Potter, R. B. (2003). Predicting HIV drug resistance with neural networks.
Bioinformatics, 19(1):98–107. (Citado na agina 16.)
Dudoit, S., Fridlyand, J., & Speed, T. P. (2002). Comparison of discrimination methods
for the classification of tumors using gene expression data. Journal of the American
Statistical Association, 97(457):77–87. (Citado na agina 47.)
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 95
Eberhart, R. C. & Shi, Y. (2000). Comparing inertia weights and constriction factors in
particle swarm optimization. In Proceedings of the Congress on Evolutionary Compu-
tation, volume 1, pag. 84–88. (Citado na agina 38.)
Elbeltagi, E., Hegazy, T., & Grierson, D. (2005). Comparison among five evolutionary-
based optimization algorithms. Advanced Engineering Informatics, 19(1):43–53. (Citado
nas aginas 35 e 38.)
Elshamy, W., Emara, H. M., & Bahgat, A. (2007). Clubs-based particle swarm optimiza-
tion. In IEEE Swarm Intelligence Symposium, pag. 289–296. (Citado nas aginas 36,
40, 41 e 42.)
Eshelman, L. J. & Schaffer, J. D. (1993). Real-coded genetic algorithms and interval-
schemata. In Whitley, L. D., editor, Foundation of Genetic Algorithms 2, pag. 187–202.
Morgan Kaufmann Publishers, San Mateo. (Citado na agina 33.)
Eusuff, M. M. & Lansey, K. E. (2003). Optimization of water distribution network design
using the shuffled frog leaping algorithm. Journal of Water Resources Planning and
Management, 129(3):210–225. (Citado na agina 35.)
Faceli, K., Carvalho, A. C. P. L. F., & Souto, M. C. P. (2005). An´alise de dados de
express˜ao gˆenica. Technical report, Universidade de ao Paulo - ICMC, ao Carlos.
Relat´orio T´ecnico 250. (Citado nas aginas 46 e 47.)
Fahlman, S. E. (1988). Faster-learning variations on back-propagation: An empirical
study. In Proceedings of the 1988 Connectionist Models Summer School, Los Altos,
CA. Morgan Kaufmann. (Citado na agina 20.)
Fawcett, T. (2006). An introduction to roc analysis. Pattern Recognition Letters,
27(8):861–874. ROC Analysis in Pattern Recognition. (Citado na agina 12.)
Freitas, A. A. (2003). A survey of evolutionary algorithms for data mining and knowledge
discovery. In Ghosh, A. & Tsutsui, S., editors, Advances in evolutionary computing:
theory and applications, pag. 819–845. Springer-Verlag New York, Inc., New York, NY,
USA. (Citado na agina 35.)
Gao, L., Zhou, C., Gao, H.-B., & Shi, Y.-R. (2006). Credit scoring model based on neural
network with particle swarm optimization. In Proceedings of the Second International
Conference on Advances in Natural Computation, pag. 76–79. Springer-Verlag. (Citado
nas aginas 20 e 85.)
Glover, F. & Laguna, F. (1997). Tabu Search. Kluwer Academic Publishers, Norwell, MA,
USA. (Citado nas aginas 19 e 24.)
96 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Goldberg, D. E. & Holland, J. H. (1988). Genetic algorithms and machine learning.
Machine Learning, 3(2-3):95–99. (Citado nas aginas 3 e 31.)
Hagan, M. T., Demuth, H. B., & Beale, M. H. (1996). Neural Network Design. PWS
Publishing, Boston, 1 edition. (Citado na agina 17.)
Haslinger, C., Schweifer, N., Stilgenbauer, S., Dohner, H., Lichter, P., Kraut, N., Stratowa,
C., & Abseher, R. (2004). Microarray Gene Expression Profiling of B-Cell Chronic
Lymphocytic Leukemia Subgroups Defined by Genomic Aberrations and VH Mutation
Status. Journal of Clinical Oncology, 22(19):3937–3949. (Citado na agina 46.)
Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. (Citado
nas aginas xxi, 3, 14, 15 e 16.)
Herrera, F., Herrera-Viedma, E., Lozano, M., & Verdegay, J. L. (1994). Fuzzy tools
to improve genetic algorithms. In Proceedings of the Second European Congress on
Intelligent Techniques and Soft Computing, pag. 1532–1539. (Citado na agina 33.)
Herrera, F., Lozano, M., & Verdegay, J. L. (1998). Tackling real-coded genetic algorithms:
Operators and tools for behavioural analysis. Artificial Intelligence Review, 12(4):265–
319. (Citado nas aginas 32, 33 e 34.)
Hintz, K. J. & Spofford, J. J. (1990). Evolving a neural network. In Proceedings of the
IEEE International Symposium on Intelligent Control, pag. 479–484. (Citado na agina
20.)
Holland, J. (1975). Adaptation in Natural and Artificial Systems. University of Michigan
Press, Ann Arbor. (Citado nas aginas 24 e 31.)
Hoste, V. & Daelemans, W. (2005). Comparing learning approaches to coreference resolu-
tion. There is more to it than ’bias’. In Proceedings of the Workshop on Meta-Learning,
pag. 20–27. (Citado nas aginas 2, 3 e 85.)
Hsu, C.-W., Chang, C.-C., & Lin, C.-J. (2007). A Practical Guide to Support Vector
Classification. Department of Computer Science - National Taiwan University, Taipei,
Taiwan. (Citado nas aginas 49, 52, 64 e 90.)
Huang, C.-L. & Wang, C.-J. (2006). A GA-based feature selection and parameters optimi-
zation for support vector machines. Expert Systems with Applications, 31(2):231–240.
(Citado nas aginas 19, 38 e 85.)
Hutter, F. & Hamadi, Y. (2005). Parameter adjustment based on performance predic-
tion: Towards an instance-aware problem solver. Technical report, Microsoft Research,
Redmond, WA. (Citado na agina 18.)
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 97
Ide, A. & Yasuda, K. (2005). A basic study of adaptive particle swarm optimization.
Electrical Engineering in Japan, 151(3):41–49. (Citado nas aginas 42 e 90.)
Imbault, F. & Lebart, K. (2004). A stochastic optimization approach for parameter
tuning of support vector machines. In Proceedings of the 17th International Conference
on Pattern Recognition, pag. 597–600. (Citado nas aginas 19 e 85.)
Ishikawa, M., Yoshida, K., Yamashita, Y., Ota, J., Takada, S., Kisanuki, H., Koinuma,
K., Choi, Y. L., Kaneda, R., Iwao, T., Tamada, K., Sugano, K., & Mano, H. (2005).
Experimental trial for diagnosis of pancreatic ductal carcinoma based on gene expression
profiles of pancreatic ductal cells. Cancer Science, 96(7):387–393. (Citado na agina
46.)
Kearns, M., Mansour, Y., Ng, A. Y., & Ron, D. (1997). An experimental and theoreti-
cal comparison of model selection methods. Machine Learning, 27:7–50. (Citado nas
aginas 17 e 18.)
Kennedy, J. (2005). Particle swarms: optimization based on sociocognition. In Castro, L.
& Zuben, F. V., editors, Recent Development in Biologically Inspired Computing, pag.
235–269. Idea Group. (Citado na agina 35.)
Kennedy, J. & Eberhart, R. (1995). Particle swarm optimization. In Proceedings of the
IEEE International Conference on Neural Networks, volume 4, pag. 1942–1948, Perth,
Australia. (Citado nas aginas 3, 26 e 38.)
Kennedy, J. & Eberhart, R. (2001). Swarm Intelligence. Morgan Kaufmann Publishers.
(Citado na agina 27.)
Kim, D. H. (2002). Parameter tuning of fuzzy neural networks by immune algorithm.
In Proceedings of the IEEE International Conference on Fuzzy Systems, pag. 408–413.
(Citado na agina 21.)
Kirkpatrick, S., Gelatt, C. D., J., & Vecchi, M. P. (1983). Optimization by Simulated
Annealing. Science, 220(4598):671–680. (Citado na agina 19.)
Kohavi, R. & John, G. H. (1995). Automatic parameter selection by minimizing estimated
error. In Prieditis, A. & Russel, S., editors, Proceedings of the Twelfth International
Conference on Machine Learning, pag. 304–312, San Francisco, CA. Morgan Kaufmann.
(Citado nas aginas 1 e 18.)
Lacerda, E. G. M., Carvalho, A. C. P. L. F., & Ludermir, T. B. (2002). Model selection
via genetic algorithms for RBF networks. Journal of Intelligent and Fuzzy Systems,
13(2-4):111–122. (Citado na agina 2.)
98 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Larranaga, P., Calvo, B., Santana, R., Bielza, C., Galdiano, J., Inza, I., Lozano, J. A.,
Armananzas, R., Santafe, G., Perez, A., & Robles, V. (2006). Machine learning in
bioinformatics. Briefings in Bioinformatics, 7(1):86–112. (Citado na agina 10.)
Leung, F. H. F., Lam, H. K., Ling, S. H., & Tam, P. K. S. (2003). Tuning of the
structure and parameters of a neural network using an improved genetic algorithm.
IEEE Transactions on Neural Networks, 14(1):79–88. (Citado nas aginas 2, 20 e 85.)
Lorena, A. C. & Carvalho, A. C. P. L. F. (2006). Multiclass SVM design and parameter
selection with genetic algorithms. In Proceedings of the Ninth Brazilian Symposium on
Neural Networks, pag. 23, Washington, DC, USA. IEEE Computer Society. (Citado
nas aginas 2, 19 e 85.)
Louren¸co, H. R., Martin, O., & Stutzle, T. (2002). Iterated local search. In Glover, F.
& Kochenberger, G., editors, Handbook of Metaheuristics, volume 57, pag. 321–353.
Kluwer Academic Publishers. (Citado nas aginas 24, 42 e 90.)
Maniezzo, V., Gambardella, L. M., & Luigi, F. (2004). Ant colony optimization. In
Onwubolu, G. C. & Babu, B. V., editors, New Optimization Techniques in Engineering,
pag. 101–117. Springer-Verlag, Berlin, Heidelberg. (Citado nas aginas 24 e 26.)
McCulloch, W. S. & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, 5:115–133. (Citado nas aginas 16 e 17.)
Meyer, D. (2001). Support vector machines. R News, 1(3):23–26. (Citado na agina 49.)
Mezura-Montes, E. & Lopez-Ramirez, B. C. (2007). Comparing bio-inspired algorithms in
constrained optimization problems. In IEEE Congress on Evolutionary Computation,
pag. 662–669. (Citado na agina 35.)
Michalewicz, Z. (1992). Genetic Algorithms + Data Structures = Evolution Programs.
Springer-Verlag. (Citado na agina 33.)
Michie, D., Spiegelhalter, D. J., & Taylor, C. C. (1994). Introduction. In Michie, D.,
Spiegelhalter, D. J., & Taylor, C. C., editors, Machine Learning, Neural and Statistical
Classification. Ellis Horwood. (Citado na agina 47.)
Miller, G. F., Todd, P. M., & Hegde, S. U. (1989). Designing neural networks using genetic
algorithms. In Proceedings of the 3rd International Conference on Genetic Algorithms,
pag. 379–384, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. (Citado na
agina 20.)
Millonas, M. M. (1994). Swarms, phase transitions, and collective intelligence. In Langton,
C. G., editor, Artificial Life III, volume XVII of Santa Fe Institute Studies in the
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 99
Sciences of Complexity, pag. 417–445. Addison-Wesley Longman Publishing, New York,
NY. (Citado na agina 24.)
Mitchell, T. M. (1982). Generalization as search. Artificial Intelligence, 18:203–266.
(Citado na agina 18.)
Mitchell, T. M. (1997). Machine Learning. McGraw Hill, New York. (Citado nas aginas
1, 7, 13 e 15.)
Monard, M. C. & Baranauskas, J. A. (2003). Conceitos sobre aprendizado de aquina.
In Rezende, S. O., editor, Sistemas Inteligentes: Fundamentos e Aplicoes, cap´ıtulo 4,
pag. 89–114. Editora Manole Ltda. (Citado nas aginas 1, 7, 9 e 10.)
Moscato, P. (1989). On evolution, search, optimization, genetic algorithms and martial
arts: Towards memetic algorithms. Technical Report Caltech Concurrent Computation
Program 826, California Institute of Technology, Pasadena, California, USA. (Citado
na agina 35.)
Nadeau, C. & Bengio, Y. (2003). Inference for the generalization error. Machine Learning,
52(3):239–281. (Citado nas aginas 14, 50 e 54.)
Narayanan, A., Keedwell, E. C., & Olsson, B. (2002). Artificial intelligence techniques for
bioinformatics. Applied Bioinformatics, 1(4):191–222. (Citado na agina 16.)
Nolfi, S. & Floreano, D. (2004). Evolutionary Robotics: The Biology, Intelligence, and
Technology of Self-Organizing Machines. Bradford Book. (Citado na agina 35.)
Nutt, C. L., Mani, D. R., Betensky, R. A., Tamayo, P., Cairncross, J. G., Ladd, C., Pohl,
U., Hartmann, C., McLaughlin, M. E., Batchelor, T. T., Black, P. M., von Deimling, A.,
Pomeroy, S. L., Golub, T. R., & Louis, D. N. (2003). Gene expression-based classifica-
tion of malignant gliomas correlates better with survival than histological classification.
Cancer Research, 63(7):1602–1607. (Citado na agina 46.)
Perelson, A. S. & Oster, G. (1979). Theoretical studies of clonal selection: Minimal anti-
body repertoire size and reliability of self-nonself discrimination. Journal of Theoretical
Biology, 81(4):645–670. (Citado na agina 30.)
Phadke, M. S. (1995). Quality Engineering Using Robust Design. Prentice Hall PTR,
Upper Saddle River, NJ, USA. (Citado na agina 20.)
Price, K., Storn, R. M., & Lampinen, J. A. (2005). Differential Evolution: A Practical
Approach to Global Optimization (Natural Computing Series). Springer-Verlag New
York, Inc., Secaucus, NJ, USA. (Citado na agina 35.)
100 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Rechenberg, I. (1973). Evolutionsstrategie: optimierung technischer systeme nach prinzi-
pien der biologischen evolution. Frommann-Holzboog. (Citado na agina 35.)
Rifkin, R., Mukherjee, S., Tamayo, P., Ramaswamy, S., Yeang, C.-H., Angelo, M., Reich,
M., Poggio, T., Lander, E. S., Golub, T. R., & Mesirov, J. P. (2003). An analytical
method for multi-class cancer classification. SIAM Review, 45(4):706–723. (Citado na
agina 82.)
Rosenbrock, H. H. (1960). An automatic method for finding the greatest or least value of
a function. The Computer Journal, 3(3):175–184. (Citado na agina 36.)
Rossi, A. L. D. & Carvalho, A. C. P. L. F. (2008). Bio-inspired optimization techniques
for SVM parameter tuning. In Proceedings of 10th Brazilian Symposium on Neural
Networks, pag. 435–440. IEEE Computer Society. (Citado na agina 89.)
Rossi, A. L. D., Carvalho, A. C. P. L. F., & Soares, C. (2008a). Bio-inspired parameter
tunning of MLP networks for gene expression analysis. In Proceedings of 8th Interna-
tional Conference on Hybrid Intelligent Systems, pag. 57–62. IEEE Computer Society.
(Citado na agina 89.)
Rossi, A. L. D., Soares, C., & Carvalho, A. C. P. L. F. (2008b). Bioinspired parame-
ter tuning of MLP networks for gene expression analysis: quality of fitness estimates
vs number of solutions analyzed. In Proceedings of 15th International Conference on
Neuro- Information Processing of the Asia Pacific Neural Network Assembly. Aceito.
(Citado na agina 89.)
Schaffer, J. D., Caruana, R. A., Eshelman, L. J., & Das, R. (1989). A study of control
parameters affecting online performance of genetic algorithms for function optimization.
In Schaffer, J., editor, Proceedings of the Third international Conference on Genetic
Algorithms, pag. 51–60, San Francisco, CA. Morgan Kaufmann Publishers. (Citado na
agina 36.)
Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quantitative monitoring of
gene expression patterns with a complementary dna microarray. Science, 270:467–470.
(Citado na agina 47.)
Schwarz, G. (1978). Estimating the dimension of a model. In Annals of Statistics, vo-
lume 6, pag. 461–464. (Citado na agina 18.)
Seiffert, U., Hammer, B., Kaski, S., & Villmann, T. (2006). Neural networks and machine
learning in bioinformatics - theory and applications. In Proceedings of the European
Symposium on Artificial Neural Networks, pag. 521–532, Bruges, Belgium. (Citado na
agina 16.)
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 101
Shi, Y. & Eberhart, R. (1998). A modified particle swarm optimizer. In Proceedings of the
IEEE International Conference on Evolutionary Computation, pag. 69–73, Anchorage,
Alaska. (Citado nas aginas 29, 36 e 38.)
Socha, K. (2004). ACO for continuous and mixed-variable optimization. In Dorigo, M.,
Birattari, M., Blum, C., Gambardella, L. M., Mondada, F., & St
¨
utzle, T., editors,
Proceedings of the 4th International Workshop on Ant Colony Optimization, volume
3172 of Lecture Notes in Computer Science, pag. 25–36. Springer. (Citado nas aginas
26, 27 e 38.)
Socha, K. & Dorigo, M. (2008). Ant colony optimization for continuous domains. European
Journal of Operational Research, 185(3):1155–1173. (Citado nas aginas 3, 26, 27, 35,
38 e 48.)
Sousa, T., Silva, A., & Neves, A. (2004). Particle swarm based data mining algorithms
for classification tasks. Parallel Comput., 30(5-6):767–783. (Citado na agina 35.)
Souto, M. C. P., Lorena, A. C., Delbem, A. C. B., & Carvalho, A. C. P. L. F. (2003).
T´ecnicas de aprendizado de aquina para problemas de biologia molecular. In II Jor-
nada de Atualiza¸ao em Inteligˆencia Artificial, pag. 1–40, Campinas - Brasil. (Citado
nas aginas xix, 14, 15, 32 e 33.)
Souza, B. F. (2005). Sele¸ao de caracter´ısticas em SVMs aplicadas a dados de express˜ao
gˆenica. Master’s thesis, Instituto de Ciˆencias Matem´aticas e de Computa¸ao- Univer-
sidade de ao Paulo, ao Carlos, SP. (Citado na agina 47.)
Souza, B. F. & Carvalho, A. C. P. L. F. (2005). Gene selection based on multi-class
support vector machines and genetic algorithms. Genetics and Molecular Research,
4(3):599–607. (Citado nas aginas 19 e 85.)
Souza, B. F., Carvalho, A. C. P. L. F., Calvo, R., & Ishii, R. P. (2006). Multiclass SVM
model selection using particle swarm optimization. In Proceedings of the Sixth Interna-
tional Conference on Hybrid Intelligent Systems, pag. 31, Washington, DC, USA. IEEE
Computer Society. (Citado nas aginas 2, 19 e 85.)
Statnikov, A., Aliferis, C. F., Tsamardinos, I., Hardin, D., & Levy, S. (2005a). A com-
prehensive evaluation of multicategory classification methods for microarray gene ex-
pression cancer diagnosis. Bioinformatics, 21(5):631–643. (Citado nas aginas 48, 64,
82 e 90.)
Statnikov, A., Tsamardinos, I., Dosbayev, Y., & Aliferis, C. F. (2005b). GEMS: A system
for automated cancer diagnosis and biomarker discovery from microarray gene expres-
sion data. International Journal of Medical Informatics, 74(7-8):491 503. MedInfo
2004. (Citado na agina 64.)
102 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Statnikov, A., Wang, L., & Aliferis, C. (2008). A comprehensive comparison of random
forests and support vector machines for microarray-based cancer classification. BMC
Bioinformatics, 9(1):319. (Citado nas aginas 81, 82 e 90.)
Tan, P.-N., Steinbach, M., & Kumar, V. (2005). Introduction to data mining. Addison-
Wesley, Boston, MA, USA. (Citado na agina 8.)
Ter
¨
asvirta, T., Lin, C., & Granger, C. W. J. (1993). Power of the neural network linearity
test. Journal of Time Series Analysis, 14(2):209–220. (Citado na agina 18.)
Trelea, I. C. (2003). The particle swarm optimization algorithm: Convergence analysis
and parameter selection. Information Processing Letters, 85(6):317–325. (Citado na
agina 62.)
Tsai, J.-T., Chou, J.-H., & Liu, T.-K. (2006). Tuning the structure and parameters of
a neural network by using hybrid taguchi-genetic algorithm. IEEE Transactions on
Neural Networks, 17(1):69–80. (Citado nas aginas 20 e 85.)
Vapnik, V. & Chervonenkis, A. (1971). On the uniform convergence of relative frequencies
of occurrence of events to their probabilities. Theory of Probability and Its Applications,
2(16):264–280. (Citado na agina 14.)
Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag. (Citado
na agina 14.)
Velculescu, V. E., Zhang, L., Vogelstein, B., & Kinzler, K. W. (1995). Serial analysis of
gene expression. Science, 270:484–487. (Citado na agina 47.)
Wang, J. T. L., Ma, Q., Shasha, D., & Wu, C. H. (2000). Application of neural networks to
biological data mining: A case study in protein sequence classification. In Proceedings of
the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining, pag. 305–309, New York, NY, USA. ACM Press. (Citado na agina 16.)
Xu, P. & Chan, A. K. (2003). An efficient algorithm on multi-class support vector machine
model selection. In Proceedings of the International Conference on Neural Networks,
pag. 3229–3232. (Citado na agina 18.)
Yeoh, E.-J., Ross, M. E., Shurtleff, S. A., Williams, W. K., Patel, D., Mahfouz, R., Behm,
F. G., Raimondi, S. C., Relling, M. V., Patel, A., Cheng, C., Campana, D., Wilkins, D.,
Zhou, X., Li, J., Liu, H., Pui, C.-H., Evans, W. E., Naeve, C., Wong, L., & Downing,
J. R. (2002). Classification, subtype discovery, and prediction of outcome in pediatric
acute lymphoblastic leukemia by gene expression profiling. Cancer Cell, 1(2):133–143.
(Citado na agina 46.)
REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS 103
Yildiz, O. T. & Alpaydin, E. (2005). Model selection in omnivariate decision trees. In
Proceedings of the 16th European Conference on Machine Learning, volume 3720 of
Lecture Notes in Computer Science, pag. 473–484. Springer. (Citado na agina 18.)
Zhang, X. & Jiao, L. (2005). Simultaneous feature selection and parameters optimization
for SVM by immune clonal algorithm. In Wang, L., Chen, K., & Ong, Y.-S., editors,
ICNC (2), volume 3611 of Lecture Notes in Computer Science, pag. 905–912. Springer.
(Citado na agina 85.)
104 REFER
ˆ
ENCIAS BIBLIOGR
´
AFICAS
Apˆendice A
Densidade das Taxas de Erro de
Valida¸ao e de Teste
Neste apˆendice ao apresentados os gr´aficos referentes `as densidades das taxas de
erro de valida¸ao e de teste para todas as combina¸oes de parˆametros utilizados nos
experimentos da Se¸ao 5.7. Os gr´aficos exibidos nas figuras de A.1 a A.4 mostram as
densidades para os conjuntos de dados utilizados nos experimentos com RNs, descritos na
Se¸ao 5.7.1. Os gr´aficos exibidos nas figuras de A.5 a A.14 mostram as densidades para
os conjuntos de dados utilizados nos experimentos com SVMs, reportados na Se¸ao 5.7.2.
105
106 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.0
0.2
0.4
0.6
0 20 40 60
partição 9
partição 10
partição 7
0.0
0.2
0.4
0.6
partição 8
0.0
0.2
0.4
0.6
partição 5
partição 6
partição 3
0.0
0.2
0.4
0.6
partição 4
0.0
0.2
0.4
0.6
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.1: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
olon para todas as combina¸oes de valores de parˆametros para RNs.
107
Taxa de erro (%)
Densidade
0.0
0.5
1.0
1.5
0 20 40 60
partição 9
partição 10
partição 7
0.0
0.5
1.0
1.5
partição 8
0.0
0.5
1.0
1.5
partição 5
partição 6
partição 3
0.0
0.5
1.0
1.5
partição 4
0.0
0.5
1.0
1.5
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.2: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Glioma para todas as combina¸oes de valores de parˆametros para RNs.
108 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.0
0.5
1.0
1.5
2.0
0 20 40 60
partição 9
partição 10
partição 7
0.0
0.5
1.0
1.5
2.0
partição 8
0.0
0.5
1.0
1.5
2.0
partição 5
partição 6
partição 3
0.0
0.5
1.0
1.5
2.0
partição 4
0.0
0.5
1.0
1.5
2.0
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.3: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia para todas as combina¸oes de valores de parˆametros para RNs.
109
Taxa de erro (%)
Densidade
0.0
0.5
1.0
0 10 20 30 40 50
partição 9
partição 10
partição 7
0.0
0.5
1.0
partição 8
0.0
0.5
1.0
partição 5
partição 6
partição 3
0.0
0.5
1.0
partição 4
0.0
0.5
1.0
partição 1
0 10 20 30 40 50
partição 2
Validação
Teste
Figura A.4: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
ancreas para todas as combina¸oes de valores de parˆametros para RNs.
110 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.00
0.05
0.10
0 20 40 60
partição 9
partição 10
partição 7
0.00
0.05
0.10
partição 8
0.00
0.05
0.10
partição 5
partição 6
partição 3
0.00
0.05
0.10
partição 4
0.00
0.05
0.10
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.5: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
olon para todas as combina¸oes de valores de parˆametros para SVMs.
111
Taxa de erro (%)
Densidade
0.00
0.02
0.04
0.06
0.08
0.10
0 20 40 60
partição 9
partição 10
partição 7
0.00
0.02
0.04
0.06
0.08
0.10
partição 8
0.00
0.02
0.04
0.06
0.08
0.10
partição 5
partição 6
partição 3
0.00
0.02
0.04
0.06
0.08
0.10
partição 4
0.00
0.02
0.04
0.06
0.08
0.10
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.6: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Glioma para todas as combina¸oes de valores de parˆametros para SVMs.
112 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.00
0.01
0.02
0.03
0.04
0.05
0 20 40 60
partição 9
partição 10
partição 7
0.00
0.01
0.02
0.03
0.04
0.05
partição 8
0.00
0.01
0.02
0.03
0.04
0.05
partição 5
partição 6
partição 3
0.00
0.01
0.02
0.03
0.04
0.05
partição 4
0.00
0.01
0.02
0.03
0.04
0.05
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.7: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia para todas as combina¸oes de valores de parˆametros para SVMs.
113
Taxa de erro (%)
Densidade
0.00
0.02
0.04
0.06
0.08
0 20 40 60
partição 9
partição 10
partição 7
0.00
0.02
0.04
0.06
0.08
partição 8
0.00
0.02
0.04
0.06
0.08
partição 5
partição 6
partição 3
0.00
0.02
0.04
0.06
0.08
partição 4
0.00
0.02
0.04
0.06
0.08
partição 1
0 20 40 60
partição 2
Validação
Teste
Figura A.8: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
ancreas para todas as combina¸oes de valores de parˆametros para SVMs.
114 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.00
0.02
0.04
0.06
0.08
0 20 40 60 80
partição 9
partição 10
partição 7
0.00
0.02
0.04
0.06
0.08
partição 8
0.00
0.02
0.04
0.06
0.08
partição 5
partição 6
partição 3
0.00
0.02
0.04
0.06
0.08
partição 4
0.00
0.02
0.04
0.06
0.08
partição 1
0 20 40 60 80
partição 2
Validação
Teste
Figura A.9: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Leucemia2 para todas as combina¸oes de valores de parˆametros para SVMs.
115
Taxa de erro (%)
Densidade
0.00
0.05
0.10
0.15
0 20 40 60 80
partição 9
partição 10
partição 7
0.00
0.05
0.10
0.15
partição 8
0.00
0.05
0.10
0.15
partição 5
partição 6
partição 3
0.00
0.05
0.10
0.15
partição 4
0.00
0.05
0.10
0.15
partição 1
0 20 40 60 80
partição 2
Validação
Teste
Figura A.10: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
Pulm˜ao para todas as combina¸oes de valores de parˆametros para SVMs.
116 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.00
0.02
0.04
0.06
0 10 20 30 40 50
partição 9
partição 10
partição 7
0.00
0.02
0.04
0.06
partição 8
0.00
0.02
0.04
0.06
partição 5
partição 6
partição 3
0.00
0.02
0.04
0.06
partição 4
0.00
0.02
0.04
0.06
partição 1
0 10 20 30 40 50
partição 2
Validação
Teste
Figura A.11: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
australian para todas as combina¸oes de valores de parˆametros para SVMs.
117
Taxa de erro (%)
Densidade
0.00
0.05
0.10
0.15
10 20 30 40
partição 9
partição 10
partição 7
0.00
0.05
0.10
0.15
partição 8
0.00
0.05
0.10
0.15
partição 5
partição 6
partição 3
0.00
0.05
0.10
0.15
partição 4
0.00
0.05
0.10
0.15
partição 1
10 20 30 40
partição 2
Validação
Teste
Figura A.12: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
pima para todas as combina¸oes de valores de parˆametros para SVMs.
118 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Taxa de erro (%)
Densidade
0.000
0.005
0.010
0.015
0.020
0 20 40 60 80 100
partição 9
partição 10
partição 7
0.000
0.005
0.010
0.015
0.020
partição 8
0.000
0.005
0.010
0.015
0.020
partição 5
partição 6
partição 3
0.000
0.005
0.010
0.015
0.020
partição 4
0.000
0.005
0.010
0.015
0.020
partição 1
0 20 40 60 80 100
partição 2
Validação
Teste
Figura A.13: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
segment para todas as combina¸oes de valores de parˆametros para SVMs.
119
Taxa de erro (%)
Densidade
0.00
0.01
0.02
0.03
0 20 40 60 80
partição 9
partição 10
partição 7
0.00
0.01
0.02
0.03
partição 8
0.00
0.01
0.02
0.03
partição 5
partição 6
partição 3
0.00
0.01
0.02
0.03
partição 4
0.00
0.01
0.02
0.03
partição 1
0 20 40 60 80
partição 2
Validação
Teste
Figura A.14: Densidade da taxa de erro de valida¸ao e de teste para o conjunto de dados
vehicle para todas as combina¸oes de valores de parˆametros para SVMs.
120 A Densidade das Taxas de Erro de Valida¸ao e de Teste
Apˆendice B
Curvas ROC
Neste apˆendice ao apresentados os gr´aficos de curva ROC para os conjuntos de dados
bin´arios utilizados nos experimentos da Se¸ao 5.7. As figuras de B.1 a B.4 ao referentes
aos resultados obtidos nos experimentos com RNs, relatados na Se¸ao 5.7.1. As figuras
de B.5 a B.10 ao referentes aos resultados obtidos nos experimentos com SVMs, repor-
tados na Se¸ao 5.7.2.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.1: Curvas ROC para o con-
junto de dados olon usando RNs com
parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.2: Curvas ROC para o con-
junto de dados Glioma usando RNs com
parˆametros ajustados.
121
122 B Curvas ROC
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.3: Curvas ROC para o con-
junto de dados Leucemia usando RNs
com parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.4: Curvas ROC para o con-
junto de dados ancreas usando RNs
com parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.5: Curvas ROC para o con-
junto de dados olon usando SVMs com
parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.6: Curvas ROC para o con-
junto de dados Glioma usando SVMs
com parˆametros ajustados.
123
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.7: Curvas ROC para o con-
junto de dados Leucemia usando SVMs
com parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.8: Curvas ROC para o con-
junto de dados ancreas usando SVMs
com parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.9: Curvas ROC para o con-
junto de dados australian usando SVMs
com parˆametros ajustados.
Taxa de Falsos Positivos
Taxa de Verdadeiros Positivos
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0
ACO
AG
CSA
PSO
Aleatória
Padrão
Figura B.10: Curvas ROC para o con-
junto de dados pima usando SVMs com
parˆametros ajustados.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo