Download PDF
ads:
Extrac¸
˜
ao de conhecimento simb
´
olico
em t
´
ecnicas de aprendizado de
m
´
aquina caixa-preta por similaridade
de rankings
Rodrigo Elias Bianchi
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ads:
SERVIC¸ O DE P
´
OS-GRADUAC¸
˜
AO DO ICMC-
USP
Data de Dep
´
osito: 07.07.2008
Assinatura:
Extrac¸
˜
ao de conhecimento
simb
´
olico em t
´
ecnicas de
aprendizado de m
´
aquina
caixa-preta por similaridade de
rankings
Rodrigo Elias Bianchi
Orientador: Prof. Dr. Andr
´
e Carlos Ponce de Leon Ferreira de Carvalho
Tese apresentada ao Instituto de Ci
ˆ
encias Matem
´
aticas e
de Computac¸
˜
ao - ICMC-USP, como parte dos requisitos
para obtenc¸
˜
ao do t
´
ıtulo de Doutor em Ci
ˆ
encias - Ci
ˆ
encias
de Computac¸
˜
ao e Matem
´
atica Computacional.
USP - S
˜
ao Carlos
Julho de 2008
Este documento foi preparado utilizando-se o formatador de textos L
A
T
E
X.
Sua bibliografia
´
e gerada automaticamente pelo BIBT
E
X, utilizando o estilo
Apalike. O estilo dos t
´
ıtulos dos cap
´
ıtulos foi gentilmente cedido pelo amigo
Ronaldo C. Prati.
c
Copyright 2008 - Rodrigo Elias Bianchi
Todos os direitos Reservados
1
1
Este trabalho conta com apoio financeiro da FAPESP processo n
o
03/00099-5
Agradecimentos
Gostaria de agradecer ao Andr
´
e, meu orientador, pela oportunidade, orien-
tac¸
˜
ao e toda a paci
ˆ
encia que ele teve comigo durante esses anos. Gostaria de
agradecer tamb
´
em aos amigos Gustavo e Cl
´
audia, pois sem eles a parte experi-
mental desse trabalho n
˜
ao teria sido poss
´
ıvel. Agradec¸o aos meus pais, Neida
e Roberto por tudo o que fizeram por mim desde o dia em que nasci e todo
o carinho que sempre me deram. Isso foi essencial ao meu desenvolvimento.
Tudo o que sou se deve ao esforc¸o deles. Muito obrigado! Agradec¸o
`
a minha
namorada Miyuki, por todos os momentos que tivemos juntos, que me deram
forc¸a para ir em frente, e por me ag
¨
uentar e entender a minha aus
ˆ
encia nos
momentos dif
´
ıceis que tive no doutorado. Tamb
´
em quero agradecer a todos
os meus amigos, os que est
˜
ao perto e os que est
˜
ao longe, do LABIC/BIOCOM,
dos outros laborat
´
orios e departamentos da USP, professores e funcion
´
arios do
ICMC e da Unioeste, do Kendo, de Foz do Iguac¸u, de S
˜
ao Paulo, enfim, todos
os meus amigos e familiares que sempre me apoiaram incondicionalmente.
Doumo arigatou gozaimashita!
Resumo
T
´
ecnicas de Aprendizado de M
´
aquina n
˜
ao-simb
´
olicas, como Redes Neu-
rais Artificiais, M
´
aquinas de Vetores de Suporte e combinac¸
˜
ao de classifica-
dores t
ˆ
em mostrado um bom desempenho quando utilizadas para an
´
alise de
dados. A grande limitac¸
˜
ao dessas t
´
ecnicas
´
e a falta de compreensibilidade
do conhecimento armazenado em suas estruturas internas. Esta Tese apre-
senta uma pesquisa realizada sobre m
´
etodos de extrac¸
˜
ao de representac¸
˜
oes
compreens
´
ıveis do conhecimento armazenado nas estruturas internas des-
sas t
´
ecnicas n
˜
ao-simb
´
olicas, aqui chamadas de caixa preta, durante seu pro-
cesso de aprendizado. A principal contribuic¸
˜
ao desse trabalho
´
e a proposta
de um novo m
´
etodo pedag
´
ogico para extrac¸
˜
ao de regras que expliquem o pro-
cesso de classificac¸
˜
ao seguido por t
´
ecnicas n
˜
ao-simb
´
olicas. Esse novo m
´
etodo
´
e baseado na otimizac¸
˜
ao (maximizac¸
˜
ao) da similaridade entre rankings de
classificac¸
˜
ao produzidos por t
´
ecnicas de Aprendizado de M
´
aquina simb
´
olicas
e n
˜
ao simb
´
olicas (de onde o conhecimento interno esta sendo extra
´
ıdo). Ex-
perimentos foram realizados com v
´
arios conjuntos de dados e os resultados
obtidos sugerem um bom potencial para o m
´
etodo proposto.
Abstract
Non-symbolic Machine Learning techniques, like Artificial Neural Networks,
Support Vector Machines and Ensembles of classifiers have shown a good
performance when they are used in data analysis. The strong limitation re-
garding the use of these techniques is the lack of comprehensibility of the
knowledge stored in their internal structure. This Thesis presents an inves-
tigation of methods capable of extracting comprehensible representations of
the knowledge acquired by these non-symbolic techniques, here named black
box, during their learning process. The main contribution of this work is the
proposal of a new pedagogical method for rule extraction that explains the
classification process followed by non-symbolic techniques. This new method
is based on the optimization (maximization) of the similarity between clas-
sification rankings produced by symbolic and non-symbolic (from where the
internal knowledge is being extracted) Machine Learning techniques. Experi-
ments were performed for several datasets and the results obtained suggest a
good potential of the proposed method.
Sum
´
ario
Sum
´
ario 11
Lista de Algoritmos 13
Lista de Figuras 15
Lista de Tabelas 17
1 Introduc¸
˜
ao 23
1.1 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Organizac¸
˜
ao da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Aprendizado de M
´
aquina 27
2.1 Paradigmas de Aprendizado . . . . . . . . . . . . . . . . . . . . . . 28
2.1.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . 28
2.1.2 Aprendizado N
˜
ao-Supervisionado . . . . . . . . . . . . . . . 30
2.1.3 Aprendizado por Reforc¸o . . . . . . . . . . . . . . . . . . . . 31
2.2 Aprendizado de M
´
aquina Simb
´
olico . . . . . . . . . . . . . . . . . . 31
2.2.1
´
Arvores de Decis
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Regras de Decis
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3 Aprendizado de M
´
aquina N
˜
ao-Simb
´
olico . . . . . . . . . . . . . . . 36
2.3.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . 36
2.3.2 Classificadores de Margens Largas . . . . . . . . . . . . . . 40
2.4 Algoritmos Gen
´
eticos . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.1 Caracter
´
ısticas Gerais . . . . . . . . . . . . . . . . . . . . . . 45
2.4.2 Representac¸
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.3 Selec¸
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.4 Operadores Gen
´
eticos . . . . . . . . . . . . . . . . . . . . . . 49
2.4.5 Par
ˆ
ametros Gen
´
eticos . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Considerac¸
˜
oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 52
11
3 Extrac¸
˜
ao de Conhecimento em T
´
ecnicas de AM Caixa-Preta 53
3.1 M
´
etodos Pedag
´
ogicos . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 M
´
etodos Decomposicionais . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 M
´
etodos Ecl
´
eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4 M
´
etricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5 Extrac¸
˜
ao de Conhecimento de SVMs . . . . . . . . . . . . . . . . . . 56
3.6 Sistema NNRules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6.1 M
´
etodo baseado em Aprendizado de M
´
aquina Simb
´
olico . . 58
3.6.2 M
´
etodo Baseado em Algoritmos Gen
´
eticos . . . . . . . . . . 59
3.7 Considerac¸
˜
oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 M
´
etodo Proposto 61
4.1 Descric¸
˜
ao do M
´
etodo RankSim . . . . . . . . . . . . . . . . . . . . . 62
4.2 Func¸
˜
ao de Avaliac¸
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3 Caracter
´
ısticas do Algoritmo Gen
´
etico . . . . . . . . . . . . . . . . 64
4.4 Considerac¸
˜
oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Experimentos Realizados 67
5.1 Fase I - Estudo preliminar de extrac¸
˜
ao de regras de RNAs e SVMs
por m
´
etodos de AM e AGs . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.1 Identificac¸
˜
ao de Promotores e S
´
ıtios de Splice . . . . . . . . 67
5.1.2 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.3 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.1.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Fase II - Experimentos com o m
´
etodo RankSim . . . . . . . . . . . 75
5.2.1 Conjunto breast . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2.2 Conjunto bupa . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.3 Conjunto ecoli . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2.4 Conjunto flag . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.5 Conjunto flare . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.6 Conjunto glass . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.7 Conjunto haberman . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.8 Conjunto heart . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.9 Conjunto pima . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2.10Conjunto ionosphere . . . . . . . . . . . . . . . . . . . . . . 84
5.2.11new-thyroid . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.12Conjunto post-operative . . . . . . . . . . . . . . . . . . . . . 86
5.2.13Conjunto satimage . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.14Conjunto spliceN . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.15Conjunto spliceEI . . . . . . . . . . . . . . . . . . . . . . . . 88
12
5.2.16Conjunto promoters . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.17Conjunto german . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.3 Considerac¸
˜
oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6 Conclus
˜
ao 95
6.1 Resumo dos objetivos e resultados . . . . . . . . . . . . . . . . . . 95
6.2 Limitac¸
˜
oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Refer
ˆ
encias 97
13
Lista de Algoritmos
1 Algoritmo backpropagation . . . . . . . . . . . . . . . . . . . . . . . 40
2 Algoritmo de treinamento da rede SOM . . . . . . . . . . . . . . . . 40
3 Algoritmo Gen
´
etico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Algoritmo SVM+Prototypes . . . . . . . . . . . . . . . . . . . . . . . . 57
15
Lista de Figuras
2.1
´
Arvore de Decis
˜
ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Rede Perceptron. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Rede Neural MLP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4 Rede Neural SOM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5 Um conjunto de dados linearmente separ
´
avel. . . . . . . . . . . . 41
2.6 Duas formas de separar o mesmo conjunto de dados. O hiper-
plano de a) n
˜
ao maximiza as margens de separac¸
˜
ao enquanto do
de b) determina uma grande margem de separac¸
˜
ao entre a fron-
teira de decis
˜
ao e os exemplos. . . . . . . . . . . . . . . . . . . . . . 42
2.7 M
´
etodo de selec¸
˜
ao por torneio. . . . . . . . . . . . . . . . . . . . . . 49
2.8 Exemplo de mutac¸
˜
ao. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.9 Exemplo de cruzamento de um ponto. . . . . . . . . . . . . . . . . 50
2.10Exemplo de cruzamento de dois pontos. . . . . . . . . . . . . . . . 51
2.11Um exemplo de Cruzamentouniforme. . . . . . . . . . . . . . . . . 51
3.1 Esquema geral do m
´
etodo baseado em sistemas de AM simb
´
olicos. 58
3.2 Esquema geral do m
´
etodo baseado em AGs. . . . . . . . . . . . . . 59
4.1 M
´
etodo RankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
17
Lista de Tabelas
2.1 Tabela atributo valor com exemplos para classificac¸
˜
ao. . . . . . . 29
2.2 Tabela atributo valor com exemplos para regress
˜
ao. . . . . . . . . 30
2.3 Tabela atributo valor com exemplos para agrupamento. . . . . . . 31
2.4 Conjunto de dados Viagem. . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Conjunto de regras ordenadas para o conjunto de dados Viagem. 35
2.6 Conjunto de regras n
˜
ao ordenadas para o conjunto de dados Vi-
agem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.7 Regras n
˜
ao ordenadas com o
´
ındice do poder de predic¸
˜
ao das
regras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1 Operac¸
˜
ao de Cruzamento . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1 Taxa de Erro (m
´
edia e desvio padr
˜
ao)(%). . . . . . . . . . . . . . . . 70
5.2 Taxa de infidelidade (RNAs - m
´
edia e desvio padr
˜
ao)(%). . . . . . . 71
5.3 Taxa de infidelidade (SVMs - m
´
edia e desvio padr
˜
ao)(%). . . . . . . 71
5.4 N
´
umero de regras induzidas (RNAs - m
´
edia e desvio padr
˜
ao). . . . 71
5.5 N
´
umero de regras induzidas (SVMs - m
´
edia e desvio padr
˜
ao). . . . 71
5.6 N
´
umero m
´
edio de condic¸
˜
oes por regra induzida (RNAs - m
´
edia e
desvio padr
˜
ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.7 N
´
umero m
´
edio de condic¸
˜
oes por regra induzida (SVMs - m
´
edia e
desvio padr
˜
ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.8 Resultados do 10-Fold Cross-Validated Paired t Test (RNAs). . . . . 73
5.9 Resultados do 10-Fold Cross-Validated Paired t Test (SVMs). . . . . 74
5.10Comparac¸
˜
ao da aplicac¸
˜
ao de m
´
etodos de extrac¸
˜
ao de regras em
RNAs e em SVMs). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.11Descric¸
˜
ao dos Conjuntos de Dados . . . . . . . . . . . . . . . . . . 76
5.12Conjunto breast - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . 77
5.13Conjunto breast - N
´
umero de Regras. . . . . . . . . . . . . . . . . . 77
5.14Conjunto breast - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . 77
5.15Conjunto bupa - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . 77
5.16Conjunto bupa - N
´
umero de Regras. . . . . . . . . . . . . . . . . . 78
5.17Conjunto bupa - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 78
19
5.18Conjunto ecoli - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . . 78
5.19Conjunto ecoli - N
´
umero de Regras. . . . . . . . . . . . . . . . . . . 79
5.20Conjunto ecoli - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 79
5.21Conjunto flag - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . . 79
5.22Conjunto flag - N
´
umero de Regras. . . . . . . . . . . . . . . . . . . 79
5.23Conjunto flag - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . . 80
5.24Conjunto flare - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . . 80
5.25Conjunto flare - N
´
umero de Regras. . . . . . . . . . . . . . . . . . . 80
5.26Conjunto flare - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 81
5.27Conjunto glass - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . 81
5.28Conjunto glass - N
´
umero de Regras. . . . . . . . . . . . . . . . . . 81
5.29Conjunto glass - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 81
5.30Conjunto haberman - Acur
´
acia e Fidelidade (%). . . . . . . . . . . 82
5.31Conjunto haberman - N
´
umero de Regras. . . . . . . . . . . . . . . 82
5.32Conjunto haberman - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . 82
5.33Conjunto heart - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . 83
5.34Conjunto heart - N
´
umero de Regras. . . . . . . . . . . . . . . . . . 83
5.35Conjunto heart - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 83
5.36Conjunto pima - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . . 83
5.37Conjunto Pima - N
´
umero de Regras. . . . . . . . . . . . . . . . . . 84
5.38Conjunto Pima - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . . 84
5.39Conjunto ionosphere - Acur
´
acia e Fidelidade (%). . . . . . . . . . . 84
5.40Conjunto ionosphere - N
´
umero de Regras. . . . . . . . . . . . . . . 84
5.41Conjunto ionosphere - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . 85
5.42Conjunto new-thyroid - Acur
´
acia e Fidelidade (%). . . . . . . . . . 85
5.43Conjunto new-thyroid - N
´
umero de Regras. . . . . . . . . . . . . . 85
5.44Conjunto new-thyroid - N
´
umero de Condic¸
˜
oes por Regra. . . . . . 85
5.45Conjunto post-operative - Acur
´
acia e Fidelidade (%). . . . . . . . . 86
5.46Conjunto post-operative - N
´
umero de Regras. . . . . . . . . . . . . 86
5.47Conjunto post-operative - N
´
umero de Condic¸
˜
oes por Regra. . . . . 86
5.48Conjunto satimage - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . 87
5.49Conjunto satimage - N
´
umero de Regras. . . . . . . . . . . . . . . . 87
5.50Conjunto satimage - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . 87
5.51Conjunto spliceN - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . 87
5.52Conjunto spliceN - N
´
umero de Regras. . . . . . . . . . . . . . . . . 88
5.53Conjunto spliceN - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . 88
5.54Conjunto spliceEI - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . 88
5.55Conjunto spliceEI - N
´
umero de Regras. . . . . . . . . . . . . . . . . 88
5.56Conjunto spliceEI - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . 89
20
21
5.57Conjunto promoters - Acur
´
acia e Fidelidade (%). . . . . . . . . . . 89
5.58Conjunto promoters - N
´
umero de Regras. . . . . . . . . . . . . . . 89
5.59Conjunto promoters - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . 89
5.60Conjunto german - Acur
´
acia e Fidelidade (%). . . . . . . . . . . . . 90
5.61Conjunto german - N
´
umero de Regras. . . . . . . . . . . . . . . . . 90
5.62Conjunto german - N
´
umero de Condic¸
˜
oes por Regra. . . . . . . . . 90
5.63Acur
´
acia e Fidelidade(%) . . . . . . . . . . . . . . . . . . . . . . . . 91
5.64N
´
umero de Regras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.65N
´
umero de Condic¸
˜
oes por Regra . . . . . . . . . . . . . . . . . . . . 92
5.66Fidelidade: RankSim Original, RankSim Rotulado e NNRules . . . 93
CAP
´
ITULO
1
Introduc¸
˜
ao
T
´
ecnicas de Intelig
ˆ
encia Artificial t
ˆ
em sido amplamente utilizadas para
a resoluc¸
˜
ao de problemas em diversos dom
´
ınios. Como exemplo, po-
demos citar a an
´
alise de dados biol
´
ogicos. Dentre elas, destacam-
se as t
´
ecnicas de Aprendizado de M
´
aquina, que s
˜
ao capazes de formular
descric¸
˜
oes de conceitos a partir de exemplos (Mitchel, 1997).
Redes Neurais Artificiais (RNAs) (Braga et al., 2000; Haykin, 1998) e Clas-
sificadores de Margens Largas (Lorena and de Carvalho, 2003), como as M
´
a-
quinas de Vetores de Suporte (Support Vector Machines - SVM) (Cristianini and
Shawe-Taylor, 2000), s
˜
ao t
´
ecnicas n
˜
ao-simb
´
olicas de aprendizado de m
´
aquina
que t
ˆ
em sido utilizadas com sucesso para a soluc¸
˜
ao de diversos problemas re-
ais. Essas t
´
ecnicas s
˜
ao consideradas como “caixas-pretas”, pela dificuldade
em explicar como elas chegam aos seus resultados.
Muitos problemas de an
´
alise de dados podem ser modelados como proble-
mas de classificac¸
˜
ao
1
. Em certos casos, explicitar o conhecimento utilizado
para a classificac¸
˜
ao
´
e mais importante do que a pr
´
opria classificac¸
˜
ao. Por
isso, em t
´
ecnicas n
˜
ao-simb
´
olicas de aprendizado de m
´
aquina,
´
e poss
´
ıvel re-
alizar uma explicac¸
˜
ao do conhecimento armazenado internamente por essas
t
´
ecnicas com base na extrac¸
˜
ao de representac¸
˜
oes simb
´
olicas desse conheci-
mento.
Existem diversos trabalhos que abordam esse tema (Fu, 1991; Hayashi,
1991; Towell and Shavlik, 1993; Craven and Shavlik, 1994b; Fu, 1994; Sethi
and Yoo, 1994; Tan, 1994; Thrun, 1994; Tickle et al., 1994; Alexander and
Dietterich, 1995; Setiono and Liu, 1995; Thrun, 1995; Craven, 1996; Milar
´
e
et al., 1997; Schellharmmer et al., 1997; Tickle et al., 1998; Martineli, 1999;
Schmitz et al., 1999; Duch et al., 2000; Behloul et al., 2002; Zhou and Jiang,
2002; Milar
´
e et al., 2002; N
´
u
˜
nez et al., 2002; Fung et al., 2008).
1
Dados exemplos de um conceito, um algoritmo de Aprendizado de M
´
aquina induz um
classificador que
´
e ent
˜
ao utilizado para predizer a classe de novos exemplos.
23
24 Cap
´
ıtulo 1
Por
´
em, os m
´
etodos propostos possuem um grande n
´
umero de defici
ˆ
encias.
Craven and Shavlik (1999) identificaram que a escalabilidade
2
e a gene-
ralidade
3
s
˜
ao m
´
etricas que n
˜
ao foram contempladas na grande maioria dos
m
´
etodos desenvolvidos. Milar
´
e et al. (2002) tamb
´
em relatou que essas ainda
s
˜
ao quest
˜
oes em aberto. Al
´
em disso, existem outras defici
ˆ
encias relacionadas
`
a qualidade das representac¸
˜
oes extra
´
ıdas por esses m
´
etodos, que s
˜
ao descritas
na Sec¸
˜
ao 1.1.
Portanto,
´
e necess
´
ario investigar alternativas para melhorar a qualidade
das representac¸
˜
oes obtidas e reduzir o tempo de execuc¸
˜
ao dos algoritmos atu-
almente utilizados para este fim. Essa qualidade pode ser medida por meio
de m
´
etricas como compreensibilidade, fidelidade, precis
˜
ao, escalabilidade e
generalidade, al
´
em de outras que ser
˜
ao descritas na Sec¸
˜
ao 3.4 dessa Tese.
Essa Tese investiga m
´
etodos para explicar como os classificadores indu-
zidos por t
´
ecnicas n
˜
ao-simb
´
olicas de aprendizado de m
´
aquina realizam as
classificac¸
˜
oes e prop
˜
oe um novo m
´
etodo pedag
´
ogico que utiliza um algoritmo
gen
´
etico para extrair regras de modelos de aprendizado de m
´
aquina caixa-
preta. A novidade do m
´
etodo est
´
a na avaliac¸
˜
ao da similaridade entre rankings
de confiabilidade gerados para o modelo caixa-preta e os rankings gerados
para os indiv
´
ıduos do algoritmo gen
´
etico, que representam os poss
´
ıveis con-
juntos de regras extra
´
ıdos.
Dentre as t
´
ecnicas n
˜
ao-simb
´
olicas de aprendizado de m
´
aquina, a enfase
foi conferida aos Classificadores de Margens Largas, em especial
`
as Support
Vector Machines - SVMs, pois sua aplicac¸
˜
ao em diversos dom
´
ınios como Bioin-
form
´
atica e Minerac¸
˜
ao de Textos
´
e promissora, possuindo diversos resultados
relevantes publicados (Jackson, 1995; Furey et al., 2000; Zien et al., 2000;
Ben-Hur et al., 2000; Ding and Dubchak, 2001; Huss et al., 2001; Mukher-
jee and Mukherjee, 2002; Lorena et al., 2002) e a extrac¸
˜
ao de representac¸
˜
oes
simb
´
olicas de conhecimento para essas t
´
ecnicas ainda est
´
a em sua inf
ˆ
ancia.
1.1 Justificativa
´
E de grande import
ˆ
ancia para v
´
arias aplicac¸
˜
oes reais investigar alternativas
eficientes para a extrac¸
˜
ao de conhecimento para t
´
ecnicas n
˜
ao-simb
´
olicas de
Aprendizado de M
´
aquina, pois podem elevar a compreensibilidade do conhe-
cimento adquirido por essas t
´
ecnicas.
Em v
´
arios dom
´
ınios, as SVMs, que induzem classificadores n
˜
ao-simb
´
olicos,
2
A escalabilidade se refere a como o tempo de execuc¸
˜
ao e a compreensibilidade dos mode-
los extra
´
ıdos variam em func¸
˜
ao de fatores como dimensionalidade, tamanho do conjunto de
treinamento e complexidade do m
´
etodo de aprendizado de m
´
aquina.
3
Generalidade
´
e a proporc¸
˜
ao em que o algoritmo de extrac¸
˜
ao de conhecimento n
˜
ao requer
treinamentos especiais ou restric¸
˜
oes no m
´
etodo de aprendizado de m
´
aquina.
Introduc¸
˜
ao 25
t
ˆ
em obtido taxas de acerto superiores
`
as obtidas por outras t
´
ecnicas (Zien
et al., 2000; Ding and Dubchak, 2001).
Por
´
em, seres humanos t
ˆ
em dificuldade em entender as representac¸
˜
oes in-
ternas utilizadas por t
´
ecnicas n
˜
ao-simb
´
olicas de Aprendizado de M
´
aquina.
Portanto, para fazer proveito das vantagens dessas t
´
ecnicas no entendimento
dos mecanismos utilizados por v
´
arios modelos de classificac¸
˜
ao
´
e necess
´
ario
algum processo de extrac¸
˜
ao de conhecimento que gere representac¸
˜
oes mais
compreens
´
ıveis, mas que mantenham fidelidade com o m
´
etodo n
˜
ao-simb
´
olico
originalmente utilizado. Entretanto, no in
´
ıcio de nossa pesquisa, n
˜
ao foram
encontrados na literatura m
´
etodos de extrac¸
˜
ao de conhecimento espec
´
ıficos
para Classificadores de Margens Largas. Somente durante o desenvolvimen-
tos dessa pesquisa
´
e que foram surgindo m
´
etodos espec
´
ıficos.
Al
´
em disso, os m
´
etodos existentes at
´
e ent
˜
ao para a extrac¸
˜
ao de conheci-
mento de RNAs possuem v
´
arias defici
ˆ
encias. Dentre elas podem ser citadas:
Em m
´
etodos decomposicionais, a dificuldade de se associar uma func¸
˜
ao
determinada a um neur
ˆ
onio individual de uma Rede Neural Artificial, de-
vido ao fato de que muitas vezes o conhecimento encontra-se distribu
´
ıdo
na rede.
Em m
´
etodos pedag
´
ogicos, n
˜
ao h
´
a garantias de que as representac¸
˜
oes
extra
´
ıdas expressem a forma pela qual a Rede Neural Artificial realiza a
classificac¸
˜
ao, pois n
˜
ao fazem nenhuma an
´
alise dos par
ˆ
ametros internos
da rede e se a performance de classificac¸
˜
ao da RNA for elevada, o conjunto
de dados por ela rotulado ser
´
a t
˜
ao parecido com o conjunto de dados
original que pouca informac¸
˜
ao pode ser extra
´
ıda sobre a forma utilizada
pela RNA para realizar sua classificac¸
˜
ao.
M
´
etodos ecl
´
eticos n
˜
ao solucionam os problemas das duas anteriores e
geralmente s
˜
ao complexos e ineficientes.
1.2 Organizac¸
˜
ao da Tese
Esse cap
´
ıtulo apresentou o projeto de pesquisa abordando a sua motivac¸
˜
ao,
objetivos e justificativa. O Cap
´
ıtulo 2 apresentar
´
a uma vis
˜
ao geral sobre a
´
area
de Aprendizado de M
´
aquina. O Cap
´
ıtulo 3 cont
´
em revis
˜
ao sobre a extrac¸
˜
ao de
conhecimento para m
´
etodos de Aprendizado de M
´
aquina n
˜
ao-simb
´
olicos. O
Cap
´
ıtulo 4 apresentar
´
a o m
´
etodo de extrac¸
˜
ao de conhecimento para t
´
ecnicas
de aprendizado de m
´
aquina caixa-preta proposto nessa tese. O Cap
´
ıtulo 5
descrever
´
a os experimentos realizados, discutindo seus resultados. Por fim, o
26 Cap
´
ıtulo 1
Cap
´
ıtulo 6 conclui a tese com algumas considerac¸
˜
oes sobre o atual est
´
agio do
trabalho.
CAP
´
ITULO
2
Aprendizado de M
´
aquina
D
esde o in
´
ıcio da Computac¸
˜
ao, fazer com que as m
´
aquinas apren-
dam t
ˆ
em sido um desafio perseguido por v
´
arios pesquisadores. Os
benef
´
ıcios de se ter programas que melhoram automaticamente
atrav
´
es de experi
ˆ
encia s
˜
ao inestim
´
aveis. Alguns avanc¸os t
ˆ
em sido realizados
em direc¸
˜
ao a esse objetivo e a linha de pesquisa que aborda esse tema
´
e cha-
mada Aprendizado de M
´
aquina (AM) (Mitchel, 1997).
Nesse trabalho, o principal interesse est
´
a na tarefa particular de aprender
(induzir) func¸
˜
oes gerais a partir de exemplos de treinamento. Os paradigmas
de aprendizado por exemplos mais utilizados s
˜
ao o aprendizado supervisi-
onado, o aprendizado n
˜
ao-supervisionado e o aprendizado por reforc¸o. Na
Sec¸
˜
ao 2.1 s
˜
ao descritos esses tr
ˆ
es paradigmas.
A
´
area de AM pode ser dividida em duas grandes sub-
´
areas: Aprendi-
zado de M
´
aquina simb
´
olico e Aprendizado de M
´
aquina n
˜
ao-simb
´
olico ou sub-
simb
´
olico. As t
´
ecnicas de AM simb
´
olico s
˜
ao aquelas em que o conhecimento
aprendido
´
e representado em uma forma de f
´
acil compreens
˜
ao por seres hu-
manos. Exemplos dessas t
´
ecnicas incluem os algoritmos de induc¸
˜
ao de
´
arvo-
res de decis
˜
ao e regras de decis
˜
ao (ver Figura 2.1 e Tabela 2.5). J
´
a as t
´
ecnicas
de AM n
˜
ao-simb
´
olico utilizam representac¸
˜
oes de dif
´
ıcil compreens
˜
ao por seres
humanos, em sua maioria, modelos matem
´
aticos complexos. Por esse motivo,
essas t
´
ecnicas s
˜
ao usualmente chamadas de t
´
ecnicas caixa-preta. Redes Neu-
rais Artificiais (RNAs) (Braga et al., 2000; Haykin, 1998) e M
´
aquinas de Vetores
de Suporte (Support Vector Machines - SVMs) (Cristianini and Shawe-Taylor,
2000) s
˜
ao exemplos destas t
´
ecnicas.
N
˜
ao se pode dizer que uma
´
unica dessas t
´
ecnicas
´
e superior
`
as outras
para todos os casos. Portanto, para cada problema de aprendizado, deve-
se analisar qual t
´
ecnica possui as melhores caracter
´
ısticas para lidar com
o problema. As caracter
´
ısticas que fazem uma t
´
ecnica de aprendizado ser
27
28 Cap
´
ıtulo 2
melhor para determinados tipos de problema s
˜
ao coletivamente chamadas na
literatura da
´
area de bias indutivo (Mitchel, 1997).
Para muitos problemas, como os de an
´
alise de conjuntos de dados de alta
dimensionalidade, as t
´
ecnicas de AM n
˜
ao-simb
´
olico possuem um bias indutivo
mais apropriado. Por exemplo, em an
´
alise de express
˜
ao g
ˆ
enica, as bases de
dados s
˜
ao grandes e de alta dimensionalidade (milhares de atributos). Mui-
tos m
´
etodos tradicionais t
ˆ
em dificuldades em lidar com esse tipo de dados
enquanto as SVMs s
˜
ao apropriadas para lidar com dados de alta dimensio-
nalidade (Furey et al., 2000; Brown et al., 2000; Ding and Dubchak, 2001).
Por
´
em, para muitos destes problemas, o entendimento do conhecimento ad-
quirido pela t
´
ecnica para a resoluc¸
˜
ao do problema
´
e de grande import
ˆ
ancia.
Surgiu ent
˜
ao a necessidade da elaborac¸
˜
ao de m
´
etodos de extrac¸
˜
ao de conhe-
cimento para t
´
ecnicas de AM n
˜
ao-simb
´
olico. Esses m
´
etodos s
˜
ao discutidos no
Cap
´
ıtulo 3.
Nas Sec¸
˜
oes 2.2 e 2.3, ser
˜
ao apresentadas algumas t
´
ecnicas de AM, tanto
simb
´
olico como n
˜
ao-simb
´
olico, com o objetivo de dar ao leitor um maior en-
tendimento das diferentes abordagens empregadas e a Sec¸
˜
ao 2.5 conclui o
cap
´
ıtulo com algumas considerac¸
˜
oes finais.
2.1 Paradigmas de Aprendizado
De acordo com o tipo da tarefa de aprendizado e as informac¸
˜
oes dispon
´
ıveis
para o treinamento,
´
e poss
´
ıvel dividir as t
´
ecnicas de aprendizado de m
´
aquina
em tr
ˆ
es paradigmas: aprendizado supervisionado, aprendizado n
˜
ao-supervi-
sionado e aprendizado por reforc¸o. Nessa sec¸
˜
ao esses tr
ˆ
es paradigmas ser
˜
ao
sucintamente apresentados.
2.1.1 Aprendizado Supervisionado
No aprendizado supervisionado,
´
e apresentado ao sistema de aprendizado um
conjunto de exemplos rotulado. Isso significa que entre os v
´
arios atributos
de um exemplo, um
´
e destinado
`
a sa
´
ıda desejada, o r
´
otulo. Ou seja, h
´
a um
mapeamento expl
´
ıcito entre os atributos do exemplo e a sa
´
ıda correta que o
sistema de aprendizado, ap
´
os treinado, deve retornar ao lhe ser apresentado
o exemplo. Ele
´
e chamado de aprendizado supervisionado pois
´
e como se
houvesse um professor informando qual a sa
´
ıda correta para cada exemplo.
O aprendizado supervisionado pode ser ainda dividido em dois grupos,
classificac¸
˜
ao e regress
˜
ao, de acordo com o tipo de sa
´
ıda retornada pelo sis-
tema de aprendizado.
Nas tarefas de classificac¸
˜
ao, o sistema de aprendizado possui um con-
junto discreto e determinado de sa
´
ıdas poss
´
ıveis. O tipo mais simples de
Aprendizado de M
´
aquina 29
classificac¸
˜
ao
´
e a que tem sa
´
ıda bin
´
aria, ou seja, a que pode retornar ape-
nas uma entre duas classes: sim ou n
˜
ao; 0 ou 1; presente ou ausente; etc.
Existe tamb
´
em a classificac¸
˜
ao multi-classes, em que mais de duas classes
s
˜
ao poss
´
ıveis para a sa
´
ıda: Vermelho, Verde ou Azul; 0, 1, 2, 3 ou 4; Ade-
nina (A), Citosina (C), Guanina (G) e Timina (T); etc. Finalmente, existe a
classificac¸
˜
ao hier
´
arquica, em que as classes obedecem uma hierarquia. Nesse
tipo de classificac¸
˜
ao, os exemplos s
˜
ao classificados em classes de uma
´
arvore
de categorias. Em uma
´
arvore de categorias, cada n
´
o corresponde a uma
classe. Como resultado, existe um relacionamento hier
´
arquico entre as clas-
ses representadas pela
´
arvore.
J
´
a em tarefas de regress
˜
ao, a sa
´
ıda do sistema de aprendizado
´
e um valor
cont
´
ınuo. Exemplos: Altura de uma pessoa, variando numa faixa entre 1,00m
at
´
e 2,55m; O
ˆ
angulo que um rob
ˆ
o deve girar para seguir uma rota, variando
entre 0 e 360 graus.
Os sistemas de aprendizado normalmente utilizam uma base de exemplos
para realizar a etapa de treinamento. Nessa etapa, os exemplos s
˜
ao apresen-
tados ao sistema de aprendizado para que ele formule sua hip
´
otese sobre a
func¸
˜
ao alvo a ser aprendida. Esses exemplos geralmente s
˜
ao representados
na forma de tabelas atributo-valor. Um exemplo de uma tabela atributo-valor
para a tarefa de classificac¸
˜
ao bin
´
aria est
´
a na Tabela 2.1. Os atributos (Qua-
lidade, Entrega, Prec¸o, Pagamento e Garantia) de cada exemplo representam
as condic¸
˜
oes de compra de um produto analisadas por um cliente. A
´
ultima
coluna, o r
´
otulo, representa a decis
˜
ao tomada pelo cliente. Nesse caso, o ob-
jetivo do sistema
´
e prever se o cliente ir
´
a ou n
˜
ao comprar um produto, dadas
determinadas condic¸
˜
oes.
Exemplo Qualidade Entrega Prec¸ o Pagamento Garantia Comprar
1 Alta Imediata Alto A vista 1 ano Sim
2 Baixa Imediata Alto Parcelado 6 meses N
˜
ao
3 Alta 30 dias Alto Parcelado 1 ano N
˜
ao
4 M
´
edia Imediata Alto A vista 2 anos Sim
5 M
´
edia 30 dias Baixo Parcelado 1 ano N
˜
ao
6 Baixa Imediata Baixo A vista 1 ano Sim
7 Alta 30 dias Baixo Parcelado 2 anos Sim
8 M
´
edia 30 dias Baixo Parcelado 1 ano N
˜
ao
9 Baixa 30 dias Baixo A vista 6 meses N
˜
ao
Tabela 2.1: Tabela atributo valor com exemplos para classificac¸
˜
ao.
Um exemplo de uma tabela atributo-valor para a tarefa de regress
˜
ao est
´
a na
Tabela 2.2. O atributo
ˆ
Angulo
´
e a entrada e o r
´
otulo Seno
´
e a sa
´
ıda da func¸
˜
ao
30 Cap
´
ıtulo 2
Seno(
ˆ
Angulo). Nesse caso, o objetivo do sistema de aprendizado
´
e induzir uma
func¸
˜
ao que aproxima a func¸
˜
ao Seno.
Exemplo
ˆ
Angulo Seno
1 0 0
2 30 0,5
3 60 0,86603
4 90 1
5 120 0,86603
6 150 0,5
7 180 0
8 210 -0,5
9 240 -0,86603
10 270 -1
11 300 -0,86603
12 330 -0,5
13 360 0
Tabela 2.2: Tabela atributo valor com exemplos para regress
˜
ao.
2.1.2 Aprendizado N
˜
ao-Supervisionado
No aprendizado n
˜
ao-supervisionado, os exemplos de treinamento n
˜
ao s
˜
ao ro-
tulados, ou seja, a func¸
˜
ao a ser aprendida n
˜
ao
´
e definida explicitamente. Ao
inv
´
es disso, o sistema de aprendizado deve descobrir padr
˜
oes nos dados que
permitam agrupar os exemplos apresentados. O n
´
umero de grupos formado
pode ser definido pelo usu
´
ario do sistema de aprendizado, ou o pr
´
oprio sis-
tema pode tentar descobrir quantos grupos devem ser formados. Essa tarefa,
o agrupamento,
´
e mais conhecida na comunidade por seu nome em ingl
ˆ
es:
clustering.
O agrupamento pode ser utilizado em bioinform
´
atica, por exemplo, para
agrupar genes que tenham func¸
˜
ao semelhante, facilitando a descoberta da
func¸
˜
ao de novos genes.
No aprendizado n
˜
ao-supervisionado tamb
´
em s
˜
ao usadas tabelas atributo-
valor para a fase de treinamento. A Tabela 2.3 apresenta um exemplo de
tabela atributo valor para o aprendizado n
˜
ao-supervisionado. Essa tabela foi
baseada no conjunto de dados
´
Iris, do Reposit
´
orio de AM da UCI (Blake and
Merz, 1998). As entradas representam os valores de 4 atributos: comprimento
da s
´
epala, largura da s
´
epala, comprimento da p
´
etala e largura da p
´
etala. To-
dos os valores est
˜
ao em formato cont
´
ınuo (ponto flutuante) com uma casa
decimal. Os exemplos est
˜
ao distribu
´
ıdos em 3 grupos de flores:
´
Iris setosa,
Aprendizado de M
´
aquina 31
´
Iris versicolor e
´
Iris virginica. Por
´
em, como pode ser observado, n
˜
ao h
´
a um
r
´
otulo na tabela para indicar o tipo de flor.
Exemplo Comp. S
´
epala Larg. S
´
epala Comp. P
´
etala Larg. P
´
etala
1 5.1 3.5 1.4 0.2
2 4.9 3.0 1.4 0.2
3 4.7 3.2 1.3 0.2
4 5.0 3.6 1.4 0.2
5 7.0 3.2 4.7 1.4
6 6.4 3.2 4.5 1.5
7 6.9 3.1 4.9 1.5
8 5.5 2.3 4.0 1.3
9 6.3 3.3 6.0 2.5
10 5.8 2.7 5.1 1.9
11 7.1 3.0 5.9 2.1
12 6.3 2.9 5.6 1.8
Tabela 2.3: Tabela atributo valor com exemplos para agrupamento.
2.1.3 Aprendizado por Reforc¸ o
O aprendizado por reforc¸o pode ser considerado como um caso especial do
aprendizado supervisionado. A diferenc¸a entre eles reside no fato de que, no
aprendizado por reforc¸o, n
˜
ao
´
e informado ao sistema de AM a resposta correta
para os padr
˜
oes de entrada, apenas lhe
´
e informado se uma determinada
resposta
´
e satisfat
´
oria ou n
˜
ao.
Durante o treinamento, a cada ac¸
˜
ao que leva a estados satisfat
´
orios, o
sistema de AM reforc¸a a tend
ˆ
encia do sistema em realizar a ac¸
˜
ao em quest
˜
ao.
O contr
´
ario ocorre com ac¸
˜
oes que n
˜
ao levem a estados satisfat
´
orios, ou seja,
a tend
ˆ
encia do sistema em realizar estas ac¸
˜
oes
´
e enfraquecida (Braga et al.,
2000).
Esta Tese n
˜
ao entra em detalhes sobre o aprendizado por reforc¸o e o apren-
dizado n
˜
ao-supervisionado pois esses temas est
˜
ao fora do escopo deste traba-
lho.
2.2 Aprendizado de M
´
aquina Simb
´
olico
Como dito anteriormente, as t
´
ecnicas de AM simb
´
olico s
˜
ao aquelas em que o
conhecimento adquirido pelo sistema de aprendizado
´
e representado em uma
forma de f
´
acil compreens
˜
ao por seres humanos. Nessa sec¸
˜
ao ser
˜
ao apresenta-
dos duas das mais conhecidas t
´
ecnicas de AM simb
´
olico:
´
Arvores de Decis
˜
ao
e Regras de Decis
˜
ao.
32 Cap
´
ıtulo 2
2.2.1
´
Arvores de Decis
˜
ao
´
Arvores de Decis
˜
ao s
˜
ao utilizadas para a tarefa de classificac¸
˜
ao de padr
˜
oes
(aprendizado supervisionado). Uma
´
Arvore de Decis
˜
ao
´
e uma estrutura de
dados em que cada n
´
o intermedi
´
ario representa um teste com um ou mais
atributos e cada n
´
o folha representa uma decis
˜
ao. O resultado do teste em um
n
´
o define por qual filho deste n
´
o o processo de decis
˜
ao deve continuar. Para
decidir a classe de um determinado padr
˜
ao, comec¸a-se pela raiz da
´
arvore e
segue-se efetuando testes at
´
e que se chegue a um n
´
o folha. Um exemplo de
uma
´
arvore de decis
˜
ao pode ser visto na Figura 2.1. Essa figura mostra uma
´
arvore de decis
˜
ao para classificar tipos de ve
´
ıculos.
Figura 2.1:
´
Arvore de Decis
˜
ao.
Para obter uma
´
arvore de decis
˜
ao para classificar padr
˜
oes a partir de um
certo conjunto de exemplos,
´
e realizado um processo chamado induc¸
˜
ao de
´
arvores de decis
˜
ao. Existem diversos algoritmos para realizar a induc¸
˜
ao de
´
arvores de decis
˜
ao. Um dos mais conhecidos
´
e o algoritmo C4.5 (Quinlan,
1988).
Assim como o C4.5, a maioria dos algoritmos para induc¸
˜
ao de
´
arvores de
decis
˜
ao s
˜
ao variac¸
˜
oes de um algoritmo guloso (greedy) b
´
asico, que faz uma
busca top-down no espac¸o de poss
´
ıveis
´
arvores de decis
˜
ao (Mitchel, 1997).
Esse algoritmo b
´
asico comec¸a escolhendo qual atributo ser
´
a testado na raiz
da
´
arvore. Para isso, todos os atributos s
˜
ao avaliados estatisticamente para
determinar qu
˜
ao bem cada atributo, individualmente, classifica os exemplos
de treinamento. O melhor
´
e selecionado e utilizado como teste na raiz da
´
arvore. N
´
os filhos s
˜
ao criados para cada poss
´
ıvel valor deste atributo. Os
exemplos de treinamento s
˜
ao ent
˜
ao divididos entre os n
´
os filhos de acordo
com o resultado do teste do n
´
o raiz. O processo
´
e ent
˜
ao repetido para cada n
´
o
filho, utilizando os exemplos a eles designados. Um n
´
o folha
´
e criado quando
Aprendizado de M
´
aquina 33
apenas exemplos de uma
´
unica classe s
˜
ao designados a um n
´
o filho. A classe
desses exemplos
´
e atribu
´
ıda a esse n
´
o folha e o processo n
˜
ao
´
e repetido para
esse n
´
o.
2.2.2 Regras de Decis
˜
ao
Um conjunto de regras de decis
˜
ao
´
e uma outra forma de representar o co-
nhecimento adquirido atrav
´
es do treinamento de um sistema de aprendizado
simb
´
olico.
Elas podem ser obtidas diretamente do conjunto de exemplos, ou podem
ser geradas a partir de uma
´
arvore de decis
˜
ao. No
´
ultimo caso, cada caminho
que parte do n
´
o raiz da
´
arvore de decis
˜
ao e alcanc¸a um n
´
o folha corresponde a
uma regra. O algoritmo C4.5rules (Quinlan, 1988) emprega essa abordagem e,
al
´
em disso, ele generaliza as regras apagando condic¸
˜
oes irrelevantes que n
˜
ao
afetam a conclus
˜
ao. J
´
a o algoritmo CN2 (Clark and Niblett, 1989a)
´
e um exem-
plo de algoritmo que induz regras diretamente dos exemplos de treinamento.
Regras de decis
˜
ao podem ser divididas em dois tipos: regras ordenadas e
regras n
˜
ao ordenadas. A seguir ser
˜
ao discutidos esses dois tipos de regras.
Regras Ordenadas
Nas regras ordenadas, a ordem das regras
´
e importante para a decis
˜
ao da
classe de um exemplo por elas classificado. Comec¸a-se confrontando o exem-
plo com a primeira regra e se as condic¸
˜
oes da regra n
˜
ao forem satisfeitas pelo
exemplo, segue-se confrontando o exemplo com as outras regras, em ordem,
at
´
e que as condic¸
˜
oes de uma das regras do conjunto sejam satisfeitas pelo
exemplo, ou acabem as regras induzidas. Nesse caso, a regra padr
˜
ao, normal-
mente associada
`
a classe majorit
´
aria
1
,
´
e utilizada para classificar o exemplo.
Caso as condic¸
˜
oes de alguma regra sejam satisfeitas, o processo p
´
ara e o
exemplo
´
e classificado segundo a classe atribu
´
ıda
`
a conclus
˜
ao da regra.
Para induzir um conjunto de regras ordenadas a partir dos exemplos de
treinamento, costuma-se utilizar a seguinte abordagem. A cada iterac¸
˜
ao,
busca-se por um conjunto de condic¸
˜
oes que cubram positivamente muitos
exemplos do conjunto de treinamento e cubram negativamente poucos ou ne-
nhum exemplo. Cobrir positivamente um exemplo significa que as condic¸
˜
oes
da regra s
˜
ao satisfeitas pelo exemplo e que a classe do exemplo
´
e a mesma da
conclus
˜
ao da regra. Cobrir negativamente significa que apesar de satisfeitas
as condic¸
˜
oes da regra, a classe do exemplo
´
e diferente da classe atribu
´
ıda
`
a
conclus
˜
ao da regra. Ao encontrar tal conjunto de condic¸
˜
oes, a regra gerada
´
e
adicionada a uma lista de regras e todos os exemplos do conjunto de treina-
1
Classe que possui o maior n
´
umero de exemplos no conjunto de treinamento.
34 Cap
´
ıtulo 2
mento cobertos por essa regra s
˜
ao removidos, tanto os cobertos positivamente
quanto os negativamente. O processo
´
e repetido com os exemplos restantes,
at
´
e que nenhum novo conjunto de condic¸
˜
oes possa ser encontrado ou n
˜
ao
existam mais exemplos a serem cobertos.
Para facilitar a compreens
˜
ao desse processo, ser
´
a utilizado um exemplo
adaptado de (Milar
´
e, 2003). A Tabela 2.4 apresenta um conjunto de exem-
plos de treinamento em que cada linha
´
e um exemplo representando um de-
terminado dia. A classe de cada exemplo pode ser viajar ou ficar em casa,
dependendo das condic¸
˜
oes meteorol
´
ogicas daquele dia, representadas pelos
atributos do exemplo.
Exemplo Tempo Temperatura Umidade Vento Viajar?
1 ensolarado 25 72 sim viajar
2 ensolarado 28 91 sim ficar
3 ensolarado 22 70 n
˜
ao viajar
4 ensolarado 23 95 n
˜
ao ficar
5 ensolarado 30 85 n
˜
ao ficar
6 nublado 23 90 sim viajar
7 nublado 29 78 n
˜
ao viajar
8 nublado 19 65 sim ficar
9 nublado 26 75 n
˜
ao viajar
10 nublado 20 87 sim viajar
11 chuvoso 22 95 n
˜
ao viajar
12 chuvoso 19 70 sim ficar
13 chuvoso 23 80 sim ficar
14 chuvoso 25 81 n
˜
ao viajar
15 chuvoso 21 80 n
˜
ao viajar
Tabela 2.4: Conjunto de dados Viagem.
Na Tabela 2.5
´
e apresentado um conjunto de regras ordenadas induzido a
partir desse conjunto de exemplos. Tamb
´
em s
˜
ao apresentados nessa tabela,
ao lado de cada regra, os exemplos positivamente cobertos (PC) e os exemplos
negativamente cobertos (NC).
Regras N
˜
ao Ordenadas
A induc¸
˜
ao de regras n
˜
ao ordenadas comec¸a com a escolha de uma classe.
Em seguida, todas as regras para essa classe s
˜
ao induzidas e esse processo
´
e
repetido para todas as outras classes presentes no conjunto de dados.
Para cada classe, comec¸a-se com o conjunto de dados completo e depois
da induc¸
˜
ao de cada regra, removem-se os conjuntos por ela cobertos positiva-
mente. Quando n
˜
ao for mais poss
´
ıvel encontrar uma regra que cubra exem-
Aprendizado de M
´
aquina 35
Regra Condic¸
˜
oes e Conclus
˜
oes PC NC
R1 se umidade < 83 ent
˜
ao classe = viajar 1, 3, 7, 8, 12, 13
9, 14, 15
R2 sen
˜
ao se temperatura 23 ent
˜
ao classe = ficar 2, 4, 5 6
R3 sen
˜
ao se tempo = chuvoso ent
˜
ao classe = viajar 11
R4 sen
˜
ao classe padr
˜
ao = viajar 10
Tabela 2.5: Conjunto de regras ordenadas para o conjunto de dados Viagem.
plos dessa classe, ou quando n
˜
ao h
´
a mais exemplos dessa mesma classe, o
processo de induc¸
˜
ao de regras para a pr
´
oxima classe
´
e iniciado.
O processo de induc¸
˜
ao de regras termina quando as regras para todas as
classes do conjunto de dados tenham sido induzidas e
´
e criada a regra padr
˜
ao,
que assume a classe majorit
´
aria e s
´
o
´
e disparada caso nenhuma das outras
regras sejam disparadas.
Um exemplo de conjunto de regras de decis
˜
ao n
˜
ao ordenadas para o mesmo
conjunto de dados da Tabela 2.4
´
e apresentado na Tabela 2.6, juntamente
com os exemplos positivamente cobertos (PC) e negativamente cobertos (NC)
de cada regra.
Regra Condic¸
˜
oes e Conclus
˜
oes PC NC
R1 se tempo = nublado ent
˜
ao classe = viajar 6, 7, 9, 10 8
R2 se (tempo = chuvoso) (vento = n
˜
ao) ent
˜
ao 11, 14, 15
classe = viajar
R3 se (tempo = ensolarado) (umidade > 77) ent
˜
ao 2, 4, 5
classe = ficar
R4 se (tempo = chuvoso) (vento = sim) ent
˜
ao 12, 13
classe = ficar
R5 se (tempo = nublado) (temperatura < 20) ent
˜
ao 8
classe = ficar
R6 sen
˜
ao classe padr
˜
ao = viajar
Tabela 2.6: Conjunto de regras n
˜
ao ordenadas para o conjunto de dados Via-
gem.
Uma vez que as regras n
˜
ao s
˜
ao ordenadas, para utilizar esse conjunto de
regras para predizer a classe de um novo exemplo, deve-se verificar todas elas
e determinar quais regras cobrem o novo exemplo. Por
´
em, como o exemplo
pode disparar regras que possuem conclus
˜
oes diferentes, ou seja, classificam
o exemplo em classes diferentes, um m
´
etodo para realizar o desempate en-
tre as regras
´
e necess
´
ario. Pode-se para isso, adicionar um
´
ındice do poder
36 Cap
´
ıtulo 2
preditivo
`
a cada regra.
Uma forma de criar esse
´
ındice consiste em contar o n
´
umero de exemplos
que a regra cobre positivamente e negativamente. Para isso, pode-se adicionar
a cada regra, uma lista [η
C
1
, η
C
2
, ..., η
C
N cl
]. Com η
C
i
sendo o total de exemplos
da classe C
i
cobertos pela regra. Para exemplificar essa abordagem, foi adici-
onado ao conjunto de regras n
˜
ao ordenadas anteriormente induzido uma lista
com as freq
¨
u
ˆ
encias de cobertura de cada regra para cada classe. Isso pode ser
visto na Tabela 2.7.
Regra Condic¸
˜
oes e Conclus
˜
oes [η
viajar
, η
ficar
]
R1 se tempo = nublado ent
˜
ao classe = viajar [4,1]
R2 se (tempo = chuvoso) (vento = n
˜
ao) ent
˜
ao [3,0]
classe = viajar
R3 se (tempo = ensolarado) (umidade > 77) ent
˜
ao [0,3]
classe = ficar
R4 se (tempo = chuvoso) (vento = sim) ent
˜
ao [0,2]
classe = ficar
R5 se (tempo = nublado) (temperatura < 20) ent
˜
ao [0,1]
classe = ficar
R6 sen
˜
ao classe padr
˜
ao = viajar [9,6]
Tabela 2.7: Regras n
˜
ao ordenadas com o
´
ındice do poder de predic¸
˜
ao das
regras.
Se um novo exemplo disparar as regras R1 e R4, a cobertura total das duas
regras ser
´
a [4,3], uma vez que a regra R1 cobre 4 exemplos da classe viajar e
1 da classe ficar e a regra R4 n
˜
ao cobre nenhum da classe viajar e 2 da classe
ficar. Nesse caso, a sa
´
ıda do sistema para esse exemplo ser
´
a a classificac¸
˜
ao
viajar.
2.3 Aprendizado de M
´
aquina N
˜
ao-Simb
´
olico
Nessa sec¸
˜
ao ser
˜
ao apresentadas algumas t
´
ecnicas de AM n
˜
ao-simb
´
olico, que,
como j
´
a citado, representam o conhecimento adquirido em uma forma de
dif
´
ıcil compreens
˜
ao por seres humanos. Particularmente, ser
˜
ao apresentadas
as RNAs e os LMCs, que s
˜
ao de grande interesse para esse trabalho.
2.3.1 Redes Neurais Artificiais
Redes Neurais Artificiais s
˜
ao modelos computacionais distribu
´
ıdos que t
ˆ
em
sido utilizados com frequ
ˆ
encia em problemas de reconhecimento de padr
˜
oes.
Tendo como fonte de inspirac¸
˜
ao o c
´
erebro humano, foram criados v
´
arios mo-
delos de Redes Neurais Artificiais (RNAs) (Braga et al., 2000). O processa-
Aprendizado de M
´
aquina 37
mento em RNAs se d
´
a por meio da combinac¸
˜
ao em rede de diversos n
´
os sim-
ples que realizam processamentos independentes, inspirados nos neur
ˆ
onios
de sistemas nervosos biol
´
ogicos. Desse modo, paralelismo e robustez s
˜
ao ca-
racter
´
ısticas inerentes
`
as RNAs.
O mais famoso e utilizado modelo de RNA
´
e o Multi Layer Perceptron (MLP),
ou Perceptron de m
´
ultiplas camadas. Utilizando o algoritmo de treinamento
backpropagation, ele
´
e capaz de aproximar qualquer tipo de func¸
˜
ao multi-
vari
´
avel, incluindo problemas n
˜
ao linearmente separ
´
aveis, dados um conjunto
de exemplos e uma arquitetura de rede adequados. O aprendizado do back-
propagation
´
e do tipo supervisionado (Rumelhart et al., 1986).
Outro modelo importante
´
e o modelo Self Organizing Maps (SOM), tamb
´
em
conhecido como Rede de Kohonen. As redes SOM s
˜
ao capazes de realizar a ta-
refa de agrupamento (aprendizado n
˜
ao-supervisionado). Essa rede apresenta
uma forte inspirac¸
˜
ao neurofisiol
´
ogica por ser baseada no mapa topol
´
ogico pre-
sente no c
´
ortex cerebral (Braga et al., 2000).
A seguir, com o objetivo de exemplificar o conceito de RNAs, os dois mode-
los j
´
a citados ser
˜
ao descritos. Por
´
em, existem dezenas de outros modelos na
literatura, como: redes sem pesos, redes recorrentes, redes de Hopfield, redes
RBF, entre outros (Haykin, 1998).
Multi Layer Perceptron / Backpropagation
O modelo MLP
´
e uma extens
˜
ao do modelo Perceptron de uma camada. A
grande vantagem do modelo MLP sobre o Perceptron de uma camada
´
e que ele
pode resolver problemas n
˜
ao linearmente separ
´
aveis.
Uma rede MLP com uma camada intermedi
´
aria pode aproximar qualquer
func¸
˜
ao cont
´
ınua, enquanto uma rede com duas ou mais camadas intermedi-
´
arias pode aproximar qualquer func¸
˜
ao matem
´
atica (Cybenko, 1988).
Antes de entrar nos detalhes da rede MLP, ser
´
a apresentado em linhas ge-
rais o modelo Perceptron. O modelo de neur
ˆ
onio utilizado na rede Perceptron
cont
´
em diversas entradas que s
˜
ao ponderadas por pesos. O aprendizado no
Perceptron de uma camada
´
e dado por meio da adaptac¸
˜
ao dos pesos de suas
entradas. A Figura 2.2 mostra um modelo da rede Perceptron.
A seguir ser
´
a descrito o processo de aprendizado da rede Perceptron. Pri-
meiramente, iniciam-se os pesos com valores aleat
´
orios. Ent
˜
ao, apresenta-se
cada exemplo do conjunto de treinamento
`
a rede e alteram-se os pesos sempre
que a rede erra na classificac¸
˜
ao de um exemplo. Esse processo
´
e repetido at
´
e
que a rede n
˜
ao cometa mais erros de classificac¸
˜
ao ou um determinado n
´
umero
de ciclos de aprendizado seja conclu
´
ıdo. Para alterar os pesos,
´
e utilizada a
seguinte express
˜
ao de ajuste de pesos:
38 Cap
´
ıtulo 2
Figura 2.2: Rede Perceptron.
ω
i
ω
i
+ ω
i
(2.1)
em que
ω
i
= η(d y)x
i
(2.2)
O s
´
ımbolo d representa a sa
´
ıda esperada para o exemplo apresentado, y
´
e
a sa
´
ıda gerada pela rede, e η
´
e a taxa de aprendizado. Essa taxa
´
e utilizada
para definir os efeitos da alterac¸
˜
ao dos pesos em cada passo do aprendizado e
´
e tipicamente um valor baixo como 0.1.
A rede MLP pode ser vista como um conjunto de v
´
arias redes Perceptron
simples. A rede
´
e disposta em camadas interconectadas. A sa
´
ıda dos n
´
os de
uma camada
´
e geralmente conectada
`
a entrada de todos os n
´
os da pr
´
oxima
camada. Um exemplo de uma t
´
ıpica rede MLP pode ser visto na Figura 2.3.
O problema dessa rede est
´
a em como corrigir os pesos dos n
´
os das cama-
das intermedi
´
arias. Como determinar o erro nos n
´
os intermedi
´
arios? Esse
problema foi resolvido pelo algoritmo de treinamento backpropagation. Nesse
algoritmo, o treinamento ocorre em duas fases, forward e backward. Na fase
forward, um exemplo de treinamento
´
e apresentado
`
a rede na camada de en-
trada. Os valores da entrada s
˜
ao propagados pela rede, passando por seus
pesos e func¸
˜
oes de ativac¸
˜
ao at
´
e chegar
`
a camada de sa
´
ıda, onde a sa
´
ıda da
rede
´
e definida. Na fase backward, a sa
´
ıda desejada e a sa
´
ıda da rede s
˜
ao com-
paradas para definir o erro na camada de sa
´
ıda, que
´
e utilizado para ajustar
os pesos dessa camada. Este erro
´
e ent
˜
ao propagado para os n
´
os das camada
anteriores, ponderado pelos pesos das conex
˜
oes entre eles e os n
´
os da camada
atual. Atrav
´
es desse erro ponderado, pode-se calcular o ajuste dos pesos para
as camadas intermedi
´
arias. O Algoritmo 1 descreve o de treinamento backpro-
Aprendizado de M
´
aquina 39
Figura 2.3: Rede Neural MLP.
pagation em pseudoc
´
odigo.
Self Organizing Maps - SOM
A rede SOM realiza um mapeamento dos padr
˜
oes de entrada, que podem pos-
suir uma alta dimensionalidade, para um espac¸o de menor dimens
˜
ao, tipi-
camente 2D. Nesse processo, procura-se manter as caracter
´
ısticas espaciais
do conjunto de exemplos. Ou seja, exemplos que est
˜
ao pr
´
oximos no espac¸o
original, ser
˜
ao atribu
´
ıdos a neur
ˆ
onios pr
´
oximos topologicamente no mapa de
caracter
´
ısticas SOM. Por causa dessa caracter
´
ıstica, as redes SOM s
˜
ao muito
usadas para visualizac¸
˜
ao.
A arquitetura da rede SOM consiste em um reticulado de neur
ˆ
onios. Cada
neur
ˆ
onio tem conex
˜
oes laterais com seus vizinhos. A forma mais comum de
uma rede SOM
´
e a de uma grade bidimensional, apesar de existirem redes com
3 ou mais dimens
˜
oes. Essa arquitetura pode ser visualisada na Figura 2.4.
Cada n
´
o da rede SOM possui um n
´
umero de pesos igual ao n
´
umero de atri-
butos do conjunto de treinamento utilizado. A rede SOM realiza o aprendizado
competitivo, ou seja, seus n
´
os competem entre si para se aperfeic¸oar. A cada
exemplo de treinamento apresentado, define-se qual n
´
o possui o conjunto de
pesos mais pr
´
oximo ao conjunto de atributos do exemplo atual segundo uma
func¸
˜
ao de dist
ˆ
ancia, normalmente a dist
ˆ
ancia euclidiana. Esse n
´
o
´
e chamado
de n
´
o vencedor. O vencedor e seus vizinhos (definidos por uma regi
˜
ao de
vizinhanc¸a) s
˜
ao ent
˜
ao atualizados de forma a ficaram um pouco mais pareci-
dos com o exemplo atual (segundo a taxa de aprendizagem). A vizinhanc¸a e a
40 Cap
´
ıtulo 2
Algoritmo 1: Algoritmo backpropagation
Inicializar os pesos da rede e os par
ˆ
ametros do algoritmo.1
repita2
para cada exemplo de treinamento X fac¸ a3
A entrada
´
e apresentada
`
a primeira camada da rede (C0).4
para cada camada Ci a partir da camada C0 fac¸a5
Ap
´
os o c
´
alculo dos sinais de sa
´
ıda dos n
´
os da camada Ci, estes6
servem como entrada para a definic¸
˜
ao das sa
´
ıdas dos n
´
os da
camada Ci+1.
fim7
As sa
´
ıdas produzidas pelos n
´
os da
´
ultima camada s
˜
ao comparadas8
`
as sa
´
ıdas desejadas.
para cada camada Ci a partir da
´
ultima, at
´
e a camada C0 fac¸ a9
Os n
´
os da camada atual (Ci) ajustam seus pesos de forma a10
reduzir seus erros.
O erro dos n
´
os das camadas Ci-1 s
˜
ao calculados utilizando os11
erros dos n
´
os da camada Ci a eles conectados, ponderados
pelos pesos das conex
˜
oes entre eles.
fim12
fim13
at
´
e alcanc¸ar um erro m
´
ınimo ou o n
´
umero m
´
aximo de ciclos ;14
taxa de aprendizagem s
˜
ao definidos com valores altos no in
´
ıcio do treinamento.
Normalmente, a vizinhanc¸a inicial engloba toda a rede e vai diminuindo at
´
e
incluir somente os n
´
os com ligac¸
˜
oes diretas com o n
´
o vencedor. O Algoritmo 2
apresenta o treinamento da rede SOM em pseudoc
´
odigo.
Algoritmo 2: Algoritmo de treinamento da rede SOM
Inicializar os par
ˆ
ametros do algoritmo.1
Inicializar os pesos aleatoriamente com valores pequenos.2
repita3
para cada exemplo de treinamento fac¸a4
Definir o n
´
o vencedor utilizando a func¸
˜
ao de dist
ˆ
ancia.5
Atualizar os pesos desse n
´
o e de seus vizinhos.6
se o n
´
umero do ciclo for m
´
ultiplo de N ent
˜
ao7
Reduzir a taxa de aprendizado.8
Reduzir a
´
area de vizinhanc¸a.9
fim10
fim11
at
´
e algum crit
´
erio de parada ;12
2.3.2 Classificadores de Margens Largas
Classificadores de Margens Largas (Large Margin Classifiers - LMCs) s
˜
ao aque-
les que implicitamente ou explicitamente utilizam o conceito de maximizac¸
˜
ao
Aprendizado de M
´
aquina 41
Figura 2.4: Rede Neural SOM.
de margens para a construc¸
˜
ao de suas fronteiras de decis
˜
ao. Margem aqui
´
e
definida como a dist
ˆ
ancia entre a fronteira de decis
˜
ao utilizada pelo classifi-
cador e os exemplos a ele apresentados. Fundamentados na TAE (Teoria do
Aprendizado Estat
´
ıstico) (Lorena and de Carvalho, 2003), esses classificadores
t
ˆ
em provado possuir um grande poder de generalizac¸
˜
ao.
Para ilustrar esse conceito, observe o conjunto de dados linearmente se-
par
´
avel da Figura 2.5.
Figura 2.5: Um conjunto de dados linearmente separ
´
avel.
Um conjunto linearmente separ
´
avel
´
e aquele no qual
´
e poss
´
ıvel separar
todos os exemplos de diferentes classes por meio de um hiperplano. A func¸
˜
ao
linear que define esse hiperplano pode ser considerada um classificador linear.
A seguinte equac¸
˜
ao representa um poss
´
ıvel classificador linear:
f(x) = sgn(w · x + b) (2.3)
na qual w · x
´
e o produto escalar entre os vetores w e x, w
´
e o vetor normal
ao hiperplano, b
´
e o bias e sgn()
´
e a func¸
˜
ao sinal.
A tarefa de aprendizado ent
˜
ao se resume a definir os valores de w e b apro-
42 Cap
´
ıtulo 2
priados para os dados do conjunto de treinamento. Por
´
em, como pode ser
visto na Figura 2.6, v
´
arias hip
´
oteses podem ser induzidas para o hiperplano
separador. Uma boa heur
´
ıstica ent
˜
ao seria escolher a hip
´
otese que apresenta
a m
´
axima margem de separac¸
˜
ao entre os exemplos e o hiperplano separador.
A Figura 2.6 mostra duas hip
´
oteses para o hiperplano separador, representa-
das pelas linhas cont
´
ınuas. As linhas tracejadas representam as margens de
separac¸
˜
ao. A hip
´
otese a) n
˜
ao leva em considerac¸
˜
ao o conceito de maximizac¸
˜
ao
de margens, enquanto a hip
´
otese b) utiliza a um hiperplano que maximiza a
margem de separac¸
˜
ao.
Figura 2.6: Duas formas de separar o mesmo conjunto de dados. O hiperplano
de a) n
˜
ao maximiza as margens de separac¸
˜
ao enquanto do de b) determina
uma grande margem de separac¸
˜
ao entre a fronteira de decis
˜
ao e os exemplos.
Duas propriedades dos Classificadores de Margens Largas justificam a
constatac¸
˜
ao emp
´
ırica de que os LMCs induzem hip
´
oteses mais confi
´
aveis.
Uma
´
e a robustez em relac¸
˜
ao aos padr
˜
oes, pois dado um exemplo x longe
da borda de decis
˜
ao, ocasionais perturbac¸
˜
oes em x n
˜
ao levar
˜
ao a classifica-
c¸
˜
oes incorretas. A outra
´
e a robustez em relac¸
˜
ao aos par
ˆ
ametros do modelo,
pois se a margem do classificador
´
e grande, uma pequena perturbac¸
˜
ao nos
par
ˆ
ametros n
˜
ao afeta a classificac¸
˜
ao dos dados (Smola et al., 1999).
Al
´
em disso, a Teoria do Aprendizado Estat
´
ıstico (TAE) prov
ˆ
e limites no erro
de um classificador linear para exemplos novos com base na margem. Isso
indica que a maximizac¸
˜
ao de margens leva a bons resultados em termos de
generalizac¸
˜
ao. O relat
´
orio t
´
ecnico de Lorena and de Carvalho (2003) sobre
Classificadores de Margens Largas descreve em detalhes a TAE.
As SVMs s
˜
ao LMCs muito conhecidos e utilizados. A seguir ser
˜
ao descritas
sucintamente principais caracter
´
ısticas das SVMs.
Dados os exemplos de treinamento X
i
, y
i
, i = 1...N, y
i
1, 1, X
i
R
n
em que
y
i
´
e o r
´
otulo da classe, uma SVM primeiramente mapeia os dados para o espac¸o
de caracter
´
ısticas H, usando um mapeamento Φ,
Aprendizado de M
´
aquina 43
Φ : R
n
H (2.4)
O mapeamento Φ
´
e implementado por uma func¸
˜
ao kernel K que satisfaz
as condic¸
˜
oes de Mercer (Cristianini and Shawe-Taylor, 2000) de modo que
K(X
i
, X
j
) = Φ(X
i
) · Φ(X
j
). Ent
˜
ao, no espac¸o de caracter
´
ısticas H de alta di-
mens
˜
ao,
´
e encontrado o hiperplano de separac¸
˜
ao
´
otimo por meio da maximi-
zac¸
˜
ao da margem e limitac¸
˜
ao do n
´
umero de erros de treinamento. A func¸
˜
ao de
decis
˜
ao pode ser dada por:
f(X) = sgn(W · Φ(X) b)
f(X) = sgn(
N
i=1
y
i
α
i
Φ(X
i
) · Φ(X) b) (2.5)
f(X) = sgn(
N
i=1
y
i
α
i
K(X
i
, X) b)
Se α
i
´
e diferente de 0, o exemplo correspondente x
i
´
e um vetor suporte.
Para treinar uma SVM
´
e necess
´
ario descobrir α
i
, i = 1 at
´
e N. Isso pode ser feito
minimizando a seguinte func¸
˜
ao de custo quadr
´
atica:
maximize L
D
(α) =
N
i=1
α
i
1
2
N
i=1
N
j=1
α
i
α
j
y
i
y
j
K(X
i
, X
j
)
com 0 α
i
Ci = 1...N (2.6)
N
i=1
α
i
y
i
= 0
em que C
´
e uma par
ˆ
ametro escolhido pelo usu
´
ario. Valores altos de C corres-
pondem a penalidades mais altas alocadas aos erros de treinamento. Uma vez
que K
´
e semi-positivo definido e as restric¸
˜
oes definem um conjunto convexo,
a otimizac¸
˜
ao anterior reduz-se para uma programac¸
˜
ao quadr
´
atica convexa.
2.4 Algoritmos Gen
´
eticos
Os Algoritmos Gen
´
eticos
2
s
˜
ao programas evolutivos baseados na teoria de
selec¸
˜
ao natural e na hereditariedade. Eles baseiam-se no pressuposto de que,
em uma dada populac¸
˜
ao, indiv
´
ıduos com boas caracter
´
ısticas gen
´
eticas t
ˆ
em
maiores chances de sobreviv
ˆ
encia e de produzirem indiv
´
ıduos cada vez mais
aptos. Como resultado, os indiv
´
ıduos menos aptos tender
˜
ao a desaparecer.
2
Essa sec¸
˜
ao
´
e baseada no Cap
´
ıtulo 9 do livro Sistemas Inteligentes (Rezende, 2002)
44 Cap
´
ıtulo 2
Assim, Algoritmos Gen
´
eticos favorecem a combinac¸
˜
ao dos indiv
´
ıduos mais
aptos, ou seja, os candidatos mais promissores para a soluc¸
˜
ao de um dado
problema.
Quando Algoritmos Gen
´
eticos s
˜
ao empregados para resoluc¸
˜
ao de proble-
mas do mundo real, cada indiv
´
ıduo da populac¸
˜
ao, denominado cromossomo,
normalmente corresponde a uma poss
´
ıvel soluc¸
˜
ao para o problema. Um me-
canismo de reproduc¸
˜
ao, baseado em processo evolutivo,
´
e aplicado sobre a
populac¸
˜
ao atual com o objetivo de explorar o espac¸o de busca e encontrar
melhores soluc¸
˜
oes para o problema.
Toda tarefa de busca ou otimizac¸
˜
ao possui v
´
arios componentes, entre eles:
o espac¸o de busca, onde s
˜
ao consideradas todas as possibilidades de soluc¸
˜
ao
de um determinado problema, e a func¸
˜
ao de avaliac¸
˜
ao (ou func¸
˜
ao de custo),
que
´
e uma maneira de avaliar os elementos do espac¸o de busca. Existem
diversos m
´
etodos de busca e func¸
˜
oes de avaliac¸
˜
ao (Ginsberg, 1993).
As t
´
ecnicas de busca e otimizac¸
˜
ao tradicionais iniciam seu processamento
com um
´
unico candidato que, iterativamente,
´
e manipulado utilizando al-
gumas heur
´
ısticas, normalmente est
´
aticas, diretamente associadas ao pro-
blema a ser solucionado. Geralmente, estes processos heur
´
ısticos n
˜
ao s
˜
ao
algor
´
ıtmicos e sua simulac¸
˜
ao em computadores pode ser muito complexa.
Apesar de estes m
´
etodos n
˜
ao serem suficientemente robustos, isto n
˜
ao im-
plica que eles sejam in
´
uteis. Na pr
´
atica, eles s
˜
ao amplamente utilizados, com
sucesso, em in
´
umeras aplicac¸
˜
oes (Winston, 1992).
Por outro lado, as t
´
ecnicas de Computac¸
˜
ao Evolutiva operam sobre uma
populac¸
˜
ao de candidatos em paralelo. Assim, elas podem fazer a busca em di-
ferentes
´
areas do espac¸o de soluc¸
˜
ao, alocando um n
´
umero de membros apro-
priado para a busca em v
´
arias regi
˜
oes. Como resultado, tais t
´
ecnicas t
ˆ
em uma
maior chance de atingir as
´
areas mais promissoras do espac¸o de busca. Os
Algoritmos Gen
´
eticos diferem dos m
´
etodos tradicionais de busca e otimizac¸
˜
ao,
principalmente em quatro aspectos:
1. trabalham com uma codificac¸
˜
ao do conjunto de par
ˆ
ametros e n
˜
ao com os
pr
´
oprios par
ˆ
ametros;
2. trabalham com uma populac¸
˜
ao e n
˜
ao com um
´
unico ponto;
3. utilizam informac¸
˜
oes de custo ou recompensa e n
˜
ao derivadas ou outro
conhecimento auxiliar e
4. utilizam regras de transic¸
˜
ao probabil
´
ısticas e n
˜
ao determin
´
ısticas.
Algoritmos Gen
´
eticos t
ˆ
em se mostrado muito eficientes para a busca de
soluc¸
˜
oes
´
otimas, ou aproximadamente
´
otimas em uma grande variedade de
Aprendizado de M
´
aquina 45
problemas, pois n
˜
ao imp
˜
oem muitas das limitac¸
˜
oes encontradas nos m
´
etodos
de busca tradicionais. Al
´
em de seguir uma estrat
´
egia de gerar e testar soluc¸
˜
oes
muito elegante, por serem baseados na evoluc¸
˜
ao biol
´
ogica, s
˜
ao capazes de
identificar e explorar aspectos do ambiente onde o problema esta inserido e
convergir globalmente para soluc¸
˜
oes
´
otimas, ou aproximadamente
´
otimas (Hol-
land, 1975).
“Quanto melhor um indiv
´
ıduo se adaptar ao seu meio ambiente, maior ser
´
a
sua chance de sobreviver e gerar descendentes”: este
´
e o conceito b
´
asico da
selec¸
˜
ao natural (Darwin, 1859), mecanismo da evoluc¸
˜
ao gen
´
etica biol
´
ogica. A
´
area biol
´
ogica mais proximamente ligada aos Algoritmos Gen
´
eticos
´
e a Gen
´
e-
tica Populacional.
´
E interessante observar que pesquisadores e usu
´
arios referem-se a “Algo-
ritmos Gen
´
eticos” ou a “um Algoritmo Gen
´
etico” e n
˜
ao “ao Algoritmo Gen
´
etico”,
pois Algoritmos Gen
´
eticos s
˜
ao uma classe de procedimentos com um conjunto
de passos distintos e bem especificados, onde cada uma destes passos possui
muitas poss
´
ıveis variac¸
˜
oes.
Antes de prosseguir com a an
´
alise das caracter
´
ısticas destes algoritmos,
alguns conceitos b
´
asicos s
˜
ao necess
´
arios. Estes conceitos podem ser natu-
ralmente expostos explicando o funcionamento b
´
asico destes algoritmos. Ini-
cialmente,
´
e gerada uma populac¸
˜
ao formada por um conjunto aleat
´
orio de
indiv
´
ıduos que podem ser vistos como poss
´
ıveis soluc¸
˜
oes do problema.
Durante o processo evolutivo, esta populac¸
˜
ao
´
e avaliada: para cada in-
div
´
ıduo
´
e dada uma nota, ou
´
ındice, refletindo sua habilidade de adaptac¸
˜
ao
a determinado ambiente. Uma porcentagem dos mais adaptados
´
e mantida,
enquanto os outros s
˜
ao descartados (darwinismo). Os membros mantidos
pela selec¸
˜
ao podem sofrer modificac¸
˜
oes em suas caracter
´
ısticas fundamen-
tais atrav
´
es de mutac¸
˜
oes e cruzamento (crossover) ou recombinac¸
˜
ao gen
´
etica
gerando descendentes para a pr
´
oxima gerac¸
˜
ao. Este processo, chamado de
reproduc¸
˜
ao,
´
e repetido at
´
e que uma soluc¸
˜
ao satisfat
´
oria seja encontrada.
Embora possam parecer simplistas do ponto de vista biol
´
ogico, estes algo-
ritmos s
˜
ao suficientemente complexos para fornecer mecanismos poderosos e
robustos de busca adaptativa (Goldberg, 1989).
2.4.1 Caracter
´
ısticas Gerais
Algoritmos Gen
´
eticos s
˜
ao algoritmos de otimizac¸
˜
ao global, baseados nos me-
canismos de selec¸
˜
ao natural e da gen
´
etica. Eles empregam uma estrat
´
egia de
busca paralela e estruturada, embora aleat
´
oria, direcionada
`
a busca de pon-
tos de “alta aptid
˜
ao”, ou seja, pontos nos quais a func¸
˜
ao a ser minimizada (ou
maximizada) tem valores relativamente baixos (ou altos). Apesar de aleat
´
orios,
46 Cap
´
ıtulo 2
AGs n
˜
ao s
˜
ao buscas aleat
´
orias n
˜
ao direcionadas, pois exploram informac¸
˜
oes
hist
´
oricas para encontrar novos pontos de busca onde s
˜
ao esperados melhores
desempenhos.
Isto
´
e feito atrav
´
es de processos iterativos, onde cada iterac¸
˜
ao
´
e chamada
de gerac¸
˜
ao. Durante cada iterac¸
˜
ao, os princ
´
ıpios de selec¸
˜
ao e reproduc¸
˜
ao
s
˜
ao aplicados a uma populac¸
˜
ao de candidatos que pode variar, dependendo
da complexidade do problema e dos recursos computacionais dispon
´
ıveis.
Atrav
´
es da selec¸
˜
ao, se determina quais indiv
´
ıduos conseguir
˜
ao se reproduzir,
gerando um n
´
umero determinado de descendentes para a pr
´
oxima gerac¸
˜
ao,
com uma probabilidade determinada pelo seu
´
ındice de aptid
˜
ao. Em outras
palavras, os indiv
´
ıduos com maior adaptac¸
˜
ao relativa t
ˆ
em maiores chances de
se reproduzir.
Algoritmo 3: Algoritmo Gen
´
etico
t = 0;1
Gerar Populac¸
˜
ao Inicial P (0);2
para cada indiv
´
ıduo i da populac¸
˜
ao atual P (t) fac¸a3
Avaliar aptid
˜
ao do indiv
´
ıduo i;4
fim5
enquanto o crit
´
erio de parada n
˜
ao for satisfeito fac¸a6
t = t + 1;7
Selecionar populac¸
˜
ao P(t) a partir de P(t-1);8
Aplicar operadores de cruzamento sobre P(t);9
Aplicar operadores de mutac¸
˜
ao sobre P(t);10
Avaliar P(t);11
fim12
Durante esse processo, os melhores indiv
´
ıduos, assim como alguns dados
estat
´
ısticos, podem ser coletados e armazenados para avaliac¸
˜
ao.
Esse ciclo
´
e geralmente repetido v
´
arias vezes at
´
e que um crit
´
erio de para te-
nha sido satisfeito. O Algoritmo 3 apresenta o funcionamento de um algoritmo
gen
´
etico t
´
ıpico em pseudo-c
´
odigo.
Os AGs, apesar de aparentemente simples, s
˜
ao capazes de resolver pro-
blemas complexos de uma forma muito elegante. Al
´
em disso, eles n
˜
ao s
˜
ao
limitados por suposic¸
˜
oes sobre o espac¸o de busca, relativas a continuidade,
exist
ˆ
encia de derivadas, etc. Buscas em problemas reais s
˜
ao repletas de des-
continuidades, ru
´
ıdos e outros problemas. M
´
etodos que dependam fortemente
de restric¸
˜
oes de continuidade e exist
ˆ
encia de derivadas s
˜
ao adequados apenas
para problemas em um dom
´
ınio limitado (Goldberg, 1989).
Aprendizado de M
´
aquina 47
2.4.2 Representac¸
˜
ao
O primeiro aspecto a ser considerado antes da utilizac¸
˜
ao de AGs para a solu-
c¸
˜
ao de um problema de busca ou otimizac¸
˜
ao
´
e a representac¸
˜
ao deste problema
de maneira que os AGs possam trabalhar adequadamente sobre ele.
O AG processa populac¸
˜
oes de indiv
´
ıduos ou cromossomos. O cromossomo
´
e uma estrutura de dados, geralmente vetores ou cadeias de valores bin
´
arios
(estrutura mais tradicional, por
´
em nem sempre a mais indicada), que repre-
senta uma poss
´
ıvel soluc¸
˜
ao do problema a ser otimizado. Em geral, o cromos-
somo representa o conjunto de par
ˆ
ametros da func¸
˜
ao objetivo cuja resposta
ser
´
a maximizada ou minimizada. O conjunto de todas as configurac¸
˜
oes que o
cromossomo pode assumir forma o seu espac¸o de busca. Se o cromossomo re-
presenta n par
ˆ
ametros de uma func¸
˜
ao, ent
˜
ao o espac¸o de busca
´
e um espac¸o
com n dimens
˜
oes. A maioria das representac¸
˜
oes s
˜
ao genot
´
ıpicas, utilizam
vetores de tamanho finito em um alfabeto tamb
´
em finito.
Tradicionalmente, o gen
´
otipo de um indiv
´
ıduo
´
e representado por um vetor
bin
´
ario, onde cada elemento de um vetor denota a presenc¸a (1) ou aus
ˆ
encia
(0) de uma determinada caracter
´
ıstica. Os elementos podem ser combinados
formando as caracter
´
ısticas reais do indiv
´
ıduo, ou seja o seu fen
´
otipo . Te-
oricamente, esta representac¸
˜
ao
´
e independente do problema, pois uma vez
encontrada a representac¸
˜
ao em vetores bin
´
arios, as operac¸
˜
oes padr
˜
ao podem
ser utilizadas, facilitando o seu emprego em diferentes classes de problemas
(Spears et al., 1993).
A representac¸
˜
ao bin
´
aria
´
e historicamente importante, uma vez que foi uti-
lizado nos trabalhos pioneiros de (Holland, 1975). Esta representac¸
˜
ao ainda
´
e a mais utilizada, por ser de f
´
acil utilizac¸
˜
ao e manipulac¸
˜
ao, al
´
em de ser sim-
ples de analisar teoricamente. Contudo, se um problema tem par
ˆ
ametros
cont
´
ınuos e o usu
´
ario desejar trabalhar com uma maior precis
˜
ao, provavel-
mente ele acabar
´
a utilizando longos cromossomos para representar soluc¸
˜
oes,
utilizando, assim, uma grande quantidade de mem
´
oria. Tamb
´
em n
˜
ao h
´
a uni-
formidade nos operadores (Ex.: se o valor real de um gene for codificado por
um vetor bin
´
ario, a mutac¸
˜
ao nos primeiros valores bin
´
arios do gene afetar
´
a
mais a aptid
˜
ao do cromossomo que a mutac¸
˜
ao nos seus
´
ultimos valores).
A representac¸
˜
ao do cromossomo usando n
´
umeros reais
´
e mais natural-
mente compreendida pelo ser humano do que aquela usando uma cadeia de
bits. Al
´
em disso, a representac¸
˜
ao por valores reais requer menos mem
´
oria.
A utilizac¸
˜
ao de representac¸
˜
oes em n
´
ıveis de abstrac¸
˜
ao mais altos tem sido
investigada. Como estas representac¸
˜
oes s
˜
ao mais fenot
´
ıpicas, facilitariam sua
utilizac¸
˜
ao em determinados ambientes, onde essa transformac¸
˜
ao “fen
´
otipo -
48 Cap
´
ıtulo 2
gen
´
otipo”
´
e muito complexa. Neste caso, precisam ser criados os operadores
espec
´
ıficos para utilizar estas representac¸
˜
oes.
2.4.3 Selec¸
˜
ao
O princ
´
ıpio b
´
asico do funcionamento dos AGs
´
e que um crit
´
erio de selec¸
˜
ao
vai fazer com que, depois de muitas gerac¸
˜
oes, o conjunto inicial de indiv
´
ıduos
gere indiv
´
ıduos mais aptos. O Algoritmo Gen
´
etico comec¸a com uma populac¸
˜
ao
inicial de N cromossomos. Quando n
˜
ao existe nenhum conhecimento pr
´
evio
sobre a regi
˜
ao do espac¸o de busca onde se encontra a soluc¸
˜
ao do problema,
os cromossomos s
˜
ao gerados aleatoriamente. Se houver um conhecimento a
priori sobre a regi
˜
ao em que est
´
a localizada a soluc¸
˜
ao, ou seja, forem conheci-
das soluc¸
˜
oes aceit
´
aveis que podem estar pr
´
oximas
`
a(s) soluc¸
˜
ao(
˜
oes)
´
otima(s),
os cromossomos iniciais podem ser definidos de forma determin
´
ıstica.
Para que o processo de selec¸
˜
ao privilegie os indiv
´
ıduos mais aptos, a cada
cromossomo da populac¸
˜
ao
´
e atribu
´
ıdo um valor dado por uma func¸
˜
ao f
apt
denominada func¸
˜
ao de aptid
˜
ao. Esta func¸
˜
ao recebe como entrada os valores
do gene do cromossomo e fornece como resultado a sua aptid
˜
ao. A aptid
˜
ao
pode ser vista como uma nota que mede o qu
˜
ao boa
´
e a soluc¸
˜
ao codificada
por um indiv
´
ıduo. A aptid
˜
ao
´
e baseada no valor da func¸
˜
ao objetivo, que
´
e
espec
´
ıfica para cada problema.
Para alguns m
´
etodos de selec¸
˜
ao,
´
e desej
´
avel que o valor de aptid
˜
ao de cada
indiv
´
ıduo seja menor que 1 e que a soma de todos os valores de aptid
˜
ao seja
igual 1 (f
apt
< 1 e
(f
apt
) = 1). Para isso, para cada indiv
´
ıduo
´
e calculada
a aptid
˜
ao relativa (f
rel
). A aptid
˜
ao relativa para um dado indiv
´
ıduo
´
e obtida
dividindo o valor de sua aptid
˜
ao pela soma dos valores de aptid
˜
ao de todos os
indiv
´
ıduos da populac¸
˜
ao.
Uma func¸
˜
ao objetivo (tamb
´
em chamada de func¸
˜
ao de avaliac¸
˜
ao ou func¸
˜
ao
de custo)
´
e geralmente uma express
˜
ao matem
´
atica que mede o quanto uma
soluc¸
˜
ao esta pr
´
oxima ou distante da soluc¸
˜
ao desejada (satisfaz o objetivo do
problema). Muitas vezes ela inclui tamb
´
em restric¸
˜
oes que devem ser satis-
feitas pela soluc¸
˜
ao. Alguns problemas de otimizac¸
˜
ao procuram maximizar o
valor da func¸
˜
ao objetivo, isto
´
e, encontrar soluc¸
˜
oes que produzam o maior va-
lor poss
´
ıvel para a func¸
˜
ao objetivo (Ex.: definir o n
´
umero m
´
aximo de caixas
que podem ser colocadas dentro de um dep
´
osito). Outros problemas procuram
minimizar o valor da func¸
˜
ao objetivo (Ex.: encontrar a soluc¸
˜
ao mais barata).
Existem ainda func¸
˜
oes que procuram satisfazer a mais de um objetivo, encon-
tradas em problemas de otimizac¸
˜
ao multi-objetivo.
Associada uma nota ou aptid
˜
ao a cada indiv
´
ıduo da populac¸
˜
ao, o processo
de selec¸
˜
ao escolhe ent
˜
ao um subconjunto de indiv
´
ıduos da populac¸
˜
ao atual,
Aprendizado de M
´
aquina 49
gerando uma populac¸
˜
ao intermedi
´
aria. V
´
arios m
´
etodos de selec¸
˜
ao t
ˆ
em sido
propostos. A maioria deles procura favorecer indiv
´
ıduos com maiores notas
de aptid
˜
ao, embora n
˜
ao exclusivamente, a fim de manter a diversidade da
populac¸
˜
ao. Entre eles, podemos citar o m
´
etodo do Torneio, que foi utilizado
neste trabalho.
Quando o m
´
etodo de selec¸
˜
ao por torneio
´
e utilizado, n indiv
´
ıduos da popu-
lac¸
˜
ao s
˜
ao escolhidos aleatoriamente, com a mesma probabilidade. O cro-
mossomo com maior aptid
˜
ao dentre estes n cromossomos
´
e selecionado para
a populac¸
˜
ao intermedi
´
aria. O processo se repete at
´
e que a populac¸
˜
ao in-
termedi
´
aria seja preenchida. Geralmente, o valor utilizado para n
´
e 3. A
utilizac¸
˜
ao de selec¸
˜
ao por torneio para n = 3
´
e ilustrada na Figura 2.7.
Figura 2.7: M
´
etodo de selec¸
˜
ao por torneio.
2.4.4 Operadores Gen
´
eticos
Um conjunto de operac¸
˜
oes
´
e necess
´
ario para que, dada uma populac¸
˜
ao, seja
poss
´
ıvel gerar populac¸
˜
oes sucessivas que (espera-se) melhorem sua aptid
˜
ao
com o tempo. Estes operadores s
˜
ao: cruzamento (crossover) e mutac¸
˜
ao. Eles
s
˜
ao utilizados para assegurar que a nova gerac¸
˜
ao seja totalmente nova, mas
possua, de alguma forma, caracter
´
ısticas de seus pais, ou seja, a populac¸
˜
ao se
diversifica e mant
´
em caracter
´
ısticas de adaptac¸
˜
ao adquiridas pelas gerac¸
˜
oes
anteriores. Para prevenir que os melhores indiv
´
ıduos n
˜
ao desaparec¸am da
populac¸
˜
ao pela manipulac¸
˜
ao dos operadores gen
´
eticos, eles podem ser auto-
maticamente colocados na pr
´
oxima gerac¸
˜
ao, atrav
´
es de uma pol
´
ıtica elitista.
O princ
´
ıpio b
´
asico dos operadores gen
´
eticos
´
e transformar a populac¸
˜
ao
atrav
´
es de sucessivas gerac¸
˜
oes, estendendo a busca at
´
e chegar a um re-
sultado satisfat
´
orio. Os operadores gen
´
eticos s
˜
ao necess
´
arios para que a
populac¸
˜
ao se diversifique e mantenha caracter
´
ısticas de adaptac¸
˜
ao adquiri-
das pelas gerac¸
˜
oes anteriores.
O operador de mutac¸
˜
ao
´
e necess
´
ario para a introduc¸
˜
ao e manutenc¸
˜
ao da
diversidade gen
´
etica da populac¸
˜
ao, alterando arbitrariamente um ou mais
componentes de uma estrutura escolhida, como
´
e ilustrado na Figura 2.8,
50 Cap
´
ıtulo 2
fornecendo assim, meios para introduc¸
˜
ao de novos elementos na populac¸
˜
ao.
Desta forma, a mutac¸
˜
ao assegura que a probabilidade de se chegar a qualquer
ponto do espac¸o de busca nunca ser
´
a zero, al
´
em de contornar o problema de
m
´
ınimos locais, pois com este mecanismo, altera-se levemente a direc¸
˜
ao da
busca. O operador de mutac¸
˜
ao
´
e aplicado aos indiv
´
ıduos com uma proba-
bilidade dada pela taxa de mutac¸
˜
ao (0 P
m
1); geralmente se utiliza uma
taxa de mutac¸
˜
ao pequena (0, 001 P
m
0, 1), pois
´
e um operador gen
´
etico
secund
´
ario.
Figura 2.8: Exemplo de mutac¸
˜
ao.
O cruzamento
´
e o operador respons
´
avel pela recombinac¸
˜
ao de caracter
´
ıs-
ticas dos pais durante a reproduc¸
˜
ao, permitindo que as pr
´
oximas gerac¸
˜
oes
herdem essas caracter
´
ısticas. Ele
´
e considerado o operador gen
´
etico predomi-
nante, por isso
´
e aplicado com probabilidade dada pela taxa de cruzamento
(0 P
c
1), que deve ser maior que a taxa de mutac¸
˜
ao. Esta taxa
´
e usu-
almente 0, 6 P
c
0, 99. Este operador pode, ainda, ser utilizado de v
´
arias
maneiras. As mais utilizadas s
˜
ao:
Cruzamento de um-ponto: um ponto de cruzamento
´
e escolhido e a partir
deste ponto as informac¸
˜
oes gen
´
eticas dos pais ser
˜
ao trocadas. As informac¸
˜
oes
anteriores a este ponto em um dos pais s
˜
ao ligadas
`
as informac¸
˜
oes posteriores
`
a este ponto no outro pai, como
´
e mostrado no exemplo da Figura 2.9.
Figura 2.9: Exemplo de cruzamento de um ponto.
Cruzamento multi-pontos:
´
e uma generalizac¸
˜
ao da id
´
eia de troca de ma-
terial gen
´
etico atrav
´
es de pontos, onde v
´
arios pontos de cruzamento podem
ser utilizados. O funcionamento deste operador pode ser visto na Figura 2.10,
para o caso de 2 pontos.
Cruzamento uniforme: n
˜
ao utiliza pontos de cruzamento, mas determina,
atrav
´
es de uma m
´
ascara, quais os genes de cada cromossomo que cada filho
herdar
´
a. Um exemplo da troca de informac¸
˜
oes provocada por este operador
pode ser visto na Figura 2.11. Um valor 1 na m
´
ascara indica que o gene
correspondente do pai A ser
´
a herdado pelo filho C e o gene correspondente do
Aprendizado de M
´
aquina 51
Figura 2.10: Exemplo de cruzamento de dois pontos.
pai B ser
´
a herdado pelo filho D. Para um valor igual a 0 na m
´
ascara, ocorre o
inverso.
Figura 2.11: Um exemplo de Cruzamentouniforme.
2.4.5 Par
ˆ
ametros Gen
´
eticos
O desempenho de um Algoritmo Gen
´
etico
´
e fortemente influenciado pela defi-
nic¸
˜
ao dos par
ˆ
ametros a serem utilizados. Portanto,
´
e importante analisar
como tais par
ˆ
ametros podem ser utilizados em face das necessidades do pro-
blema e dos recursos dispon
´
ıveis (Jong, 1980). A seguir s
˜
ao discutidos alguns
crit
´
erios para a escolha dos principais par
ˆ
ametros:
Tamanho da Populac¸
˜
ao. O tamanho da populac¸
˜
ao afeta o desempenho
global e a efici
ˆ
encia dos AGs. Com uma populac¸
˜
ao pequena o desem-
penho pode cair, pois deste modo a populac¸
˜
ao fornece uma pequena co-
bertura do espac¸o de busca do problema. Uma grande populac¸
˜
ao ge-
ralmente fornece uma cobertura representativa do dom
´
ınio do problema,
al
´
em de prevenir converg
ˆ
encias prematuras para soluc¸
˜
oes locais ao inv
´
es
de globais. No entanto, para se trabalhar com grandes populac¸
˜
oes, s
˜
ao
necess
´
arios mais recursos computacionais, ou que o algoritmo trabalhe
por um per
´
ıodo de tempo muito maior.
Taxa de Cruzamento. Quanto maior for esta taxa, mais rapidamente no-
vas estruturas ser
˜
ao introduzidas na populac¸
˜
ao. Mas se esta for muito
alta, estruturas com boas aptid
˜
oes poder
˜
ao ser retiradas mais rapida-
mente que a capacidade da selec¸
˜
ao em criar melhores estruturas. Se
esta taxa for muito baixa, a busca pode estagnar.
Taxa de Mutac¸
˜
ao. Uma baixa taxa de mutac¸
˜
ao previne que a busca fique
estagnada em subregi
˜
oes do espac¸o de busca. Al
´
em disso, possibilita que
52 Cap
´
ıtulo 2
qualquer ponto do espac¸o de busca seja atingido. Com uma taxa muito
alta a busca se torna essencialmente aleat
´
oria.
Intervalo de Gerac¸
˜
ao. Controla a porcentagem da populac¸
˜
ao que ser
´
a
substitu
´
ıda para a pr
´
oxima gerac¸
˜
ao. Com um intervalo grande, a maior
parte da populac¸
˜
ao ser
´
a substitu
´
ıda. U intervalo muito grande pode levar
`
a perda de estruturas de alta aptid
˜
ao. Com um intervalo pequeno, o
algoritmo pode se tornar muito lento.
Crit
´
erio de Parada. Diferentes crit
´
erios podem ser utilizados para ter-
minar a execuc¸
˜
ao de um Algoritmo Gen
´
etico: ap
´
os um dado n
´
umero de
gerac¸
˜
oes, quando a aptid
˜
ao m
´
edia ou do melhor indiv
´
ıduo n
˜
ao melhorar
mais ou quando as aptid
˜
oes dos indiv
´
ıduos de uma populac¸
˜
ao se torna-
rem muito parecidas. Quando se conhece a resposta m
´
axima da func¸
˜
ao
objetivo,
´
e poss
´
ıvel utilizar este valor como crit
´
erio de parada.
2.5 Considerac¸
˜
oes Finais
Esse cap
´
ıtulo apresentou uma vis
˜
ao geral sobre os principais conceitos de
Aprendizado de M
´
aquina que foram utilizados nesse trabalho. O pr
´
oximo
cap
´
ıtulo ir
´
a apresentar alguns m
´
etodos de extrac¸
˜
ao de conhecimento para
t
´
ecnicas de aprendizado de m
´
aquina n
˜
ao-simb
´
olico encontradas na literatura
durante o desenvolvimento dessa tese.
CAP
´
ITULO
3
Extrac¸
˜
ao de Conhecimento em
T
´
ecnicas de AM Caixa-Preta
U
m grande esforc¸o j
´
a foi dedicado ao estudo de m
´
etodos para ex-
trac¸
˜
ao do conhecimento embutido em RNAs treinadas, sendo essa
uma
´
area com mais de vinte anos de pesquisas. Nos
´
ultimos anos,
poucos trabalhos tem sido realizados nessa
´
area. Por
´
em, recentemente surgiu
o interesse em m
´
etodos de extrac¸
˜
ao espec
´
ıficos para Classificadores de Mar-
gens Largas, mais especificamente para as M
´
aquinas de Vetores de Suporte
(SVMs).
Apesar de compartilhar muitos dos conceitos j
´
a investigados pela
´
area de
extrac¸
˜
ao de conhecimento de RNAs, esta nova
´
area de pesquisa ainda encontra-
se em sua inf
ˆ
ancia e um dos primeiros trabalhos relacionados
`
a esse tema (se
n
˜
ao for o primeiro) data de 2002, intitulado “Rule extraction from support vector
machines” (N
´
u
˜
nez et al., 2002).
Portanto, este cap
´
ıtulo tratar
´
a inicialmente da extrac¸
˜
ao de conhecimento de
RNAs treinadas, relacionando os trabalhos j
´
a realizados na
´
area e os conceitos
definidos por esses trabalhos, alguns dos quais podem ser facilmente adap-
tados para as SVMs e outras t
´
ecnicas de AM caixa-preta. A seguir, dois dos
trabalhos mais recentes na
´
area de extrac¸
˜
ao de regras de SVMs ser
˜
ao sucinta-
mente comentados. Por fim, o Sistema NNRules de extrac¸
˜
ao de conhecimento
de RNAs proposto por Milar
´
e (2003) ser
´
a descrito em maior detalhe, pois ele
foi o ponto de partida para o m
´
etodo de extrac¸
˜
ao de conhecimento proposto
nessa tese.
S
˜
ao v
´
arias as formas de se classificar os m
´
etodos de extrac¸
˜
ao de conhe-
cimento de RNAs treinadas encontrados na literatura (Andrews et al., 1995;
Tickle et al., 1998). A taxonomia mais usada e abrangente
´
e a que classifica a
t
´
ecnica de acordo com a forma pela qual ela analisa o conhecimento adquirido
53
54 Cap
´
ıtulo 3
pela RNA. Essa classificac¸
˜
ao divide os m
´
etodos em pedag
´
ogicos, decomposici-
onais e ecl
´
eticos. A seguir, essa classificac¸
˜
ao ser
´
a descrita e m
´
etodos de cada
uma de suas classes ser
˜
ao exemplificados, tentando, sempre que poss
´
ıvel,
generalizar seus conceitos de forma a n
˜
ao restringir sua aplicac¸
˜
ao
`
as RNAs.
3.1 M
´
etodos Pedag
´
ogicos
Os m
´
etodos pedag
´
ogicos extraem o conhecimento sem analisar as caracter
´
ısti-
cas internas do classificador. Essas t
´
ecnicas realizam um mapeamento entre
os atributos de entrada e sa
´
ıda do classificador sem levar em considerac¸
˜
ao
quaisquer passos intermedi
´
arios.
Exemplos dessa categoria s
˜
ao: o m
´
etodo de Saito and Nakano (1988), que
utiliza busca em largura para encontrar combinac¸
˜
oes de valores para as uni-
dades de entrada que ativam cada uma das unidades de sa
´
ıda; o m
´
etodo
de Gallant (1993), que
´
e similar ao de Saito e Nakano e utiliza heur
´
ısticas para
reduzir o espac¸o de busca; o m
´
etodo Validity Interval Analysis (Thrun, 1995),
que testa as regras propagando intervalos de ativac¸
˜
ao especificados por meio
de programac¸
˜
ao linear, e denominados intervalos de validade por meio de uma
RNA; e o m
´
etodo TREPAN (Craven and Shavlik, 1996), que constr
´
oi
´
arvores de
decis
˜
ao utilizando os exemplos de treinamento com que a RNA foi treinada e,
em uma de suas variac¸
˜
oes, inclui exemplos artificiais gerados pelo TREPAN,
ambos classificados pela RNA.
Cr
´
ıticas t
ˆ
em sido feitas aos m
´
etodos que utilizam exemplos artificiais, pois
n
˜
ao
´
e f
´
acil validar a exist
ˆ
encia de tais exemplos no mundo real, o que pode
levar o m
´
etodo a gerar regras desnecessariamente complexas ou com perda
de precis
˜
ao e fidelidade. Por
´
em, um dos problemas dos m
´
etodos pedag
´
ogicos
que n
˜
ao utilizam exemplos artificiais
´
e que quando o classificador do qual
se pretende extrair as regras tem um desempenho de classificac¸
˜
ao pr
´
oximo ao
´
otimo, o conjunto de dados por ele rotulado pouco difere do conjunto de dados
original utilizado para trein
´
a-lo. Com isso, apesar da fidelidade alcanc¸ada por
esses m
´
etodos (medida pela porcentagem de exemplos em que o classificador
concorda com as regras extra
´
ıdas) ser alta,
´
e pouco prov
´
avel que as regras
reflitam o conhecimento armazenado no classificador. Esse problema tem
sido negligenciado em muitos trabalhos da
´
area.
Em geral, os m
´
etodos dessa categoria podem ser aplicados em qualquer
t
´
ecnica de aprendizado de m
´
aquina, como SVMs e Comit
ˆ
es de Classificado-
res, sem maiores problemas, uma vez que n
˜
ao fazem nenhuma an
´
alise nos
par
ˆ
ametros internos da t
´
ecnica utilizada.
Extrac¸
˜
ao de Conhecimento em T
´
ecnicas de AM Caixa-Preta 55
3.2 M
´
etodos Decomposicionais
Os m
´
etodos decomposicionais decomp
˜
oem uma RNA em diversas redes de ape-
nas uma camada e uma unidade. Cada unidade intermedi
´
aria e de sa
´
ıda
´
e
ent
˜
ao descrita por um conjunto de regras. Por fim, estas regras s
˜
ao combina-
das em um conjunto que descreve o comportamento da RNA como um todo.
Exemplos dessa categoria s
˜
ao: o m
´
etodo KT (Fu, 1991, 1994), que busca
por combinac¸
˜
oes de pesos que, quando satisfeitos, garantem que uma unidade
ser
´
a ativada independentemente do valor de outras entradas para a unidade;
o m
´
etodo M-of-N de Towell and Shavlik (1993), que
´
e similar ao KT e que
busca, para cada unidade, por conjuntos de conex
˜
oes de entrada cuja soma
dos pesos excedam o seu bias, independente dos pesos associados a outras
conex
˜
oes de entrada, extraindo regras do tipo m-de-n
1
; o m
´
etodo desenvolvido
por Blasig (1994), que utiliza uma func¸
˜
ao especial de custo para encorajar uni-
dades intermedi
´
arias e de sa
´
ıda a assumirem um estado favor
´
avel
`
a extrac¸
˜
ao
de regras, durante o treinamento, de forma que cada unidade possa ser di-
retamente traduzida em uma regra; e o m
´
etodo desenvolvido por Setiono and
Liu (1995), que modifica o processo de treinamento da RNA para simplificar
o processo de extrac¸
˜
ao de regras, extraindo conjuntos de regras concisos de
redes que apresentam um n
´
umero pequeno de unidades intermedi
´
arias.
3.3 M
´
etodos Ecl
´
eticos
Os m
´
etodos ecl
´
eticos s
˜
ao abordagens h
´
ıbridas que extraem o conhecimento de
RNAs aliando a an
´
alise individual das unidades com a an
´
alise das entradas e
sa
´
ıdas da rede.
Um exemplo de m
´
etodo dessa categoria
´
e o algoritmo DEDEC, proposto por
Tickle et al. (1994). Esse m
´
etodo extrai regras if-then de redes MLP treinadas
com o algoritmo backpropagation (Braga et al., 2000; Haykin, 1998).
3.4 M
´
etricas
Abaixo est
˜
ao relacionadas algumas das m
´
etricas que foram definidas para a
avaliac¸
˜
ao de m
´
etodos de extrac¸
˜
ao de conhecimento de RNAs, mas que t
ˆ
em sido
aplicadas
`
a outros m
´
etodos de extrac¸
˜
ao tamb
´
em (Mitra et al., 2002; Craven
and Shavlik, 1999):
Precis
˜
ao ou Acur
´
acia: Porcentagem de classificac¸
˜
oes corretas obtidas pe-
las regras extra
´
ıdas.
1
Uma express
˜
ao m-de-n
´
e uma express
˜
ao booleana que
´
e satisfeita quando ao menos m
(um limite inteiro) de n condic¸
˜
oes booleanas s
˜
ao satisfeitas.
56 Cap
´
ıtulo 3
Precis
˜
ao do Usu
´
ario: N
´
umero de classificac¸
˜
oes corretas de uma classe
dividido pelo n
´
umero de classificac¸
˜
oes dessa classe.
Fidelidade: Porcentagem do conjunto de teste em que as regras extra
´
ıdas
e o m
´
etodo de aprendizado de m
´
aquina n
˜
ao-simb
´
olico concordam (clas-
sificam o exemplo na mesma classe).
Cobertura: Porcentagem de exemplos de um conjunto de teste em que
pelo menos uma regra
´
e disparada.
Tamanho da base de regras: N
´
umero de regras extra
´
ıdas. Quanto mais
baixo seu valor, mais compacta
´
e a base de regras.
Complexidade computacional: Medida em termos de tempo de CPU re-
querido.
Compreensibilidade: Conjunto de fatores que determinam a facilidade de
entendimento de uma regra. Considerac¸
˜
ao apenas de atributos relevan-
tes, tamanho da base de regras, etc.
Escalabilidade: Diz respeito a como o tempo de execuc¸
˜
ao e a compre-
ensibilidade dos modelos extra
´
ıdos variam em func¸
˜
ao de fatores como
dimensionalidade, tamanho do conjunto de treinamento e complexidade
do algoritmo de aprendizado de m
´
aquina n
˜
ao-simb
´
olico.
Generalidade: Proporc¸
˜
ao em que o algoritmo de extrac¸
˜
ao de conheci-
mento n
˜
ao requer treinamentos especiais ou restric¸
˜
oes no algoritmo de
aprendizado de m
´
aquina n
˜
ao-simb
´
olico.
3.5 Extrac¸
˜
ao de Conhecimento de SVMs
Nessa sec¸
˜
ao ser
˜
ao relacionados sucintamente dois trabalhos recentes de ex-
trac¸
˜
ao de conhecimento de M
´
aquinas de Vetores de Suporte encontrados na
literatura.
Um dos poucos m
´
etodos de extrac¸
˜
ao de conhecimento projetados especifi-
camente para M
´
aquinas de Vetores de Suporte
´
e o SVM+Prototypes proposto
por N
´
u
˜
nez et al. (2002).
´
E um m
´
etodo decomposicional que extrai tanto regras
proposicionais como regras em que as condic¸
˜
oes s
˜
ao equac¸
`
oes matem
´
aticas
de elips
´
oides.
Esse m
´
etodo realiza um processo iterativo. Seu algoritmo
´
e exposto em
pseudoc
´
odigo no Algoritmo 4.
Extrac¸
˜
ao de Conhecimento em T
´
ecnicas de AM Caixa-Preta 57
Algoritmo 4: Algoritmo SVM+Prototypes
Treinar uma SVM;1
Dividir os dados em dois subconjuntos, determinados pela classificac¸
˜
ao2
da SVM;
i = 1;3
repita4
para cada subconjunto fac¸a5
Encontrar i clusters (novos subconjuntos);6
Calcular o prot
´
otipo ou centr
´
oide de cada cluster;7
para cada novo subconjunto fac¸a8
Encontrar o vetor de suporte que est
´
a mais longe do prot
´
otipo;9
Usar o prot
´
otipo como centro e o vetor de suporte como v
´
ertice10
para criar um hipercubo no espac¸o de entrada;
fim11
fim12
para cada hipercubo fac¸a13
Fazer um teste de partic¸
˜
ao para minimizar o n
´
ıvel de sobreposic¸
˜
ao14
entre os cubos em que a classe predita
´
e diferente (uma
alternativa
´
e testar se todos os cantos do hipercubo s
˜
ao da mesma
classe e, se forem, o teste
´
e positivo);
fim15
Converter todos os hipercubos com partic¸
˜
ao negativa em regras;16
Incrementar i;17
at
´
e n
˜
ao existirem hipercubos com teste de partic¸
˜
ao positivos OU i == Imax18
;
Converter todos os hypercubos correntes em regras;19
58 Cap
´
ıtulo 3
O principal problema desse algoritmo
´
e que as regras extra
´
ıdas n
˜
ao s
˜
ao
nem exclusivas e nem exaustivas, o que resulta em regras conflitantes ou
faltantes na classificac¸
˜
ao de novas inst
ˆ
ancias.
Outro trabalho recente realiza a extrac¸
˜
ao de regras de M
´
aquinas de Vetores
de Suporte Lineares via Programac¸
˜
ao Matem
´
atica.
Esse trabalho, proposto por Fung et al. (2008) descreve um m
´
etodo para
a convers
˜
ao de SVMs lineares em um conjunto de regras sem sobreposic¸
˜
ao.
Nesse m
´
etodo, cada iterac¸
˜
ao do algoritmo de extrac¸
˜
ao de regras
´
e formulada
como um problema de otimizac¸
˜
ao com restric¸
˜
oes.
A vantagem desse m
´
etodo reside na necessidade de resolver apenas proble-
mas de otimizac¸
˜
ao simples, em poucas vari
´
aveis.
3.6 Sistema NNRules
Nessa sec¸
˜
ao, os m
´
etodos utilizados no sistema NNRules para a extrac¸
˜
ao de
conhecimento compreens
´
ıvel de redes neurais treinadas (RNAs) s
˜
ao sucinta-
mente descritos. Esses m
´
etodos foram propostos por Milar
´
e (2003). Alguns
experimentos com os m
´
etodos do sistema NNRules foram realizados e s
˜
ao
apresentados no Cap
´
ıtulo 5
3.6.1 M
´
etodo baseado em Aprendizado de M
´
aquina Simb
´
olico
O m
´
etodo baseado em Aprendizado de M
´
aquina (AM) simb
´
olico utiliza sistemas
de AM simb
´
olicos para extrair representac¸
˜
oes simb
´
olicas de RNAs. Uma das
principais caracter
´
ısticas dos sistemas de AM simb
´
olicos
´
e a sua habilidade
em representar a hip
´
otese induzida como estruturas simb
´
olicas, geralmente
compreens
´
ıveis para humanos. A Figura 3.1 mostra um esquema geral desse
m
´
etodo.
Sistema de
Aprendizado
Simbólico
Exemplos
Rotulados
pela RNA
Exemplos
RNA
Treinada
(Hipótese h)
Classificador
Simbólico
Figura 3.1: Esquema geral do m
´
etodo baseado em sistemas de AM simb
´
olicos.
Nesse m
´
etodo, uma RNA
´
e treinada como o conjunto de dados E. Ap
´
os o
treinamento, a RNA
´
e usada como uma “caixa preta” para classificar o con-
junto de dados E, criando novos valores para o atributo classe. Os novos
valores do atributo classe refletem o conhecimento aprendido pela RNA, isso
´
e, refletem a hip
´
otese h induzida pela RNA. O conjunto de dados rotulado pela
RNA
´
e fornecido como entrada para o sistema de AM simb
´
olico. O sistema de
AM simb
´
olico induz uma representac¸
˜
ao simb
´
olica baseada nos novos r
´
otulos
atribu
´
ıdos pela RNA aos exemplos. Desse modo, o classificador simb
´
olico h
Extrac¸
˜
ao de Conhecimento em T
´
ecnicas de AM Caixa-Preta 59
induzido pelo sistema de AM simb
´
olico visa aproximar a hip
´
otese h induzida
pela RNA. Esse m
´
etodo
´
e similar ao m
´
etodo TREPAN (Craven, 1996), no entanto
ele n
˜
ao gera novos exemplos artificialmente como o TREPAN faz.
Uma das qualidades desse m
´
etodo
´
e que qualquer sistema de AM simb
´
olico
pode ser utilizado para induzir um classificador simb
´
olico a partir do con-
junto de dados rotulado pela RNA. Desse modo, o m
´
etodo
´
e simples e f
´
acil de
usar, uma vez que ele permite o uso de qualquer sistema de AM simb
´
olico.
Nesse trabalho, os sistemas de AM simb
´
olico C4.5, C4.5rules (Quinlan, 1988) e
CN2 (Clark and Niblett, 1989b) foram utilizados.
3.6.2 M
´
etodo Baseado em Algoritmos Gen
´
eticos
O m
´
etodo baseado em Algoritmos Gen
´
eticos (AGs) visa otimizar a representac¸
˜
ao
simb
´
olica extra
´
ıda das RNAs por sistemas de AM simb
´
olicos. A Figura 3.2
mostra um esquema geral desse m
´
etodo.
Classificador
Simbólico
h
1
Sistema de
Aprendizado
Simbólico
1
2
p
Classificador
Simbólico
h
2
Classificador
Simbólico
h
p
PBM
Conversor
PBM
Conversor
PBM
Conversor
Classifcador
Formato PBM
h
p
Classifcador
Formato PBM
h
1
Classifcador
Formato PBM
h
2
Exemplos
Rotulados
por RNAs
Classificador
Formato PBM
h
1
h
2
h
p
Classificador
Simbólico
Algoritmo
Genético
a)
b)
Sistema de
Aprendizado
Simbólico
Sistema de
Aprendizado
Simbólico
Classificador
Formato PBM
Classificador
Formato PBM
Figura 3.2: Esquema geral do m
´
etodo baseado em AGs.
AGs s
˜
ao m
´
etodos de busca e otimizac¸
˜
ao inspirados no processo de evoluc¸
˜
ao
e selec¸
˜
ao natural. Um AG utiliza uma populac¸
˜
ao de indiv
´
ıduos para resol-
ver um determinado problema. Cada indiv
´
ıduo da populac¸
˜
ao corresponde a
uma poss
´
ıvel soluc¸
˜
ao para o problema. Um mecanismo de reproduc¸
˜
ao
´
e apli-
cado
`
a populac¸
˜
ao atual, gerando uma nova populac¸
˜
ao. A populac¸
˜
ao normal-
mente evolui atrav
´
es de diversas gerac¸
˜
oes at
´
e que uma soluc¸
˜
ao apropriada seja
alcanc¸ada. AGs iniciam sua operac¸
˜
ao gerando uma populac¸
˜
ao inicial formada
por um grupo de indiv
´
ıduos aleat
´
orios, que podem ser vistos como primeiros
palpites para resolver um problema em particular. A populac¸
˜
ao inicial
´
e avali-
ada e para cada indiv
´
ıduo, uma nota (chamada fitness)
´
e calculada, refletindo
a qualidade da soluc¸
˜
ao associada a ela.
60 Cap
´
ıtulo 3
Suponha que uma RNA induz a hip
´
otese h a partir de um conjunto de dados
E. Como no m
´
etodo baseado em AM simb
´
olico, o conjunto de dados E utili-
zado para treinar a RNA
´
e rotulado pela RNA, originando o conjunto de dados
E
. Esse conjunto de dados
´
e utilizado como entrada para p sistemas de AM
simb
´
olico. Como resultado, os classificadores simb
´
olicos h
1
, h
2
, ...h
p
s
˜
ao in-
duzidos. Cada classificador aproxima a hip
´
otese induzida pela RNA para uma
partic¸
˜
ao particular. Infelizmente, cada sistema de AM simb
´
olico representa o
conceito induzido em uma linguagem diferente, dificultando a integrac¸
˜
ao des-
ses classificadores. Ent
˜
ao,
´
e necess
´
ario traduzir a representac¸
˜
ao desse clas-
sificadores para uma linguagem comum. Para fazer tal traduc¸
˜
ao, foi utilizado
o trabalho de Prati et al. (2002), que prop
˜
oe uma sintaxe padr
˜
ao para repre-
sentar regras chamada PBM. Assim, cada classificador simb
´
olico
´
e traduzido
para o formato PBM (Figure 3.2.a).
Em uma segunda fase, um AG
´
e empregado para integrar as p hip
´
oteses h
i
em uma
´
unica hip
´
otese com maior fidelidade com h. As regras que comp
˜
oe
os p classificadores podem ser usadas para codificar os v
´
arios indiv
´
ıduos da
populac¸
˜
ao inicial do AG. Assim, cada indiv
´
ıduo na populac¸
˜
ao inicial
´
e formado
por um conjunto de regras, em que cada regra
´
e aleatoriamente extra
´
ıda de um
dos p classificadores. Ap
´
os v
´
arias gerac¸
˜
oes, o melhor indiv
´
ıduo da populac¸
˜
ao
atual
´
e utilizado como o conjunto de regras otimizado. Esse conjunto de regras
´
e ent
˜
ao utilizado para explicar o comportamento da RNA (Figure 3.2.b).
Em uma terceira fase opcional, um p
´
os-processamento
´
e aplicado ao me-
lhor indiv
´
ıduo removendo as regras que n
˜
ao s
˜
ao disparadas. Esse p
´
os-proces-
samento pode aumentar a compreensibilidade do conjunto de regras.
3.7 Considerac¸
˜
oes Finais
Esse cap
´
ıtulo apresentou os conceitos da extrac¸
˜
ao de conhecimento em t
´
ecni-
cas de AM caixa-preta e uma revis
˜
ao de diversos m
´
etodos encontrados na
literatura. O pr
´
oximo cap
´
ıtulo ir
´
a apresentar o m
´
etodo RankSim, proposto
nessa Tese.
CAP
´
ITULO
4
M
´
etodo Proposto
N
esse cap
´
ıtulo ser
´
a descrito o m
´
etodo RankSim, proposto nessa Tese,
para a extrac¸
˜
ao de conhecimento simb
´
olico a partir de modelos
caixa-preta de aprendizado de m
´
aquina em problemas de classi-
ficac¸
˜
ao bin
´
aria, ou seja, problemas de apenas duas classes.
A motivac¸
˜
ao para esse m
´
etodo vem da percepc¸
˜
ao de que a maioria dos
m
´
etodos pedag
´
ogicos existentes enfrentam o problema da falta de informac¸
˜
ao
sobre o que foi realmente aprendido pelo modelo n
˜
ao-simb
´
olico (Redes Neu-
rais Artificiais, M
´
aquinas de Vetores de Suporte, entre outros) quando estes
apresentam uma alta taxa de acerto. Por exemplo, se uma M
´
aquina de Ve-
tores de Suporte classificar corretamente todos os exemplos que lhes forem
apresentados, o conjunto de exemplos por ela rotulado ser
´
a id
ˆ
entico ao con-
junto de exemplos original. Nesse caso, n
˜
ao
´
e muito interessante utilizar um
m
´
etodo pedag
´
ogico tradicional, uma vez que isso equivale a usar os exem-
plos originais para extrair regras. Sendo assim, se o classificador simb
´
olico
tamb
´
em tiver uma taxa de acerto elevada, a fidelidade ser
´
a elevada, mesmo
que o classificador simb
´
olico classifique os exemplos com uma fronteira de de-
cis
˜
ao significativamente diferente da fronteira de decis
˜
ao utilizada pelo modelo
gerado pelo m
´
etodo caixa-preta.
No m
´
etodo proposto nesta tese, utilizamos mais informac¸
˜
ao do que a dis-
ponibilizada pela sa
´
ıda bin
´
aria de classificac¸
˜
ao do modelo caixa-preta. Utili-
zamos a informac¸
˜
ao da sa
´
ıda num
´
erica dos modelos caixa-preta em um algo-
ritmo gen
´
etico que otimiza a similaridade dos rankings do modelo caixa-preta e
das regras extra
´
ıdas. A seguir, na Sec¸
˜
ao 4.1,
´
e feita a descric¸
˜
ao da arquitetura
do m
´
etodo e na Sec¸
˜
ao 4.2
´
e apresentada a func¸
˜
ao de avaliac¸
˜
ao utilizada no
algoritmo gen
´
etico. A Sec¸
˜
ao 4.4 apresenta as considerac¸
˜
oes finais do cap
´
ıtulo.
61
62 Cap
´
ıtulo 4
4.1 Descric¸
˜
ao do M
´
etodo RankSim
V
´
arios modelos caixa-preta, incluindo M
´
aquinas de Vetores de Suporte e Redes
Neurais Artificiais representam sua sa
´
ıda de forma num
´
erica. Para chegar
a um valor de classificac¸
˜
ao, ou classe,
´
e necess
´
ario utilizar uma func¸
˜
ao de
limiar para discretizar essa sa
´
ıda num
´
erica. No caso mais comum, a sa
´
ıda
ent
˜
ao passa a ser bin
´
aria, classificando as inst
ˆ
ancias em r
´
otulos positivos ou
negativos.
M
´
etodos pedag
´
ogicos tradicionais utilizam apenas a informac¸
˜
ao desses r
´
o-
tulos, por
´
em, em alguns modelos caixa-preta, a sa
´
ıda num
´
erica nos informa
o grau de confiabilidade que o modelo tem em sua resposta. Por exemplo, se
um modelo for treinado para retornar +1 para os casos positivos e -1 para os
casos negativos, com limiar em 0, isso significa que respostas pr
´
oximas de +1
ou -1 tem maior confiabilidade do que as pr
´
oximas de 0.
Sendo assim,
´
e poss
´
ıvel criar um ranking ordenado por confiabilidade das
sa
´
ıdas do m
´
etodo caixa-preta, partindo do exemplo positivo mais confi
´
avel,
passando por uma regi
˜
ao de incerteza, at
´
e o exemplo negativo mais confi
´
avel.
Regras induzidas por t
´
ecnicas de aprendizado de m
´
aquina simb
´
olico tam-
b
´
em podem atribuir um valor de confiabilidade para suas sa
´
ıdas e, sendo
assim, tamb
´
em
´
e poss
´
ıvel criar um ranking ordenado das sa
´
ıdas do conjunto
de regras.
Na abordagem proposta, as regras utilizadas s
˜
ao n
˜
ao-ordenadas e todas as
regras disparadas para um dado exemplo s
˜
ao avaliadas. A classificac¸
˜
ao
´
e dada
por meio da avaliac¸
˜
ao das matrizes de conting
ˆ
encia das regras disparadas.
As matrizes de conting
ˆ
encia indicam as freq
¨
u
ˆ
encias dos exemplos cobertos
pela regra classificados como verdadeiros positivos, falsos positivos, verdadei-
ros negativos e falsos negativos. Verdadeiros positivos s
˜
ao os exemplos da
classe positiva que foram corretamente classificados pela regra. Falsos positi-
vos s
˜
ao os exemplos da classe negativa que foram incorretamente classificados
pela regra. Analogamente, os verdadeiros negativos s
˜
ao os exemplos da classe
negativa que foram corretamente classificados pela regra e os falsos negati-
vos s
˜
ao os exemplos da classe positiva que foram incorretamente classificados
pela regra.
Para decidir a classificac¸
˜
ao de um novo exemplo, as matrizes de contin-
g
ˆ
encia das regras disparadas s
˜
ao totalizadas, fazendo o c
´
alculo do
´
ındice de
acur
´
acia menos erro das regras, que
´
e calculado subtraindo do percentual de
exemplos cobertos corretamente o percentual de exemplos corretos incorreta-
mente, para cada classe. A classe com o melhor
´
ındice
´
e a escolhida.
Al
´
em de determinar a classificac¸
˜
ao de novos exemplos, os
´
ındices calcu-
M
´
etodo Proposto 63
lados por meio da matriz de conting
ˆ
encia podem ser utilizados para estimar
a probabilidade de que a classificac¸
˜
ao seja correta. Para isso, pode-se utili-
zar freq
¨
u
ˆ
encias calculadas pela Equac¸
˜
ao 4.1, em que ECC s
˜
ao os exemplos
de treinamento cobertos corretamente pelas regras e ECI s
˜
ao os exemplos
cobertos incorretamente.
P rob =
ECC
ECC + ECI
(4.1)
Essa an
´
alise simples pode gerar estimativas pouco confi
´
aveis em termos
absolutos. Uma das formas alternativas encontradas na literatura para a
estimac¸
˜
ao de probabilidades
´
e utilizac¸
˜
ao da correc¸
˜
ao de Laplace. A correc¸
˜
ao
de Laplace adiciona um exemplo virtual para cada classe como pode ser visto
na equac¸
˜
ao 4.2, na qual k
´
e o n
´
umero de classes.
P rob =
ECC + 1
ECC + ECI + k
(4.2)
Essa correc¸
˜
ao visa reduzir o impacto das mudanc¸as que pequenas altera-
c¸
˜
oes em ECC ou ECI podem provocar na estimativa. Por
´
em, como em nosso
m
´
etodo estamos apenas interessados na estimativa da confiabilidade relativa
entre os exemplos apresentados para gerar o ranking, que n
˜
ao
´
e alterado uti-
lizando a correc¸
˜
ao de Laplace, por simplicidade, em nossos experimentos em-
pregamos a Equac¸
˜
ao 4.1.
Com isso em vista, o m
´
etodo proposto visa n
˜
ao somente ter fidelidade de
classificac¸
˜
ao mas tamb
´
em maximizar a similaridade entre os rankings dos
modelos caixa-preta e os rankings das regras extra
´
ıdas.
Para isso, utilizamos uma abordagem inspirada no trabalho de Milar
´
e (2003),
descrito na Sec¸
˜
ao 3.6, em que regras s
˜
ao geradas por algoritmos simb
´
olicos e
otimizadas por algoritmos gen
´
eticos para maximizar a fidelidade.
A diferenc¸a
´
e que, ao inv
´
es de utilizar a fidelidade como func¸
˜
ao de avaliac¸
˜
ao
para a otimizac¸
˜
ao do algoritmo gen
´
etico, criamos uma nova m
´
etrica que mede
a semelhanc¸a entre os rankings para ser utilizada como func¸
˜
ao de avaliac¸
˜
ao.
Nessa abordagem, temos duas variac¸
˜
oes:
As regras da populac¸
˜
ao inicial do algoritmo gen
´
etico s
˜
ao induzidas a par-
tir do conjunto de exemplos originais.
O conjunto de exemplos utilizado para a induc¸
˜
ao do conjunto de regras
da populac¸
˜
ao inicial do algoritmo gen
´
etico
´
e rotulado pelo modelo caixa-
preta.
A Figura 4.1 representa a arquitetura do m
´
etodo RankSim. Nela est
˜
ao
contempladas as duas abordagens.
64 Cap
´
ıtulo 4
4.2 Func¸
˜
ao de Avaliac¸
˜
ao
Para calcular a func¸
˜
ao de avaliac¸
˜
ao do algoritmo gen
´
etico empregado no m
´
e-
todo proposto, definimos uma m
´
etrica para medir a similaridade entre os ran-
kings. Essa m
´
etrica visa atribuir alta similaridade para pares de rankings em
que a somat
´
oria das dist
ˆ
ancias entre as posic¸
˜
oes dos exemplos em um ran-
king em relac¸
˜
ao
`
as posic¸
˜
oes dos exemplos no outro ranking seja m
´
ınima. Essa
m
´
etrica
´
e representada pela Equac¸
˜
ao 4.3:
RankSim = 1
n
i=0
|P osRegras(i) P osCP reta(i)|
n
2
/2
(4.3)
Nessa equac¸
˜
ao, n
´
e o n
´
umero de exemplos utilizados para construir o ran-
king, P osRegras()
´
e uma func¸
˜
ao que retorna a posic¸
˜
ao do exemplo i no ranking
das regras do indiv
´
ıduo avaliado, P osCP reta(i)
´
e a um func¸
˜
ao que retorna
a posic¸
˜
ao do exemplo i no ranking gerado pelo modelo caixa-preta. Desse
modo, RankSim
´
e o valor da func¸
˜
ao de avaliac¸
˜
ao, que retorna 1 para rankings
id
ˆ
enticos, e 0 para o pior caso definido em nossa m
´
etrica, em que os rankings
est
˜
ao invertidos. O c
´
alculo
´
e feito somando-se as diferenc¸as entre P osRegras(i)
e P osCP reta(i) em m
´
odulo para cada exemplo no conjunto de exemplos utili-
zado no treinamento, dividindo o resultado pelo termo n
2
/2, que garante
que o resultado ficar
´
a entre zero e um pois representa o pior caso e, por fim,
subtrai-se esse valor de 1 para que a resposta seja 1 para rankings de maior
similaridade.
Com isso, pudemos obter uma func¸
˜
ao com sa
´
ıda normalizada entre 0 e
1, o que facilita a execuc¸
˜
ao do algoritmo gen
´
etico, e que penaliza fortemente
exemplos que seriam classificados incorretamente por regras com alta con-
fiabilidade e penaliza apenas minimamente pequenas trocas de posic¸
˜
ao em
locais pr
´
oximos no ranking.
4.3 Caracter
´
ısticas do Algoritmo Gen
´
etico
No Algoritmo Gen
´
etico empregado neste trabalho, cada indiv
´
ıduo
´
e um con-
junto de regras.
A populac¸
˜
ao inicial
´
e composta de indiv
´
ıduos que representam subconjun-
tos aleat
´
orios de todas as regras geradas por v
´
arios indutores simb
´
olicos,
`
a
partir de um conjunto de dados que foi utilizado para treinar o modelo caixa-
preta.
Os operadores gen
´
eticos utilizados foram cruzamento e mutac¸
˜
ao. O cru-
zamento
´
e assim
´
etrico, ou seja, duas posic¸
˜
oes s
˜
ao escolhidas, uma para cada
indiv
´
ıduo pai e os filhos s
˜
ao gerados recombinando os segmentos dos pais.
Sendo assim, o tamanho dos indiv
´
ıduos
´
e vari
´
avel. A mutac¸
˜
ao
´
e realizada pela
M
´
etodo Proposto 65
remoc¸
˜
ao ou inclus
˜
ao de regras que n
˜
ao faziam parte dos pais.
Um exemplo de cruzamento
´
e dado na Tabela 4.1. Cada n
´
umero
´
e um
´
ındice para uma das regras da base de regras geral.
Tabela 4.1: Operac¸
˜
ao de Cruzamento
pai1 04 02 | 12 08 14
pai2 03 05 11 | 09 13
filho1 04 02 09 13
filho2 03 05 11 12 08 14
Os par
ˆ
ametros do Algoritmo Gen
´
etico s
˜
ao:
ng - n
´
umero de gerac¸
˜
oes;
ni - n
´
umero de indiv
´
ıduos;
ti - tamanho inicial do indiv
´
ıduo (n
´
umero de regras);
pc - probabilidade de cruzamento;
pm - probabilidade de mutac¸
˜
ao.
Nos experimentos do Cap
´
ıtulo 5 foram utilizados os par
ˆ
ametros ng = 20,
ni = 20, ti = 10, pc = 0.25 e pm = 0.01 em todos os conjuntos de dados.
4.4 Considerac¸
˜
oes Finais
Em nossos experimentos, utilizamos M
´
aquinas de Vetores de Suporte como o
modelo caixa-preta do qual as regras foram extra
´
ıdas. Nesse tipo de modelo
caixa-preta, altos valores em sua sa
´
ıda significam uma maior dist
ˆ
ancia do
exemplo em relac¸
˜
ao
`
a fronteira de decis
˜
ao trac¸ada pelo modelo. Acreditamos
portanto que a otimizac¸
˜
ao da similaridade entre os rankings nesse caso pode
levar
`
a induc¸
˜
ao de regras que aproveitem as caracter
´
ısticas de classificador de
margens largas encontradas nas M
´
aquinas de Vetores de Suporte.
A seguir, no Cap
´
ıtulo 5, ser
˜
ao apresentados esses experimentos e as algu-
mas discuss
˜
oes a respeito dos resultados obtidos.
66 Cap
´
ıtulo 4
Figura 4.1: M
´
etodo RankSim
CAP
´
ITULO
5
Experimentos Realizados
O
s experimentos descritos a seguir investigam o uso de regras pro-
duzidas por sistemas de Aprendizado de M
´
aquina (AM) simb
´
olicos e
otimizadas por Algoritmos Gen
´
eticos (AGs) para explicar o conheci-
mento embutido em modelos de aprendizado de m
´
aquina caixa-preta.
Os experimentos est
˜
ao divididos em duas fases. Na primeira fase, os m
´
e-
todos propostos por Milar
´
e (2003), originais e adaptados para a extrac¸
˜
ao de
regras de SVMs, foram aplicados para realizar a extrac¸
˜
ao de regras de RNAs e
SVMs empregadas para identificar promotores em seq
¨
u
ˆ
encias de nucleot
´
ıdeos
de E. Coli e para identificar junc¸
˜
oes de splice de humanos. Na segunda
fase, foram realizados experimentos com o m
´
etodo RankSim, proposto nessa
tese, para essas mesmas bases e em mais 14 bases do Reposit
´
orio de AM da
UCI (Blake and Merz, 1998).
5.1 Fase I - Estudo preliminar de extrac¸
˜
ao de regras
de RNAs e SVMs por m
´
etodos de AM e AGs
A Sec¸
˜
ao 5.1.1 explica sucintamente os problemas de biologia molecular in-
vestigados. A Sec¸
˜
ao 5.1.2 apresenta os conjuntos de dados utilizados nos
experimentos. A Sec¸
˜
ao 5.1.3 descreve os experimentos conduzidos. Por fim, a
Sec¸
˜
ao 5.1.4 apresenta os resultados obtidos.
5.1.1 Identificac¸
˜
ao de Promotores e S
´
ıtios de Splice
Um dos maiores problemas em biologia molecular
´
e a identificac¸
˜
ao de genes
em seq
¨
u
ˆ
encias de DNA. A alta complexidade e variabilidade dos genes torna
apropriado o uso de t
´
ecnicas de AM, entre elas est
˜
ao as RNAs e SVMs. Duas
abordagens computacionais usualmente empregadas para o reconhecimento
de genes s
˜
ao: busca por sinal e busca por conte
´
udo. A busca por sinal envolve
a localizac¸
˜
ao de marcas na seq
¨
u
ˆ
encia associados com a presenc¸a de um gene.
67
68 Cap
´
ıtulo 5
Dentre essas marcas, podemos citar promotores e junc¸
˜
oes de splice (Craven
and Shavlik, 1994a).
Na maioria dos organismos, exceto os v
´
ırus de RNA, mol
´
eculas de DNA
(
´
Acido Desoxirribonucl
´
eico) codificam as informac¸
˜
oes gen
´
eticas em uma se-
q
¨
u
ˆ
encia de estruturas chamadas nucleot
´
ıdeos, que podem ser de quatro ti-
pos: Adenina (A), Citosina (C), Guanina (G) e Timina (T). Essa informac¸
˜
ao
´
e
organizada em genes posicionados ao longo da mol
´
ecula de DNA. Os genes s
˜
ao
seq
¨
u
ˆ
encias de nucleot
´
ıdeos que s
˜
ao transcritos em mRNA (
´
Acido Ribonucl
´
eico
mensageiro) que
´
e ent
˜
ao traduzido em prote
´
ınas. Esse processo
´
e chamado de
express
˜
ao g
ˆ
enica (Lewin, 2000).
O processo de transcric¸
˜
ao inicia com a ligac¸
˜
ao da RNA-polimerase a um
s
´
ıtio espec
´
ıfico de uma seq
¨
u
ˆ
encia de DNA. Esse s
´
ıtio
´
e chamado promotor. O
promotor
´
e uma seq
¨
u
ˆ
encia de DNA que difere das seq
¨
u
ˆ
encias que s
˜
ao transcri-
tas ou traduzidas, j
´
a que sua func¸
˜
ao
´
e: ser reconhecido por prote
´
ınas. Ent
˜
ao,
ele deve ser longo o suficiente para que possa ser unicamente reconhecido. O
tamanho apropriado varia com o tamanho do genoma. Por exemplo, em um
genoma bacterial, doze pares de bases constituem um sinal promotor apropri-
ado.
O problema de reconhecimento de promotores est
´
a relacionado a identi-
ficar se uma dada seq
¨
u
ˆ
encia de tamanho fixo cont
´
em um promotor (Y) ou
n
˜
ao (N). Para realizar essa tarefa, classificadores baseados em RNAs podem ser
induzidos.
A express
˜
ao g
ˆ
enica em organismos eucariotos
´
e diferente da dos organis-
mos procariotos. Genes eucariotos s
˜
ao compostos de segmentos alternados
de exons e introns. Exons s
˜
ao regi
˜
oes que codificam a prote
´
ına final. Introns
intermediam os exons e n
˜
ao codificam prote
´
ınas. O processo de express
˜
ao
g
ˆ
enica em eucariotos inclui um passo adicional, a eliminac¸
˜
ao de introns da
mol
´
ecula de mRNA. Esse processo
´
e conhecido como splicing. A fronteira en-
tre exons e introns
´
e chamada junc¸
˜
ao de splice (ou s
´
ıtios de splice).
O problemas do reconhecimento de junc¸
˜
oes de splice tratado nesse traba-
lho
´
e a identificac¸
˜
ao de tr
ˆ
es tipos de seq
¨
u
ˆ
encias de tamanho fixo: seq
¨
u
ˆ
encias
contendo um s
´
ıtio intron/exon (IE), um s
´
ıtio exon/intron (EI) e seq
¨
u
ˆ
encias que
n
˜
ao cont
´
em um s
´
ıtio de splice.
5.1.2 Conjuntos de Dados
O conjunto de dados promoters (Promoter Gene Sequences Database) utilizado
nesse trabalho foi extra
´
ıdo do Reposit
´
orio de AM da UCI (Blake and Merz,
1998). Esse conjunto de dados cont
´
em 106 exemplos. Cada um dos 57 atri-
butos pode assumir um de quatro valores representando os nucleot
´
ıdeos (A,
Experimentos Realizados 69
C, T, G). Esse
´
e um problema de classificac¸
˜
ao bin
´
aria, o que significa que cada
exemplo
´
e classificado como sendo um promotor ou n
˜
ao. Esse conjunto de
dados
´
e balanceado, tendo 50% de exemplos em cada classe.
Os conjuntos de dados spliceN e spliceEI foram adaptados do “Splice-
junction Gene Sequences Database”, tamb
´
em extra
´
ıdo do Reposit
´
orio de AM
da UCI. O conjunto de dados spliceEI cont
´
em 1527 exemplos de s
´
ıtios de
splice divididos em duas classes: “Exon-Intron” 50% e “Intron-Exon” 50%. O
conjunto de dados spliceN cont
´
em 3175 exemplos divididos em duas classes:
“S
´
ıtio de Splice” 50% e “N
˜
ao S
´
ıtio de Splice” 50%. Em ambos os conjuntos
de dados, cada um dos 60 atributos pode assumir valores representando um
dos quatro nucleot
´
ıdeos (A, C, T, G). Exemplos com atributos desconhecidos
foram removidos.
5.1.3 Experimentos
Os tr
ˆ
es conjuntos de dados foram divididos utilizando a metodologia k-fold
stratified cross-validation (Weiss and Kulikowski, 1991), com k = 10, obtendo
10 conjuntos de treinamento e 10 conjuntos de teste para cada conjunto de
dados. Em seguida, cada conjunto de treinamento foi subdividido em um
conjunto de treinamento menor, contendo 90 dos exemplos de treinamento, e
conjunto de validac¸
˜
ao, contendo 10 dos exemplos de treinamento.
Os algoritmos simb
´
olicos C4.5, C4.5rules e CN2 foram executados com seus
valores de par
ˆ
ametros padr
˜
ao em todas as partic¸
˜
oes para todos os conjuntos
de dados. Como resultado, 90 classificadores foram induzidos. O erro m
´
edio
estimado dos 10 classificadores de cada sistema de AM simb
´
olico foi medido
usando o conjunto de teste.
V
´
arias redes MLP foram treinadas com o algoritmo backpropagation with
momentum utilizando seus par
ˆ
ametros padr
˜
ao, uma para cada conjunto de
dados. A mesma metodologia de validac¸
˜
ao-cruzada empregada para os sis-
temas de AM simb
´
olico foi utilizada. A topologia das RNAs treinadas com o
conjunto de dados promoters continha uma camada de entrada com 228 uni-
dades, uma camada escondida com 456 unidades e uma camada de sa
´
ıda
com uma
´
unica unidade. A topologia para as RNAs treinadas para ambos os
conjuntos de dados spliceN e spliceEI cont
´
em uma camada de entrada com
240 unidades, uma camada escondida com 480 unidades e uma camada de
sa
´
ıda com uma
´
unica unidade. Para realizar os experimentos, o simulador
SNNS foi empregado (Zell, 1995). Para determinar a classe da sa
´
ıda de uma
RNA, uma func¸
˜
ao limite foi empregada. A classe da sa
´
ıda da RNA
´
e 1 se o valor
do n
´
o de sa
´
ıda for maior que 0.5, e a classe ser
´
a 0, caso contr
´
ario.
SVMs com kernel gaussiano e par
ˆ
ametros padr
˜
ao foram treinadas, uma
70 Cap
´
ıtulo 5
para cada conjunto de dados. Foi utilizado para isso o indutor SVMTorch (Col-
lobert and Bengio, 2001).
Em seguida, os m
´
etodos descritos na Sec¸
˜
ao 3.6 foram empregados para
extrair regras a partir das RNAs treinadas. Os resultados foram medidos e tes-
tes de hip
´
oteses foram realizados. Utilizando uma adaptac¸
˜
ao desses m
´
etodos
para SVMs, os experimentos foram realizados novamente para extrair regras a
partir das SVMs treinadas para comparar os resultados. Esses resultados s
˜
ao
apresentados na pr
´
oxima sec¸
˜
ao.
5.1.4 Resultados
A Tabela 5.1 mostra a taxa de erro obtida pelas RNAs, SVMs e os sistemas de
AM simb
´
olico C4.5, C4.5rules e CN2.
Os resultados dos sistemas de AM simb
´
olico com os conjuntos de dados
originais foram utilizados apenas para comparac¸
˜
ao com as RNAs e SVMs. Os
melhores resultados est
˜
ao em negrito. Pode ser observado que a RNA foi me-
lhor que os sistemas de AM simb
´
olicos para os conjuntos de dados promoters
e spliceEI. Nesses mesmos conjuntos de dados, a SVM foi melhor que a RNA.
O C4.5, um dos sistemas de AM simb
´
olico, obteve o melhor resultado para o
conjunto de dados spliceN.
Tabela 5.1: Taxa de Erro (m
´
edia e desvio padr
˜
ao)(%).
promoters spliceEI spliceN
C4.5 16.91 ± 2.25 4.65 ± 0.54 4.16 ± 0.37
C4.5rules 15.18 ± 2.11 4.91 ± 0.40 4.72 ± 0.46
CN2 26.27 ± 4.21 5.77 ± 0.77 5.79 ± 0.46
RNA 14.09 ± 3.16 4.00 ± 0.44 6.55 ± 0.53
SVM 12.36 ± 2.16 2.88 ± 0.15 5.48 ± 0.36
A taxa de infidelidade entre os m
´
etodos de extrac¸
˜
ao de conhecimento e as
RNAs e SVMs foi medido usando o conjunto de teste. A taxa de infidelidade
´
e a porcentagem dos exemplos do conjunto de teste em que a classificac¸
˜
ao
feita por uma RNA ou SVM discorda da classificac¸
˜
ao feita pelo m
´
etodo utilizado
para explicar o comportamento da RNA ou SVM. A Tabela 5.2 mostra a taxa
de infidelidade obtida pelos m
´
etodos de extrac¸
˜
ao de conhecimento de RNAs
e a Tabela 5.3 mostra a taxa de infidelidade obtida pelos mesmos m
´
etodos,
adaptados para extrac¸
˜
ao de conhecimento de SVMs. AGPP
´
e o m
´
etodo baseado
em AGs com a fase de p
´
os-processamento descrita na Sec¸
˜
ao 3.6.2.
A compreensibilidade sint
´
atica do conhecimento extra
´
ıdo pelos m
´
etodos de
extrac¸
˜
ao de conhecimento foi medida utilizando o n
´
umero de regras induzi-
das e o n
´
umero m
´
edio de condic¸
˜
oes induzidas por regra. As tabelas 5.4 e 5.5
mostram o n
´
umero m
´
edio de regras induzidas e as tabelas 5.6 e 5.7 mostram
Experimentos Realizados 71
o n
´
umero de condic¸
˜
oes por regra induzida, para os casos de RNAs e SVMs res-
pectivamente. Em todas as tabelas os melhores resultados est
˜
ao em negrito.
Tabela 5.2: Taxa de infidelidade (RNAs - m
´
edia e desvio padr
˜
ao)(%).
promoters spliceEI spliceN
C4.5 33.00 ± 4.28 5.96 ± 0.59 6.90 ± 0.38
C4.5rules 28.45 ± 4.32 6.48 ± 0.42 6.90 ± 0.42
CN2 30.09 ± 4.22 6.22 ± 0.93 8.66 ± 0.55
AG 28.18 ± 4.52 6.15 ± 0.56 9.10 ± 0.72
AGPP 27.18 ± 4.11 6.55 ± 0.65 10.45 ± 0.89
Tabela 5.3: Taxa de infidelidade (SVMs - m
´
edia e desvio padr
˜
ao)(%).
promoters spliceEI spliceN
C4.5 22.63 ± 3.21 3.80 ± 0.32 5.64 ± 0.32
C4.5rules 17.09 ± 2.78 5.31 ± 0.71 6.55 ± 0.40
CN2 23.54 ± 4.89 8.12 ± 0.58 7.40 ± 0.43
AG 17.00 ± 4.00 4.13 ± 0.49 6.24 ± 0.55
AGPP 26.27 ± 4.67 5.37 ± 0.74 8.54 ± 1.69
Tabela 5.4: N
´
umero de regras induzidas (RNAs - m
´
edia e desvio padr
˜
ao).
promoters spliceEI spliceN
C4.5 15.70 ± 0.54 33.40 ± 1.40 85.90 ± 1.85
C4.5rules 6.90 ± 0.50 21.90 ± 0.84 60.40 ± 1.26
CN2 12.60 ± 0.34 44.60 ± 1.34 107.20 ± 0.90
AG 21.10 ± 2.46 37.60 ± 5.33 46.00 ± 11.06
AGPP 6.80 ± 0.74 16.00 ± 2.65 20.40 ± 4.46
Tabela 5.5: N
´
umero de regras induzidas (SVMs - m
´
edia e desvio padr
˜
ao).
promoters spliceEI spliceN
C4.5 15.10 ± 1.19 34.00 ± 0.77 85.90 ± 2.41
C4.5rules 7.30 ± 0.47 22.00 ± 0.56 61.30 ± 1.40
CN2 12.30 ± 0.21 41.80 ± 0.76 112.00 ± 1.37
AG 15.30 ± 1.96 50.70 ± 6.73 89.90 ± 5.82
AGPP 5.20 ± 0.92 16.20 ± 2.57 31.20 ± 3.82
O teste de hip
´
oteses 10-fold cross-validated paired test Dietterich (1997) foi
utilizado para comparar as taxas de infidelidade e compreensibilidade entre os
m
´
etodos de extrac¸
˜
ao de conhecimento. De acordo com esse teste, a diferenc¸a
entre dois algoritmos
´
e estatisticamente significante com 95% de confiabili-
dade, se o resultado desse teste
´
e maior do que 2.262 em valor absoluto.
72 Cap
´
ıtulo 5
Tabela 5.6: N
´
umero m
´
edio de condic¸
˜
oes por regra induzida (RNAs - m
´
edia e
desvio padr
˜
ao).
promoters spliceEI spliceN
C4.5 2.27 ± 0.03 4.21 ± 0.08 4.06 ± 0.04
C4.5rules 1.40 ± 0.03 2.23 ± 0.03 2.39 ± 0.02
CN2 1.98 ± 0.02 2.64 ± 0.03 3.30 ± 0.02
AG 2.01 ± 0.03 3.15 ± 0.08 3.45 ± 0.03
AGPP 1.78 ± 0.74 2.45 ± 0.13 2.77 ± 0.06
Tabela 5.7: N
´
umero m
´
edio de condic¸
˜
oes por regra induzida (SVMs - m
´
edia e
desvio padr
˜
ao).
promoters spliceEI spliceN
C4.5 2.24 ± 0.07 4.20 ± 0.05 4.06 ± 0.05
C4.5rules 1.52 ± 0.05 2.24 ± 0.04 2.37 ± 0.04
CN2 1.96 ± 0.02 2.59 ± 0.03 3.27 ± 0.02
AG 1.99 ± 0.07 3.42 ± 0.19 3.32 ± 0.21
AGPP 1.78 ± 0.09 2.30 ± 0.04 2.70 ± 0.14
As Tabelas 5.8 e 5.9 mostram os resultados do 10-fold cross-validated pai-
red test para RNAs e SVMs respectivamente. O s
´
ımbolo indica que o m
´
etodo
baseado em AGs superou o m
´
etodo baseado em AM simb
´
olico enquanto o
s
´
ımbolo indica que a superac¸
˜
ao tem um n
´
ıvel de confianc¸a maior que 95. Por
outro lado, os s
´
ımbolos e indicam que o m
´
etodo baseado em AM simb
´
olico
superou o m
´
etodo baseado em AG.
Comec¸ando com as RNAs, em relac¸
˜
ao
`
a taxa de infidelidade, pode ser visto
que o m
´
etodo baseado em AGs foi melhor que as abordagens baseadas em
AM simb
´
olico para o conjunto de dados promoters, embora n
˜
ao com 95 de
confiabilidade. Para o conjunto de dados spliceN, as abordagens baseadas
em AM simb
´
olico foram melhores que o m
´
etodo baseado em AGs com 95% de
confianc¸a em quatro experimentos. Para o conjunto de dados spliceEI, os
resultados foram similares para todos os m
´
etodos.
Olhando o n
´
umero de regras, o m
´
etodo baseado em AGs foi melhor para
ambos os conjuntos de dados spliceEI e spliceN. Para o conjunto de dados
promoters, as abordagens simb
´
olicas foram melhores do que o m
´
etodo baseado
em AGs em tr
ˆ
es experimentos e piores em dois deles, considerando apenas os
experimentos em que o teste de hip
´
oteses apresentou 95% de confiabilidade.
Finalmente, levando em considerac¸
˜
ao o n
´
umero de condic¸
˜
oes por regra, os
resultados obtidos foram similares para todos os conjuntos de dados.
No caso das SVMs, em relac¸
˜
ao
`
a taxa de infidelidade, pode ser visto que
o m
´
etodo baseado em AGs foi melhor que as abordagens baseadas em AM
simb
´
olico para o conjunto de dados promoters e sua extens
˜
ao com a fase de
Experimentos Realizados 73
Tabela 5.8: Resultados do 10-Fold Cross-Validated Paired t Test (RNAs).
promoters
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
spliceEI
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
spliceN
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
p
´
os-processamento (AGPP) foi pior em todos os casos, embora n
˜
ao com 95%
de confiabilidade. Para o conjunto de dados spliceEI, o m
´
etodo baseado em
AGs foi melhor que as abordagens baseadas em AM simb
´
olico com 95% de
confiabilidade em dois experimentos e pior em um deles. Para o conjunto de
dados spliceN, o m
´
etodo baseado em AGs foi melhor com 95% de confiabilidade
em apenas um experimento.
Quanto ao n
´
umero de regras, o m
´
etodo baseado em AGs com a fase de p
´
os-
processamento (AGPP) foi melhor em todos experimentos em todos os con-
juntos de dados com 95% de confiabilidade. A vers
˜
ao sem a fase de p
´
os-
processamento foi pior em quase todos os experimentos. Somente no con-
junto de dados spliceN o m
´
etodo baseado em AGs sem o p
´
os-processamento
foi melhor em um dos experimentos.
Assim como no caso das RNAs, levando em considerac¸
˜
ao o n
´
umero de
condic¸
˜
oes por regra, os resultados obtidos foram similares para todos os con-
juntos de dados.
Por fim, o 10-Fold Cross-Validated Paired t Test foi utilizado para comparar
os m
´
etodos de extrac¸
˜
ao de conhecimento quando utilizados para extrair regras
de RNAs e quando utilizados para extrair regras de SVMs.
A Tabela 5.10 apresenta os resultados destes testes. O s
´
ımbolo
´
e uti-
lizado para indicar a abordagem que obteve o melhor resultado e o s
´
ımbolo
indica que o resultado
´
e estatisticamente significante com mais de 95% de
confiabilidade.
´
E interessante notar que, em relac¸
˜
ao
`
a taxa de infidelidade, quase todos
os experimentos tiveram melhores resultados quando aplicados a SVMs, sendo
74 Cap
´
ıtulo 5
Tabela 5.9: Resultados do 10-Fold Cross-Validated Paired t Test (SVMs).
promoters
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
spliceEI
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
spliceN
Infidelidade No. de Regras Cond./Regra
AG AGPP AG AGPP AG AGPP
C4.5
C4.5rules
CN2
Tabela 5.10: Comparac¸
˜
ao da aplicac¸
˜
ao de m
´
etodos de extrac¸
˜
ao de regras em
RNAs e em SVMs).
promoters
Infidelidade No. de Regras Cond./Regra
RNA SVM RNA SVM RNA SVM
C4.5
C4.5rules
CN2
AG
AGPP
spliceEI
Infidelidade No. de Regras Cond./Regra
RNA SVM RNA SVM RNA SVM
C4.5
C4.5rules
CN2
AG
AGPP
spliceN
Infidelidade No. de Regras Cond./Regra
RNA SVM RNA SVM RNA SVM
C4.5
C4.5rules
CN2
AG
AGPP
que 5 obtiveram 95% de confiabilidade no teste de hip
´
oteses. Apenas um expe-
rimento, no conjunto de dados spliceEI, obteve um melhor resultado quando
aplicado
`
a RNAs, e mesmo assim, n
˜
ao com 95% de confiabilidade.
Em relac¸
˜
ao ao n
´
umero de regras, os m
´
etodos foram melhores quando apli-
Experimentos Realizados 75
cados a RNAs nos conjuntos de dados spliceEI e spliceN e piores para o con-
junto promoters, por
´
em, de todos os experimentos, apenas dois obtiveram 95%
de confiabilidade.
Finalmente, em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, os resultados
foram similares e nenhum experimento apresentou 95% de confiabilidade.
Esses resultados nos motivaram a investigar melhor a aplicac¸
˜
ao de AGs
para otimizar regras geradas por sistemas de AM simb
´
olico para a extrac¸
˜
ao de
regras. A comparac¸
˜
ao entre a extrac¸
˜
ao de regras de RNAs e SVMs utilizando
os m
´
etodos propostos por Milar
´
e (2003) foi bem interessante. Notou-se que
em relac¸
˜
ao
`
a fidelidade, os m
´
etodos obtiveram melhores resultados quando
aplicados a SVMs.
Uma poss
´
ıvel explicac¸
˜
ao para isso
´
e o fato de as SVMs terem tido uma
acur
´
acia maior na classificac¸
˜
ao do que as RNAs. Observou-se ent
˜
ao que a
fidelidade dos m
´
etodos
´
e elevada em situac¸
˜
oes em que ambos os sistemas de
aprendizado, caixa-preta e simb
´
olicos, t
ˆ
em acur
´
acia elevada na classificac¸
˜
ao
do conjunto de dados original. Por
´
em, nesses casos em que a SVM tem alta
acur
´
acia de classificac¸
˜
ao, observa-se que o conjunto de dados rotulado pela
SVM
´
e muito parecido com o conjunto de dados original e, sendo assim, as
regras extra
´
ıdas, apesar da alta fidelidade, podem n
˜
ao refletir a forma com a
qual a SVM classifica os exemplos.
Esse foi um dos fatores que nos motivaram a investir na investigac¸
˜
ao da
extrac¸
˜
ao de regras de SVMs, pois na
´
epoca n
˜
ao encontramos nenhum trabalho
publicado com esse tema.
5.2 Fase II - Experimentos com o m
´
etodo RankSim
Nessa fase foram realizados experimentos com diversos conjuntos de dados
utilizando o m
´
etodo RankSim para extrair regras dos modelos induzidos por
SVMs. Nesses experimentos, o RankSim foi utilizado no modo classe original,
isto
´
e, sem que a SVM rotulasse os exemplos para a gerac¸
˜
ao das regras a
serem otimizadas pelo algoritmo gen
´
etico. Nosso objetivo
´
e verificar se, com
a informac¸
˜
ao obtida por meio da comparac¸
˜
ao da similaridade dos rankings,
´
e
poss
´
ıvel extrair regras com boa fidelidade e boa acur
´
acia, mesmo quando n
˜
ao
h
´
a r
´
otulos atribu
´
ıdos pela SVM aos exemplos.
A seguir, s
˜
ao apresentados os resultados para os 17 conjuntos de dados
utilizados, retirados do Reposit
´
orio de AM da UCI (Blake and Merz, 1998).
Na Tabela 5.11 h
´
a um resumo das caracter
´
ısticas desses conjuntos. Assim
como na Fase I, os conjuntos de dados foram divididos utilizando a metodo-
logia k-fold stratified cross-validation, com k = 10, obtendo 10 conjuntos de
treinamento e 10 conjuntos de teste para cada conjunto de dados.
76 Cap
´
ıtulo 5
Para cada conjunto de dados, tr
ˆ
es tabelas s
˜
ao apresentadas. Na primeira
tabela, comparamos a acur
´
acia de tr
ˆ
es indutores simb
´
olicos, da SVM e das
regras extra
´
ıdas pelo RankSim. Para cada uma dessas comparac¸
˜
oes foi utili-
zado o teste de hip
´
oteses 10-fold cross-validated paired test, descrito na sec¸
˜
ao
anterior. Por fim, a fidelidade
´
e apresentada na
´
ultima coluna. Na segunda ta-
bela,
´
e apresentado o n
´
umero de regras geradas por cada indutor simb
´
olico e
o teste de hip
´
oteses tamb
´
em
´
e utilizado para realizar a comparac¸
˜
ao com as re-
gras extra
´
ıdas. Analogamente, na terceira tabela, o n
´
umero de condic¸
˜
oes por
regra de cada indutor
´
e apresentado e a mesma metodologia de comparac¸
˜
ao
´
e
utilizada.
Tabela 5.11: Descric¸
˜
ao dos Conjuntos de Dados
Conjunto # Exemplos # Atributos Classe Classe Maj. (%)
breast 683 9 (positive,negative) 65.00
bupa 345 6 (positive,negative) 57.98
ecoli 336 7 (iMU,remainder) 89.58
flag 194 28 (white,remainder) 91.24
flare 1066 10 (positive,negative) 79.41
Glass 214 9 (Ve-win-float-proc,rem.) 92.06
Haberman 306 3 (Die,Survive) 82.93
heart 267 22 (positive,negative) 55.55
pima 768 8 (1,0) 65.23
ionosphere 351 33 (positive,negative) 64.10
New-thyroid 215 5 (hypo,remainder) 83.72
Post-operative 90 8 (S,remainder) 73.33
Satimage 6435 36 (4,remainder) 90.27
SpliceN 3175 60 (positive,negative) 50.00
SpliceEI 1527 60 (EI,IE) 50.00
promoters 106 57 (positive,negative) 50.00
German 1000 20 (Bad,Good) 70.00
5.2.1 Conjunto breast
Como pode ser observado na Tabela 5.12, para esse conjunto de dados, to-
dos os classificadores, com excec¸
˜
ao do CN2, tiveram uma boa acur
´
acia, com
um erro m
´
edio baixo. O RankSim, al
´
em de obter uma boa acur
´
acia, tamb
´
em
obteve uma boa fidelidade. Isso significa que ele conseguiu, por meio da simi-
laridade dos rankings, escolher boas regras, em sua maioria provenientes do
C4.5 e C4.5rules, uma vez que a acur
´
acia do CN2 foi baix
´
ıssima. No teste de
hip
´
oteses, apenas o CN2 foi pior em acur
´
acia, com 95% de confiabilidade, em
relac¸
˜
ao ao RankSim. A diferenc¸a de acur
´
acia entre o RankSim e os outros n
˜
ao
´
e significativa.
Em relac¸
˜
ao ao n
´
umeros de regras, apresentados na Tabela 5.13, novamente
o CN2 foi pior, com 95% de confiabilidade em relac¸
˜
ao ao RankSim. Os outros
Experimentos Realizados 77
Tabela 5.12: Conjunto breast - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 4.68 4.83 56.48 5.27 4.98 5.26
Desvio Padr
˜
ao 0.47 0.54 0.59 0.80 1.25 0.98
Teste T -0.26 -0.15 33.04 0.20
sistemas induziram menos regras do que o RankSim, mas n
˜
ao tiveram 95%
de confiabilidade no teste de hip
´
oteses.
Tabela 5.13: Conjunto breast - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 10.60 9.40 15.30 11.90
Desvio Padr
˜
ao 0.56 0.40 0.47 1.35
Teste T -0.83 -1.73 2.68
Em condic¸
˜
oes por regra, a Tabela 5.14 mostra que o RankSim foi melhor
que o C4.5 e pior que o C4.5rules, com 95% de confiabilidade, e foi equivalente
ao CN2.
Tabela 5.14: Conjunto breast - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 3.98 2.32 2.72 2.85
Desvio Padr
˜
ao 0.12 0.05 0.04 0.17
Teste T 8.41 -2.79 -0.76
5.2.2 Conjunto bupa
Neste conjunto de dados houve um equil
´
ıbrio estat
´
ıstico na acur
´
acia de todos
os classificadores, por
´
em, o melhor foi o C4.5rules, como pode ser verificado
na Tabela 5.15.
´
E interessante notar que nesse conjunto de dados, a taxa de
fidelidade do RankSim
´
e maior que sua taxa de acur
´
acia, apesar de ambos
valores serem relativamente altos.
Tabela 5.15: Conjunto bupa - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 35.08 31.29 34.44 37.97 36.29 31.89
Desvio Padr
˜
ao 2.55 1.79 3.12 2.25 1.83 1.85
Teste T -0.36 -1.83 -0.50 0.49
De acordo com a Tabela 5.16, em relac¸
˜
ao ao n
´
umero de regras, o C4.5rules
78 Cap
´
ıtulo 5
foi melhor que o RankSim com 95% de confiabilidade. Os outros indutores
foram piores que o RankSim.
Tabela 5.16: Conjunto bupa - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 29.50 15.70 31.80 28.10
Desvio Padr
˜
ao 1.97 1.10 0.70 3.10
Teste T 0.83 -4.78 1.31
A Tabela 5.17 mostra que, em relac¸
˜
ao
`
a quantidade de condic¸
˜
oes por regra,
o RankSim foi melhor que o C4.5 e pior que o C4.5rules e CN2, todos com
95% de confiabilidade.
Tabela 5.17: Conjunto bupa - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 5.96 3.11 3.37 4.20
Desvio Padr
˜
ao 0.22 0.07 0.04 0.16
Teste T 20.22 -6.93 -5.00
5.2.3 Conjunto ecoli
Assim como no conjunto bupa, pode se verificar no conjunto ecoli, na Ta-
bela 5.18, que a fidelidade do m
´
etodo RankSim foi maior que sua acur
´
acia,
por
´
em, nesse caso, tanto a acur
´
acia quanto a fidelidade apresentam boas ta-
xas. Comparativamente, a acur
´
acia do RankSim foi pior que a do C4.5 com
95% de confiabilidade, pior que a do C4.5rules, por
´
em, foi melhor que a do
CN2 com 95% de confiabilidade e foi praticamente equivalente
`
a da SVM no
teste de hip
´
oteses T.
Tabela 5.18: Conjunto ecoli - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 7.74 8.94 30.53 11.02 10.41 5.35
Desvio Padr
˜
ao 1.27 1.19 2.99 0.91 1.01 1.45
Teste T -2.87 -1.34 6.06 0.41
Como pode ser visto na Tabela 5.19, nesse conjunto de dados, o RankSim
foi melhor que todos os outros indutores em relac¸
˜
ao
`
a quantidade de regras
induzidas, sendo que em relac¸
˜
ao ao C4.5 a diferenc¸a
´
e estatisticamente signi-
ficante com 95% de confiabilidade.
Experimentos Realizados 79
Tabela 5.19: Conjunto ecoli - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 10.00 7.40 14.40 6.80
Desvio Padr
˜
ao 1.24 0.50 0.34 0.79
Teste T 2.63 0.97 7.58
J
´
a em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, a Tabela 5.20 mostra que
o RankSim ganha apenas do C4.5, com 95% de confiabilidade, e perde para
os outros indutores.
Tabela 5.20: Conjunto ecoli - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 4.31 2.47 2.45 2.74
Desvio Padr
˜
ao 0.31 0.10 0.04 0.30
Teste T 7.82 -0.98 -0.97
5.2.4 Conjunto flag
Na Tabela 5.21 vemos mais um conjunto em que a fidelidade foi maior do que
a acur
´
acia do m
´
etodo RankSim. A acur
´
acia do RankSim nesse conjunto de
dados foi maior do que a dos dois indutores simb
´
olicos e pior do que a do
C4.5rules, por
´
em nenhum resultado obteve 95% de confiabilidade no teste T.
Tabela 5.21: Conjunto flag - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 15.45 10.79 14.81 10.84 11.84 6.16
Desvio Padr
˜
ao 2.01 1.17 0.12 1.45 1.72 1.46
Teste T 1.50 -0.82 1.66 -0.59
Em relac¸
˜
ao ao n
´
umero de regras,
´
e poss
´
ıvel verificar, na Tabela 5.22, que
o RankSim foi inferior ao C4.5 e superior ao CN2 com 95% de confiabilidade.
Em relac¸
˜
ao ao C4.5rules, o RankSim foi inferior, mas n
˜
ao com 95% de confia-
bilidade.
Tabela 5.22: Conjunto flag - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 1.00 8.50 17.80 9.80
Desvio Padr
˜
ao 0.00 0.69 0.42 0.92
Teste T -9.60 -1.13 7.75
80 Cap
´
ıtulo 5
Na Tabela 5.23 verifica-se que, em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por
regra, no conjunto flag, o RankSim foi superior em todos os casos e o resultado
do teste T atestou 95% de confiabilidade para o C4.5 e CN2.
Tabela 5.23: Conjunto flag - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 3.00 1.86 2.25 1.70
Desvio Padr
˜
ao 0.00 0.09 0.05 0.09
Teste T 14.24 2.06 7.35
5.2.5 Conjunto flare
Na Tabela 5.24
´
e poss
´
ıvel notar que, apesar do grande erro de classificac¸
˜
ao
das regras geradas pelo CN2, o m
´
etodo RankSim conseguiu filtrar essas re-
gras e selecionar as regras que, pela similaridade de rankings, tivessem mais
chance de ter uma boa fidelidade. Nota-se tamb
´
em que a acur
´
acia do m
´
etodo
RankSim foi a maior entre todos os classificadores, com 95% de confiabilidade
em relac¸
˜
ao ao C4.5 e ao CN2.
Tabela 5.24: Conjunto flare - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 19.51 18.57 80.52 18.39 17.35 7.41
Desvio Padr
˜
ao 0.49 0.91 2.13 0.50 0.80 1.17
Teste T 3.97 1.91 28.86 1.56
´
E interessante notar tamb
´
em, na Tabela 5.25, que o CN2, que foi o pior
classificador,
´
e tamb
´
em o com o maior n
´
umero de regras. Isso significa que
apesar da abundancia das regras do CN2, que tiveram uma acur
´
acia ruim,
o RankSim conseguiu evitar a selec¸
˜
ao dessas regras. Quanto ao n
´
umero de
regras do SimRank, ele s
´
o teve menos regras que o CN2, sendo superado nessa
m
´
etrica pelo C4.5 com 95% de confiabilidade.
Tabela 5.25: Conjunto flare - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 2.80 13.00 83.00 14.40
Desvio Padr
˜
ao 1.80 0.73 1.79 1.80
Teste T -4.81 -0.68 27.49
No n
´
umero de condic¸
˜
oes por regra, ilustrado na Tabela 5.26, o RankSim
apenas foi melhor que o CN2, com 95% de confiabilidade. Perdendo para o
C4.5rules, com 95% de confiabilidade, e para o C4.5.
Experimentos Realizados 81
Tabela 5.26: Conjunto flare - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 3.01 2.13 3.55 3.07
Desvio Padr
˜
ao 0.01 0.12 0.02 0.09
Teste T -0.69 -5.73 5.37
5.2.6 Conjunto glass
No conjunto glass, a Tabela 5.27 mostra que a acur
´
acia do RankSim foi infe-
rior
`
a dos outros indutores. Sua fidelidade, foi um pouco melhor do que sua
acur
´
acia.
Tabela 5.27: Conjunto glass - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 8.42 7.97 16.23 7.92 16.47 14.13
Desvio Padr
˜
ao 1.19 1.24 0.12 0.69 4.17 5.30
Teste T -2.01 -2.19 -0.06 -1.99
Por
´
em, nesse conjunto o m
´
etodo RankSim foi o que teve o menor n
´
umero
de regras, como pode ser visto na Tabela 5.28.
Tabela 5.28: Conjunto glass - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 8.00 7.80 13.80 7.70
Desvio Padr
˜
ao 0.54 0.51 0.29 0.45
Teste T 0.41 0.15 14.08
Em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, a Tabela 5.29 indica que o
m
´
etodo RankSim foi equivalente ao C4.5rules, melhor que o C4.5 e pior que o
CN2. Esses
´
ultimos dois resultados com 95% de confiabilidade.
Tabela 5.29: Conjunto glass - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 4.13 2.36 1.85 2.55
Desvio Padr
˜
ao 0.14 0.08 0.02 0.12
Teste T 8.80 -1.70 -5.46
5.2.7 Conjunto haberman
Esse resultado em especial
´
e bem interessante pois, como pode ser visto na
Tabela 5.30, o m
´
etodo RankSim teve uma acur
´
acia melhor do que todos os
82 Cap
´
ıtulo 5
outros indutores, sendo que, para o C4.5 e C4.5rules, o teste T relatou mais
do que 95% de confiabilidade. E, novamente, o erro m
´
edio da fidelidade foi
menor do que o erro m
´
edio da acur
´
acia.
Tabela 5.30: Conjunto haberman - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 29.74 29.74 29.82 28.15 25.81 13.44
Desvio Padr
˜
ao 2.03 2.03 1.64 2.03 2.08 2.23
Teste T 2.46 2.46 1.25 1.37
Conforme exposto na Tabela 5.31, o n
´
umero de regras induzidas pelo Rank-
Sim por
´
em foi bem acima do n
´
umero de regras induzidas pelo C4.5 e C4.5rules
e bem abaixo do n
´
umero de regras induzido pelo CN2, todos os resultados com
95% de confiabilidade no teste T.
Tabela 5.31: Conjunto haberman - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 3.10 4.40 51.20 15.10
Desvio Padr
˜
ao 0.38 0.27 1.26 1.22
Teste T -12.42 -8.70 16.69
Em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, na Tabela 5.32, o RankSim
foi melhor que o CN2 e pior que os demais, com 95% de confiabilidade.
Tabela 5.32: Conjunto haberman - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 2.54 1.96 3.25 3.02
Desvio Padr
˜
ao 0.13 0.08 0.02 0.06
Teste T -3.28 -11.10 3.30
5.2.8 Conjunto heart
Como pode ser visto na Tabela 5.33, o conjunto heart
´
e um dos poucos em que
a fidelidade foi pior do que a acur
´
acia do m
´
etodo. Os resultados sugerem que
isso se deve
`
a baixa acur
´
acia alcanc¸ada pela SVM nesse conjunto de dados e
os indutores simb
´
olicos, por terem induzido boas regras, n
˜
ao geraram regras
que resultassem em uma alta similaridade.
Conforme a Tabela 5.34, no conjunto heart, o m
´
etodo RankSim apresentou
o maior n
´
umero de regras entre os indutores simb
´
olicos, em dois casos o
resultado foi significativo com 95% de confiabilidade.
Experimentos Realizados 83
Tabela 5.33: Conjunto heart - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 22.59 19.26 46.32 40.00 20.74 36.30
Desvio Padr
˜
ao 1.95 2.33 1.87 2.46 2.42 2.69
Teste T 0.86 -0.74 8.97 8.05
Tabela 5.34: Conjunto heart - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 17.80 12.70 20.40 23.00
Desvio Padr
˜
ao 0.79 0.93 0.58 2.13
Teste T -2.55 -5.21 -1.13
No n
´
umero de condic¸
˜
oes por regra, pode ser visto na Tabela 5.35 que o
RankSim s
´
o foi melhor que o C4.5. Em todos os resultados a signific
ˆ
ancia
teve 95% de confiabilidade.
Tabela 5.35: Conjunto heart - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 4.87 2.89 3.23 3.56
Desvio Padr
˜
ao 0.12 0.06 0.03 0.12
Teste T 13.54 -4.69 -2.79
5.2.9 Conjunto pima
Como pode ser visto na Tabela 5.36, em relac¸
˜
ao a acur
´
acia, o SimRank teve
um desempenho melhor do que o CN2 e a SVM com 95% de confiabilidade.
Em relac¸
˜
ao aos outros indutores a diferenc¸a foi pequena. Nesse conjunto, a
fidelidade foi um pouco melhor do que a acur
´
acia.
Tabela 5.36: Conjunto pima - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 24.22 25.13 44.94 35.81 26.30 25.13
Desvio Padr
˜
ao 1.18 1.16 0.77 1.14 1.69 1.87
Teste T -1.46 -0.87 8.86 5.64
Em relac¸
˜
ao ao n
´
umero de regras, na Tabela 5.37 pode ser visto que o
m
´
etodo RankSim foi melhor que o CN2 e pior que o C4.5rules, com 95% de
confiabilidade. Al
´
em disso, o RankSim foi um pouco pior que o C4.5 nesse
quesito.
84 Cap
´
ıtulo 5
Tabela 5.37: Conjunto Pima - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 23.60 12.40 45.20 25.50
Desvio Padr
˜
ao 2.16 0.88 0.85 3.89
Teste T -0.63 -3.83 5.01
Em condic¸
˜
oes por regra, na Tabela 5.38 pode ser identificado que o Rank-
Sim superou o C4.5 e foi superado pelo C4.5rules e pelo CN2, com 95% de
confiabilidade.
Tabela 5.38: Conjunto Pima - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 5.94 3.18 3.47 4.10
Desvio Padr
˜
ao 0.29 0.14 0.04 0.22
Teste T 12.20 -5.21 -2.84
5.2.10 Conjunto ionosphere
Conforme a Tabela 5.39, no conjunto ionosphere, a acur
´
acia do SimRank
superou a do CN2 e foi superada pela da SVM, com 95% de confiabilidade.
Nesse conjunto, a fidelidade tamb
´
em teve um resultado melhor que a acur
´
acia.
Tabela 5.39: Conjunto ionosphere - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 10.26 9.69 49.95 6.56 14.78 10.51
Desvio Padr
˜
ao 1.66 1.43 1.13 1.48 2.74 1.96
Teste T -1.53 -1.87 10.29 -4.00
Em relac¸
˜
ao ao n
´
umero de regras, a Tabela 5.40 mostra que o RankSim foi
melhor que o CN2 com 95% de confiabilidade. A diferenc¸a em relac¸
˜
ao aos
outros indutores n
˜
ao foi estatisticamente significante.
Tabela 5.40: Conjunto ionosphere - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 14.20 10.40 18.40 12.60
Desvio Padr
˜
ao 0.76 0.58 0.58 1.68
Teste T 1.16 -1.62 3.48
A Tabela 5.41 mostra que em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por re-
gra, o m
´
etodo SimRank foi melhor que o C4.5 e pior que os outros indutores
simb
´
olicos, com 95% de confiabilidade.
Experimentos Realizados 85
Tabela 5.41: Conjunto ionosphere - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 5.80 2.35 2.58 4.10
Desvio Padr
˜
ao 0.16 0.11 0.04 0.20
Teste T 9.06 -8.38 -7.32
5.2.11 new-thyroid
No conjunto new-thyroid, pode ser observado na Tabela 5.42 que a acur
´
acia
do m
´
etodo foi melhor que a do CN2, com 95% de confiabilidade e tamb
´
em foi
melhor que a do C4.5, perdendo somente para a SVM e para o C4.5rules por
uma diferenc¸a m
´
ınima. A fidelidade do m
´
etodo nesse conjunto foi melhor do
que sua acur
´
acia, mesmo com esses valores de erro baixos.
´
E interessante
ressaltar que, nesse conjunto de dados, o CN2 teve uma acur
´
acia extrema-
mente baixa, enquanto os outros indutores tiveram uma boa acur
´
acia.
Tabela 5.42: Conjunto new-thyroid - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 4.59 2.77 50.39 1.86 2.79 1.84
Desvio Padr
˜
ao 1.66 1.40 1.64 1.02 1.02 1.01
Teste T 1.47 -0.03 18.38 -0.82
Em relac¸
˜
ao ao n
´
umero de regras, a Tabela 5.43 indica que o m
´
etodo s
´
o foi
pior que o C4.5, por
´
em, nenhum resultado teve 95% de confiabilidade no teste
T.
Tabela 5.43: Conjunto new-thyroid - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 4.60 5.80 6.00 5.50
Desvio Padr
˜
ao 0.43 0.29 0.21 0.58
Teste T -1.20 0.46 0.96
Na Tabela 5.44
´
e poss
´
ıvel ver que o RankSim foi melhor que os outros indu-
tores simb
´
olicos, sendo que, no caso do C4.5, foi com 95% de confiabilidade.
Tabela 5.44: Conjunto new-thyroid - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 2.90 1.94 2.02 1.84
Desvio Padr
˜
ao 0.14 0.04 0.07 0.13
Teste T 9.73 0.85 1.29
86 Cap
´
ıtulo 5
5.2.12 Conjunto post-operative
Nesse conjunto de dados, todos os indutores tiveram uma acur
´
acia baixa,
com excec¸
˜
ao do CN2 que teve uma excelente acur
´
acia.
´
E interessante notar
que, como o objetivo do algoritmo gen
´
etico
´
e otimizar a similaridade entre
os rankings e a SVM teve uma acur
´
acia baixa nesse conjunto de dados, o
m
´
etodo RankSim n
˜
ao aproveitou a acur
´
acia das regras do CN2 e a fidelidade
do m
´
etodo nesse conjunto foi bem maior do que sua acur
´
acia, como pode ser
observado na Tabela 5.45.
Tabela 5.45: Conjunto post-operative - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 32.36 42.36 5.78 43.61 43.61 20.28
Desvio Padr
˜
ao 4.20 5.54 0.14 4.83 4.22 5.14
Teste T -2.00 -0.39 -8.97 0.00
Na Tabela 5.46
´
e poss
´
ıvel observar que, em relac¸
˜
ao ao n
´
umero de regras, o
m
´
etodo RankSim somente foi melhor que o CN2, com 95% de confiabilidade.
Tabela 5.46: Conjunto post-operative - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 1.40 5.00 22.80 15.10
Desvio Padr
˜
ao 0.27 0.26 0.53 1.18
Teste T -10.98 -8.44 5.44
Em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, novamente o RankSim foi
melhor do que o CN2 e pior que o C4.5rules e C4.5, sendo que somente o
´
ultimo resultado n
˜
ao teve 95% de confiabilidade, como pode ser visto na Ta-
bela 5.47.
Tabela 5.47: Conjunto post-operative - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 2.73 2.42 3.04 2.89
Desvio Padr
˜
ao 0.18 0.06 0.04 0.06
Teste T -0.72 -5.12 3.32
5.2.13 Conjunto satimage
No conjunto satimage, como mostra a Tabela 5.48, o RankSim foi melhor que
o CN2 e pior que os outros indutores no quesito acur
´
acia, com 95% de confi-
abilidade. Nesse conjunto a fidelidade tamb
´
em foi mais alta que a acur
´
acia.
Experimentos Realizados 87
Tabela 5.48: Conjunto satimage - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 8.97 7.60 78.13 8.35 13.04 8.64
Desvio Padr
˜
ao 0.26 0.26 0.02 0.13 1.86 3.56
Teste T -2.05 -2.66 34.93 -2.52
Como mostra a Tabela 5.49, em n
´
umero de regras, o RankSim foi muito
melhor que os outros indutores, com 95% de confiabilidade.
Tabela 5.49: Conjunto satimage - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 153.20 41.30 69.90 18.60
Desvio Padr
˜
ao 2.35 1.90 1.28 2.65
Teste T 38.71 7.86 17.04
Por
´
em, em relac¸
˜
ao
`
as condic¸
˜
oes por regra, o RankSim s
´
o foi melhor que o
C4.5, com 95% de confiabilidade, como mostra a Tabela 5.50.
Tabela 5.50: Conjunto satimage - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 12.33 4.59 3.25 7.91
Desvio Padr
˜
ao 0.24 0.15 0.03 0.49
Teste T 8.99 -6.16 -9.56
5.2.14 Conjunto spliceN
Nesse conjunto, como pode ser visto na Tabela 5.51, a acur
´
acia do RankSim
foi melhor do que a do CN2 e pior do que a dos outros indutores, com 95% de
confiabilidade. A similaridade foi equivalente
`
a acur
´
acia.
Tabela 5.51: Conjunto spliceN - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 5.95 4.47 69.97 3.28 17.42 17.73
Desvio Padr
˜
ao 0.33 0.26 0.36 0.35 4.57 4.62
Teste T -2.60 -2.85 11.10 -3.28
Em relac¸
˜
ao ao n
´
umero de regras, como mostra a Tabela 5.52, o m
´
etodo
RankSim foi melhor com 95% de confiabilidade em todos os casos.
Em relac¸
˜
ao ao n
´
umero de condic¸
˜
oes por regra, como mostra a Tabela 5.53,
o RankSim foi melhor que o CN2 e com 95% de confiabilidade foi melhor que
o C4.5 e pior que o C4.5rules.
88 Cap
´
ıtulo 5
Tabela 5.52: Conjunto spliceN - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 88.00 63.40 120.70 23.10
Desvio Padr
˜
ao 1.26 0.81 0.99 4.41
Teste T 14.25 8.54 21.56
Tabela 5.53: Conjunto spliceN - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 4.10 2.34 3.44 3.27
Desvio Padr
˜
ao 0.03 0.02 0.01 0.08
Teste T 11.30 -12.95 2.12
5.2.15 Conjunto spliceEI
Na Tabela 5.54 pode ser observado que a acur
´
acia do RankSim foi melhor do
que a do CN2 e pior nos outros casos, com 95% de confiabilidade em todos os
testes exceto para o C4.5.
Tabela 5.54: Conjunto spliceEI - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 5.76 5.10 60.94 2.16 9.09 8.64
Desvio Padr
˜
ao 0.67 0.54 0.46 0.60 1.72 1.33
Teste T -2.05 -2.60 26.69 -3.93
Em relac¸
˜
ao ao n
´
umero de regras, como pode ser visto na Tabela 5.55, o
RankSim foi melhor que o CN2 com 95% de confiabilidade, melhor que C4.5 e
pior que o C4.5rules.
Tabela 5.55: Conjunto spliceEI - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 35.20 26.10 45.20 27.10
Desvio Padr
˜
ao 1.11 0.94 1.08 3.45
Teste T 1.92 -0.27 6.17
Na Tabela 5.56,
´
e poss
´
ıvel verificar que o RankSim foi superior, no quesito
n
´
umero de condic¸
˜
oes por regra ao C4.5 e inferior aos outros, com 95% de
confiabilidade.
5.2.16 Conjunto promoters
Na Tabela 5.57
´
e possivel ver que no conjunto promoters, a acur
´
acia do
m
´
etodo RankSim foi superior a do CN2 com 95% de confiabilidade, superior
Experimentos Realizados 89
Tabela 5.56: Conjunto spliceEI - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 4.43 2.38 2.69 2.91
Desvio Padr
˜
ao 0.06 0.03 0.03 0.08
Teste T 13.49 -6.16 -2.62
ao C4.5 e inferior ao C4.5rules.
Tabela 5.57: Conjunto promoters - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 17.91 15.09 58.11 8.27 15.91 16.91
Desvio Padr
˜
ao 2.86 3.51 3.14 2.13 3.30 3.77
Teste T 0.43 -0.14 9.21 -2.11
J
´
a em n
´
umero de regras, a Tabela 5.58 mostra que o m
´
etodo RankSim foi
pior que o C4.5rules com 95% de confiabilidade, pior que o CN2 e melhor que
o C4.5.
Tabela 5.58: Conjunto promoters - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 16.90 9.60 14.60 15.40
Desvio Padr
˜
ao 0.78 0.43 0.27 0.92
Teste T 1.45 -4.50 -0.97
Em condic¸
˜
oes por regra, a Tabela 5.59 mostra que o m
´
etodo RankSim foi
melhor que o C4.5 e CN2, por
´
em, foi pior que o C4.5rules, com 95% de confi-
abilidade.
Tabela 5.59: Conjunto promoters - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 2.43 1.67 2.06 1.97
Desvio Padr
˜
ao 0.04 0.03 0.01 0.03
Teste T 9.19 -8.79 2.51
5.2.17 Conjunto german
No conjunto german,
´
e poss
´
ıvel ver na Tabela 5.60, que em acur
´
acia o Rank-
Sim foi melhor que o CN2 e que a SVM com 95% de confiabilidade, melhor que
o C4.5 e pior que o C4.5rules.
90 Cap
´
ıtulo 5
Tabela 5.60: Conjunto german - Acur
´
acia e Fidelidade (%).
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
Erro M
´
edio 31.90 27.80 45.38 32.80 29.80 14.40
Desvio Padr
˜
ao 0.90 1.04 1.04 0.81 0.55 1.42
Teste T 1.63 -1.47 12.48 2.54
Na Tabela 5.61
´
e poss
´
ıvel verificar que em relac¸
˜
ao ao n
´
umero de regras o
RankSim foi melhor que todos os outros indutores, em dois casos com 95% de
confiabilidade no teste T.
Tabela 5.61: Conjunto german - N
´
umero de Regras.
C4.5 C4.5Rules CN2 RankSim
Regras 89.50 25.40 82.50 25.20
Desvio Padr
˜
ao 3.83 2.37 2.04 5.07
Teste T 8.33 0.03 9.44
Por fim, Tabela 5.62
´
e poss
´
ıvel verificar que em condic¸
˜
oes por regra, o
RankSim apenas foi melhor que o C4.5, com 95% de confiabilidade.
Tabela 5.62: Conjunto german - N
´
umero de Condic¸
˜
oes por Regra.
C4.5 C4.5Rules CN2 RankSim
Condic¸
˜
oes por Regra 5.53 2.74 3.61 4.21
Desvio Padr
˜
ao 0.12 0.07 0.03 0.12
Teste T 12.63 -11.64 -5.05
5.3 Considerac¸
˜
oes Finais
Este cap
´
ıtulo apresentou os resultados experimentais desta Tese. Sumari-
zando os resultados, s
˜
ao apresentadas as tabelas 5.63, 5.64 , 5.65 e 5.66.
Segundo a Tabela 5.63, o m
´
etodo proposto apresentou elevada fidelidade,
com erro inferior a 10% em 7 dos conjuntos de dados e inferior a 20% em 13
dos conjuntos. Para v
´
arios conjuntos de dados, a acur
´
acia m
´
edia obtida pelo
m
´
etodo proposto, RankSim, foi semelhante a acur
´
acia obtida pelas t
´
ecnicas
simb
´
olicas.
´
E importante observar que as regras do RankSim foram otimi-
zadas para melhorar a fidelidade, n
˜
ao a acur
´
acia. Nesse sentido, observa-se
que o objetivo foi atingido pois em 13 dos 17 conjuntos, a fidelidade teve um
erro m
´
edio menor do que o erro m
´
edio da acur
´
acia. Mesmo assim, em dois
dos conjuntos de dados investigados, haberman e flare, a acur
´
acia obtida pelo
m
´
etodo RankSim foi superior a acur
´
acia obtida por todas as t
´
ecnica sinb
´
olicas.
A menos da base pos-operative, RankSim foi sempre superior
`
a t
´
ecnica CN2.
Experimentos Realizados 91
Tabela 5.63: Acur
´
acia e Fidelidade(%)
C4.5 C4.5Rules CN2 SVM RankSim Fidelidade
breast 4.68 4.83 56.48 5.27 4.98 5.26
bupa 35.08 31.29 34.44 37.97 36.29 31.89
ecoli 7.74 8.94 30.53 11.02 10.41 5.35
flag 15.45 10.79 14.81 10.84 11.84 6.16
flare 19.51 18.57 80.52 18.39 17.35 7.41
glass 8.42 7.97 16.23 7.92 16.47 14.13
haberman 29.74 29.74 29.82 28.15 25.81 13.44
heart 22.59 19.26 46.32 40.00 20.74 36.30
pima 24.22 25.13 44.94 35.81 26.30 25.13
ionosphere 10.26 9.69 49.95 6.56 14.78 10.51
new-thyroid 4.59 2.77 50.39 1.86 2.79 1.84
post-operative 32.36 42.36 5.78 43.61 43.61 20.28
satimage 8.97 7.60 78.13 8.35 13.04 8.64
spliceN 5.95 4.47 69.97 3.28 17.42 17.73
spliceEI 5.76 5.10 60.94 2.16 9.09 8.64
promoters 17.91 15.09 58.11 8.27 15.91 16.91
German 31.90 27.80 45.38 32.80 29.80 14.40
As tabelas 5.64 e 5.65 mostram o n
´
umero m
´
edio de regras e o n
´
umero
de m
´
edio de condic¸
˜
oes ou antecedente por regras, que podem ser utilizadas
como medidas de compreensibilidade do conjunto de regras. De acordo com
os valores apresentados, a compreensibilidade das regras geradas pelo Rank-
Sim foram semelhantes aos das t
´
ecnicas simb
´
olicas. V
´
arias vezes o RankSim
apresentou em m
´
edia menos regras e menor n
´
umero m
´
edio de antecedentes
por regra. Na maoiria das vezes, RankSim gerou menos regras que o CN2.
Tabela 5.64: N
´
umero de Regras
C4.5 C4.5Rules CN2 RankSim
breast 10.60 9.40 15.30 11.90
bupa 29.50 15.70 31.80 28.10
ecoli 10.00 7.40 14.40 6.80
flag 1.00 8.50 17.80 9.80
flare 2.80 13.00 83.00 14.40
glass 8.00 7.80 13.80 7.70
haberman 3.10 4.40 51.20 15.10
heart 17.80 12.70 20.40 23.00
pima 23.60 12.40 45.20 25.50
ionosphere 14.20 10.40 18.40 12.60
new-thyroid 4.60 5.80 6.00 5.50
post-operative 1.40 5.00 22.80 15.10
satimage 153.20 41.30 69.90 18.60
spliceN 88.00 63.40 120.70 23.10
spliceEI 35.20 26.10 45.20 27.10
promoters 16.90 9.60 14.60 15.40
German 89.50 25.40 82.50 25.20
92 Cap
´
ıtulo 5
Tabela 5.65: N
´
umero de Condic¸
˜
oes por Regra
C4.5 C4.5Rules CN2 RankSim
breast 3.98 2.32 2.72 2.85
bupa 5.96 3.11 3.37 4.20
ecoli 4.31 2.47 2.45 2.74
flag 3.00 1.86 2.25 1.70
flare 3.01 2.13 3.55 3.07
glass 4.13 2.36 1.85 2.55
haberman 2.54 1.96 3.25 3.02
heart 4.87 2.89 3.23 3.56
pima 5.94 3.18 3.47 4.10
ionosphere 5.80 2.35 2.58 4.10
new-thyroid 2.90 1.94 2.02 1.84
post-operative 2.73 2.42 3.04 2.89
satimage 12.33 4.59 3.25 7.91
spliceN 4.10 2.34 3.44 3.27
spliceEI 4.43 2.38 2.69 2.91
promoters 2.43 1.67 2.06 1.97
German 5.53 2.74 3.61 4.21
Por fim, na Tabela 5.66 apresentamos os resultados iniciais de uma com-
parac¸
˜
ao, utilizando a m
´
etrica fidelidade, entre as duas variantes do m
´
etodo
RankSim (uma utilizando exemplos originais e a outra utilizando exemplos
rotulados pela SVM) e o m
´
etodo NNRules. Todos os experimentos foram reali-
zados com os mesmos par
ˆ
ametros do algoritmo gen
´
etico e da SVM.
Nesses experimentos, foi poss
´
ıvel observar que, dos 13 conjuntos de da-
dos utilizados nesses experimentos, o RankSim Original foi o melhor m
´
etodo
em 7 conjuntos, RankSim Rotulado foi o melhor em 3 conjuntos e o NNRu-
les foi o melhor em 3 conjuntos. Mais experimentos e os testes de hip
´
oteses
necess
´
arios para validar essa comparac¸
˜
ao ser
˜
ao realizados nos trabalhos fu-
turos.
No pr
´
oximo cap
´
ıtulo, as principais conclus
˜
oes deste trabalho s
˜
ao apresen-
tadas.
Experimentos Realizados 93
Tabela 5.66: Fidelidade: RankSim Original, RankSim Rotulado e NNRules
RankSim Orig RankSim Rotulado NNRules SVM
breast 5.26% ± 0.98 9.22% ± 2.89 4.54% ± 0.51
bupa 31.89% ± 1.85 35.31% ± 2.87 35.67% ± 2.15
ecoli 5.35% ± 1.45 7.73% ± 1.67 8.63% ± 1.21
flag 6.16% ± 1.46 5.13% ± 1.08 12.37% ± 2.37
flare 7.41% ± 1.17 7.50% ± 0.98 18.95% ± 0.51
glass 14.13% ± 5.30 20.74% ± 5.92 12.21% ± 2.67
haberman 13.44% ± 2.23 12.45% ± 2.24 28.12% ± 1.41
heart 36.30% ± 2.69 34.44% ± 2.65 20.37% ± 2.01
pima 25.13% ± 1.87 28.64% ± 2.08 25.40% ± 1.21
ionosphere 10.51% ± 1.96 11.13% ± 2.39 10.83% ± 1.94
new±thyroid 1.84% ± 1.01 2.75% ± 1.55 4.16% ± 1.72
post±operative 20.28% ± 5.14 19.17% ± 6.86 40.28% ± 2.52
German 14.40% ± 1.42 16.40% ± 2.08 28.20% ± 0.94
CAP
´
ITULO
6
Conclus
˜
ao
N
este cap
´
ıtulo apresentamos as principais conclus
˜
oes deste trabalho.
Na Sec¸
˜
ao 6.1 apresentamos um resumo dos objetivos e resultados
alcanc¸ados. Na Sec¸
˜
ao 6.2 apresentamos as limitac¸
˜
oes dos m
´
etodos
propostos neste trabalho e,por fim, na Sec¸
˜
ao 6.3 apresentamos os trabalhos
futuros.
6.1 Resumo dos objetivos e resultados
O objetivo principal deste trabalho foi investigar e propor m
´
etodos para ex-
trac¸
˜
ao de conhecimento, na forma de regras, a partir de modelos de classifi-
cadores induzidos por t
´
ecnicas caixa-preta de Aprendizado de M
´
aquina. No
decorrer do trabalho, o foco foi direcionado para as M
´
aquinas de Vetores de
Suporte (SVMs), pois era uma
´
area que estava em ascens
˜
ao e n
˜
ao haviam tra-
balhos sobre extrac¸
˜
ao de regras para esse tipo de t
´
ecnica de Aprendizado de
M
´
aquina at
´
e ent
˜
ao. Por
´
em, o m
´
etodo
´
e geral o suficiente para ser aplicado a
qualquer t
´
ecnica de Aprendizado de M
´
aquina caixa-preta em que seja poss
´
ıvel
criar rankings de suas sa
´
ıdas.
Durante o trabalho, surgiu a quest
˜
ao da falta de informac¸
˜
ao sobre o co-
nhecimento adquirido por t
´
ecnicas caixa-preta quando utilizados m
´
etodos de
extrac¸
˜
ao de regra pedag
´
ogicos. Uma alternativa para minimizar este problema
proposto
´
e utilizar a informac¸
˜
ao dos rankings das sa
´
ıdas geradas por essas
t
´
ecnicas e a otimizac¸
˜
ao de regras que tamb
´
em gerem um ranking com alta
similaridade com os rankings gerados por essas t
´
ecnicas.
Optamos ent
˜
ao por inovar e propor um m
´
etodo de extrac¸
˜
ao de conheci-
mento pedag
´
ogico que n
˜
ao utiliza o conjunto de dados rotulado pela t
´
ecnica
de aprendizado de m
´
aquina caixa-preta para gerar as regras e sim um sub-
conjunto das regras geradas por v
´
arios indutores simb
´
olicos sobre o conjunto
de dados original. Esse subconjunto
´
e escolhido por meio de um Algoritmo
95
96 Cap
´
ıtulo 6
Gen
´
etico que tem como func¸
˜
ao de avaliac¸
˜
ao uma m
´
etrica que mede a si-
milaridade entre o ranking gerado pela t
´
ecnica de Aprendizado de M
´
aquina
caixa-preta da qual se quer extrair as regras e um indiv
´
ıduo da populac¸
˜
ao do
Algoritmo Gen
´
etico que representa um subconjunto das regras geradas pelos
indutores simb
´
olicos escolhidos.
Os experimentos mostraram que essa
´
e uma abordagem promissora. N
˜
ao
apenas para a explicac¸
˜
ao do comportamento de t
´
ecnicas de aprendizado de
m
´
aquina caixa-preta, mas tamb
´
em pode ser uma abordagem capaz de gerar
regras que herdem caracter
´
ısticas desej
´
aveis da t
´
ecnica caixa-preta da qual
as regras foram extra
´
ıdas, por exemplo, as fronteiras de decis
˜
ao de margens
largas definidas por SVMs.
6.2 Limitac¸
˜
oes
Este trabalho mostra que
´
e poss
´
ıvel realizar a extrac¸
˜
ao de regras por simi-
laridade de rankings, por
´
em, muito ainda precisa ser feito para melhorar a
qualidade dos rankings e das pr
´
oprias regras geradas. Em v
´
arios casos os
resultados indicaram alta fidelidade e acur
´
acia, mas em outros a fidelidade
deixou muito a desejar, mostrando que o m
´
etodo ainda n
˜
ao
´
e consistente para
todos os dom
´
ınios de aplicac¸
˜
ao.
A qualidade do subconjunto final de regras que faz parte do indiv
´
ıduo es-
colhido depende diretamente da variabilidade dos bias indutivos nas regras
que formam a populac¸
˜
ao inicial. Portanto, julgamos que para obter resulta-
dos melhores que os atuais, ser
´
a necess
´
ario aumentar o n
´
umero de indutores
simb
´
olicos utilizados para gerar as regras. Desta forma, o Algoritmo Gen
´
etico
ter
´
a mais chance de encontrar um conjunto de regras com bias mais pr
´
oximo
ao da t
´
ecnica de aprendizado de m
´
aquina caixa-preta.
6.3 Trabalhos futuros
Uma das variac¸
˜
oes desse m
´
etodo
´
e gerar as regras da populac¸
˜
ao inicial utili-
zando conjuntos de dados rotulados pela t
´
ecnica de Aprendizado de M
´
aquina
caixa-preta, assim como nos m
´
etodos pedag
´
ogicos tradicionais, e ent
˜
ao rea-
lizar a otimizac¸
˜
ao da similaridade de rankings. Experimentos iniciais j
´
a fo-
ram realizados, como descrito no Cap
´
ıtulo 5, mas ainda
´
e necess
´
ario executar
mais experimentos e testes de hip
´
oteses comparando as duas abordagens do
m
´
etodo RankSim com outros m
´
etodos.
Outro trabalho futuro
´
e a inclus
˜
ao de mais indutores simb
´
olicos para a
gerac¸
˜
ao de regras da populac¸
˜
ao inicial para que, como j
´
a comentado, tenha-
mos maior variabilidade de bias indutivo nas regras dos indiv
´
ıduos do Algo-
ritmo Gen
´
etico.
Conclus
˜
ao 97
Ainda com o objetivo de aumentar a variabilidade do bias indutivo, ser
˜
ao
estudadas formas de realizar mutac¸
˜
oes nos antecedentes das regras extra
´
ıdas
durante a execuc¸
˜
ao do Algoritmo Gen
´
etico.
Al
´
em disso, especializando-se mais ainda no dom
´
ınio das SVMs, pretende-
se tamb
´
em explorar a gerac¸
˜
ao de exemplos artificiais a partir dos vetores de
suporte definidos pelas SVMs utilizando os pr
´
oprios vetores como exemplos e
criando novos atrav
´
es de operadores de mutac¸
˜
ao e cruzamento, utilizando os
atributos dos vetores de suporte como cromossomos. Ent
˜
ao pretende-se uti-
lizar esses exemplos artificiais como conjunto de treinamento no momento de
gerar os rankings, de forma que os rankings das regras tenham alta simila-
ridade com um ranking gerado a partir de exemplos que explorem melhor as
margens das fronteiras de decis
˜
ao das SVMs.
Refer
ˆ
encias Bibliogr
´
aficas
Alexander, J. A. and Dietterich, T. G. (1995). Template-based algorithms for
connectionist rule extraction. In Advances in Neural Information Processing
Systems, volume 7, pages 609–616, Cambridge, MA. MIT Press.
Andrews, R., Diederich, J., and Tickle, A. B. (1995). Survey and critique
of techniques for extracting rules from trained artificial neural networks.
Knowledge-Based Systems Journal, 8(6):373–389.
Behloul, F., Lelieveldt, B. P. F., Boudraa, A., and Reiber, J. H. C. (2002). Opti-
mal design of radial basis function neural networks for fuzzy-rule extraction
in high dimensional data. Pattern Recognition, 35(3):659–675.
Ben-Hur, A., Horn, D., Siegelmann, H. T., and Vapnik, V. N. (2000). A support
vector clustering method. In Proceedings of the International Conference on
Pattern Recognition (ICPR’00), volume 2, pages 724–727.
Blake, C. and Merz, C. (1998). UCI repository of machine learning databases.
Blasig, R. (1994). Gds: Gradient descent generation of symbolic classification
rules. In Advances in Neural Information Processing Systems, volume 6,
pages 1093–1100, San Francisco, CA. Morgan Kaufmann.
Braga, A. P., de Carvalho, A. C. P. L. F., and Ludemir, T. B. (2000). Redes
Neurais Artificiais: Teoria e aplicac¸
˜
oes. Livros T
´
ecnicos e Cient
´
ıficos.
Brown, M. P. S., Grundy, W. N., Cristianini, N., Sugnet, C. W., Furey, T. S.,
Jr., M. A., and Haussler, D. (2000). Knowledge-based analysis of microarray
gene expression data by using support vector machines. Proc. Natl. Acad.
Sci. USA, 97(1):262–267.
Clark, P. and Niblett, T. (1989a). The cn2 induction algorithm. Machine Lear-
ning, 3:261–284.
Clark, P. and Niblett, T. (1989b). The CN2 Induction Algorithm. Machine
Learning, 3:261–284.
99
100 Cap
´
ıtulo 6
Collobert, R. and Bengio, S. (2001). SVMTorch: Support vector machines
for large-scale regression problems. Journal of Machine Learning Research,
1:143–160.
Craven, M. and Shavlik, J. (1996). Extracting tree-structured representations
of trained networks. In Advances in Neural Information Processing Systems,
volume 8, pages 24–30. MIT Press.
Craven, M. W. (1996). Extracting Comprehensible Models from Trained Neural
Networks. PhD thesis, University of Wisconsin - Madison.
Craven, M. W. and Shavlik, J. W. (1994a). Machine learning approaches to
gene recognition. IEEE Expert, 9(2):2–10.
Craven, M. W. and Shavlik, J. W. (1994b). Using sampling and queries to
extract rules from trained neural networks. In Proceedings of the 11th Inter-
national Conference on Machine Learning, pages 37–45. Morgan Kaufmann.
Craven, M. W. and Shavlik, J. W. (1999). Rule Extraction: Where Do We
Go from Here? University of Wisconsin Machine Learning Research Group
Working Paper 99-1.
Cristianini, N. and Shawe-Taylor, J. (2000). An Introduction to Support Vector
Machines and other kernel-based learning methods. Cambridge University
Press.
Cybenko, G. (1988). Continuos valued neural networks with two hidden layers
are sufficient. Technical report, Department of Computer Science, Tufts
University.
Darwin, C. (1859). On the Origin of Species by Means of Natural Selection.
Murray, London.
Dietterich, T. G. (1997). Approximate Statistical Tests for Comparing Super-
vised Classification Learning Algorithms. Neural Computation, 10(7):1895–
1924.
Ding, C. H. Q. and Dubchak, I. (2001). Multi-class protein fold recogni-
tion using support vector machines and neural networks. Bioinformatics,
4(17):349–358.
Duch, W., Adamczak, R., Grabczewski, K., Zal, G., and Hayashi, Y. (2000).
Fuzzy and crisp logical rule extraction methods in application to medical
data. Computational Intelligence and Applications, 23:593–616.
Refer
ˆ
encias Bibliogr
´
aficas 101
Fu, L. (1991). Rule learning by searching on adapted nets. In Proceedings of
the Ninth National Conference on Artificial Intelligence, pages 590–595. Mit
Press.
Fu, L. (1994). Rule generation from neural networks. IEEE Transactions on
Systems, Man, and Cybernetics, 24(8):1114–1124.
Fung, G., Sandilya, S., and Rao, R. B. (2008). Rule extraction from linear
support vector machines via mathematical programming. In Diederich, J.,
editor, Rule Extraction from Support Vector Machines, volume 80 of Studies in
Computational Intelligence, pages 83–107. Springer.
Furey, T. S., Christianini, N., Christianini, N., Duffy, N., Bednarski, D. W.,
Schummer, M., and Hauessler, D. (2000). Support vector machine classifi-
cation and validation of cancer tissue samples using microarray expression
data. Bioinformatics, 16(10):906–914.
Gallant, S. I. (1993). Neural Network Learning and Expert Systems. MIT Press.
Ginsberg, M. (1993). Essentials of Artificial Intelligence. Academic
Press/Morgan Kaufmann, San Francisco.
Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine
Learning. Addison-Wesley Publishing Company, Reading, Massachusetts.
Hayashi, Y. (1991). A neural expert system with automated extraction of fuzzy
if-then rules. In Advances in Neural Information Processing Systems, vo-
lume 3, pages 578–584, San Mateo, CA. Morgan Kaufmann.
Haykin, S. (1998). Neural Networks: A Comprehensive Foundation. Prentice
Hall, 2 edition.
Holland, J. H. (1975). Adaptation in Natural and Artificial Systems. University
of Michigan Press.
Huss, M., Bostr
¨
om, H., Asker, L., and Coster, J. (2001). Learning to recognize
brain specific proteins based on low-level features from on-line prediction
servers. In BIOKDD01 - Workshop on Data Mining in Bioinformatics.
Jackson, J. C. (1995). The Harmonic Si
´
eve: A Novel Application of Fourier
Analysis to Machine Learning Theory and Practice. PhD thesis, School of
Computer Science, Carneggie Mellon University, Pittsburgh, PA. CMU-CS-
95-183.
102 Cap
´
ıtulo 6
Jong, K. D. (1980). Adaptive system design: A genetic approach. IEEE Tran-
sactions on Systems, Man and Cybernetics, SMC-10(9):566–574.
Lewin, B. (2000). Genes VII. Oxford University Press.
Lorena, A. C., Batista, G. E. A. P. A., Carvalho, A. C. P. L. F., and Monard,
M. C. (2002). The influence of noisy patterns in the performance of learning
methods in the splice junction recognition problem. In Proceedings of the VII
Brazilian Symposium on Neural Networks. IEEE Computer Society Press.
Lorena, A. C. and de Carvalho, A. C. P. L. F. (2003). Introduc¸
˜
ao aos classi-
ficadores de margens largas. Technical Report 195, Instituto de Ci
ˆ
encias
Matem
´
aticas e de Computac¸
˜
ao - Universidade de S
˜
ao Paulo, S
˜
ao Carlos -
SP.
Martineli, E. (1999). Extrac¸
˜
ao de conhecimento de redes neurais artificiais.
Master’s thesis, ICMC-USP.
Milar
´
e, C. R. (2003). Extrac¸
˜
ao de conhecimento de redes neurais artificiais
utilizando sistemas de aprendizado simb
´
olico e algoritmos gen
´
eticos. PhD
thesis, Universidade de S
˜
ao Paulo, S
˜
ao Carlos - SP.
Milar
´
e, C. R., de Carvalho, A. C. P. L. F., and Monard, M. C. (2002). Extracting
knowledge from artificial neural networks: an empirical comparison of tre-
pan and symbolic learning algorithms. In MICAI 2002: Advances in Artificial
Intelligence, volume 2313 of Lecture Notes in Computer Science: Lecture Notes
in Artificial Intelligence, pages 272–281, Merida, Yucatan, Mexico. Springer.
Milar
´
e, C. R., Batista, G. E. A. P. A., and Monard, M. C. (1997). Uma Ferra-
menta para Extrac¸
˜
ao de Conhecimento de Redes Neurais. In XXV Semin
´
ario
Integrado de Software e Hardware - SEMISH, pages 59–70.
Mitchel, T. M. (1997). Machine Learning. McGraw-Hill.
Mitra, S., Pal, S. K., and Mitra, P. (2002). Data mining in soft computing
framework: A survey. IEEE Transactions on Neural Networks, 13(1):3–14.
Mukherjee, N. and Mukherjee, S. (2002). Predicting signal peptides with sup-
port vector machines. In Pattern Recognition with Support Vector Machines,
volume 2388 of Lecture Notes in Computer Science, pages 1–7. Springer.
N
´
u
˜
nez, H., Angulo, C., and Catal
`
a, A. (2002). Rule extraction from support
vector machines. In Verleysen, M., editor, ESANN 2002, 10th Eurorean Sym-
posium on Artificial Neural Networks, Bruges, Belgium, April 24-26, 2002,
Proceedings, pages 107–112.
Refer
ˆ
encias Bibliogr
´
aficas 103
Prati, R. C., Baranauskas, J. A., and Monard, M. C. (2002). Padronizac¸
˜
ao
da sintaxe e informac¸
˜
oes sobre regras induzidas a partir de algoritmos de
aprendizado de m
´
aquina simb
´
olico. Revista Eletr
ˆ
onica de Iniciac¸
˜
ao Cient
´
ıfica,
2(3).
Quinlan, J. R. (1988). C4.5 Programs for Machine Learning. Morgan Kaufmann
Publishers, CA.
Rezende, S. O. (2002). Sistemas Inteligentes. Manole.
Rumelhart, D., Hilton, G., and Williams, R. (1986). Learning Internal Repre-
sentations by Error Propagation. In Parallel Distributed Processing: Explo-
rations in the Microstructure of Cognition, volume 1. MIT Press, Cambridge,
MA.
Saito, K. and Nakano, R. (1988). Medical Diagnostic Expert System Based on
PDP Model. In Proceedings of the IEEE International Conference on Neural
Networks, pages 255–262, San Diego, CA. IEEE Press.
Schellharmmer, I., Diederich, J., Towsey, M., and Brugman, C. (1997). Kno-
wledge extraction and recurrent neural networks: an analysis of an elman
network trained on a natural language learning task. Technical Report 97-
IS1, Queensland University of Technology, Australia.
Schmitz, G. P. J., Aldrich, C., and Gouws, F. S. (1999). Ann-dt: An algo-
rithm for extraction of decision trees from artificial neural networks. IEEE
Transactions on Neural Networks, 10(6):1392–1401.
Sethi, I. K. and Yoo, J. H. (1994). Symbolic approximation of feedforward
neural networks. In Pattern Recognition in Pratice, volume 4, pages 313–
324, North-Holland, New York, NY.
Setiono, R. and Liu, H. (1995). Understanding neural networks via rule ex-
traction. In Proceedings of the Fourteenth International Joint Conference on
Artificial Intelligence, pages 480–485, Montreal, Quebec. Morgan kaufmann.
Smola, A. J., Barlett, P., Sch
¨
olkopf, B., and Schuurmans, D. (1999). Advances
in Large Margin Classifiers. MIT Press.
Spears, W. M., De Jong, K. A., B
¨
ack, T., Fogel, D. B., and de Garis, H. (1993).
An overview of evolutionary computation. In Brazdil, P. B., editor, Proc. of
the European Conf. on Machine Learning, pages 442–459, Berlin. Springer.
104 Cap
´
ıtulo 6
Tan, A. H. (1994). Rule learning and extration with self-organizing neural
network. In Proceedings of the 1993 Connectionist Models Summer School,
pages 192–199, Hillsdale, NJ. Lawrence Erlbaum Associates.
Thrun, S. (1994). Extracting provably correct rules from artificial neural
networks. Technical Report IAI-TR-93-5, Institut f
¨
ur Informatik III, Uni-
versit
¨
at Bonn.
Thrun, S. (1995). Extracting rules from artificial neural networks with dis-
tributed representations. In Advances in Neural Information Processing Sys-
tems, volume 7, pages 505–512, Cambridge, MA. MIT Press.
Tickle, A. B., Andrews, R., Golea, M., and Diederich, J. (1998). The truth
will come to light: Directions and challenges in extracting the knowledge
embedded within trained artificial neural networks. IEEE Transactions on
Neural Networks, 9(6):1057–1068.
Tickle, A. B., Orlowski, M., and Diederich, J. (1994). Dedec: Decision detection
by rule extraction from neural network. Technical report, QUT NRC.
Towell, G. and Shavlik, J. W. (1993). The extraction of refined rules from
knowledge-based neural networks. Machine Learning, 131(1):71–101.
Weiss, S. M. and Kulikowski, C. A. (1991). Computer Systems that Learn.
Classification and Prediction Methods from Statistics, Neural Nets, Machine
Learning, and Expert Systems. Morgan Kaufmann, San Mateo, CA.
Winston, P. (1992). Artificial Intelligence. Addison-Wesley.
Zell, A. (1995). Stuttgart Neural Network Simulator. http://www.
ra-informatik.uni-tuebingen.de/SNNS/.
Zhou, Z. and Jiang, Y. (2002). Medical diagnosis with c4.5 rule preceded
by artificial neural network ensemble. IEEE Transactions on Information
Technology in Biomedicine. to appear.
Zien, A., R
¨
atsch, G., Mika, S., Sch
¨
olkopf, B., Lengaeuer, T., and M
¨
uller, K. R.
(2000). Engineering suppot vector machine kernels that recognize transla-
tion initiation sites in dna. Bioinformatics, 16(9):799–807.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo