Download PDF
ads:
ˆ
Angela Marisa Gontijo Resende Oliveira
Descoberta de Conhecimento em Base de
Dados da Sa´ude
Goiˆania GO
2005
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ˆ
Angela Marisa Gontijo Resende Oliveira
Descoberta de Conhecimento em Base de
Dados da Sa´ude
Disserta¸ao apresentada ao Programa de
os-gradua¸ao em Engenharia El´etrica e de
Computa¸ao da Escola de Engenharia El´e-
trica e de Computa¸ao da Universidade Fe-
deral de Goi´as, para obten¸ao do t´ıtulo de
Mestre em Ciˆencias.
´
Area de Concentra¸ao:
Engenharia de Computa¸ao.
Orientador:
Prof. Dr. Reinaldo Gon¸calves Nogueira
Co-orientador:
Prof. Dr. G´elson da Cruz J´unior
Escola de Engenharia El
´
etrica e de Computa¸c
˜
ao
Universidade Federal de Goi
´
as
Goiˆania GO
2005
ads:
Universidade Federal de Goi´as
Escola de Engenharia El´etrica
Coordena¸ao do Programa de os-Gradua¸ao em
Engenharia El´etrica e de Computa¸ao - CPPEEC
FOLHA DE APROVA¸C
˜
AO
“Descoberta de Conhecimento em Base de Dados da Sa´ude”
ˆ
ANGELA MARISA GONTIJO RESENDE OLIVEIRA
Disserta¸ao defendida e aprovada pela banca examinadora constitu´ıda pelos Senhores:
Prof. Dr. Reinaldo Gon¸calves Nogueira - EEE/UFG
Prof. Dr. Humberto Jos´e Longo - INF/UFG
Prof. Dr. Leonardo Guerra Rezende Guedes -
EEE/UFG
Prof. Dr. Gelson da Cruz Jr. - EEE/UFG
Goiˆania, 09 de novembro de 2005
Dedico este trabalho
a Osmar, meu esposo, pelo apoio em todos os momentos,
a S´ergio, Bruno e Fernanda, nossos filhos, pelos carinhos nas horas dif´ıceis,
a meus pais, Geraldo e Zil´ah, por tudo que fizeram por mim durante toda minha vida.
Agradecimentos
A Deus, pela minha vida, sempre repleta de felicidade;
Ao meu orientador Reinaldo, que me incentivou, e com dedica¸ao e paciˆencia me
ajudou a superar as dificuldades que surgiram;
Ao meu co-orientador elson, pelas in´umeras colabora¸oes;
Ao Instituto de Seguridade Social dos Servidores Municipais (ISM) que, ao gentil-
mente, nos cedeu os dados da pesquisa.
Ao Dr. La´ercio Ney Nicaretta Oliani, edico perito do Instituto de Seguridade
Social dos Servidores Municipais (ISM), por sua aten¸ao e contribui¸ao, essenciais durante
o decurso desta pesquisa;
A Comdata, especialmente, ao diretor Leonardo Guedes, pelo apoio e incentivo.
Ao colega Rafael Jacinto Conrado que, no in´ıcio deste projeto, me ajudou a definir
e a conseguir os dados para a pesquisa;
A Luciana de Oliveira Berretta, a quem eu recorria nas dificuldades surgidas durante
a pesquisa;
A adia Corrˆea Luz que, mesmo ao me conhecendo bem, dispˆos do seu tempo para
me auxiliar;
A minha sobrinha Carmem L´ucia de Oliveira que, mesmo morando nos Estados
Unidos, colaborou com este trabalho;
Aos amigos da Cia. de Processamento de Dados da Prefeitura Municipal de Goiˆania
(COMDATA), que acompanharam todo meu trabalho;
Aos professores e funcion´arios da UFG; e
Aos meus colegas de mestrado.
Sum´ario
Lista de Figuras
Lista de Tabelas
Resumo 13
Abstract 14
Introdu¸ao 15
1 Descoberta de Conhecimento em Base de Dados 19
1.1 Gest˜ao do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Definindo Descoberta de Conhecimento em Base de Dados (DCBD) . . . . 21
1.3 Etapas da Descoberta de Conhecimento . . . . . . . . . . . . . . . . . . . . 21
Pr´e-processamento: . . . . . . . . . . . . . . . . . . . . . . . 21
Minera¸ao de dados: . . . . . . . . . . . . . . . . . . . . . . 23
os-processamento: . . . . . . . . . . . . . . . . . . . . . . . 23
1.3.1 Conceitos e T´ecnicas de Pr´e-Processamento de Dados . . . . . . . . 24
1.3.1.1 Limpeza dos dados . . . . . . . . . . . . . . . . . . . . . . 24
Campo do dado ao est´a preenchido: . . . . . . . . . . . . . 25
Aparecimento de ru´ıdo nos dados: . . . . . . . . . . . . . . . 25
Dados inconsistentes: . . . . . . . . . . . . . . . . . . . . . . 26
1.3.1.2 Integra¸ao dos dados . . . . . . . . . . . . . . . . . . . . . 27
1.3.1.3 Transforma¸ao dos dados . . . . . . . . . . . . . . . . . . 27
1.3.1.4 Redu¸ao dos dados . . . . . . . . . . . . . . . . . . . . . . 28
1.3.2 Minera¸ao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.3.2.1 Tarefas da minera¸ao de dados . . . . . . . . . . . . . . . 29
T´ecnicas Descritivas de MD: . . . . . . . . . . . . . . . . . . 30
1.3.3 os-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.4 Aplica¸oes de DCBD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5 Desafios para a Descoberta de Conhecimento . . . . . . . . . . . . . . . . . 33
2 Clusteriza¸ao 35
2.1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.1 Caracter´ısticas das Redes Neurais . . . . . . . . . . . . . . . . . . . 37
2.1.2 Redes SOM - Mapas Auto-Organiz´aveis . . . . . . . . . . . . . . . 38
2.1.2.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.2.2 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1.2.3 Observoes sobre a utiliza¸ao da rede SOM . . . . . . . . 42
2.2 Validao da Clusteriza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2.1
´
Indice de Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2.2
´
Indice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . 45
3 Metodologia CRISP-DM 46
3.1 Descri¸ao das Fases da Metodologia CRISP-DM . . . . . . . . . . . . . . . 46
3.1.1 Compreens˜ao do neg´ocio . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1.2 Compreens˜ao dos dados . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.3 Prepara¸ao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.4 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.5 Avalia¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.6 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 O Estudo de Caso 50
4.1 Compreens˜ao do Neg´ocio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Objetivos do neg´ocio . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 A situa¸ao atual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Descri¸ao da codifica¸ao da CID-9: . . . . . . . . . . . . . . 52
Descri¸ao da codifica¸ao da CID-10: . . . . . . . . . . . . . . 53
4.2 Compreens˜ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Dados iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.2 Explora¸ao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.3 Qualidade dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Prepara¸ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 Limpeza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.1.1 Modifica¸ao da matr´ıcula do benefici´ario . . . . . . . . . . 58
4.3.1.2 Unifica¸ao das CIDs . . . . . . . . . . . . . . . . . . . . . 59
4.3.1.3 Preenchimento de diagn´osticos sem informa¸ao . . . . . . 60
4.3.1.4 Interna¸ao com mais de um diagn´ostico . . . . . . . . . . 60
4.3.1.5 Benefici´ario com data de nascimento sem informa¸ao . . . 65
4.3.2 O conjunto dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.3 Normaliza¸ao dos dados para a clusteriza¸ao . . . . . . . . . . . . . 66
4.4 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4.1 Modelos estat´ısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Clusteriza¸ao (Clustering) . . . . . . . . . . . . . . . . . . . . . . . 71
Dimens˜ao da entrada: . . . . . . . . . . . . . . . . . . . . . . 71
Quantidade de neurˆonios da camada de sa´ıda: . . . . . . . . 71
N´umero de itera¸oes, taxa de aprendizado e raio de vizinhan¸ca: 71
4.4.3 Validao da clusteriza¸ao . . . . . . . . . . . . . . . . . . . . . . . 72
Distˆancia Intergrupos: . . . . . . . . . . . . . . . . . . . . . 73
Distˆancia Intragrupo: . . . . . . . . . . . . . . . . . . . . . . 73
4.4.3.1 Comparando a clusteriza¸ao . . . . . . . . . . . . . . . . . 73
Rede SOM de 4 dimens˜oes . . . . . . . . . . . . . . . . . . . 73
Rede SOM de 6 dimens˜oes . . . . . . . . . . . . . . . . . . . 74
4.5 Avalia¸ao da Minera¸ao de Dados . . . . . . . . . . . . . . . . . . . . . . . 75
4.5.1 Avalia¸ao dos resultados . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5.2 Avalia¸ao da base de dados do PSISM quanto `a perspectiva da
minera¸ao de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.6 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5 Resultados Alcan¸cados 78
5.1 Resultados dos Modelos Estat´ısticos . . . . . . . . . . . . . . . . . . . . . . 78
5.1.1 Estat´ısticas dos dados em geral . . . . . . . . . . . . . . . . . . . . 78
5.1.2 Estat´ısticas por cap´ıtulos da CID . . . . . . . . . . . . . . . . . . . 83
5.1.3 Estat´ısticas de interna¸oes os-parto . . . . . . . . . . . . . . . . . 84
5.2 Resultados da Clusteriza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.1 Agrupamentos gerados na clusteriza¸ao . . . . . . . . . . . . . . . . 88
5.2.2 Agrupamentos gerados x cap´ıtulos da CID dos diagn´osticos . . . . . 89
5.2.2.1 Estudo detalhado dos cap´ıtulos I, III e VIIIA . . . . . . . 90
5.2.2.2 Estudo detalhado dos cap´ıtulos da CID II, VIIA, XA e XIII 92
5.2.3 Resultados da clusteriza¸ao com entrada de 6 dimens˜oes . . . . . . 93
Conclus˜ao 95
Referˆencias Bibliogr´aficas 99
Lista de Figuras
1 Etapas do processo de Descoberta de Conhecimento (FAYYAD, 1996). . . . 22
2 Componentes do neurˆonio biol´ogico. . . . . . . . . . . . . . . . . . . . . . . 36
3 Neurˆonio de McCulloch e Pitts. . . . . . . . . . . . . . . . . . . . . . . . . 37
4 RNA t´ıpica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Arquitetura da Rede SOM bidimensional. . . . . . . . . . . . . . . . . . . . 39
6 Exemplos de regi˜oes de vizinhan¸ca da Rede SOM (LUZ, 2004). . . . . . . . 40
7 Ilustra¸ao das distˆancias intragrupo e intergrupos (LUZ, 2004). . . . . . . . 44
8 Fases da Metodologia CRISP-DM (CHAPMAN et al., 2000). . . . . . . . . 47
9 Diagrama de Classes da base de dados existente. . . . . . . . . . . . . . . . 55
10 Percentual de interna¸oes em rela¸ao `a quantidade de benefici´arios. . . . . 56
11 Diagrama de Classes da Minera¸ao de Dados. . . . . . . . . . . . . . . . . 66
12 O comportamento da fun¸ao erro durante a fase de treinamento da rede. . 74
13 O comportamento da fun¸ao erro durante a fase de treinamento na rede de
6 dimens˜oes de entrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
14 Quantidade de pacientes por quantidade de interna¸ao. . . . . . . . . . . . 79
15 Rela¸ao entre as reinterna¸oes e o TMP (Tempo edio de Permanˆencia)
em dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
16 Quantidade de interna¸oes por faixa et´aria e sexo. . . . . . . . . . . . . . . 80
17 Percentual de pacientes do sexo feminino x masculino que se internam,
segundo a taxa de permanˆencia em interna¸ao. . . . . . . . . . . . . . . . . 81
18 Percentual de interna¸oes com permanˆencia axima de 4 dias. . . . . . . . 82
19 Quantidade de reinterna¸oes, segundo o tempo entre as interna¸oes. . . . . 82
20 Quantidade de interna¸oes, segundo os cap´ıtulos da CID. . . . . . . . . . . 83
21 Idade m´edia dos pacientes, segundo os cap´ıtulos da CID. . . . . . . . . . . 83
22 Tempo edio de Permanˆencia, segundo os cap´ıtulos da CID. . . . . . . . . 84
23 Resultado da clusteriza¸ao com as vari´aveis de entrada: quantidade de
interna¸ao, quantidade de dias de interna¸ao, sexo do paciente e idade do
paciente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
24 Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID I. . 90
25 Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID III. 90
26 Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID VIIIA. 91
Lista de Tabelas
1 M´etodo Binning para suavizar dados. . . . . . . . . . . . . . . . . . . . . . 26
2 Benefici´arios por Faixa Et´aria. . . . . . . . . . . . . . . . . . . . . . . . . . 56
3 Detalhamento do agrupamento de categorias da CID-9 e da CID-10 para
an´alise dos dados de reinterna¸ao hospitalar (CASTRO; CARVALHO, 2005). 61
4 Vinte e seis grupos da CID utilizados para an´alise de reinterna¸ao hospitalar
em adultos (CASTRO; CARVALHO, 2005). . . . . . . . . . . . . . . . . . . 62
5 Dezenove grupos da CID utilizados para an´alise de reinterna¸ao hospitalar
em crian¸cas (CASTRO; CARVALHO, 2005). . . . . . . . . . . . . . . . . . . 63
6 Trinta grupos da CID utilizados para an´alise de reinterna¸ao hospitalar no
presente trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7 Tabela MDPaciente utilizada na minera¸ao. . . . . . . . . . . . . . . . . . 66
8 Tabela MDInterna¸ao utilizada na minera¸ao. . . . . . . . . . . . . . . . . 67
9 Tabela MDProcedimento utilizada na minera¸ao. . . . . . . . . . . . . . . 67
10 Tabela MDCap´ıtuloCid utilizada na minera¸ao. . . . . . . . . . . . . . . . 67
11 Categorias de dias de interna¸ao. . . . . . . . . . . . . . . . . . . . . . . . 69
12 Categorias de faixa et´aria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
13 Erro percentual e ´ındice de Davies-Bouldin da rede SOM de 4 dimens˜oes. . 74
14 Erro percentual e ´ındice de Davies-Bouldin da rede SOM de 6 dimens˜oes. . 75
15 Percentual de interna¸ao por faixa et´aria, segundo a taxa de permanˆencia. 81
16 Percentual de reinterna¸ao sob o mesmo cap´ıtulo de CID. . . . . . . . . . . 85
17 Quantidade de partos normais e ces´areos. . . . . . . . . . . . . . . . . . . . 86
18 Rec´em-nascidos e aes internadas nos primeiros meses ap´os o parto. . . . . 86
19 Internadas nos primeiros 24 meses ap´os o parto, segundo a faixa salarial. . 87
20 Caracter´ısticas encontradas em grupos da clusteriza¸ao. . . . . . . . . . . . 89
21 Semelhan¸ca num´erica entre os cap´ıtulos da CID: I-Infecciosas e parasit´arias;
III-End´ocrinas, nutricionais e metab´olicas e VIIIA-Infec¸oes respirat´orias
agudas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
22 Percentual de pacientes que se internam por diagn´osticos em um cap´ıtulo
e em outro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
23 Compara¸ao dos cap´ıtulos: II-Neoplasias; VIIA-Circulat´orio, menos veias
e linf´aticos; XA-Doen¸cas urin´arias e XIII-Osteomuscular e tecido conjuntivo. 93
24 Percentual de pacientes que se internam em um cap´ıtulo e em outro. . . . . 93
13
Resumo
A an´alise da utiliza¸ao de servi¸cos de sa´ude, notadamente das interna¸oes hospitalares,
´e assunto importante para o Brasil, devido ao grande volume de recursos neles empregados.
O presente trabalho relata o processo de Descoberta de Conhecimento em Base de
Dados (DCBD) proposto para se referir `as etapas que produzem conhecimento, a partir dos
dados e apresenta uma utiliza¸ao deste processo na descri¸ao das interna¸oes hospitalares,
utilizando a base de dados do Plano de Sa´ude da Prefeitura Municipal de Goiˆania. Foram
analisadas as interna¸oes ocorridas entre janeiro de 1998 e dezembro de 2003 , perfazendo
um total de 25.642 interna¸oes.
Os processos de an´alise de dados e padr˜oes foram baseados no etodo CRISP-DM, que
orientou as tarefas e passos utilizados na pesquisa. Na minera¸ao dos dados, utilizaram-
se processos estat´ısticos, tais como distribui¸oes de freq
¨
uˆencia, totaliza¸oes, edias e
correla¸oes. Utilizou-se, tamb´em, uma rede neural com capacidade de auto-organiza¸ao
do tipo SOM (Self-Organizing Map), para efetuar a clusteriza¸ao.
O resultado alcan¸cado ´e a descri¸ao das interna¸oes hospitalares, em que foram abor-
dados os seguintes assuntos: reinternoes, tempo m´edio de permanˆencia em interna¸ao,
interna¸oes segundo os seus diagn´osticos e compara¸ao entre interna¸oes ap´os partos nor-
mais e partos ces´areos.
A aplica¸ao da metodologia prop osta neste trabalho pode ser ´util em outros contextos,
sugerindo diagn´osticos priorit´arios para uma investiga¸ao mais profunda.
Palavras-chave: DCBD; Minera¸ao de Dados; Rede SOM; clusteriza¸ao; interna¸oes
hospitalares.
14
Abstract
The analysis of health services utilization, with special attention to hospital admis-
sions, is an imp ortant subject in Brazil. Brazilian government spends a great amount of
resources in hospital care.
This research mention the process of Knowledge Discovery in Database (KDD), pro-
posed to report the stages that produce knowledge about the data, and to explain the
utilization of this process on the description of hospital admission that was based on the
Health Plan of the City Hall of Goiˆania. The total of hospital admissions occurred from
January 1998 to December 2003 came to a total of 25.642.
The process of database analysis and standard rested on CRISP-DM method, which
guided this research. Statistics such as frequency distribution, totalizator, average and
correlation were used on the Data Mining. A Neural Network with Self Organization Map
(SOM) capacity was also used to accomplish Clustering.
The result reached is the description of hospital admission where the hospital readmis-
sion, length of stay on admission, admission based on diagnosis and a comparison between
admission after natural birth and c-section are described.
The methodology applied on this research can be useful in another context, suggesting
priority diagnostic groups to a deeper investigation.
Key-Words: KDD; Data Mining; Network SOM; Clustering; Hospital Admission.
15
Introdu¸ao
A informa¸ao e o conhecimento ao diferenciais competitivos considerados como os
produtos econˆomicos mais valiosos que uma organiza¸ao (empresa, institui¸ao) pode pos-
suir. A Gest˜ao do Conhecimento ´e uma forma de olhar a organiza¸ao, a procura de pontos
dos processos de neg´ocio, nos quais o conhecimento possa ser usado como vantagem com-
petitiva. Conhecimento ´util, oriundo da experiˆencia, da an´alise, da pesquisa, do estudo,
da inovao, da criatividade. Conhecimento sobre o mercado, a concorrˆencia, os clientes,
os processos de neg´ocio, a tecnologia e tudo aquilo que possa trazer vantagem competitiva
para a organiza¸ao (FILHO, 2001).
A gest˜ao do conhecimento ´e a forma com que as organiza¸oes trabalham o conheci-
mento, englobando a sua aquisi¸ao, o compartilhamento, a adapta¸ao ao meio e o apri-
moramento. Ela faz com que os ativos de conhecimento das organiza¸oes, ora restritos
`as pessoas, sejam convertidos em produtos e servi¸cos. A gera¸ao em massa de informa-
¸oes registradas nos bancos de dados, impulsionada pela Tecnologia da Informa¸ao (TI),
proporciona uma fonte de informa¸oes muito rica e com grande potencial de aux´ılio na
cria¸ao de novos conhecimentos.
Recentemente, a TI ampliou, efetivamente, seu papel na pr´atica de Gest˜ao do Co-
nhecimento por meio da disponibiliza¸ao de ferramentas de Descoberta de Conhecimento
em Base de Dados (DCBD). Estas ferramentas permitem a identifica¸ao de padr˜oes de
relacionamento entre dados que, adequadamente interpretados, podem levar `a abstra¸ao
de conhecimento in´edito e relevante. Este conhecimento, pelas vantagens competitivas
que proporciona `as organiza¸oes, representa uma categoria que merece a aten¸ao dos pro-
fissionais envolvidos com a Gest˜ao do Conhecimento. Segundo Fayyad (1996), a DCBD ´e
o mais almejado produto final da computa¸ao.
A Descoberta de Conhecimento em Base de Dados, do inglˆes Knowledge Discovery
in Database (KDD), utiliza a Minera¸ao de Dados (MD), sendo esta uma ferramenta de
inferˆencia que analisa um conjunto de dados com o objetivo de encontrar a informa¸ao
impl´ıcita, e apresent´a-la, de forma compreens´ıvel e ´util.
As ecnicas de minera¸ao de dados evolu´ıram muito e podem ser utilizadas em uma
Introdu¸ao 16
grande variedade de ´areas de aplica¸ao. Aplica¸oes proeminentes de DCBD incluem dados
para o cuidado da sa´ude, aplica¸oes financeiras e dados cient´ıficos.
As pesquisas de DCBD est˜ao ainda em est´agio inicial, mas ao promissoras, pois a
busca da compreens˜ao das informa¸oes ´e um fato intr´ınseco a todos os campos da atividade
humana. Com a DCBD espera-se preencher a lacuna existente entre a gera¸ao de dados
e a compreens˜ao dos mesmos. Na Medicina, superar essa lacuna ´e crucial, pois a tomada
de decis˜ao ´e alicer¸cada em argumentos baseados em conhecimentos m´edicos asicos, e em
informa¸oes extra´ıdas dos dados. Os principais objetivos de DCBD aplicados `a base de
dados em medicina, segundo Collazos, Barreto e Roisenberg (2002), ao:
interpretar os dados do paciente de maneira contexto-sensitiva e apresentar tais
interpreta¸oes de forma visual ou simb´olica; e
extrair (descobrir) informa¸ao edica para diagn´ostico, progn´ostico, monitoramento,
suporte `a terapia ou a tarefas gerais de gerenciamento de pacientes.
Muitos trabalhos de DCBD tˆem sido realizados em dados da ´area da sa´ude, sendo a
grande maioria voltada para o uso de servi¸cos ambulatoriais, como a an´alise de prontu´arios
m´edicos, os controles epidemiol´ogicos e a avalia¸ao de determinado tratamento. ao raros
os estudos que analisam o acesso e o uso das interna¸oes hospitalares, embora tais estudos
sejam fundamentais, pelo papel central na assistˆencia e por seu alto custo.
Especialmente nos dias atuais, o estudo da utiliza¸ao das interna¸oes hospitalares
torna-se priorit´ario num cen´ario de grandes mudan¸cas no perfil dos pacientes internados.
Os pacientes menos graves ao tratados no n´ıvel ambulatorial, ficando a interna¸ao hospi-
talar cada vez mais restrita aos casos mais graves e de custo mais elevado. Por esta raz˜ao,
o entendimento dos fatores associados `a utiliza¸ao de servi¸cos hospitalares ´e crucial para
a discuss˜ao de pol´ıticas voltadas ao aumento da qualidade do sistema de sa´ude brasileiro.
Motivado pelo panorama apresentado anteriormente, o presente trabalho objetiva des-
crever o processo de Descoberta de Conhecimento em Base de Dados proposto para se
referir `as etapas que produzem conhecimento, a partir dos dados, e apresentar uma utili-
za¸ao deste processo na descri¸ao das interna¸oes hospitalares.
Foi utilizada a base de dados do Plano de Sa´ude da Prefeitura Municipal de Goiˆania.
Os dados foram doados, legalmente, para a pesquisa cient´ıfica e a publica¸ao de artigos,
pelo Instituto de Seguridade Social dos Servidores Municipais (ISM).
Introdu¸ao 17
Os processos de an´alise de dados e padr˜oes foram baseados no etodo CRISP-DM,
o qual ´e um modelo de processo gratuito que fornece uma vis˜ao do ciclo de vida de
um projeto de DCBD. O CRISP-DM ´e composto por seis fases, a saber: compreens˜ao do
neg´ocio, compreens˜ao dos dados, prepara¸ao dos dados, modelagem, avalia¸ao e aplica¸ao.
Estas fases objetivam nortear, passo a passo, todo o processo de DCBD.
O modelo proposto no presente trabalho ´e um modelo descritivo. A proposta de tal
modelo ´e descrever, de maneira concisa e resumida, um conjunto de dados, apresentando
padr˜oes interessantes extra´ıdos destes dados. Segundo Han e Kamber (2001), um padr˜ao
´e considerado interessante se ´e facilmente entendido por humanos, validado em testes e
potencialmente ´util e novo. Um padr˜ao interessante, assim, representa conhecimento.
Para desenvolver o modelo descritivo proposto nesta pesquisa, utilizaram-se m´etodos
estat´ısticos, como distribui¸oes de freq
¨
uˆencia, m´edias e correla¸oes. Utilizou-se tamb´em
a an´alise de cluster, ou clusteriza¸ao. A clusteriza¸ao ´e um processo que agrupa objetos
dentro de grupos ou clusters, sendo que os objetos semelhantes ficam dentro do mesmo
grupo. A clusteriza¸ao tem sido amplamente utilizada em reconhecimento de padr˜ao,
an´alise de dados, processamento de imagens e pesquisa de mercado. Ela ´e utilizada,
tipicamente, quando ao se conhece nada sobre o comportamento dos dados.
Dentre as ecnicas de clusteriza¸ao, duas tˆem sido bastante utilizadas: o algoritmo
K-means e a rede neural SOM. K-means ´e um algoritmo de clusteriza¸ao que particiona
um grupo de dados de entrada em K grupos, representados por seus centros de massa, de
acordo com a sua distribui¸ao. Em outras palavras, a id´eia do K-means ´e, interativamente,
dividir os dados em conjuntos e reestimar os centros de massa destes conjuntos.
A rede neural SOM consiste na cria¸ao de mapas topol´ogicos para os dados, desta
forma ao a propriamente o reconhecimento do sinal de entrada, como no K-means, mas
sim a organiza¸ao deste junto a outros que tˆem caracter´ısticas semelhantes, formando um
conjunto de agrupamentos. Assim, no instante em que o sinal ´e inserido na rede, este ´e
colocado no grupo que melhor o representa, de acordo com as suas caracter´ısticas.
O processo de cria¸ao de mapas topol´ogicos, ou mapas de caracter´ısticas, concernen-
tes `a rede SOM, cria um umero aximo de agrupamentos que podem ser formados,
possibilitando at´e mesmo agrupamentos que ao possuam nenhum objeto de entrada nele
inserido. Isto permite maior adapta¸ao a novos padr˜oes de entrada a ela apresentados.
No intuito de alcan¸car plenamente os seus objetivos, o presente trabalho est´a or-
ganizado em 5 cap´ıtulos: os cap´ıtulos 1, 2 e 3 estabelecem a base te´orica para o seu
Introdu¸ao 18
desenvolvimento. O cap´ıtulo 1 discorre sobre a descoberta de conhecimento em base de
dados, o cap´ıtulo 2 fala sobre o processo de clusteriza¸ao e o cap´ıtulo 3 descreve as eta-
pas da metodologia CRISP-DM. O cap´ıtulo 4 apresenta o estudo de caso realizado junto
ao Plano de Sa´ude da Prefeitura Municipal de Goiˆania, quanto ao uso da descoberta de
conhecimento em base de dados para a descri¸ao do perfil das interna¸oes hospitalares.
Finalmente, o cap´ıtulo 5 descreve os resultados alcan¸cados nesta pesquisa.
19
1 Descoberta de Conhecimento
em Base de Dados
1.1 Gest˜ao do Conhecimento
Por d´ecadas, as ormulas para medir o patrimˆonio de uma determinada empresa con-
sideraram ap enas o patrimˆonio f´ısico e o humano da mesma. Estudos recentes mostram
que determinados patrimˆonios, ditos vol´ateis, podem ter mais valor agregado do que todas
as instala¸oes f´ısicas de uma determinada empresa (ABEL, 2003).
A revolu¸ao tecnol´ogica modificou a maneira de avalia¸ao do patrimˆonio das empresas
de tecnologia de ponta. Por exemplo, a distribuidora de livros Amazon Books, que ao
possui sede, instala¸oes, equipamentos e trabalha com um n ´umero reduzido de funcion´a-
rios, representou o conjunto de oes mais valorizadas em 1999, na Bolsa de Nova Iorque,
embora seu patrimˆonio, medido pelos m´etodos tradicionais, seja insignificante. Segundo
Abel (2003), o conhecimento de uma empresa de tecnologia de ponta, chamado de capital
intelectual (disperso em seus funcion´arios, bancos de dados, relat´orios, arquivos e pro-
jetos) se constitui como um patrimˆonio mais valioso que toda a instala¸ao f´ısica que ela
possui. Surge, ent˜ao, a Gest˜ao de Conhecimento, que pode ser entendida como o principal
instrumento para viabilizar o capital intelectual de uma empresa.
Na verdade, o conhecimento ´e um tema antigo, tratado por Plat˜ao, Arist´oteles e
outros tantos fil´osofos ao longo da hist´oria. Tamb´em na perspectiva empresarial, esse
tema ao ´e novidade, pois sempre se valorizou a experiˆencia, o know-how das pessoas. a
um bom tempo, o conhecimento ´e considerado elemento importante para obter vantagem
competitiva. Para melhor compreens˜ao da Gest˜ao do Conhecimento, seguem abaixo seus
conceitos asicos (dado, informa¸ao e conhecimento). Eles se inter-relacionam e, muitas
vezes, se confundem. Segundo Boff (2002):
Dado pode ser entendido com a mat´eria-prima asica da informa¸ao e do conheci-
mento, ou seja, o meio atraes do qual informa¸ao e conhecimento ao armazenados
1.1 Gest˜ao do Conhecimento 20
e transferidos. Textos, compostos por palavras e n´umeros, imagens, sons e fotos ao
alguns exemplos de dados, que podem ser armazenados em papel, discos magn´eticos
e outros meios f´ısicos.
Informa¸ao ´e composta por dados organizados, dispostos numa estrutura espec´ı-
fica. Pode-se considerar informa¸ao os dados que possuem algum significado. A
fun¸ao da informa¸ao ´e reduzir a incerteza e a ambig
¨
uidade, fornecendo ao usu´ario
maior clareza de uma situa¸ao.
Conhecimento ´e o resultado da interpreta¸ao da informa¸ao e de sua utiliza¸ao
para algum fim, especificamente para gerar novas id´eias, resolver problemas ou to-
mar decis˜oes. Em outras palavras, o conhecimento existe quando uma informa¸ao ´e
interpretada e suficientemente compreendida por algu´em. Portanto, ao ´e a infor-
ma¸ao que a valor a um produto ou servi¸co, e sim a sua relevˆancia e o uso que se
pode fazer dela. Assim, o conhecimento pode ser entendido como a forma de utilizar
a informa¸ao (BOFF, 2002).
Ampliando o conceito de conhecimento, pode-se caracteriz´a-lo como expl´ıcito ou a-
cito. O conhecimento expl´ıcito est´a nos documentos, nas bases de dados, nos produtos e
nos processos. Ele pode ser codificado e transferido. O conhecimento acito faz parte das
oes, dos contextos e das experiˆencias pessoais.
´
E dif´ıcil formaliz´a-lo, e sua comunica¸ao
acontece geralmente de forma subjetiva - ´e o que se sabe, mas nem sempre se consegue
explicar; ´e a origem do conhecimento, que, muitas vezes, ´e utilizado inconscientemente.
A Gest˜ao de Conhecimento, segundo Abel (2003), ´e um conjunto de estrat´egias
para: criar, adquirir, compartilhar e utilizar ativos de conhecimento; para estabelecer
fluxos que garantam a informa¸ao necess´aria no tempo e no formato adequados, a fim de
auxiliar a gera¸ao de id´eias, a solu¸ao de problemas e a tomada de decis˜ao. Com isso,
as organiza¸oes se tornam aptas a utilizar o que alguns expoentes da gest˜ao do conheci-
mento consideram como o “bem” ou o “recurso” mais valioso. A cria¸ao do conhecimento
possui um papel importante na gest˜ao do conhecimento, pois o conhecimento proporciona
inovao cont´ınua, que, por sua vez, traz vantagem competitiva `a empresa.
No panorama da gest˜ao do conhecimento, verifica-se a necessidade de uma grande
intera¸ao humana para a gera¸ao, a cria¸ao, o armazenamento e o compartilhamento do
conhecimento. As tecnologias de DCBD e MD se encontram no processo de gest˜ao do
conhecimento porque ao ferramentas de descoberta de novos conhecimentos em uma base
de dados. Davenport e Prusak (1998) afirmam que a tecnologia faz parte da gest˜ao do
1.2 Definindo Descoberta de Conhecimento em Base de Dados (DCBD) 21
conhecimento, impulsionando esse movimento. A tecnologia na utiliza¸ao de processos de
descoberta de conhecimento em base de dados participa desse referencial, proporcionando
uma metodologia de trabalho para que especialistas possam extrair, de um grande volume
de dados, novos conhecimentos.
1.2 Definindo Descoberta de Conhecimento em Base
de Dados (DCBD)
A d´ecada de 1990 trouxe um crescente problema de abundˆancia de dados para as
ciˆencias, os neg´ocios e o governo. A capacidade para colecionar e armazenar dados de toda
esp´ecie ultrapassou, e muito, as habilidades de analisar, sumarizar e extrair conhecimentos
destes dados sem a utiliza¸ao de uma ferramenta poderosa. Conseq
¨
uentemente, as cole¸oes
de dados em grandes bases tornaram-se “tumbas de dados” - os dados arquivados ao
raramente visitados. Enao, surge a ´area conhecida como Descoberta de Conhecimento
em Base de Dados. Esta utiliza ecnicas de Minera¸ao de Dados (MD) capazes de extrair
a informa¸ao impl´ıcita, previamente desconhecida e potencialmente ´util, de forma mais
automatizada e inteligente. A DCBD tem contribu´ıdo amplamente para a elabora¸ao de
estrat´egias de mercado, para cria¸ao de bases de conhecimento, e para o desenvolvimento
de pesquisas cient´ıficas.
arios nomes a designaram o processo de encontrar padr˜oes ´uteis em base de dados,
como Extra¸ao de Conhecimento, Descoberta de Informa¸ao, Minera¸ao de Dados e Pro-
cessamento de Padr˜ao de Dados. Foi em 1989, que o termo Descoberta de Conhecimento
em Base de Dados foi utilizado pela primeira vez para se referir ao processo total de
procura do conhecimento em dados, enfatizando a aplica¸ao de alto-n´ıvel de t´ecnicas de
Minera¸ao de Dados (FAYYAD, 1996).
1.3 Etapas da Descoberta de Conhecimento
Segundo Fayyad (1996), o processo de Descoberta de Conhecimento pode ser dividido
em trˆes etapas principais: pr´e-processamento, minera¸ao de dados e os-processamento.
Na Figura 1 pode-se visualizar como estas etapas se integram.
Pr´e-processamento: no pr´e-processamento ao realizados os seguintes passos:
a) Desenvolvimento do entendimento do dom´ınio da aplica¸ao: aquisi¸ao do
1.3 Etapas da Descoberta de Conhecimento 22
Figura 1: Etapas do processo de Descoberta de Conhecimento (FAYYAD, 1996).
conhecimento pr´evio e das metas do usu´ario final, identificando a informa¸ao requerida
para uma ao espec´ıfica, ou seja, o que o usu´ario quer conhecer e o que ele quer fazer
com esse conhecimento. O dom´ınio da aplica¸ao envolve:
elabora¸ao de uma lista de requisitos;
avalia¸ao do hardware e do software;
avalia¸ao da qualidade dos dados dispon´ıveis;
desenvolvimento de um invent´ario das bases de dados dispon´ıveis;
formula¸ao do conhecimento necess´ario `a organiza¸ao no momento e no futuro;
identifica¸ao das pessoas que trabalham com o conhecimento, os tipos de decis˜oes
que elas costumam tomar, os padr˜oes que elas utilizam e a funcionalidade que
elas necessitam como apoio ao processo de decis˜ao; e
identifica¸ao dos processos e transforma¸oes que as bases de dados ter˜ao de sofrer
antes da utiliza¸ao das mesmas.
b) Sele¸ao dos dados: cria¸ao de um conjunto de exemplos, a partir de uma opia
dos dados operacionais armazenados nas bases de dados da organiza¸ao, nos quais
a descoberta ser´a realizada. Na sele¸ao dos dados, escolhe-se somente os atributos
relevantes `a tarefa de minera¸ao dos dados.
1.3 Etapas da Descoberta de Conhecimento 23
c) Limpeza dos dados: coleta de informa¸oes necess´arias ao modelo e defini¸ao de quais
estrat´egias ser˜ao utilizadas para a manipula¸ao de informa¸oes inconsistentes.
d) Transforma¸ao dos dados: freq
¨
uentemente os dados ao se encontram num formato
desej´avel para a minera¸ao; nesta fase, eles ao transformados para atender a forma
apropriada.
Minera¸ao de dados: ´e a etapa mais importante do processo de DCBD. Caracteriza-
se pela escolha de algoritmos que, diante da tarefa especificada, ser˜ao capazes de extrair,
eficientemente, o conhecimento impl´ıcito e ´util de uma base de dados. Pode-se dizer que
a MD ´e a fase que transforma os dados em informa¸oes. Na etapa de minera¸ao de dados,
a os seguintes passos:
a) Escolha da tarefa de minera¸ao de dados: decis˜ao de quais tarefas ser˜ao utiliza-
das. As tarefas ao definidas de modo a atender o objetivo principal da DCBD.
b) Escolha do algoritmo de minera¸ao de dados: sele¸ao da(s) t´ecnica(s) a ser(em)
utilizada(s) pela pr´oxima etapa e decis˜ao de quais modelos e parˆametros podem ser
apropriados.
c) Aplica¸ao da minera¸ao de dados: uma vez escolhido o algoritmo a ser utilizado,
deve-se implemena-lo e adapt´a-lo ao problema proposto. Para finalizar essa etapa,
deve-se executar o algoritmo, a fim de obter resultados que ser˜ao analisados na fase de
os-processamento.
os-processamento: o os-processamento possui duas etapas:
a) Interpreta¸ao dos padr˜oes enumerados: avalia¸ao e interpreta¸ao dos padr˜oes
encontrados para verificar o que constitui e o que ao constitui conhecimento. Nesta
etapa, pode ocorrer a necessidade de retorno a uma das etapas anteriores (minera¸ao
de dados e pr´e-processamento). Por exemplo, sendo a quantidade de padr˜oes des-
coberta ao ampla que se torne improdutiva, faz-se necess´ario retornar `a etapa de
pr´e-processamento para reduzir o contexto da pesquisa.
b) Consolida¸ao da descoberta de conhecimento: incorpora¸ao do conhecimento
adquirido ao desenvolvimento da organiza¸ao, ou seja, o conhecimento deve ser docu-
mentado e relatado aos usu´arios, utilizando-se t´ecnicas de visualiza¸ao de dados. Nesta
etapa, deve-se verificar e resolver os eventuais conflitos com o conhecimento extra´ıdo.
1.3 Etapas da Descoberta de Conhecimento 24
As etapas pr´e-processamento, minera¸ao e os-processamento ao questionadas por
alguns autores, pelo fato de o processo de Descoberta de Conhecimento ser interativo e
iterativo, ao existindo uma ordem seq
¨
uencial ´unica durante o andamento do processo, o
que torna dif´ıcil a imposi¸ao de limites precisos ao mesmo. Para determinados autores,
a transforma¸ao de dados ´e intr´ınseca `a minera¸ao.
´
E inquestion´avel que a MD ´e um
vasto processo na descoberta de conhecimento em base de dados, sendo freq
¨
uente o uso da
express˜ao Minera¸ao de Dados para definir todo o processo de descoberta de conhecimento.
No presente trabalho, adotou-se o modelo definido por Fayyad (1996), no qual a MD ´e
vista como parte do processo de DCBD.
1.3.1 Conceitos e T´ecnicas de Pr´e-Processamento de Dados
Todas as bases de dados do mundo real ao altamente suscet´ıveis a ru´ıdos, erros
e inconsistˆencia de dados, devido `a grande quantidade de informa¸oes que armazenam
e aos problemas de an´alise dos sistemas que geram essas bases (n˜ao projetados para a
descoberta de conhecimento). Estes dados podem ser processados para melhorar sua
qualidade e, conseq
¨
uentemente, o resultado da minera¸ao. Segundo Adriaans e Zantinge
(1996), 80% dos problemas na implementa¸ao de algoritmos de MD referem-se `as etapas
de prepara¸ao dos dados, enquanto que os outros 20% referem-se `a etapa de minera¸ao
de dados propriamente dita.
Dada a importˆancia do Pr´e-processamento no processo de DCBD, ser˜ao enfatizados,
nas pr´oximas se¸oes, seus conceitos mais importantes e apresentadas as ecnicas mais uti-
lizadas nesta etapa. Estas ao organizadas, segundo Han e Kamber (2001), em: limpeza,
integra¸ao, transforma¸ao e redu¸ao dos dados.
ao muitas as t´ecnicas que podem ser utilizadas na prepara¸ao dos dados, e estas
podem ser aplicadas individualmente ou combinadas.
´
E imprescind´ıvel a prepara¸ao dos
dados para realizar uma eficiente minera¸ao dos mesmos.
1.3.1.1 Limpeza dos dados
As rotinas de limpeza em como objetivo preencher os dados sem informa¸ao, eliminar
ru´ıdos que ao identificados e corrigir os dados que apresentam inconsistˆencias. De acordo
com o objetivo da limpeza de dados pode-se escolher o m´etodo mais adequado. Os etodos
mais utilizados para cada tipo de problema de dados que necessita limpeza ao os seguintes:
1.3 Etapas da Descoberta de Conhecimento 25
Campo do dado ao est´a preenchido: neste caso, o objetivo da limpeza ´e deduzir
o valor do campo sem informa¸ao ou eliminar a tupla na qual ele est´a localizado. O
preenchimento pode se tornar um grande problema quando houver arios campos sem
valor numa mesma tupla. As ecnicas utilizadas para este tipo de limpeza ao:
a) Ignorar a tupla: este m´etodo ´e normalmente utilizado quando falta o dado de iden-
tifica¸ao da tupla.
b) Preencher manualmente o campo sem informa¸ao: geralmente este etodo
consome muito tempo, o que o torna invi´avel, dado o tamanho das bases e a grande
quantidade de erros encontrados.
c) Usar uma constante para preencher o campo sem informa¸ao: supondo que
seja utilizada a palavra “DESCONHECIDO” para preencher os campos sem informa-
¸ao, o programa de minera¸ao pode, erroneamente, deduzir que eles representam um
padr˜ao de interesse. Apesar deste m´etodo ser simples, ao ´e recomendado por esta
raz˜ao.
d) Completar com a edia dos valores informados: faz-se a edia de todos os
valores informados, utilizando-a para preencher todos os campos que est˜ao sem preen-
chimento.
e) Completar com a m´edia dos valores das tuplas semelhantes: faz-se a m´edia
somente dos valores das tuplas que apresentam o mesmo comportamento. Exemplifi-
cando: caso o dado ao preenchido seja risco de cr´edito, ´e poss´ıvel classificar os clientes
de acordo com os seus sal´arios, e, ent˜ao, preencher os riscos de cr´edito com a edia
dos valores dos clientes que possuem o mesmo sal´ario.
f) Usar o valor mais prov´avel para preencher o campo sem informa¸ao: isto
pode ser determinado, utilizando-se regress˜ao, ferramentas baseadas em inferˆencia ou
´arvore de decis˜ao.
Aparecimento de ru´ıdo nos dados: neste caso, o objetivo da limpeza ´e eliminar
ou minimizar os ru´ıdos. O ru´ıdo ´e um erro randˆomico ou uma varia¸ao desprop orcional
na medida de uma vari´avel. Para minimizar os ru´ıdos, utilizam-se as seguintes ecnicas:
a) Binning : este m´etodo suaviza os valores de um dado, consultando seus vizinhos (os
valores em torno dele). Os valores classificados ao distribu´ıdos em um n´umero de bins
1.3 Etapas da Descoberta de Conhecimento 26
(caixas). Como este etodo consulta apenas os valores de seus vizinhos, ele apresenta
um efeito local.
A Tabela 1 ilustra algumas t´ecnicas do m´etodo binning. Nela as informa¸oes de pre¸cos
foram classificadas e posteriormente particionadas em 3 bins, cada um contendo 3
valores. Na suaviza¸ao utilizando a edia, cada valor em um bin ´e trocado pela m´edia
de seus valores. Na suaviza¸ao atrav´es dos limites, cada valor intermedi´ario em um
bin ´e trocado pelo valor de um dos seus limites (m´ınimo ou aximo), sendo que, o
limite a ser adotado ´e o que apresenta a menor diferen¸ca em rela¸ao ao valor que ser´a
modificado.
Tabela 1: M´etodo Binning para suavizar dados.
Informa¸oes de pre¸cos classificadas: 4,8,15,21,21,24,25,28,34
Divis˜ao dos pre¸cos em bins:
Caixa 1: 4,8,15
Caixa 2: 21,21,24
Caixa 3: 25,28,34
Suaviza¸ao utilizando a edia de cada bin:
Caixa 1: 9,9,9
Caixa 2: 22,22,22
Caixa 3: 29,29,29
Suaviza¸ao utilizando os limites dos bins:
Caixa 1: 4,4,15
Caixa 2: 21,21,24
Caixa 3: 25,25,34
b) Clusteriza¸ao (Agrupamento): os valores fora do padr˜ao podem ser detectados
atraes da clusteriza¸ao, onde valores similares ao organizados em grupos ou clusters.
c) Combina¸ao computador e inspao humana: os valores fora do padr˜ao podem
ser identificados atraes da combina¸ao do computador com a inspao humana.
d) Regress˜ao: os dados podem ser suavizados por meio de seu ajuste a uma fun¸ao, como
na regress˜ao. A regress˜ao linear possibilita encontrar a melhor linha para ajustar duas
vari´aveis. A regress˜ao ao-linear ´e uma extens˜ao da regress˜ao linear para mais de duas
vari´aveis.
Dados inconsistentes: a terceira tarefa da limpeza de dados ´e eliminar os dados
inconsistentes. Determinados dados inconsistentes podem ser corrigidos manualmente,
utilizando-se referˆencias externas. O conhecimento da aplica¸ao que fez a manuten¸ao da
1.3 Etapas da Descoberta de Conhecimento 27
base de dados pode ser importante, pois pode ser utilizado para identificar a viola¸ao da
integridade dos dados.
´
E poss´ıvel gerar inconsistˆencias quando se faz a integra¸ao dos
dados, pois pode existir um mesmo atributo com nomes diferentes em diferentes bases
de dados. As redundˆancias tamb´em podem gerar inconsistˆencias. As solu¸oes para tais
inconsistˆencias exigem tarefas de integra¸ao e transforma¸ao dos dados, apresentadas a
seguir.
1.3.1.2 Integra¸ao dos dados
A DCBD freq
¨
uentemente requer a combina¸ao de dados vindos de arias bases. A
integra¸ao de dados tem como objetivo combinar dados vindos de diferentes fontes em
um reposit´orio coerente, como um data warehouse
1
. Essas fontes podem incluir muitos
bancos de dados ou arquivos.
Uma considera¸ao que deve ser feita na integra¸ao de dados ´e a ocorrˆencia de um
mesmo atributo com nomes diferentes em diferentes bases. Normalmente, as bases de da-
dos possuem metadados - informa¸oes sobre os dados. Os metadados devem ser utilizados
para ajudar o analista a evitar erros no esquema de integra¸ao.
Outra preocupa¸ao no processo de integra¸ao ao as redundˆancias que podem ocorrer.
Um atributo ´e redundante quando derivado de outro atributo, localizado em outra tabela.
Por exemplo, o rendimento anual, um atributo que normalmente pode ser encontrado
somando-se todos os rendimentos. Algumas redundˆancias tamb´em podem ser detectadas
pela an´alise de correla¸ao. Exemplificando: dados dois atributos, a an´alise mede qual
a influˆencia de um sobre o outro. Uma correla¸ao acentuada pode indicar um caso de
redundˆancia.
1.3.1.3 Transforma¸ao dos dados
Nesta t´ecnica, os dados ao transformados ou consolidados atendendo `a forma apro-
priada para a minera¸ao. A transforma¸ao de dados envolve:
a) Suaviza¸ao: ´e o resultado do trabalho de remover os ru´ıdos dos dados. As t´ecnicas
de suaviza¸ao incluem binning, clusteriza¸ao e regress˜ao.
b) Agrega¸ao: as opera¸oes de soma, ou agrega¸ao, ao aplicadas aos dados. Os dados
podem ser agregados mensalmente, anualmente, etc.
1
´
E um reposit´orio que cont´em dados limpos, agregados e consolidados, criados a partir de arias fontes
com o prop´osito de fornecer uma base olida para a an´alise e o suporte ao processo decis´orio.
1.3 Etapas da Descoberta de Conhecimento 28
c) Generaliza¸ao: o corre quando dados de baixo n´ıvel ao trocados por conceitos de
alto n´ıvel, adotando-se o conceito de hierarquia. Por exemplo, o atributo “rua” pode
ser generalizado para o conceito de alto n´ıvel “cidade”.
d) Normaliza¸ao: ´e realizada de acordo com o tipo do atributo: cont´ınuo (cont´em n´ume-
ros inteiros ou reais) ou categ´orico (cont´em valores referentes a categorias; por exemplo:
o conceito de notas A, B, C e D). Se o atributo possui valores cont´ınuos (inteiros ou
reais), estes ao escalonados dentro de uma faixa de valores, como -1,0 a 1,0. Se o
atributo ´e categ´orico, deve-se atribuir valores a cada uma das categorias, lembrando
que estes valores devem ser significativos - devem expressar o grau de semelhan¸ca com
as demais categorias.
e) Constru¸ao de atributo: novos atributos ao constru´ıdos e inclu´ıdos no conjunto
existente para auxiliar o processo de minera¸ao.
1.3.1.4 Redu¸ao dos dados
As t´ecnicas de redu¸ao dos dados podem ser aplicadas para se obter uma representa¸ao
reduzida de um conjunto de dados, mantendo a integridade dos dados originais. Minerar
em um conjunto reduzido de dados pode ser mais eficiente, produzindo o mesmo (ou quase
o mesmo) resultado anal´ıtico obtido na minera¸ao em um conjunto amplo de dados (HAN;
KAMBER, 2001).
Dentre as estrat´egias utilizadas para a redu¸ao dos dados, destacam-se as seguintes:
a) Agrega¸ao em cubos de dados: as opera¸oes de agrega¸ao ao aplicadas nos dados
para a constru¸ao de cubos de dados. Um exemplo: supondo que os dados seleciona-
dos para a an´alise sejam informa¸oes de vendas por trimestre. No entanto, somente
interessam as vendas ocorridas por ano. Neste caso, agregam-se os dados, obtendo as
vendas anuais desejadas.
b) Redu¸ao de dimens˜ao: os atributos irrelevantes, pouco relevantes ou redundantes
ao detectados e removidos. O objetivo da sele¸ao de um subconjunto de atributos ´e
encontrar um conjunto m´ınimo de atributos tal que a distribui¸ao da probabilidade
resultante dos dados deste conjunto m´ınimo seja bem pr´oxima a da distribui¸ao obtida
utilizando-se todos os atributos.
c) Compress˜ao de dados: mecanismos de codifica¸ao ou de transforma¸ao aplicados
com o objetivo de reduzir, ou comprimir, a representa¸ao original dos dados.
1.3 Etapas da Descoberta de Conhecimento 29
1.3.2 Minera¸ao de Dados
A minera¸ao de dados (MD), do inglˆes Data Mining, ´e o processo de extrair informa¸ao
alida, previamente desconhecida e de axima abrangˆencia, a partir de grandes bases de
dados. A MD, assim, vai muito al´em da simples consulta a um banco de dados, pois
permite aos usu´arios explorar e inferir informa¸ao ´util a partir dos dados, descobrindo
relacionamentos escondidos no bases de dados (COUTINHO, 2004).
A minera¸ao de dados como parte de um processo de descoberta de conhecimento em
base de dados, surge da necessidade de extrair padr˜oes de grandes volumes de dados. Ela
´e considerada um estudo multidisciplinar; envolvendo, dentre outras, ecnicas de banco
de dados, estat´ıstica, redes neurais, aprendizado de aquina, processamento de imagens
e sinais, visualiza¸ao de dados e an´alise de dados espaciais. Pode ser aplicada a qualquer
tipo de base de dados, diferenciando-se somente nas ecnicas utilizadas em cada tipo de
base.
1.3.2.1 Tarefas da minera¸ao de dados
Modelos de MD ao utilizados para especificar o tipo de padr˜oes a ser encontrado
nos dados. As tarefas de minera¸ao de dados podem ser classificadas em duas categorias
principais: descritiva e preditiva. Tarefas descritivas apresentam as caracter´ısticas gerais
dos dados. Tarefas preditivas realizam inferˆencias nos dados com o objetivo de fazer
previs˜oes.
Em muitos casos, apenas duas classifica¸oes (preditiva e descritiva) ao insuficientes.
Por exemplo: em alguns casos, usu´arios ao em id´eia do tipo de padr˜oes que pode ser
interessante, enao devem procurar diferentes padr˜oes em paralelo, efetuando uma busca
explorat´oria. Outras vezes, deseja-se encontrar um padr˜ao espec´ıfico em uma base de
dados.
A arte da minera¸ao ´e dividida em tarefas, segundo Hand, Mannila e Smyth (2001)
com o intuito de atender aos diferentes objetivos que lhe ao propostos :
a) An´alise explorat´oria de dados
Objetivo: explorar os dados sem id´eia clara do que ser´a encontrado.
T´ecnicas: apresenta¸ao visual e intera¸oes para visualizar/analisar poss´ıveis desco-
bertas - vale dizer que a dificuldade de visualiza¸ao em base de dados com alta
dimensionalidade.
1.3 Etapas da Descoberta de Conhecimento 30
b) Modelo descritivo
Objetivo: descrever todos os dados ou o processo de gera¸ao dos dados.
T´ecnicas: distribui¸ao e densidade da probabilidade dos dados; an´alise de agrupa-
mento ou segmenta¸ao (clusteriza¸ao); modelagem de dependˆencia entre as vari´aveis.
c) Modelo preditivo: classifica¸ao e regress˜ao
Objetivo: prever o valor de uma vari´avel atrav´es da an´alise dos valores de outras
vari´aveis. Na classifica¸ao, a vari´avel prevista ´e categ´orica. Na regress˜ao, esta ´e quan-
titativa.
T´ecnicas: um grande n´umero de etodos estat´ısticos e aquinas de aprendizagem
tˆem sido utilizados.
d) Descoberta de padr˜oes e regras
Objetivo: detectar padr˜oes, tendo como desafio encontrar aqueles que apresentam
um padr˜ao ao-usual dentro de um contexto.
T´ecnicas: algoritmos baseados em regras de associa¸ao.
e) Recupera¸ao de informa¸ao
Objetivo: encontrar um padr˜ao desejado em um conjunto de dados. Esta tarefa ´e
mais utilizada em conjuntos de dados de imagens e textos.
T´ecnicas: m´etodos de recupera¸ao. Podem ser utilizados etodos matem´aticos, como
´e feito no Google (GOOGLE, 2005), que utiliza um algoritmo chamado PageRank para
estimar a importˆancia relativa de uma agina na web.
Observando-se as tarefas relacionadas acima, verifica-se que ao claramente distintas,
contudo possuem algumas caracter´ısticas em comum.
´
E fato que diferentes estruturas de
modelos e padr˜oes necessitam de diferentes tarefas ou combina¸oes de tarefas. A seguir,
ser´a apresentada uma descri¸ao de t´ecnicas descritivas da minera¸ao de dados.
T´ecnicas Descritivas de MD: um modelo descritivo apresenta, de forma conveni-
ente, as principais caracter´ısticas dos dados. Ele ´e essencialmente um resumo dos dados.
O modelo descritivo tem como objetivo principal produzir entendimento sobre a estrutura
dos dados e disponibilizar uma vis˜ao das caracter´ısticas importantes, almejando descobrir
informa¸oes desconhecidas e interessantes (HAND; MANNILA; SMYTH, 2001).
Dentre as ecnicas utilizadas para gerar modelos descritivos, a an´alise de agrupamento,
ou an´alise de cluster, ou, ainda, clusteriza¸ao, ´e uma das mais utilizadas, pois se trata de
um processo ao-supervisionado, em que ao existem classes predefinidas nem exemplos
1.4 Aplicoes de DCBD 31
que auxiliem a valida¸ao dos relacionamentos encontrados. Sendo assim, ela ´e utilizada
quando se desconhece a distribui¸ao dos agrupamentos. O estudo de caso realizado neste
faz uso da clusteriza¸ao (detalhada no Cap´ıtulo 2).
1.3.3 os-processamento
A obten¸ao do conhecimento ao ´e o passo final do processo de DCBD. O conheci-
mento extra´ıdo deve ser utilizado para a resolu¸ao de problemas da vida real, como apoio
a algum processo de tomada de decis˜ao.
No entanto, para que isto seja poss´ıvel, o conhecimento extra´ıdo deve ser apresentado
na forma de padr˜oes interessantes. Segundo Han e Kamber (2001), um padr˜ao considerado
interessante deve atender a quatro requisitos: 1) ser de acil entendimento, 2) ter sido
validado com um certo grau de precis˜ao, 3) ser potencialmente ´util, e 4) ser novo.
ao ´e acil atender a esses requisitos, a que os algoritmos de MD podem gerar uma
grande quantidade de padr˜oes, muitos deles ao importantes, relevantes ou interessantes
para o usu´ario. Sabe-se tamb´em que fornecer ao usu´ario uma grande quantidade de
padr˜oes descobertos ao ´e produtivo, pois, normalmente, ele procura uma pequena lista
de padr˜oes interessantes.
Existem arias medidas objetivas de valida¸ao da confiabilidade da informa¸ao, sendo
adotadas de acordo com o algoritmo da minera¸ao.
A uni˜ao de medidas objetivas de valida¸ao, suporte e confian¸ca com medidas subje-
tivas, que atendem a necessidade e o interesse do usu´ario determinam a importˆancia do
conhecimento extra´ıdo das bases de dados.
1.4 Aplica¸oes de DCBD
As ferramentas e aplica¸oes de DCBD ao se restringem ao ambiente acadˆemico, sendo
cada vez mais utilizadas em setores comerciais.
A Wal-Mart, por exemplo, uma das maiores cadeias varejistas dos Estados Unidos,
iniciou um projeto de minera¸ao de dados baseado em redes neurais em 1997. O projeto
visava obter previs˜oes de venda detalhadas de cada produto em cada um de seus 3.000
pontos de venda. O objetivo era reduzir os custos de manuten¸ao de estoque e prevenir
riscos de falta de estoque. O sistema consulta os 7 terabytes de dados (que a Wal-Mart
possui armazenados) e utiliza redes neurais para a previs˜ao de vendas de mais de 100.000
1.4 Aplicoes de DCBD 32
diferentes produtos (STEDMAN, 2004).
A ShopKo, concorrente da Wal-Mart, utilizou programas de MD para reconhecimento
de padr˜oes de consumo nas suas lojas. Descobriu que a venda de certos produtos era
decorrente da venda indireta de outros produtos. A ShopKo resistiu `a agressiva entrada
da Wal-Mart em 90% dos mercados, e o presidente da ShopKo afirmou que o processo de
MD foi muito importante nesta vit´oria (LUBEL, 2004).
A Sprint, uma das l´ıderes no mercado americano de telefonia de longa distˆancia, de-
senvolveu um etodo capaz de prever, com 61% de seguran¸ca, se um consumidor trocaria
de companhia telefˆonica dentro de um per´ıodo de 2 meses. Com um marketing agressivo,
conseguiu evitar a deser¸ao de 120.000 clientes e, conseq
¨
uentemente, a perda de cerca de
35 milh˜oes de olares no seu faturamento (GUROVITZ, 2004).
No Brasil, o banco Ita ´u costumava enviar mais de 1 milh˜ao de malas diretas para
todos os correntistas. No aximo, 2% deles respondiam positivamente `as promo¸oes.
Atualmente, o banco tem armazenada toda a movimenta¸ao financeira de seus mais de 3
milh˜oes de clientes. A an´alise desses dados permite que cartas sejam enviadas apenas a
quem tem maior chance de responder. A taxa de retorno subiu para 30%. A redu¸ao com
os custos de envio postal foi de 80% (GUROVITZ, 2004).
Ainda no setor de bancos de servi¸cos, as institui¸oes financeiras utilizam a MD para
classificar os clientes de acordo com o risco de cr´edito correspondente. De acordo com os
diferentes n´ıveis de risco de cr´edito, associam-se a eles as diversas estrat´egias de marketing
ou, se for o caso, as limita¸oes de cr´editos.
Na ´area da sa´ude, a um projeto iniciado em 2001, por meio da parceria entre pesqui-
sadores do Grupo de Inteligˆencia Artificial do Instituto de Inform´atica da Universidade
Federal do Rio Grande do Sul (UFRGS), pesquisadores do Departamento de Ciˆencia
da Computa¸ao da Universidade de Caxias do Sul (UCS) e a Secretaria de Estado da
Sa´ude do Rio Grande do Sul (SES). O objetivo da pesquisa ´e desenvolver metodologias
de minera¸ao de dados bem como t´ecnicas estat´ısticas, aplic´aveis `as atividades de plane-
jamento, acompanhamento, avalia¸ao e controle das oes e dos servi¸cos de sa´ude. Este
conhecimento pode viabilizar um avan¸co ocio-econˆomico ao sistema estadual de sa´ude,
detectando fraudes, fornecendo dados estat´ısticos ao plano estrat´egico de combate a epi-
demias e doen¸cas regionais, comparando os custos cobrados nos diferentes hospitais para
o mesmo procedimento, etc. (UFRGS, 2004; UCS, 2004).
Por fim, pode-se citar a an´alise de dados m´edicos, utilizando a DCBD para a identifi-
1.5 Desafios para a Descoberta de Conhecimento 33
ca¸ao das probabilidades de sobrevivˆencia dos pacientes ou para a indica¸ao de melhores
tratamentos (mais adequados) a eles.
1.5 Desafios para a Descoberta de Conhecimento
Existem alguns problemas relacionados com as decis˜oes que devem ser tomadas du-
rante o processo de Descoberta de Conhecimento, tais como: defini¸ao do conhecimento
que se deseja extrair, representa¸ao do conhecimento extra´ıdo, complexidade da pesquisa
e sele¸ao do etodo de minera¸ao de dados mais apropriado. Tamb´em ´e problem´atica a
escolha dos esquemas, das amostras e das proje¸oes dos dados capazes de levar ao resul-
tado desejado. Assim, as decis˜oes dependem da base de dados utilizada, do dom´ınio e da
aplica¸ao do conhecimento descoberto. Al´em desses problemas, existem alguns “desafios”
referentes `as bases de dados e ao pr´oprio sistema a ser implementado (FAYYAD, 1996):
- Volume da base de dados: as bases de dados com centenas de campos e tabelas
demandam muito espa¸co para armazenamento, o que pode resultar numa variedade
enorme de padr˜oes, combina¸oes e hip´oteses. Uma solu¸ao poss´ıvel ´e a utiliza¸ao de um
algoritmo capaz de enumerar as principais regras de associa¸ao dessas grandes bases de
dados, ou outras solu¸oes, incluindo amostras, m´etodos de aproxima¸ao e processamento
paralelo.
- Alta dimensionalidade da base de dados: a dimensionalidade ´e medida pela quan-
tidade de campos de uma base de dados. A alta dimensionalidade aumenta de forma
explosiva o tamanho do espa¸co de procura e tamem as chances do algoritmo encontrar
padr˜oes falsos. etodos para reduzir, efetivamente, a dimensionalidade da base de da-
dos e o uso de prioridades para identificar as vari´aveis irrelevantes ao utilizados como
solu¸oes poss´ıveis.
- Dados inconsistentes: devido a existˆencia de atributos com valores nulos, e de atri-
butos importantes para o pro cesso de descoberta ausentes na base de dados (por ela
ao ter sido projetada para a descoberta de conhecimento).
- Bases de dados redundantes: a redundˆancia, a estrutura hier´arquica dos atributos e
as rela¸oes entre os atributos encontradas nas bases de dados ao devem ser consideradas
conhecimento pelo algoritmo de extra¸ao.
- Ru´ıdos na base de dados: esse tipo de problema ´e muito grave e comum, indicando
que importantes atributos podem estar perdidos ou com valores errados na base de
1.5 Desafios para a Descoberta de Conhecimento 34
dados, caracterizando o ru´ıdo. Uma solu¸ao poss´ıvel ´e utilizar estrat´egias estat´ısticas
sofisticadas para identificar vari´aveis ocultas e suas dependˆencias ou utilizar grandes
amostras dos dados, tornando o ru´ıdo menos significativo.
- Dados irregulares: diferentes bases de dados ao utilizadas em arias partes da or-
ganiza¸ao, e, conseq
¨
uentemente, os dados operacionais podem ter diferentes dom´ınios
para definir uma mesma informa¸ao e variar em termos de qualidade. Uma das solu¸oes
para este problema ´e a an´alise efetiva de qual a melhor base de dados para selecionar
os mesmos, ou enao utilizar um Data Warehouse, que apresenta um ambiente est´avel
e integrado dos dados.
- Dados constantemente alterados: a natureza dinˆamica dos dados faz com que eles
sejam constantemente alterados, o que pode levar a conclus˜oes precipitadas e errˆoneas,
pois as vari´aveis medidas podem ter sido removidas ou modificadas. Uma poss´ıvel
solu¸ao ´e a utiliza¸ao de etodos para atualizar os padr˜oes ou a utiliza¸ao apenas de
padr˜oes que ao sofreram mudan¸cas.
- Intera¸ao com o usu´ario: os sistemas de Descoberta de Conhecimento devem ser
autˆonomos e devem somente extrair as hip´oteses ´uteis. Por outro lado, esses sistemas
precisam ser configurados para a aplica¸ao `a base de dados de cada usu´ario, de acordo
com as suas necessidades e com o conhecimento que ele possui.
- Conhecimento anterior: muitos m´eto dos e ferramentas de Descoberta de Conhe-
cimento ao ao verdadeiramente interativos e ao podem incorporar o conhecimento
anterior sobre um problema de modo simples. O uso do dom´ınio do conhecimento e de
probabilidades anteriores retiradas dos dados ao importantes em todas as etapas do
processo de Descoberta de Conhecimento.
- Representa¸ao da informa¸ao: se a informa¸ao descoberta ao for claramente com-
preens´ıvel e acess´ıvel ao usu´ario, ele pode ter interpreta¸oes equivocadas do conheci-
mento. Uma poss´ıvel solu¸ao ´e incluir representa¸oes gr´aficas, linguagem natural e
t´ecnicas modernas de visualiza¸ao de dados.
- Integra¸ao com outros sistemas: um sistema de Descoberta de Conhecimento iso-
lado pode ao ser muito ´util. As abordagens t´ıpicas de integra¸ao incluem comunica¸ao
com o Sistema de Gerenciamento de Bases de Dados (SGBD), com planilhas eletrˆonicas
e com ferramentas modernas de visualiza¸ao.
35
2 Clusteriza¸ao
Clusteriza¸ao, ou an´alise de agrupamento, ´e o processo de agrupamento de objetos
f´ısicos ou abstratos em classes de objetos similares. O grupo, freq
¨
uentemente chamado
cluster, ´e uma cole¸ao de objetos de dados em que os objetos similares ao colocados no
mesmo grupo e os objetos diferentes em grupos distintos (HAN; KAMBER, 2001).
Segundo Halkidi, Y.Batistak e Vazirgiannis (2002), a clusteriza¸ao ´e um dos principais
recursos utilizados para extrair grupos e identificar padr˜oes e distribui¸oes de uma massa
de dados. Assim, o papel fundamental da clusteriza¸ao ´e revelar a organiza¸ao dos padr˜oes
em grupos, de forma tal que se permita avaliar suas similaridades e diferen¸cas, assim como
derivar inferˆencias ´uteis sobre eles.
Existem arias t´ecnicas de clusteriza¸ao na literatura. A escolha da ecnica depende
do tipo de dados dispon´ıvel e do objetivo da aplica¸ao. As frentes de pesquisas correntes
concentram-se, basicamente, em duas linhas: m´etodos de parti¸ao e m´etodos hier´arquicos
(AGRAWAL et al., 2002). O primeiro particiona os dados em grupos, obedecendo a um
crit´erio de clusteriza¸ao, de forma que os dados em um grupo ao mais similares quando
comparados entre si do que quando comparados aos dados de outros grupos. O algo-
ritmo K-means e a rede neural SOM ao exemplos de t´ecnicas de parti¸ao. Os m´etodos
hier´arquicos criam uma decomposi¸ao hier´arquica do conjunto de dados.
As redes neurais SOM (Self-Organizing Maps - Mapas Auto-Organiz´aveis) foram se-
lecionadas para esta pesquisa. Fundamentos de redes neurais artificiais ao aqui apresen-
tados como referencial te´orico introdut´orio ao estudo das redes SOM e, posteriormente,
apresenta-se um estudo detalhado sobre elas.
2.1 Redes Neurais
O c´erebro humano cont´em cerca de 10
11
neurˆonios - sua elula fundamental. Segundo
Braga, Carvalho e Ludermir (2000), cada neurˆonio p ossui trˆes regi˜oes respons´aveis por
2.1 Redes Neurais 36
fun¸oes especializadas: corpo celular ou soma, dendritos (do grego entron = ´arvore) e
axˆonio (do grego ´axon = eixo), conforme apresentado na Figura 2. Os dendritos em
por fun¸ao receber as informa¸oes, ou impulsos nervosos, vindos de outros neurˆonios e
conduzi-las at´e o corpo celular, onde estas informa¸oes ao processadas e novos impulsos
ao gerados. Estes impulsos ao transmitidos a outros neurˆonios, passando atraes do
axˆonio at´e alcan¸car os dendritos dos neurˆonios seguintes. O ponto onde ocorre o contato
do axˆonio de um neurˆonio com o dendrito de outro ´e chamado sinapse. As sinapses
possibilitam que os neurˆonios se unam funcionalmente, formando redes neuronais. Uma
sinapse pode ser inibit´oria ou excitat´oria, de acordo com o tipo de impulso transmitido.
Figura 2: Componentes do neurˆonio biol´ogico.
As redes neurais, que procuram reproduzir as fun¸oes das redes neuronais, surgiram a
partir de um modelo de neurˆonio artificial, conhecido como MCP, proposto por McCulloch
e Pitts, em 1943. O neurˆonio MCP (ver Figura 3) ´e uma simplifica¸ao do que at´e ent˜ao se
sabia a respeito do neurˆonio biol´ogico. Sua descri¸ao matem´atica resultou em um modelo
com n terminais de entrada: x
1
, x
2
, ..., x
n
(que simulam o papel dos dendritos), e apenas
um terminal de sa´ıda: Y (simulando o papel do axˆonio). Para simular o comportamento
das sinapses, os terminais de entrada possuem pesos acoplados (w
1
, w
2
, ..., w
n
), que podem
possuir valores negativos ou positivos, dependendo de as sinapses correspondentes serem
inibit´orias ou excitat´orias. O efeito de uma sinapse particular i no neurˆonio os-sin´aptico
´e dado por x
i
w
i
. Os pesos determinam “em que grau” o neurˆonio deve considerar sinais
de entrada que ocorrem naquela conex˜ao.
Um neurˆonio biol´ogico dispara quando a soma dos impulsos que ele recebe ultrapassa
o seu limiar de excita¸ao. O corpo do neurˆonio artificial, por sua vez, ´e emulado por
um mecanismo simples, que faz a soma dos valores x
i
w
i
. Caso a soma atinja o limiar,
2.1 Redes Neurais 37
x
1
x
2
x
n
.
.
.
Y
w
1
w
2
w
n
θ
Figura 3: Neurˆonio de McCulloch e Pitts.
representado por Θ, possui efeito excitat´orio sobre os pr´oximos neurˆonios da rede; caso
contr´ario, seu efeito ser´a inibidor.
Pode-se afirmar que as fun¸oes asicas de cada neurˆonio presente em uma rede seguem
a seguinte seq
¨
uencia: (1) avaliam os valores de entrada; (2) calculam o total dos valores
de entrada combinados; (3) comparam o total com um valor limiar e determinam o valor
que ser´a a sa´ıda.
2.1.1 Caracter´ısticas das Redes Neurais
Uma rede neural artificial (RNA) ´e caracterizada por sua fun¸ao de ativao, sua
arquitetura e seu algoritmo de treinamento. A Figura 4 apresenta um exemplo de RNA
- os c´ırculos correspondem aos neurˆonios, tamem chamados os ou nodos, e as setas
correspondem `as sinapses.
Definir a arquitetura de uma RNA ´e um parˆametro importante, uma vez que ela
restringe o tipo de problema a ser tratado pela rede. Segundo Haykin (2001), a arquitetura
da rede est´a intimamente ligada ao algoritmo de aprendizagem usado para treinar a RNA.
Fazem parte da arquitetura da rede os parˆametros: n´umero de camadas da rede, n´umero
de nodos em cada camada, tipo de conex˜ao em cada nodo e topologia da rede.
O treinamento da rede ´e o processo utilizado na defini¸ao e nos ajustes dos pesos de
cada neurˆonio. No treinamento, as instˆancias de exemplos ao apresentadas `a rede, e esta,
2.1 Redes Neurais 38
Figura 4: RNA t´ıpica.
a cada exemplo, faz ajustes de seus pesos, objetivando o aprendizado. Para Haykin (2001),
Aprendizagem no contexto de redes neurais ´e um processo pelo qual os parˆametros livres
de uma rede neural ao adaptados atrav´es de um processo de estimula¸ao pelo ambiente
no qual a rede est´a inserida. O tipo de aprendizagem ´e determinado pela maneira pela
qual a modifica¸ao dos parˆametros ocorrem.”
Existem dois tipos de aprendizado: o supervisionado e o ao-supervisionado. O su-
pervisionado tem este nome por apresentar uma peculiaridade, o chamado supervisor,
que fornece as entradas e as sa´ıdas desejadas, para que a rede as possa comparar com os
resultados obtidos e, assim, fazer o ajuste de seus pesos. A cada ciclo, os resultados da
rede devem ser mais semelhantes aos resultados desejados.
No aprendizado ao-supervisionado, a rede ao tem a sa´ıda esperada como parˆametro
de compara¸ao. Por esta raz˜ao, a rede modifica de forma autˆonoma seus pesos, para que
os valores de entrada mais semelhantes sejam asso ciados a uma determinada sa´ıda da
rede. Assim, torna-se poss´ıvel encontrar padr˜oes nos dados de entrada.
2.1.2 Redes SOM - Mapas Auto-Organiz´aveis
Os mapas auto-organiz´aveis, ou SOM (Self-Organizing Maps), ou ainda redes de Koho-
nen, ao redes neurais que foram desenvolvidas por Teuvo Kohonen. Seu nome se deve ao
fato de utilizar um processo de auto-organiza¸ao, configurando as unidades de sa´ıda em
um mapa topol´ogico ou espacial. Desta forma, ao a propriamente o reconhecimento do
sinal de entrada, mas sim a organiza¸ao deste sinal junto a outros que possuem caracte-
r´ısticas semelhantes, formando um conjunto de agrupamentos. Estes agrupamentos ao
organizados de maneira que os sinais de entrada pr´oximos no espa¸co de entrada sejam
2.1 Redes Neurais 39
mapeados em unidades de sa´ıda adjacentes na camada de sa´ıda da rede neural. Assim,
no instante em que o sinal ´e inserido na rede, este ´e colocado no grupo que melhor o
representa, em fun¸ao de suas caracter´ısticas.
2.1.2.1 Arquitetura
Na rede SOM, os os organizam-se em uma grade ou reticulado (veja Figura 5),
geralmente bidimensional, sendo a camada de entrada (aqui representada pelos vetores
x
i
), completamente conectada a cada neurˆonio da camada de sa´ıda (m
i
), atraes de seus
pesos (w
ij
). Assim, dado um conjunto de N sinais de entrada (ou exemplos) com n
dimens˜oes pertencentes ao espa¸co R, tem-se:
Cada i neurˆonio da camada de sa´ıda est´a associado a um vetor m
i
, tal que
m
i
= [w
i1
, w
i2
, · · · , w
in
]
T
R
n
Cada sinal de entrada ´e representado por um vetor x tal que
x = [E
1
, E
2
, · · · , E
m
]
T
R
n
Cada o de sa´ıda recebe todas as entradas e funciona como um discriminador ou
extrator de caracter´ısticas. Quanto mais semelhante a entrada for dos pesos de um nodo,
maior o valor de sua sa´ıda. A sa´ıda da rede ´e formada pela sa´ıda de todos os nodos.
Durante a fase de aprendizado, os nodos se especializam para a detec¸ao de um conjunto
de padr˜oes de entrada.
Figura 5: Arquitetura da Rede SOM bidimensional.
Neste modelo, os neurˆonios da camada de sa´ıda disputam entre si a representa¸ao de
cada um dos sinais de entrada. arias etricas podem ser utilizadas para a escolha do
neurˆonio vencedor. Muitas aplica¸oes fazem uso da menor distˆancia Euclidiana (min ||x
m
i
||) para este fim.
2.1 Redes Neurais 40
2.1.2.2 Treinamento
Segundo Kohonen (2001), a rede SOM utiliza um algoritmo de treinamento ao-
supervisionado e competitivo. O aprendizado ao-supervisionado ´e utilizado, em geral,
quando o sinal de sa´ıda ´e desconhecido (BRAGA; CARVALHO; LUDERMIR, 2000). O
algoritmo de treinamento original organiza os nodos em vizinhan¸cas locais. Cada vez que
um novo padr˜ao de treinamento ´e apresentado `a rede, os nodos competem entre si para
que se tornem ativos, ou seja, para gerar o maior valor de sa´ıda. Assim, para cada padr˜ao
de entrada, apenas um nodo de sa´ıda torna-se ativo. Esta competi¸ao ´e chamada Winner-
takes-all, o vencedor leva tudo. Definido o neurˆonio vencedor, tem in´ıcio o processo de
atualiza¸ao dos pesos. Neste processo, apenas o nodo vencedor e seus vizinhos, dentro
de um certo raio ou ´area de vizinhan¸ca, em os pesos de suas conex˜oes ajustados para
responder ainda melhor ao est´ımulo recebido. O grau de ajuste ´e dado pelo coeficiente (ou
taxa) de aprendizagem, enquanto que o raio de vizinhan¸ca tem sua topologia escolhida
pelo projetista da rede. Durante o treinamento, o coeficiente de aprendizagem e o raio de
vizinhan¸ca ao continuamente decrementados.
Figura 6: Exemplos de regi˜oes de vizinhan¸ca da Rede SOM (LUZ, 2004).
A Figura 6 mostra exemplos de raios de vizinhan¸ca: topologia retangular e topologia
hexagonal - R representa o raio de vizinhan¸ca. Ambas se iniciam com valores extensos que
decrescem gradualmente com o progresso do treinamento. O algoritmo de treinamento
para redes do tip o SOM ´e resumido a seguir, e, logo ap´os, ao descritos alguns de seus
passos.
1: Normalizar os dados de entrada;
2: iniciar pesos e parˆametros da rede;
3: repeat
4: apresentar o padr˜ao de treinamento `a rede;
5: definir o nodo vencedor;
2.1 Redes Neurais 41
6: atualizar os pesos deste nodo e de seus vizinhos;
7: if ciclo ´e ultiplo de N then
8: reduzir a taxa de aprendizado;
9: reduzir o raio de vizinhan¸ca;
10: end if;
11: until o mapa de caracter´ısticas ao mudar (estado de convergˆencia).
Normalizar os dados de entrada (Linha 1)
A normaliza¸ao ao ´e uma exigˆencia da SOM. Por´em, em muitas aplica¸oes a nor-
maliza¸ao pr´evia dos dados de entrada melhora a precis˜ao da rede, pois a utiliza¸ao
de vetores de peso com magnitudes diferentes prejudica a competi¸ao entre os no-
dos, por desviar a aten¸ao da rede para a magnitude, ao orientando os vetores de
peso, que ´e o que interessa (BRAGA; CARVALHO; LUDERMIR, 2000).
Iniciar pesos e parˆametros da rede (Linha 2)
O processo de aprendizagem de uma rede Kohonen ´e constitu´ıdo de duas fases: a fase
de ordena¸ao topol´ogica e a fase de ajuste fino ou convergˆencia. Na primeira fase, a
rede busca a ordena¸ao topol´ogica dos vetores de pesos, refletindo a distribui¸ao do
conjunto de entradas. Na segunda fase, o mapeamento realizado no est´agio anterior
´e aprimorado. Cada fase apresenta as suas pr´oprias inicializa¸oes.
Na ordena¸ao, os pesos podem ser iniciados por valores arbitr´arios, ou atrav´es de
valores de entrada escolhidos aleatoriamente do grupo de dados, ou ainda, por meio
de resultados obtidos de uma pr´e-an´alise da distribui¸ao dos dados. Para Kohonen
(2001), a inicializa¸ao dos pesos pela escolha aleat´oria do sinal de entrada ´e uma
solu¸ao mais adequada que a primeira alternativa - em tipos diferentes de configura-
¸oes, ela tem demonstrado ser eficiente e eficaz, permitindo um treinamento apido
e aprimorado na maioria das aplica¸oes.
A fase de ordena¸ao dura em torno de 1000 ciclos, ou itera¸oes. Durante esta fase, a
taxa de aprendizado ´e inicialmente alta, pr´oxima a 1, sendo gradualmente reduzida
para um valor pr´oximo a 0,1. Assim, nesta fase, ocorrem grandes mudan¸cas de
pesos. O raio de vizinhan¸ca R, inicialmente envolve todos os os da rede, ent˜ao R ´e
reduzido linearmente at´e atingir uma unidade (BRAGA; CARVALHO; LUDERMIR,
2000).
A segunda fase faz um ajuste mais fino do mapa. Durante esta fase, que requer de
100 a 1000 vezes mais ciclos que a fase anterior, ´e utilizada uma taxa de aprendizado
2.1 Redes Neurais 42
baixa (em torno de 0,01), e a ´area de vizinhan¸ca envolve um ou nenhum vizinho
(BRAGA; CARVALHO; LUDERMIR, 2000).
Definir o nodo vencedor (Linha 5)
Compara-se cada padr˜ao de entrada x, com todos os nodos m
i
por meio da distˆancia
Euclidiana. Determina-se o nodo vencedor pela equa¸ao:
||x(t) m
c
(t)|| = min (||x(t) m
i
(t)||) (2.1)
onde x(t) ´e o vetor de entrada na itera¸ao t e m
c
(t) ´e o o vencedor.
Atualizar os pesos deste nodo e de seus vizinhos (Linha 6).
Para cada nodo m
i
na itera¸ao t, que esteja dentro da regi˜ao de vizinhan¸ca (R
c
) do
nodo vencedor m
c
, efetua-se a atualiza¸ao dos pesos de forma proporcional `a distˆan-
cia que ocupam. Esta atualiza¸ao dos pesos ´e ajustada pela taxa de aprendizado.
m
i
(t + 1) =
m
i
(t) + α(t).[x(t) m
i
(t)] se i R
c
(t),
m
i
(t) se i / R
c
(t)
(2.2)
onde α(t) ´e a taxa de aprendizado na itera¸ao t e R
c
(t) ´e o raio de vizinhan¸ca de c.
Reduzir a taxa de aprendizado (Linha 8)
Qualquer fun¸ao monoticamente decrescente pode ser usada para o ajuste do coe-
ficiente de aprendizado. Uma fun¸ao acurada ao ´e necess´aria: α = α(t) pode ser
linear, exponencial ou inversamente proporcional (KOHONEN, 2001). A fun¸ao:
α(t) = 0, 9.
1
t
1000
(2.3)
tem se mostrado satisfat´oria para muitas aplica¸oes (LUZ, 2004).
At´e o mapa de caracter´ısticas ao mudar (estado de convergˆencia) (Linha 11)
Quando os pesos dos nodos de sa´ıda ao sofrem nenhuma altera¸ao por arias ite-
ra¸oes significa que a rede convergiu.
2.1.2.3 Observoes sobre a utiliza¸ao da rede SOM
A SOM ´e um processo complexo de clusteriza¸ao cuja principal caracter´ıstica ´e a
ordena¸ao topol´ogica dos grupos. Esta metodologia permite analisar, visualmente, o grau
de similaridade entre os grupos, uma vez que os grupos similares ao mapeados para
2.2 Valida¸ao da Clusteriza¸ao 43
regi˜oes pr´oximas entre si. Outra vantagem ´e que a SOM ao fixa o n´umero de grup os a
ser formado. Ela utiliza como parˆametro o n´umero aximo de agrupamentos que podem
ser formados. E, ainda, como toda rede neural, a SOM tem a vantagem de ser flex´ıvel
com novos padr˜oes apresentados `a rede. Melhor dizendo, a rede rapidamente se adapta,
e adequa-se aos novos padr˜oes a ela apresentados. Sua maior desvantagem ´e a grande
quantidade de parˆametros iniciais a ser configurada. Ela ´e dependente da configura¸ao
inicial. Dessa forma, ao a garantia de convergir em um resultado ´otimo, em uma
clusteriza¸ao que reflita a real distribui¸ao dos dados. Para amenizar este problema,
´e necess´ario utilizar t´ecnicas de valida¸ao que avaliem o resultado da clusteriza¸ao de
diferentes configura¸oes (LUZ, 2004).
2.2 Valida¸ao da Clusteriza¸c˜ao
Sendo a clusteriza¸ao um processo ao-supervisionado, com n´umero real de grupos
representativos desconhecido a priori, duas quest˜oes fundamentais podem ser levantadas:
1. Quantos grupos foram formados? 2. Em que medida estes grupos se ajustam `a
distribui¸ao real dos dados? Ao se aplicar qualquer ecnica de clusteriza¸ao sobre os
dados, ´e necess´ario avaliar e validar os resultados obtidos (LUZ, 2004). Esta valida¸ao ´e
de suma importˆancia porque a grande maioria dos algoritmos de clusteriza¸ao ´e sens´ıvel `as
configura¸oes iniciais. Uma configura¸ao impr´opria pode invalidar os resultados de uma
clusteriza¸ao. Os m´etodos de valida¸ao dos agrupamentos podem se valer das abordagens
(HALKIDI; Y.BATISTAK; VAZIRGIANNIS, 2002):
etodos baseados em crit´erios externos: a avalia¸ao dos resultados procede
conforme as estruturas pr´e-definidas, as quais ao impostas sobre os dados e refletem
as intui¸oes que se em sobre a estrutura de agrupamento.
etodos baseados em crit´erios internos: os resultados ao avaliados em termos
de quantificadores e pelas caracter´ısticas inerentes aos pr´oprios dados.
etodos baseados em crit´erios relativos: a an´alise ´e feita comparando-se os
resultados da estrutura de clusteriza¸ao com outros esquemas de clusteriza¸ao con-
figurados com diferentes valores e para os mesmos parˆametros de entrada.
Os dois primeiros m´etodos ao baseados em testes estat´ısticos e objetivam medir o
quanto o grupo de dados se ajusta a uma estrutura ou distribui¸ao a priori especificada.
A desvantagem da utiliza¸ao destes etodos ´e o alto custo computacional exigido.
2.2 Valida¸ao da Clusteriza¸ao 44
O ´ultimo etodo se baseia em crit´erios relativos, e, ao contr´ario das abordagens
anteriores, ao envolve testes estat´ısticos. O m´etodo objetiva encontrar o melhor esquema
de clusteriza¸ao para um determinado algoritmo. Na pr´oxima se¸ao, ao apresentados dois
dos mais significativos e utilizados ´ındices para a valida¸ao de agrupamentos: o ´ındice de
Dunn e o ´ındice de Davies-Bouldin, ambos baseados em crit´erios relativos.
2.2.1
´
Indice de Dunn
O ´ındice de Dunn, proposto por Dunn, em 1974, identifica grupos que ao compactos
e bem separados. Para qualquer parti¸ao U, dividida em m grupos (G
1
, G
2
, ..., G
m
, onde
G
i
representa o i-´esimo grupo desta parti¸ao), o ´ındice de valida¸ao Dunn ´e definido por:
D(U) = min
1im
min
1jm,j=i
δ(G
i
, G
j
)
max{∆(G
k
)}

(2.4)
onde δ(G
i
, G
j
) define a distˆancia entre os grupos G
i
e G
j
(distˆancia intergrupos); ∆(G
k
)
representa a distˆancia intragrupo de G
k
(DUNN, 1974). A Figura 7 ilustra essa defini¸ao.
O objetivo principal deste ´ındice ´e identificar o esquema que maximiza a distˆancia
intergrupos, ao mesmo tempo que minimiza a distˆancia intragrupo. Desta forma, o n´umero
de grupos que maximiza o valor de D ´e considerado o esquema que melhor define os dados.
∆(G
k
)
∂(G
i
G
j
)
Figura 7: Ilustra¸ao das distˆancias intragrupo e intergrupos (LUZ, 2004).
2.2 Valida¸ao da Clusteriza¸ao 45
2.2.2
´
Indice de Davies-Bouldin
O ´ındice de Davies-Bouldin, assim como o ´ındice de Dunn, busca identificar grupos
compactos e bem separados. O ´ındice de valida¸ao Davies-Bouldin ´e definido por:
DB(U) =
1
m
m
i=1
max
i=j
∆(G
i
) + ∆(G
j
)
δ(G
i
, G
j
)
(2.5)
onde U, δ(G
i
, G
j
), ∆(G
i
), ∆(G
j
) e m ao definidos na equa¸ao 2.4. Pequenos valores de
DB correspondem a grupos compactos e com centros distantes uns dos outros. Assim,
a configura¸ao de agrupamento que minimiza DB ´e tomada como o n´umero de grupos
´otimo para os dados.
46
3 Metodologia CRISP-DM
O etodo CRISP-DM (Cross-Industry Standard Process for Data Mining) ´e um mo-
delo de processo e tecnologia, ao propriet´ario e gratuito, que fornece um roteiro para a
condu¸ao de um projeto de MD.
Ele foi concebido em 1996 por um grupo de trˆes profissionais do mercado de minera¸ao
de dados. Um ano depois formou-se um cons´orcio de empresas e foi criada a sigla CRISP-
DM. O sucesso da metodologia deve-se ao fato de ter sido desenvolvida baseando-se na
pr´atica e na experiˆencia do mundo real de pessoas que trabalham em projetos de MD
(CHAPMAN et al., 2000).
O CRISP-DM possui a vantagem de ao depender da ´area de neg´ocio e da tecnologia
a ser utilizada na minera¸ao.
´
E de acil aplica¸ao e possibilita que projetos de alta ou
baixa envergadura de MD se tornem mais apidos, mais baratos, mais confi´aveis e mais
aceis de gerir (CHAPMAN et al., 2000).
O modelo CRISP-DM apresenta uma vis˜ao geral do ciclo de vida de um projeto de
minera¸ao de dados. Este ciclo ´e dividido em seis fases, conforme mostrado na Figura
8. A seq
¨
uˆencia das fases ao ´e r´ıgida, podendo o projetista mover-se livremente entre
diferentes fases sempre que necess´ario. As setas indicam as mais freq
¨
uentes dependˆencias
entre fases. O c´ırculo ao redor da figura simboliza a natureza c´ıclica da Minera¸ao de
Dados, que normalmente ao possui apenas uma solu¸ao.
3.1 Descri¸ao das Fases da Metodologia CRISP-DM
3.1.1 Compreens˜ao do neg´ocio
Esta fase busca a compreens˜ao dos objetivos do projeto e seus requisitos do ponto de
vista dos neg´ocios, visando convertˆe-los para uma aplica¸ao de DCBD e desenvolver um
plano preliminar para atingir os objetivos. Nesta fase ao efetuadas as seguintes tarefas:
3.1 Descri¸ao das Fases da Metodologia CRISP-DM 47
Figura 8: Fases da Metodologia CRISP-DM (CHAPMAN et al., 2000).
determina¸ao dos objetivos do neg´ocio;
avalia¸ao da situa¸ao;
determina¸ao dos objetivos da minera¸ao de dados; e
produ¸ao de um plano de projeto.
3.1.2 Compreens˜ao dos dados
´
E a fase de coleta e investiga¸ao preliminar dos dados, destinada a uma familiariza¸ao
com os mesmos, com o objetivo de identificar os problemas de qualidade dos dados e
detectar os primeiros poss´ıveis padr˜oes interessantes. As tarefas desta fase ao:
coleta dos dados iniciais;
descri¸ao dos dados;
explora¸ao dos dados; e
verifica¸ao da qualidade dos dados.
3.1 Descri¸ao das Fases da Metodologia CRISP-DM 48
3.1.3 Prepara¸ao dos dados
Fase final da constru¸ao da base de dados que ser´a submetida `a ferramenta de an´alise.
Esta base, retirada dos dados originais, passar´a por um processo exaustivo de limpeza
e transforma¸ao. Os principais produtos desta fase ao o arquivo para minera¸ao e sua
descri¸ao. Tarefas desta fase:
sele¸ao dos dados;
limpeza dos dados;
constru¸ao dos dados;
integra¸ao dos dados; e
formata¸ao dos dados.
3.1.4 Modelagem
Nesta fase ao selecionadas e aplicadas arias t´ecnicas de modelagem dos dados, bem
como realizada a indispens´avel otimiza¸ao de seus parˆametros. Diversas t´ecnicas podem
ser aplicadas para o mesmo problema de MD. Dependendo da ecnica utilizada, pode ser
necess´ario o retorno `a fase de prepara¸ao dos dados para ajustes. Possui como tarefas:
sele¸ao da ecnica de modelagem;
gera¸ao do teste de projeto (test design);
constru¸ao do modelo; e
valida¸ao do modelo.
3.1.5 Avalia¸ao
A avalia¸ao ´e realizada visando identificar alguma quest˜ao do neg´ocio que ao foi
explorada suficientemente.
´
E importante rever os passos executados na constru¸ao do
modelo para certificar-se que os objetivos principais foram alcan¸cados. As tarefas ao:
an´alise dos resultados;
revis˜ao dos processos; e
determina¸ao dos pr´oximos passos.
3.1 Descri¸ao das Fases da Metodologia CRISP-DM 49
3.1.6 Aplica¸ao
Se o objetivo do modelo ´e aumentar o conhecimento sobre os dados, este conhecimento
adquirido dever´a ser organizado e apresentado de forma a ser ´util ao cliente. O objetivo
desta fase ´e tornar a informa¸ao gerada acess´ıvel. Possui como tarefas:
elabora¸ao do plano de distribui¸ao na empresa;
elabora¸ao do plano de monitoramento e manuten¸ao;
confec¸ao do relat´orio final; e
revis˜ao do projeto.
50
4 O Estudo de Caso
Para o estudo de caso foram utilizados os dados do Sistema do Plano de Sa´ude do
Instituto de Seguridade do Munic´ıpio de Goiˆania (PSISM), gerido pelo Instituto de Se-
guridade Social dos Servidores Municipais (ISM), que, gentilmente, disponibilizou os seus
dados para esta pesquisa.
O Plano de Sa´ude ´e oferecido aos funcion´arios da Prefeitura Municipal de Goiˆania.
Para utilizar os procedimentos do plano, o benefici´ario (funcion´ario ou dependente ca-
dastrado) deve se dirigir a um dos postos de atendimento localizados na grande Goiˆania,
para adquirir a guia que o autorizar´a realizar o procedimento desejado. De posse da guia,
o benefici´ario tem acesso a uma rede de edicos, hospitais e lab orat´orios conveniados.
Somente nos casos de emergˆencia, as guias ao emitidas posteriormente.
Considerando o rigor na emiss˜ao da guia, a aferi¸ao efetivada pelo usu´ario, que paga
uma co-participa¸ao
1
nos valores dos procedimentos, bem como a per´ıcia m´edica obri-
gat´oria para os casos de interna¸ao, acredita-se que as informa¸oes contidas na base de
dados do PSISM sejam de boa qualidade.
Os benefici´arios podem submeter-se a diversos procedimentos edicos, que se dividem,
basicamente, em 4 tipos:
consultas;
exames;
tratamento ambulatorial - procedimento efetuado no ambulat´orio ou na pr´opria
cl´ınica edica; e
interna¸ao hospitalar - procedimentos de interna¸ao.
As interna¸oes hospitalares tornaram-se o foco deste estudo, atendendo aos anseios
dos edicos peritos do ISM, devido `a importˆancia das interna¸oes na assistˆencia `a sa´ude
e ao seu alto custo.
1
Pagamento de uma porcentagem do valor total do procedimento.
4.1 Compreens˜ao do Neocio 51
Para desenvolver o processo de an´alise e descoberta de conhecimento nas interna¸oes
hospitalares, utilizou-se a metodologia CRISP-DM. Nas pr´oximas se¸oes, ao aplicadas as
etapas desta metodologia ao estudo de caso.
4.1 Compreens˜ao do Neg´ocio
Nesta fase do CRISP-DM, busca-se a compreens˜ao dos objetivos da aplica¸ao e as
suas necessidades, do ponto de vista dos neg´ocios.
4.1.1 Objetivos do neg´ocio
Como dito anteriormente, o cuidado hospitalar ´e um importante objeto de pesquisa
em servi¸cos de sa´ude, devido ao seu papel central na assistˆencia `a sa´ude e ao seu custo
elevado (CASTRO; TRAVASSOS; CARVALHO, 2002).
O entendimento dos fatores associados `a utiliza¸ao de servi¸cos hospitalares serve `a
discuss˜ao de pol´ıticas voltadas `a melhoria da qualidade do sistema de sa´ude brasileiro.
Segundo Castro, Travassos e Carvalho (2002), uma caracter´ıstica do uso de servi¸cos de
sa´ude, incluindo os servi¸cos hospitalares, ´e uma pequena propor¸ao de indiv´ıduos, deno-
minados grandes usu´arios de servi¸cos de sa´ude, ser respons´avel por uma parte grande e
desproporcional desse uso. Outro aspecto importante ´e o fato de que os grandes usu´arios
tendem a permanecer como grandes usu´arios ao longo do tempo.
Baseando-se nas premissas acima e ap´os o levantamento das principais necessidades
do Plano de Sa´ude do ISM, definiu-se como relevante um estudo sobre as interna¸oes
hospitalares efetuadas pelos usu´arios do plano e assim foi feito neste estudo de caso.
Verificou-se uma preocupa¸ao especial em rela¸ao `as reinterna¸oes, pontuando a sua
interliga¸ao com a faixa et´aria, o sexo e o Tempo M´edio de Permanˆencia (TMP), que
representa o tempo edio (em dias) de dura¸ao das interna¸oes.
Por meio de entrevistas com os m´edicos peritos, foram realizados alguns questiona-
mentos, destacando-se:
a) Qual a rela¸ao entre o TMP e o n´umero de interna¸oes?
b) Qual o TMP p or faixa et´aria?
c) Qual a rela¸ao entre o TMP e o tempo entre as interna¸oes?
4.1 Compreens˜ao do Neocio 52
d) Qual a rela¸ao entre o TMP e a faixa et´aria, com os diagn´osticos?
e) Quais os diagn´osticos que mais geram pacientes que se reinternam com freq
¨
uˆencia, os
chamados contumazes de interna¸ao?
Acredita-se que as respostas a estes questionamentos podem viabilizar a obten¸ao de
novos requisitos importantes para a melhoria dos processos que lidam com as interna¸oes
hospitalares.
4.1.2 A situa¸ao atual
Todos os procedimentos m´edicos contemplados pelo plano devem conter a informa-
¸ao da hip´otese da doen¸ca que acomete o paciente, o diagn´ostico. Estes diagn´osticos ao
informados utilizando-se a CID (Classifica¸ao Estat´ıstica Internacional de Doen¸cas e Pro-
blemas Relacionados `a Sa´ude), que ´e adotada pela Organiza¸ao Mundial de Sa´ude (OMS,
1996). O sistema atual do Plano do ISM utiliza a CID no formato da nona e da d´ecima
revis˜oes (CID-9 e CID-10).
Existem arias diferen¸cas de codifica¸ao entre as duas CIDs. A CID-10 ´e a vers˜ao
mais atualizada e foi aprovada pela Conferˆencia Internacional para a ecima Revis˜ao, em
1989 (OMS, 1996). A seguir, a descri¸ao da formata¸ao das CIDs.
Descri¸ao da codifica¸ao da CID-9: ´e composta pela seguinte estrutura: (OMS,
1979)
|_| |_|_|_| |_| |_|
a b c d
Campo a: serve para a transcri¸ao do odigo de doen¸cas que pertencem `a classifica¸ao
suplementar. ao ´e preenchido para categorias normais, servindo apenas para a comple-
menta¸ao.
Campo b: cont´em os 3 d´ıgitos da categoria principal; ´e obrigat´orio o preenchimento das
trˆes casas.
Campo c: sub-categoria ou detalhe; permite o detalhamento do diagn´ostico.
´
E obriga-
orio o seu preenchimento.
Campo d: d´ıgito de controle, de preenchimento obrigat´orio.
4.1 Compreens˜ao do Neocio 53
Por exemplo:
250- Diabetes mellitus
250.0/3 - Diabetes mellitus sem complica¸c~ao
250.1/1 - Diabetes com cetoacidose
Descri¸ao da codifica¸ao da CID-10: ´e dividida em grandes Cap´ıtulos, e estes
em Grupos, que, por sua vez, ao divididos em Subgrupos, que acrescidos de um n´umero
representa a doen¸ca (OMS, 1996).
Segundo a OMS (1996), a codifica¸ao do Subgrupo da CID-10 ´e composta pela seguinte
estrutura:
|_|_|_| |_|
a b
Campo a: cont´em 3 casas, informando a categoria principal. A primeira casa ´e uma
letra e as outras duas, n´umeros.
´
E obrigat´orio o seu preenchimento.
Campo b: sub-categoria ou detalhe, que permite o detalhamento do diagn´ostico.
´
E
opcional o seu preenchimento.
As categorias principais (Campo a) da CID-10 ao agrupadas em defini¸oes ao deta-
lhadas das doen¸cas.
Exemplo:
Cap´ıtulo IV Doen¸cas End´ocrinas, Nutricionais e Metab´olicas(E00-E90)
Grupo: Diabetes mellitus (E10-E14)
E10- Diabetes mellitus insulino-dependente
E10.0 Com coma
E10.1 Com cetoacidose
E11- Diabetes mellitus n~ao-insulino-dependente
E11.0 Com coma
E11.1 Com cetoacidose
4.2 Compreens˜ao dos Dados 54
4.2 Compreens˜ao dos Dados
´
E a fase da coleta dos dados, sobre os quais ´e realizada uma investiga¸ao preliminar,
visando a uma familiariza¸ao maior com os mesmos.
4.2.1 Dados iniciais
O PSISM foi implantado no fim de 1996. Ele foi desenvolvido utilizando um banco
de dados hier´arquico para armazenar os seus dados.
Um banco hier´arquico apresenta determinadas peculiaridades, entre elas, o fato de
possuir atributos com m´ultiplas ocorrˆencias dentro de uma tabela, como se houvesse
uma tabela dentro de outra. Os dados de um banco hier´arquico ao, na maioria das
vezes, organizados de forma ao normalizada. Estas caracter´ısticas dificultaram o processo
de sele¸ao dos dados, uma vez que o banco de dados utilizado na minera¸ao ´e do tipo
relacional. Um exemplo das dificuldades deste processo ´e o fato de uma tabela da base
original ter gerado arias tabelas na base de dados da minera¸ao.
Mostra-se, na Figura 9, o modelo ogico de parte da estrutura total do sistema.
´
E
importante lembrar que a figura refere-se apenas ao modelo ogico, sendo o modelo f´ısico,
que representa como os dados ao mapeados no banco de dados, diferente, especialmente
pelo fato de o banco de dados original ser do tipo hier´arquico. O modelo mostra somente
o que ´e pertinente ao enfoque da pesquisa.
4.2.2 Explora¸ao dos dados
Para este estudo, foi considerado o per´ıodo de 01/01/1998 a 31/12/2003. Isto se deu
porque antes de 1998 o sistema ainda passava por ajustes de implanta¸ao (o que poderia
influenciar erroneamente os resultados da pesquisa) e a coleta dos dados o correu no in´ıcio
de 2004 (trata-se de uma premissa para este estudo a utiliza¸ao de anos completos).
A fase de explora¸ao dos dados foi realizada no ambiente em que o PSISM foi desenvol-
vido. Esta tarefa obedeceu aos requisitos impostos pela autoriza¸ao do ISM, respeitando
a individualiza¸ao dos benefici´arios, sem expor qualquer dado que os pudesse identificar.
O total de benefici´arios que passaram pelo PSISM no per´ıodo ´e de 53.294, sendo
57,22% de mulheres e 42,78% de homens. O total de benefici´arios que se internaram no
per´ıodo ´e de 13.185 - 62,29% ao mulheres e 37,71%, homens.
4.2 Compreens˜ao dos Dados 55
Proc_Guia
Numr_guia
Codg_procedimento
Qtde_proced
Grupo_CID10
Info_grupo
Dscr_grupo
Info_capitulo
Funcionario
Numr_matricula
Codg_sexo_pes
Data_nascimento
Dependente
Numr_matricula
Numr_sequencia
Info_sexo
Data_nascimento
**
Procedimento
Codg_procedimento
Info_descricao
Pessoa
CID10
Info_CID10
Dscr_hipotese
Info_grupo
1..*
1
1..*
1
Internacao
Codg_internacao
Data_internacao
Data_alta
Valr_internacao
Guia
Numr_guia
Codg_tipo_guia
Data_emissao
Matr_segurado
Numr_seq_benef
Info_especialidade
Info_CID9
Info_CID10
Info_indicacao
*
*
*
*
*
1
*
1
*
0..1
*
0..1
1
*
1
*
CID9
Info_CID9
Dscr_hipotese
*
0..1
*
0..1
Figura 9: Diagrama de Classes da base de dados existente.
4.2 Compreens˜ao dos Dados 56
Os benefici´arios ao distribu´ıdos, segundo a faixa et´aria, conforme a Tabela 2. Esta
divis˜ao de faixas et´arias foi criada com base na pesquisa de Castro, Travassos e Carvalho
(2004), e p osteriormente aprovada pelos edicos peritos.
Tabela 2: Benefici´arios por Faixa Et´aria.
Benefici´arios Benefici´arios Benefici´arios
Idade Benefici´arios % que se que se
Internaram Internaram
%
0 219 0,41 15 6,85
1 - 4 1613 3,03 446 27,65
5 - 9 3507 6,58 814 23,21
10 - 14 4309 8,09 619 14,37
15 - 19 5506 10,33 723 13,13
20 - 29 9995 18,75 1792 17,93
30 - 39 6973 13,08 1746 25,04
40 - 49 9057 16,99 2427 26,80
50 - 59 6650 12,48 2136 32,12
60 - 69 3479 6,53 1423 40,90
70 - 79 1512 2,84 773 51,12
80 - · · · 474 0,89 271 57,17
Totais 53294 100,00 13185 24,74
O total de interna¸oes ´e de 25.642. Na Figura 10 pode-se visualizar o percentual de
interna¸oes em rela¸ao `a quantidade de benefici´arios, distribu´ıdos ao longo do per´ıodo.
0,0 0%
2,0 0%
4,0 0%
6,0 0%
8,0 0%
10,00%
12,00%
14,00%
16,00%
1 998 19 99 2000 2001 2002 2003
Internações X Beneficiáros
Figura 10: Percentual de interna¸oes em rela¸ao `a quantidade de benefici´arios.
4.3 Preparao dos Dados 57
4.2.3 Qualidade dos dados
As bases de dados do mundo real ao altamente suscet´ıveis a ru´ıdos, falta e inconsis-
tˆencia de dados. Isto se deve, especialmente, ao tamanho das bases, na maioria de muitos
gigabytes. Outro problema ´e na an´alise do sistema: quando o analista projeta um sistema,
seu foco, normalmente, ao ´e a estrutura¸ao de uma base para estat´ıstica ou minera¸ao.
Historicamente, os cadastros do PSISM, ap´os a sua informatiza¸ao em 1996, em
sofrendo, dia a dia, aperfei¸coamentos de forma a manter uma alta qualidade da informa¸ao.
Em virtude dessas constantes mudan¸cas, encontraram-se as seguintes situa¸oes na an´alise
dos dados:
a) Diagn´osticos informados utilizando-se ora a CID-9, ora a CID-10. Para a minera¸ao,
´e necess´ario que os diagn´osticos utilizem uma ´unica classifica¸ao.
b) Diagn´ostico ao preenchido em algumas tuplas.
c) Diagn´osticos tipicamente femininos em guias de interna¸ao de benefici´ario do sexo
masculino e vice-versa.
d) Diagn´osticos armazenados na tabela de Guias e ao na tabela de Interna¸oes (conforme
mostrado no Diagrama de Classes, na Figura 9). Assim, uma interna¸ao pode possuir
mais de uma guia, acarretando um problema de redundˆancia, e, em alguns casos, de
inconsistˆencia - guias da mesma interna¸ao com diagn´osticos diferentes.
e) Quatro benefici´arios sem informa¸ao da data de nascimento.
´
E importante dizer que, apesar dos problemas apresentados, o diagn´ostico informado
na guia de interna¸ao tem uma boa confiabilidade, pois a guia passa por um perito (m´edico
funcion´ario do ISM) respons´avel pela sua conferˆencia e posterior libera¸ao.
4.3 Prepara¸ao dos Dados
Nesta fase, e a partir do entendimento dos dados, ao gerados os conjuntos de dados
que ser˜ao submetidos `a ferramenta de an´alise.
´
E realizada a limpeza dos dados inconsis-
tentes e o tratamento dos dados faltantes, al´em da agrega¸ao de valores, da transforma¸ao
e formata¸ao de atributos em valores ao codificados, de forma a facilitar a compreens˜ao
do modelo.
4.3 Preparao dos Dados 58
Muito tempo foi despendido na tarefa de limpeza dos dados, especialmente pela exis-
tˆencia de atributos importantes com valores nulos. Isto ocorre em muitos sistemas, pois,
na maioria das vezes, a base de dados ao ´e projetada para a descoberta de conhecimento.
4.3.1 Limpeza dos dados
Para gerar a tabela de minera¸ao, foram necess´arias arias etapas de prepara¸ao dos
dados, apresentadas a seguir. Optou-se por utilizar o ambiente de trabalho em que o
PSISM foi desenvolvido.
4.3.1.1 Modifica¸ao da matr´ıcula do benefici´ario
Tarefa: Transforma¸ao de dados.
Objeto: Numr-matricula em Numr-segurado.
Objetivo: Manter em sigilo a identidade do benefici´ario.
No PSISM, o campo que define o benefici´ario nas tabelas ´e matr´ıcula funcional, ou
esta acrescida de um seq
¨
uencial para dependentes. Como a matr´ıcula ´e uma informa¸ao
de dom´ınio p´ublico, uma das preocupa¸oes foi manter o sigilo sobre a identidade do benefi-
ci´ario. Para isto, foi criado o campo Numr-segurado, que consiste numa transforma¸ao da
matr´ıcula funcional, garantindo o acesso aos procedimentos sem identificar o benefici´ario.
O algoritmo de modifica¸ao do n´umero identificador do benefici´ario ´e simples e eficiente:
NumrSegurado = (NumrMatricula + MaiorSeqMatricu la) 2 (4.1)
Onde:
NumrMatricula ´e o n´umero da matr´ıcula do funcion´ario, utilizada no PSISM; e
MaiorSeqMatricula ´e o maior n´umero de matr´ıcula existente no cadastro de funcion´a-
rios.
Justificativa: soma-se com MaiorSeqMatricula para que o novo n´umero gerado nunca
coincida com uma matr´ıcula a existente. Posteriormente, o resultado da soma ´e multi-
plicado por 2 para gerar um n´umero diferente da matr´ıcula original.
4.3 Preparao dos Dados 59
4.3.1.2 Unifica¸ao das CIDs
Tarefa: Integra¸ao e transforma¸ao de dados.
Objeto: CID-9 e CID-10.
Objetivo: Manter um ´unico padr˜ao para diagn´osticos.
No PSISM, os diagn´osticos ao informados utilizando-se ora a CID-9, ora a CID-10.
´
E, pois, necess´aria a unifica¸ao destas classifica¸oes.
Os cap´ıtulos da CID-10 e CID-9 englobam um n´umero muito grande de patologias
que se diferem entre si quanto ao risco da interna¸ao hospitalar. Por outro lado, as
categorias de trˆes d´ıgitos da CID-9 e da CID-10 ao excessivamente numerosas para que
se possa inclu´ı-las como vari´avel categ´orica na an´alise. Por essas raz˜oes, quando o interesse
ao recai sobre um grupo diagn´ostico espec´ıfico, formas alternativas de agrupamento de
categorias de trˆes d´ıgitos se fazem necess´arias.
Para solucionar os problemas descritos acima, Castro e Carvalho (2005) prop˜oem criar
uma lista alternativa a esse excesso de categorias. Trata-se de um agrupamento interme-
di´ario entre as categorias de trˆes d´ıgitos e os cap´ıtulos, desenvolvido, especialmente, para
analisar as reinterna¸oes hospitalares em um grande hospital geral brasileiro, englobando
as interna¸oes codificadas pela CID-9 e pela CID-10. Essa proposta atendeu `as necessi-
dades desta pesquisa, sendo necess´arios alguns ajustes para a sua adequa¸ao ao objetivo
aqui proposto.
Castro e Carvalho (2005) subdividiram os cap´ıtulos, valendo-se do agrupamento de
categorias de trˆes d´ıgitos da CID-9 e da CID-10. Este agrupamento foi feito de forma
emp´ırica, mas possuindo como meta manter a coerˆencia cl´ınica (neste caso, o agrupamento
de doen¸cas de comportamento similar, no que se refere ao risco de reinterna¸ao). Nesta
fase, observou-se, tamem, um volume m´ınimo de interna¸oes em cada novo grupo. O
resultado desta etapa pode ser visto na Tabela 3.
Na segunda etapa, determinados grupos de categorias foram agregados, a partir do
ajuste de modelos de riscos proporcionais de Cox (COX, 1972) - aplicado a interna¸oes de
adultos (maiores de 14 anos) e crian¸cas em separado. Foram utilizadas as distribui¸oes de
freq
¨
uˆencia da causa principal das primeiras interna¸oes de cada indiv´ıduo, ocorridas num
hospital p´ublico brasileiro. O resultado final foi a cria¸ao de duas tabelas de agrupamentos,
uma com vinte e seis grupos de diagn´osticos para adultos (Tabela 4) e outra com dezenove
grupos de diagn´osticos para crian¸cas (Tabela 5) (CASTRO; CARVALHO, 2005).
4.3 Preparao dos Dados 60
Para o presente estudo, as duas tabelas foram mescladas, pois os m´edicos peritos do
PSISM acharam conveniente trabalhar com todas as idades de forma ´unica. Al´em disto,
foi retirado do Grupo “XXII Outros” o agrupamento referente a transtornos mentais e
comportamentais, pois os diagn´osticos deste grupo representam um n´umero significativo
na base de dados do PSISM, sendo, portanto, necess´ario um estudo individualizado. O
resultado final, contendo trinta grup os da CID, ´e apresentado na Tabela 6. A t´ıtulo de
simplifica¸ao, chamaremos os grupos da CID utilizados neste estudo de cap´ıtulos.
4.3.1.3 Preenchimento de diagn´osticos sem informa¸ao
Tarefa: Limpeza de dados.
Objeto: Diagn´osticos sem preenchimento ou com preenchimento incorreto.
Objetivo: Preencher os diagn´osticos sem informa¸ao com um valor que pro-
vavelmente seja correto.
´
E comum que dois pacientes que passam por uma seq
¨
uˆencia semelhante de procedi-
mentos durante o per´ıodo de interna¸ao tenham o mesmo diagn´ostico. Baseando-se nesta
premissa, foi feita a limpeza, utilizando a t´ecnica “Uso do Valor mais Proavel” para
preencher o campo sem informa¸ao.
Nesta fase, aplicou-se um algoritmo nos dados que verificou, para cada tupla sem
diagn´ostico, quais as outras tuplas que tinham uma seq
¨
uˆencia de procedimentos seme-
lhantes. Ent˜ao, atribuiu-se ao campo sem informa¸ao o diagn´ostico mais encontrado.
Posteriormente, foi feita a conferˆencia por amostragem.
Este procedimento foi eficaz em 70% dos casos. Os demais foram tratados indivi-
dualmente, cadastrando os diagn´osticos que faltavam, utilizando a informa¸ao do campo
“Info-indica¸ao”, que conem um texto no qual o edico detalha o motivo da interna¸ao.
Tal trabalho foi supervisionado pelos m´edicos peritos. Ainda assim, restaram 15 diagn´os-
ticos ao identificados que permaneceram sem preenchimento e, posteriormente, foram
catalogados no cap´ıtulo “XXII Outros” da Tabela 6.
4.3.1.4 Interna¸ao com mais de um diagn´ostico
Tarefa: Limpeza de dados.
Objeto: Diagn´ostico em duplicidade para uma interna¸ao.
Objetivo: Definir o diagn´ostico correto.
4.3 Preparao dos Dados 61
Tabela 3: Detalhamento do agrupamento de categorias da CID-9 e da CID-10 para
an´alise dos dados de reinterna¸ao hospitalar (CASTRO; CARVALHO, 2005).
Grupo Nome do grupo CID-9 CID-10
I Doen¸cas infecciosas e parasit´arias 001 a 139 A00 a B97
279
II Neoplasias 140 a 239 C00 a D48
IV Sangue, ´org˜aos hematopoi´eticos e transtor-
nos imunit´arios
280 a 289 D50 a D89
IIIA Doen¸cas end´ocrinas 240 a 259 E00 a E35
IIIB Doen¸cas nutricionais e metab´olicas 260 a 278 E40 a E90
V Doen¸cas mentais 290 a 319 F00 a F99
VIA Sistema nervoso 320 a 359 G00 a G99
VIB Olhos e anexos, ouvido e ap´ofise mast´oide 360 a 389 H00 a H95
VIIA Circulat´orio, menos veias e linf´aticos 390 a 448 I00 a I79
I95 a I99
VIIB Veias e linf´aticos 451 a 459 I80 a I89
VIIIA Infec¸oes respirat´orias agudas 460 a 466 J00 a J22
480 a 487
VIIIB Outras doen¸cas respirat´orias 470 a 478 J30 a J39
500 a 519 J60 a J99
VIIIC Doen¸cas crˆonicas das vias ereas inferiores 490 a 496 J40 a J47
IXA Doen¸cas do esˆofago, estˆomago e duodeno 530 a 537 K20 a K31
IXB Doen¸cas do apˆendice 540 a 543 K35 a K38
IXC H´ernias da cavidade abdominal 550 a 553 K40 a K46
IXD Doen¸cas dos intestinos e peritˆoneo 555 a 569 K50 a K67
IXE Outras doen¸cas do aparelho digestivo 520 a 529 K00 a K14
578 a 579 K90 a K93
IXF Doen¸cas do f´ıgado 570 a 573 K70 a K77
IXG Ves´ıcula biliar, vias biliares e ancreas 574 a 577 K80 a K87
XII Pele e tecido subcutˆaneo 680 a 709 L00 a L99
XIII Osteomuscular e tecido conjuntivo 710 a 739 M00 a M99
XA Doen¸cas urin´arias 580 a 583 N00 a N16
587 a 599 N20 a N39
N99
XB Doen¸cas genitais masculinas 600 a 608 N40 a N51
XC Doen¸cas genitais femininas 610 a 629 N60 a N98
XD Insuficiˆencia renal 584 a 586 N17 a N19
XV Afec¸oes originadas no per´ıodo perinatal 760 a 779 P00 a P96
XI Gravidez, parto e puerp´erio 630 a 676 O00 a 099
XIV Malforma¸oes congˆenitas 740 a 759 Q00 a Q99
XVI Sintomas, sinais e afec¸oes mal definidas 780 a 799 R00 a R99
XVII Les˜oes, envenenamentos e causas externas 800 a 999 S00 a Y98
E800 a E999
XXI Contato com os servi¸cos de sa´ude V01 a V82 Z00 a Z99
4.3 Preparao dos Dados 62
Tabela 4: Vinte e seis grupos da CID utilizados para an´alise de reinterna¸ao hospitalar
em adultos (CASTRO; CARVALHO, 2005).
Grupo Nome do grupo
I Infecciosas e parasit´arias
II Neoplasias
III End´ocrinas, nutricionais e metab´olicas
IV Sangue, ´org˜aos hematopoi´eticos e transtornos imunit´arios
IXA Esˆofago, estˆomago e duodeno
IXB Doen¸cas do apˆendice
IXC H´ernias
IXD Doen¸cas do intestino e peritˆoneo
IXE Outras doen¸cas do aparelho digestivo
IXF F´ıgado
IXG Ves´ıcula biliar, vias biliares e ancreas
VIA Sistema nervoso
VIIA Circulat´orio, menos veias e linf´aticos
VIIB Veias e linf´aticos
VIIIA Infec¸oes respirat´orias agudas
VIIIB Outras doen¸cas respirat´orias
VIIIC Doen¸cas crˆonicas vias a´ereas inferiores
XA Doen¸cas urin´arias
XB Doen¸cas genitais masculinas
XC Doen¸cas genitais femininas
XD Insuficiˆencia renal
XI Gravidez, parto e puerp´erio
XII Pele e tecido subcutˆaneo
XIII Osteomuscular e tecido conjuntivo
XVII Causas externas
XXII Outros*
* Outros em adultos engloba transtornos mentais e comportamentais, doen¸cas dos olhos e anexos
e ouvido e ap´ofise mast´oide, anomalias congˆenitas, afec¸oes originadas no per´ıodo neonatal,
sintomas, sinais e afec¸oes mal definidas, contato com os servi¸cos de sa´ude e ignorado.
4.3 Preparao dos Dados 63
Tabela 5: Dezenove grupos da CID utilizados para an´alise de reinterna¸ao hospitalar em
crian¸cas (CASTRO; CARVALHO, 2005).
Grupo Nome do grupo
I Infecciosas e Parasit´arias
IV Sangue, ´org˜aos hematopoi´eticos e transtornos imunit´arios
IXB Doen¸cas do apˆendice
IXC H´ernias
IXD Doen¸cas do intestino e peritˆoneo
VIA Sistema nervoso
VIB Olho e anexos, ouvido e ap´ofise mast´oide
VII Circulat´orio
VIIIA Infec¸oes respirat´orias agudas
VIIIB Outras doen¸cas respirat´orias
VIIIC Doen¸cas crˆonicas vias a´ereas inferiores
XA Doen¸cas urin´arias
XB Doen¸cas genitais masculinas
XII Pele e tecido subcutˆaneo
XIII Osteomuscular e tecido conjuntivo
XIV Anomalias congˆenitas
XV Afec¸oes originadas no per´ıodo perinatal
XVII Causas externas
XXII Outros*
* Outros em crian¸cas engloba neoplasias, doen¸cas end´ocrinas, nutricionais e metab´olicas, doen¸cas
do esˆofago, estˆomago e duodeno, f´ıgado, ves´ıcula biliar, vias biliares e ancreas, outras doen¸cas
do aparelho digestivo, doen¸cas genitais femininas, insuficiˆencia renal, gravidez, parto e puerp´erio,
sintomas, sinais e afec¸oes mal definidas, contato com os servi¸cos de sa´ude e ignorado.
4.3 Preparao dos Dados 64
Tabela 6: Trinta grupos da CID utilizados para an´alise de reinterna¸ao hospitalar no
presente trabalho.
Cap´ıtulo Nome do cap´ıtulo
I Infecciosas e parasit´arias
II Neoplasias
III End´ocrinas, nutricionais e metab´olicas
IV Sangue, ´org˜aos hematopoi´eticos e transtornos imunit´arios
IXA Eofago, estˆomago e duodeno
IXB Doen¸cas do apˆendice
IXC ernias
IXD Doen¸cas do intestino e peritˆoneo
IXE Outras doen¸cas do aparelho digestivo
IXF F´ıgado
IXG Ves´ıcula biliar, vias biliares e ancreas
V Doen¸cas mentais
VIA Sistema nervoso
VIB Olho e anexos, ouvido e ap´ofise mast´oide
VIIA Circulat´orio, menos veias e linf´aticos
VIIB Veias e linf´aticos
VIIIA Infec¸oes respirat´orias agudas
VIIIB Outras doen¸cas respirat´orias
VIIIC Doen¸cas crˆonicas vias a´ereas inferiores
XA Doen¸cas urin´arias
XB Doen¸cas genitais masculinas
XC Doen¸cas genitais femininas
XD Insuficiˆencia renal
XI Gravidez, parto e puerp´erio
XII Pele e tecido subcutˆaneo
XIII Osteomuscular e tecido conjuntivo
XIV Anomalias congˆenitas
XV Afec¸oes originadas no per´ıodo perinatal
XVII Causas externas
XXII Outros*
* Outros engloba sintomas, sinais e afec¸oes mal definidas, contato com os servi¸cos de sa´ude e
ignorado.
4.3 Preparao dos Dados 65
No PSISM, para uma interna¸ao, pode ser emitida mais de uma guia. Como a infor-
ma¸ao do diagn´ostico encontra-se na guia, pode ocorrer mais de um diagn´ostico para a
mesma interna¸ao. Al´em disto, foi constatada a inexistˆencia de verifica¸ao de consistˆencia
que evitasse que em guias de uma mesma interna¸ao aparecessem diagn´osticos totalmente
diferentes. Devido a esta maneira pela qual os dados foram mapeados, a casos em que os
diagn´osticos ao diferentes, apesar de se referirem a uma mesma interna¸ao. A solu¸ao foi
considerar somente o diagn´ostico da primeira guia emitida, pois esta ´e sempre conferida
pelo m´edico da per´ıcia.
4.3.1.5 Benefici´ario com data de nascimento sem informa¸ao
Tarefa: Limpeza de dados.
Objeto: Data de nascimento sem informa¸ao.
Objetivo: Resolver o problema.
Foram encontrados quatro benefici´arios sem data de nascimento, cada um com uma
interna¸ao. Todos eram dependentes, isto ´e, filhos(as) ou esposos(as) de funcion´arios. A
solu¸ao foi elimin´a-los da base de dados. Esta alternativa foi adotada pelo fato de serem
apenas quatro registros, e tamem por ao serem funcion´arios, o que dificultaria a busca
desta informa¸ao em campo.
4.3.2 O conjunto dos dados
Para a minera¸ao, foi necess´aria a cria¸ao de quatro tabelas, as quais podem ser vi-
sualizadas no Diagrama de Classes da Figura 11.
´
E importante ressaltar que o diagrama
ao se encontra normalizado, existindo, inclusive, informa¸oes redundantes, capazes de
causar inconsistˆencias nos dados. Tais inconsistˆencias ao descartadas, porque nas tabe-
las de minera¸ao ao a nenhuma manuten¸ao dos dados. A redundˆancia foi ´util para
minimizar o tempo de resposta dos processos de minera¸ao.
As tab elas utilizadas na minera¸ao ao: MDPaciente, MDInterna¸ao, MDCap´ıtuloCid
e MDProcedimento. MDPaciente, descrita na Tabela 7, cont´em informa¸oes de todos os
benefici´arios do PSISM, mantendo em sigilo a identidade dos mesmos. MDInterna¸ao,
mostrada na Tabela 8, cont´em os dados das interna¸oes dos benefici´arios. MDProce-
dimento cont´em informa¸oes dos procedimentos realizados em cada interna¸ao (Tabela
9). MDCap´ıtuloCid conem todos os cap´ıtulos da CID utilizados nesta pesquisa e seus
correspondentes em rela¸ao `a CID-9 e CID-10 (veja Tabela 10).
4.3 Preparao dos Dados 66
MDPaciente
Nr_segurado
Cd_sexo
Dt_nascimento
Qt_internacao
MDGrupoCid
Nr_grupo
Cd_grupo
Ds_grupo
Cid9_ini1
Cid9_fim1
Cid9_ini2
Cid9_fim2
Cid10_ini1
Cid10_fim1
Cid10_ini2
Cid10_fim2
Cid10_ini3
MDInternacao
Cd_internacao
Nr_segurado
Dt_internacao
Cd_sexo
Dt_nascimento
Qt_dias_int
In_idade_int
Cd_grupo_cid
0..*1 10..*
MDProcedimento
Cd_internacao
Nr_segurado
Nr_guia
Cd_proced
1..*
1
1 0..* 0..* 1
1
1..*
Figura 11: Diagrama de Classes da Minera¸ao de Dados.
Tabela 7: Tabela MDPaciente utilizada na minera¸ao.
Atributo Descri¸ao Tipo Tamanho
Nr-segurado Identificador do benefici´ario para a minera-
¸ao, sendo este diferente da matr´ıcula funci-
onal fornecida pela Prefeitura
Num 11
Cd-sexo Informa¸ao sobre sexo do benefici´ario M -
Masculino F - Feminino
Alfa 01
Dt-nascimento Data de nascimento do benefici´ario Num 08
Qt-internacao Informa a quantidade de interna¸ao - ´util
para melhorar o desempenho do algoritmo de
minera¸ao
Num 03
4.3.3 Normaliza¸ao dos dados para a clusteriza¸ao
Para a clusteriza¸ao, foram considerados apenas os benefici´arios internados pelo menos
trˆes vezes no per´ıodo, os chamados “Contumazes de Interna¸ao”. As vari´aveis tomadas
como base para a clusteriza¸ao ao: quantidade de interna¸ao, dias de permanˆencia em
interna¸ao, sexo, idade, cap´ıtulo da CID do diagn´ostico.
Para desenvolver a clusteriza¸ao, deve-se lidar com dois tipos de vari´aveis: categ´oricas
e cont´ınuas. As vari´aveis categ´oricas ao aquelas cujos valores referem-se a categorias, por
4.3 Preparao dos Dados 67
Tabela 8: Tabela MDInterna¸ao utilizada na minera¸ao.
Atributo Descri¸ao Tipo Tamanho
Cd-interna¸ao Identificador ´unico para interna¸ao Num 11
Nr-segurado Identificador do benefici´ario para a minera-
¸ao, sendo este diferente da matr´ıcula funci-
onal fornecida pela Prefeitura
Num 11
Cd-sexo Informa¸ao sobre sexo do benefici´ario - ´util
para melhorar o desempenho do algoritmo de
minera¸ao
Alfa 01
Dt-interna¸ao Data da interna¸ao Num 08
Qt-dias-int Quantidade de dias de permanˆencia na inter-
na¸ao
Num 4
In-idade-int Idade do paciente na data da interna¸ao Num 03
Cd-capitulo-cid Cap´ıtulo ao qual pertence o diagn´ostico desta
interna¸ao
Alfa 05
Tabela 9: Tabela MDProcedimento utilizada na minera¸ao.
Atributo Descri¸ao Tipo Tamanho
Cd-interna¸ao Identificador ´unico para interna¸ao Num 11
Nr-segurado Identificador do benefici´ario para a minera-
¸ao, sendo este diferente da matr´ıcula funci-
onal fornecida pela Prefeitura
Num 11
Cd-proced odigo de Procedimento, segundo tabela de
Procedimentos do Sistema
´
Unico de Sa´ude
Num 08
Tabela 10: Tabela MDCap´ıtuloCid utilizada na minera¸ao.
Atributo Descri¸ao Tipo Tamanho
Cd-capitulo Identificador ´unico para o cap´ıtulo que in-
tegra CID-9 e CID-10 especificamente para
interna¸ao
Alfa 05
Ds-capitulo Descri¸ao do cap´ıtulo Num 11
exemplo: a vari´avel cap´ıtulo da CID pode assumir os valores: I-Infecciosas e parasit´arias,
II-Neoplasias, III-End´ocrinas, entre outros. As cont´ınuas ao aquelas cujos valores ao
do tipo num´erico. Um exemplo de vari´avel cont´ınua ´e a quantidade de interna¸oes no
per´ıodo.
4.3 Preparao dos Dados 68
A clusteriza¸ao utilizada nesta pesquisa agrupa dados semelhantes com base no al-
culo da distˆancia entre eles, mais precisamente a Distˆancia Euclidiana. Desta forma, os
dados com pequenas distˆancias entre si p ermanecem dentro de um mesmo agrupamento,
enquanto que os mais distantes ao mapeados para outros agrupamentos nos quais ao
melhor ajustados. Esta distˆancia ´e uma medida matem´atica, assim, mesmo as vari´aveis
categ´oricas precisam ser convertidas para valores num´ericos.
Uma das formas de quantificar uma vari´avel categ´orica ´e atribuir n´umeros distintos
a cada uma de suas categorias, identificando-as. Entretanto, somente a numera¸ao das
categorias ao ´e suficiente. O intervalo entre cada categoria deve ser significativo, isto ´e,
deve expressar o seu grau de semelhan¸ca para com as demais categorias. Este processo
permite transformar dados qualitativos em dados quantitativos.
Outra forma de trabalhar com as vari´aveis categ´oricas ´e gerando uma vari´avel para
cada categoria, e, ent˜ao, atribuir-lhe um odigo bin´ario, que pode ser 0 ou 1, para a ine-
xistˆencia ou existˆencia da categoria, respectivamente. Tendo em vista estas considera¸oes,
descrevem-se as vari´aveis utilizadas na clusteriza¸ao:
1) Quantidade de interna¸ao
´
E uma vari´avel cont´ınua que informa o total de interna¸oes de um paciente. Possui
valores entre 3 e 15. O m´ınimo de 3 porque nesta fase trabalha-se apenas com pacientes
contumazes de interna¸ao. O aximo de 15 ocorre devido `a pequena incidˆencia de
pacientes com mais de 15 interna¸oes, considerando-se 15 para estes casos.
´
E feita,
enao, a normaliza¸ao para valores entre 0 e 1.
2) Dias de permanˆencia em interna¸ao
Vari´avel cont´ınua que conem a soma dos dias de todas as interna¸oes. Esta vari´avel
foi categorizada em oito faixas, com valores entre 0 e 1 (Tabela 11).
3) Sexo
Sexo ´e uma vari´avel categ´orica, e pode assumir os seguintes valores: 0-Masculino e
1-Feminino.
4) Idade
A vari´avel idade foi considerada em 31/12/2003 (data final do estudo). A idade foi
categorizada por faixa et´aria, conforme Tabela 12. Posteriormente, as categorias foram
normalizadas para valores entre 0 e 1.
5) Cap´ıtulo da CID do diagn´ostico
4.4 Modelagem 69
Tabela 11: Categorias de dias de interna¸ao.
Quantidade Categoria
de dias
3 - 10 0,125
11 - 20 0,250
21 - 40 0,370
41 - 70 0,500
71 - 100 0,625
101 - 150 0,750
151 - 200 0,875
201 - · · · 1,000
Tabela 12: Categorias de faixa et´aria.
Faixa Et´aria Categoria
0 - 0 1
1 - 4 2
5 - 9 3
10 - 14 4
15 - 19 5
20 - 29 6
30 - 39 7
40 - 49 8
50 - 59 9
60 - 69 10
70 - 79 11
80 - · · · 12
Esta ´e uma vari´avel categ´orica informada a cada interna¸ao. Como um mesmo paci-
ente pode possuir arias interna¸oes com diagn´osticos diferenciados, esta informa¸ao ´e
m´ultipla por paciente. Os cap´ıtulos de diagn´osticos seguem a classifica¸ao registrada
na Tabela 6. A normaliza¸ao deste campo ´e feita criando-se uma vari´avel para cada
cap´ıtulo que se deseja estudar, atribuindo-lhe um valor, por exemplo: 1 ou 0, para
existˆencia ou inexistˆencia de diagn´osticos no cap´ıtulo, respectivamente.
4.4 Modelagem
A modelagem ´e a fase do CRISP-DM em que ´e escolhida a ecnica de minera¸ao dos
dados. Esta fase apresenta forte intera¸ao com a fase de prepara¸ao, pois a t´ecnica es-
colhida pode repercutir na formata¸ao dos dados. A Descoberta de Conhecimento em
4.4 Modelagem 70
Base de Dados ao ´e uma abordagem tecnicista, entendida, simplesmente, como um co-
nhecimento adquirido a partir de dados, ao importando a ecnica utilizada para este
fim.
As t´ecnicas utilizadas neste trabalho ao modelos estat´ısticos e de identifica¸ao de
agrupamentos (clusteriza¸ao), com o objetivo de descobrir os padr˜oes de comportamento
existentes nas interna¸oes hospitalares.
4.4.1 Modelos estat´ısticos
De acordo com as necessidades do PSISM, os questionamentos dos m´edicos peritos,
referenciados na fase de compreens˜ao do neg´ocio, mencionaram, no aximo, trˆes vari´aveis.
Decidiu-se, ent˜ao, resolvˆe-los por meio de etodos estat´ısticos: distribui¸oes de freq
¨
uˆencia,
m´edias e correla¸oes.
Os processos estat´ısticos foram implementados utilizando-se a linguagem SQL. Nesta
etapa, foi constru´ıdo um aplicativo que mapeou as interna¸oes. Verificou-se que cada novo
conhecimento gerava novas propostas de descobertas. As informa¸oes obtidas nesta etapa
podem ser divididas em trˆes categorias, a saber:
1. Geral - referem-se a pacientes, a suas interna¸oes e reinterna¸oes. Nestas estat´ısti-
cas, buscou-se descrever as interna¸oes sem se deter a nenhuma particularidade das
mesmas. ao apresentadas as informa¸oes de totaliza¸ao de interna¸oes por faixa
et´aria e por sexo, a rela¸ao de quantidade de interna¸oes e o tempo decorrido entre
elas, bem como um estudo sobre o tempo de permanˆencia da interna¸ao em rela¸ao
`a quantidade de interna¸oes, ao sexo e `a idade dos pacientes.
2. Cap´ıtulos da CID - referem-se aos diagn´osticos das interna¸oes, considerando os
cap´ıtulos nos quais estes diagn´osticos se encaixam. Apresentam informa¸oes sobre
a quantidade de interna¸oes, a idade edia dos pacientes e o tempo m´edio de per-
manˆencia (TMP), segundo os cap´ıtulos. Pode-se visualizar, tamb´em, o percentual
de reinterna¸ao sob o mesmo cap´ıtulo da CID.
3. Partos - Referem-se ao processo de interna¸ao ap´os o parto. As estat´ısticas desta
categoria mostram o total de partos, considerando o tipo de parto (normal ou ces´a-
reo) e a quantidade de rec´em-nascidos e aes que se internam ap´os o parto.
´
E importante observar que na etapa estat´ıstica foi poss´ıvel relacionar, de forma clara,
4.4 Modelagem 71
no aximo trˆes vari´aveis em cada processo. Da´ı a necessidade de utilizar uma ferramenta
capaz de descrever o relacionamento de vari´aveis diversas.
4.4.2 Clusteriza¸ao (Clustering)
Nesta pesquisa, foi utilizada uma rede neural com capacidade de auto-organiza¸ao do
tipo SOM (Self-Organizing Map), na qual a arquitetura da rede na camada de sa´ıda ´e
bidimensional e a rela¸ao de vizinhan¸ca possui o formato topol´ogico retangular.
A SOM possui os seguintes parˆametros de inicializa¸ao definidos pelo usu´ario: dimen-
ao da entrada, quantidade de neurˆonios da camada de sa´ıda, raio de vizinhan¸ca.
Dimens˜ao da entrada: durante o desenvolvimento da pesquisa foram surgindo di-
versas possibilidades de combina¸oes de vari´aveis de entrada. Foram utilizados dois tipos
de combina¸oes, apresentados a seguir:
1) Entrada de 4 dimens˜oes: quantidade de interna¸oes, dias de permanˆencia em interna-
¸ao, sexo, idade. Tem como objetivo verificar se existe algum padr˜ao de doen¸ca para
este grupo de vari´aveis. Para este tipo de entrada, utilizaram-se pacientes que foram
internados pelo menos trˆes vezes.
2) Entrada de 6 dimens˜oes: quantidade de interna¸oes, dias de permanˆencia em interna-
¸ao, sexo, idade e dois cap´ıtulos da CID. Tem como objetivo verificar como os quatro
primeiros atributos, utilizados na entrada de 4 dimens˜oes, relacionam-se com dois ca-
p´ıtulos espec´ıficos, escolhidos dentre os que apresentaram um padr˜ao semelhante na
clusteriza¸ao com a entrada de 4 dimens˜oes. Nos conjuntos de entrada de 6 dimens˜oes,
foram selecionados os pacientes internados no m´ınimo trˆes vezes e que apresentaram
diagn´osticos pertencentes a um ou a ambos os cap´ıtulos selecionados.
Quantidade de neurˆonios da camada de sa´ıda: foram testadas arias amostras de
neurˆonios para a camada de sa´ıda, sendo 15x15, 18x18, 20x20 e 25x25 para os conjuntos de
entrada de 4 dimens˜oes. Para o conjunto de dados de 6 dimens˜oes, contendo os pacientes
internados pelos cap´ıtulos da CID selecionados, utilizaram-se as redes 10x10 e 12x12.
N´umero de itera¸oes, taxa de aprendizado e raio de vizinhan¸ca: foram utiliza-
das 1000 itera¸oes para a ordena¸ao. A quantidade de itera¸oes da camada de convergˆencia
4.4 Modelagem 72
variou conforme os parˆametros. Foi determinada com a utiliza¸ao do erro, sendo definido
o ponto de parada quando o erro permanecia o mesmo de 500 itera¸oes anteriores. A
taxa de aprendizado inicial teve valor igual a 0,9, e o raio de vizinhan¸ca foi iniciado com
o n´umero de os da camada de sa´ıda menos 2. Assim, para redes com camadas de sa´ıda
20x20, por exemplo, o raio de vizinhan¸ca ´e 18.
4.4.3 Valida¸ao da clusteriza¸ao
A valida¸ao da clusteriza¸ao envolve a aplica¸ao e a an´alise dos ´ındices de valida¸ao
para diferentes forma¸oes de agrupamentos, dada uma mesma configura¸ao inicial do
algoritmo de clusteriza¸ao. O que se pretende, inicialmente, ´e descobrir a quantidade
de grupos que melhor define os dados para cada configura¸ao inicial. Posteriormente,
verifica-se quais, dentre as clusteriza¸oes selecionadas, foram as mais bem sucedidas - as
que apresentaram os melhores ´ındices, segundo os crit´erios adotados (LUZ, 2004).
Para validar a clusteriza¸ao, uma das ecnicas utilizadas foi acompanhar o compor-
tamento do erro durante o treinamento da rede SOM. Antes de iniciar o processo de
clusteriza¸ao, os pesos de cada o de sa´ıda da rede ao iniciados com valores aleat´orios
dos dados de entrada. Quando se inicia a clusteriza¸ao, cada registro de entrada ´e colo-
cado em um grupo, e a medida da distˆancia entre o o de entrada e os pesos de seu grupo
´e o erro da entrada. Somando-se os erros de todas as entradas em uma itera¸ao tem-se o
erro da rede. Este erro diminui a cada itera¸ao, at´e que a rede apresente um estado de
convergˆencia.
Outra maneira de validar a clusteriza¸ao, ´e atraes do Erro Percentual (EP ), cujo
alculo ´e definido por:
EP =
ErroRede
ErroMax
(4.2)
onde ErroRede ´e o erro final da rede treinada e ErroMax ´e o erro aximo, isto ´e, o
maior erro poss´ıvel da rede. Quanto menor o EP , melhor a configura¸ao da rede.
Para validar a clusteriza¸ao, foi utilizada tamem a t´ecnica de valida¸ao, baseada em
crit´erios relativos, ´ındice de Davies-Bouldin. A medida asica de distˆancia foi calculada
utilizando-se a distˆancia Euclidiana. A seguir, ao apresentadas as medidas de distˆancia
intergrupos e intragrupo, utilizadas para o alculo do ´ındice de Davis-Bouldin.
4.4 Modelagem 73
Distˆancia Intergrupos: a distˆancia intergrupos utilizada no alculo do ´ındice ´e
denominada Average Linkage, e corresponde `a distˆancia m´edia entre todos os exemplos
pertencentes a dois grupos distintos.
Sendo S e T dois grupos distintos, d(x, y) representa a distˆancia Euclidiana entre dois
exemplos, x e y, pertencentes aos grupos S e T , respectivamente. |S| e |T | ao os totais
dos exemplos inclu´ıdos nos grupos S e T . A distˆancia intergrupos (Average Linkage)
δ(S, T ), ´e definida por:
δ(S, T ) =
1
|S|.|T |
xS,yT
d(x, y) (4.3)
Distˆancia Intragrupo: a distˆancia intragrupo utilizada no alculo do ´ındice ´e deno-
minada Average Diameter e ´e definida como a distˆancia m´edia entre todos os exemplos
de um mesmo grupo.
Considerando-se S um grupo qualquer, d(x, y) representa a distˆancia entre quaisquer
dois exemplos, x e y, pertencentes ao mesmo grupo. |S| ´e a quantidade de exemplos
inclu´ıdos no grupo S. A distˆancia intragrupos (Average Diameter) ∆(S), ´e definida por :
∆(S) =
1
|S|.(|S| 1)
x,yS
d(x, y) (4.4)
4.4.3.1 Comparando a clusteriza¸ao
No desenvolvimento da pesquisa, o algoritmo de clusteriza¸ao foi aplicado em duas
combina¸oes de vari´aveis de entrada: 4 dimens˜oes e 6 dimens˜oes.
Rede SOM de 4 dimens˜oes
Objetivo: verificar se existe algum padr˜ao de doen¸ca relacionado `as 4 vari´a-
veis de entrada.
Vari´aveis de entrada:
Quantidade de interna¸ao
Quantidade de dias de interna¸ao
Sexo do paciente
Idade do paciente
Total de Registros: 2.519
Quantidade de os:
4.4 Modelagem 74
15x15
18x18
20x20
25x25
Fun¸ao erro: o comportamento da fun¸ao erro durante a fase de treinamento
pode ser observado na Figura 12. A compara¸ao entre erro percentual e o
´ındice de Davies-Bouldin ´e mostrada na Tabela 13.
Tabela 13: Erro percentual e ´ındice de Davies-Bouldin da rede SOM de 4 dimens˜oes.
Quantidade Erro
´
Indice de
de os Percentual Davies-Bouldin
15x15 3,5091 0,6552
18x18 2,8035 0,7325
20x20 2,2134 0,4698
25x25 1,1379 0,3827
0
200
400
600
800
1000
1
3
5
7
9
11
13
15
17
Núm ero de iter ões vezes 1000
Erro
15x15
18x18
20x20
25x25
Figura 12: O comportamento da fun¸ao erro durante a fase de treinamento da rede.
A topologia 25x25 apresenta o menor ´ındice de Davies-Bouldin. O erro percentual
tamem ´e melhor nesta topologia. No entanto, ´e importante lembrar que quanto maior o
n´umero de grupos formados, maior ´e a complexidade para an´alise de seus resultados.
Rede SOM de 6 dimens˜oes
Objetivo: verificar se existe algum padr˜ao entre os atributos utilizados na
rede de 4 dimens˜oes e dois cap´ıtulos da CID escolhidos pelo usu´ario. Neste
4.5 Avalia¸ao da Minerao de Dados 75
caso, foram selecionados o cap´ıtulo II - Neoplasias e o cap´ıtulo XA - Doen¸cas
Urin´arias.
Vari´aveis de entrada:
Quantidade de interna¸ao
Quantidade de dias de interna¸ao
Sexo do paciente
Idade do paciente
Informa¸ao de interna¸ao por cap´ıtulo II
Informa¸ao de interna¸ao por cap´ıtulo XA
Total de Registros: 628. Foram considerados os pacientes internados por
um ou por ambos os cap´ıtulos.
Quantidade de os:
10x10
8x8
Fun¸ao erro: o comportamento da fun¸ao erro durante a fase de treinamento
pode ser observado na Figura 13. O erro percentual e o ´ındice de Davies-
Bouldin ´e mostrado na Tabela 14.
Tabela 14: Erro percentual e ´ındice de Davies-Bouldin da rede SOM de 6 dimens˜oes.
Quantidade Erro
´
Indice de
de os Percentual Davies-Bouldin
8x8 6,1980 1,3293
10x10 5,0714 0,9111
4.5 Avalia¸ao da Minera¸ao de Dados
Nesta fase, ´e realizada a avalia¸ao dos modelos encontrados face aos objetivos defini-
dos, buscando-se identificar poss´ıveis desvios que possam subsidiar a retomada de fases
anteriores. ao abordados, tamem, poss´ıveis desdobramentos a partir do conhecimento
adquirido.
4.5 Avalia¸ao da Minerao de Dados 76
0
50
100
150
200
250
300
350
400
450
1
3
5
7
9
11
13
15
17
Núm ero de iterações vezes 1000
Erro
8x8
10x10
Figura 13: O comportamento da fun¸ao erro durante a fase de treinamento na rede de 6
dimens˜oes de entrada.
4.5.1 Avalia¸ao dos resultados
Para atender aos anseios dos edicos peritos do Instituto de Seguridade Social do
Munic´ıpio de Goiˆania, a estat´ıstica fez-se ´util e eficiente. No entanto, para analisar o
comportamento conjunto de um grande n´umero de vari´aveis foi necess´ario utilizar outras
t´ecnicas, sendo a clusteriza¸ao escolhida para este estudo.
Durante todo o processo de desenvolvimento, a cada descoberta, um leque de no-
vos questionamentos se abria, mostrando que a minera¸ao ´e um processo evolutivo, no
qual sempre existe a expectativa de novas descobertas. Um exemplo disto foi o processo
de descri¸ao dos partos. Inicialmente, o estudo referia-se somente `as interna¸oes dos
rec´em-nascidos, mas diante dos resultados, tornou-se interessante abarcar, tamb´em, as
interna¸oes das aes (ap´os o parto).
4.5.2 Avalia¸ao da base de dados do PSISM quanto `a perspec-
tiva da minera¸ao de dados
Nas fases de entendimento e de prepara¸ao dos dados, ocorreu a descoberta de pro-
blemas solucion´aveis por meio de rigoroso crit´erio de aceita¸ao dos dados, no momento
da capta¸ao das informa¸oes sobre as interna¸oes.
Foram identificados problemas quanto aos diagn´osticos informados nas guias de inter-
na¸ao. Encontraram-se diagn´osticos que apresentaram incompatibilidades com os dados
pessoais do paciente, e outros com incompatibilidades com os procedimentos realizados
durante a interna¸ao. Assim, fizeram-se necess´arias regras de valida¸ao dos dados. Prefe-
4.6 Aplicao 77
rencialmente, tais regras devem ser implementadas no momento da capta¸ao da informa-
¸ao.
4.6 Aplica¸ao
A aplica¸ao ´e a fase que permite aos clientes o acesso aos modelos gerados, para que
extraiam conhecimento ´util.
Como o objetivo alvo da minera¸ao de dados sobre o PSISM recai sobre a descri¸ao
de interna¸oes hospitalares, o aplicativo, entregue ao ISM, pode ser distribu´ıdo e utilizado
tamem em outros planos de sa´ude. Acredita-se ser de grande interesse a sua aplica¸ao
`as interna¸oes do SUS (Sistema
´
Unico de Sa´ude), que apresenta um funcionamento dife-
renciado em rela¸ao aos planos particulares ou empresariais de sa´ude, pois funciona com
financiamento p´ublico e gratuito para o paciente).
O modelo gerado nesta pesquisa apresenta todas as funcionalidades propostas em-
butidas em um ´unico aplicativo. Portanto, tanto as estat´ısticas quanto as clusteriza¸oes
podem ser solicitadas pelo usu´ario de forma parametrizada.
78
5 Resultados Alcan¸cados
O estudo de caso desenvolvido neste trabalho resultou em um aplicativo que descreve
parte do processo de interna¸ao, proporcionando uma nova perspectiva de trabalho a
ser desenvolvida, a partir da an´alise informacional e do conhecimento existente. a na
primeira fase do processo, em que se buscou a defini¸ao, a contextualiza¸ao do problema
e a limpeza dos dados, ode-se constatar a necessidade de alguns ajustes na capta¸ao da
informa¸ao do paciente e de suas internoes. Como parte do resultado final, apresentam-
se, a seguir, os conhecimentos descobertos a partir dos modelos estat´ısticos (Se¸ao 5.1) e
da clusteriza¸ao (Se¸ao 5.2).
5.1 Resultados dos Modelos Estat´ısticos
Para o desenvolvimento dos modelos estat´ısticos, utilizaram-se as interna¸oes ocorri-
das entre 01/01/1998 a 31/12/2003, perfazendo um total de 25.642 interna¸oes.
O resultado dos processos estat´ısticos foi dividido em trˆes categorias: Geral, Cap´ıtulos
da CID e Partos. Nas pr´oximas se¸oes, ao apresentados gr´aficos e tabelas, para uma
melhor compreens˜ao do conhecimento adquirido nesta fase.
5.1.1 Estat´ısticas dos dados em geral
A Figura 14 mostra a quantidade de pacientes pela quantidade de interna¸oes e sexo.
Entre as pessoas que se internaram 60,9 % delas o fizeram apenas uma vez e 89,5 % se
internaram no aximo trˆes vezes.
Na Figura 15, observa-se a rela¸ao entre reinterna¸oes e TMP (Tempo M´edio de Per-
manˆencia) em dias.
´
E interessante observar que, neste estudo de caso, o TMP, na maioria
das vezes, cresce com o aumento da quantidade de interna¸oes. Isto nem sempre ocorre
em outros estudos. O efeito do TMP em rela¸ao `a taxa de reinterna¸ao ´e algo complexo:
em determinados estudos, os menores TMP ao associados ao aumento da taxa de rein-
5.1 Resultados dos Modelos Estat´ısticos 79
Figura 14: Quantidade de pacientes por quantidade de interna¸ao.
Figura 15: Rela¸ao entre as reinterna¸oes e o TMP (Tempo edio de Permanˆencia) em
dias.
5.1 Resultados dos Modelos Estat´ısticos 80
Figura 16: Quantidade de interna¸oes por faixa et´aria e sexo.
terna¸ao (SCHUMANN; OSTFELD; WILLARD, 1976). Outros trabalhos encontram um
alto TMP associado a um alto risco de reinterna¸ao para pacientes cir´urgicos (RILEY;
LUBITZ, 1986). Neste caso, os longos p er´ıodos de interna¸ao indicam uma maior severi-
dade da doen¸ca. Em uma outra pesquisa, feita num hospital geral brasileiro, o aumento
da quantidade de interna¸ao ´e ligado a uma diminui¸ao no TMP. As autoras da pesquisa
afirmam que isto provavelmente acontece por se tratar de um hospital p´ublico, em que
a carˆencia de vagas para internao. Tal situa¸ao leva `a lib era¸ao do paciente no menor
tempo poss´ıvel, e, em alguns casos, antes at´e que o mesmo se encontrasse completamente
restabelecido, provocando a reinterna¸ao. Para maiores detalhes sobre esta pesquisa,
consultar Castro, Travassos e Carvalho (2004).
A Figura 16 apresenta a quantidade de interna¸oes por faixa et´aria e sexo. Observa-se
que, de 0 a 14 anos, existem mais interna¸oes de pacientes do sexo masculino. No entanto,
nas demais faixas et´arias, a quantidade de interna¸oes das mulheres ´e maior do que a dos
homens. As interna¸oes das mulheres correspondem a 61,68% do total, contra 38,32% das
interna¸oes dos homens.
Na Figura 17, pode-se comparar o percentual de mulheres em rela¸ao ao de homens
que se internam, segundo a taxa de permanˆencia em interna¸ao.
´
E interessante observar
que as mulheres se internam mais, conforme mostra a Figura 16, mas os homens tendem
a permanecer internados por um per´ıodo maior.
5.1 Resultados dos Modelos Estat´ısticos 81
Figura 17: Percentual de pacientes do sexo feminino x masculino que se internam,
segundo a taxa de permanˆencia em interna¸ao.
Tabela 15: Percentual de interna¸ao por faixa et´aria, segundo a taxa de permanˆencia.
Faixa 0-1 dias 2-4 dias 5-9 dias 10-14 dias 15-19 dias 20 - · · ·
Et´aria % % % % % %
0 8,26 66,12 20,66 1,65 1,65 1,65
1 - 4 13,94 69,85 14,59 0,98 0,24 0,41
5 - 9 22,33 70,89 5,78 0,50 0,20 0,30
10 - 14 16,02 71,71 9,43 1,55 0,78 0,52
15 - 19 7,25 83,88 7,25 0,97 0,19 0,45
20 - 29 7,22 82,64 6,32 0,76 0,98 2,08
30 - 39 6,22 80,17 8,76 1,36 0,93 2,57
40 - 49 6,28 75,48 12,57 2,13 1,01 2,52
50 - 59 7,20 68,70 17,00 2,80 1,57 2,73
60 - 69 8,77 60,13 25,01 3,13 1,28 1,68
70 - 79 11,29 53,71 28,21 3,34 1,25 2,19
80 - · · · 10,58 51,38 29,45 4,45 1,38 2,76
5.1 Resultados dos Modelos Estat´ısticos 82
Na Tabela 15, pode-se visualizar o percentual de interna¸ao por faixa et´aria, segundo
a taxa de permanˆencia em dias.
´
E poss´ıvel verificar que a maioria das interna¸oes possuem
um per´ıodo de permanˆencia entre 0 e 4 dias. Veja a Figura 18 (deduzida da Tabela 15).
Ela apresenta as interna¸oes com permanˆencia de at´e quatro dias, distribu´ıdas nas faixas
et´arias.
0
10
20
30
40
50
60
70
80
90
100
0 1-4 5-9 10-14 15-19 20-29 30-39 40-49 50-59 60-69 70-79 80- ...
Faixa Etária
% Internação até 4 dias perm anência
Figura 18: Percentual de interna¸oes com permanˆencia axima de 4 dias.
Na Figura 19, visualiza-se a quantidade de reinterna¸oes, segundo o tempo percorrido
entre uma interna¸ao e outra. Para esta estat´ıstica, utilizaram-se somente as interna¸oes
de pacientes que se reinternaram.
Figura 19: Quantidade de reinterna¸oes, segundo o tempo entre as interna¸oes.
5.1 Resultados dos Modelos Estat´ısticos 83
5.1.2 Estat´ısticas por cap´ıtulos da CID
A Figura 20 mostra a quantidade de interna¸oes, segundo os cap´ıtulos da CID de seus
diagn´osticos e o sexo do paciente.
Figura 20: Quantidade de interna¸oes, segundo os cap´ıtulos da CID.
Figura 21: Idade edia dos pacientes, segundo os cap´ıtulos da CID.
5.1 Resultados dos Modelos Estat´ısticos 84
Figura 22: Tempo M´edio de Permanˆencia, segundo os cap´ıtulos da CID.
Na Figura 21, observa-se a idade edia dos pacientes internados, segundo os cap´ıtulos
de seus diagn´osticos. Para este alculo, considerou-se a idade do paciente no in´ıcio da
interna¸ao.
A Figura 22 indica o TMP em dias, segundo os cap´ıtulos dos diagn´osticos das inter-
na¸oes. Veja como o cap´ıtulo V - Doen¸cas Mentais destaca-se no quesito TMP.
A Tabela 16 mostra o percentual de pacientes que apresentam reinterna¸oes, cujos
diagn´osticos se encontram no mesmo cap´ıtulo - caso o paciente tenha sido internado com
diagn´ostico em determinado cap´ıtulo, volta a ser internado por diagn´ostico dentro do
mesmo cap´ıtulo. Dessa tabela pode-se obter resultados como: dos pacientes que se inter-
naram com diagn´osticos inseridos no cap´ıtulo III-End´ocrinas, nutricionais e metab´olicas,
12,91% o fizeram 3 ou mais vezes, contra 1,24% dos que se internaram segundo cap´ıtulo
I-Infecciosas e parasit´arias.
5.1.3 Estat´ısticas de interna¸oes os-parto
Referem-se `as informa¸oes de interna¸oes de rec´em-nascidos e de aes ap´os o parto.
Sabe-se que existe polˆemica quando se trata de qualificar qual o melhor tipo de parto.
O que ´e melhor para o rec´em-nascido: parto normal ou ces´areo? E para a ae? Entre
os especialistas, as resp ostas a estes questionamentos ao bastante divididas e com jus-
5.1 Resultados dos Modelos Estat´ısticos 85
Tabela 16: Percentual de reinterna¸ao sob o mesmo cap´ıtulo de CID.
Cap´ıtulo Descri¸ao do cap´ıtulo Quantidade de interna¸oes %
1 2 3 4 5 6 - · · ·
I Infecciosas e parasit´arias 91,89 6,95 1,00 0,08 0,08 0,08
II Neoplasias 80,64 9,63 4,30 2,25 0,82 2,36
III End´ocrinas, nutricionais e metab´oli-
cas
73,25 13,84 3,58 3,42 1,24 4,67
IV Sangue, ´org˜aos hematopoi´eticos e
transtornos imunit´arios
88,89 4,94 4,94 1,23 1,23 1,23
IXA Esˆofago, estˆomago e duodeno 84,04 12,12 2,22 0,81 0,61 0,20
IXB Doen¸cas do apˆendice 96,65 3,35 3,35 3,35 3,35 3,35
IXC ernias 91,55 6,60 1,65 0,21 0,21 0,21
IXD Doen¸cas do intestino e peritˆoneo 86,64 8,40 3,44 3,44 0,76 0,76
IXE Outras doen¸cas do aparelho diges-
tivo
94,44 2,78 2,78 1,85 0,93 0,93
IXF F´ıgado 85,29 7,35 3,68 0,74 0,74 2,21
IXG Ves´ıcula biliar, vias biliares e an-
creas
88,80 8,25 2,36 2,36 0,39 0,20
V Doen¸cas mentais 63,16 15,44 6,32 3,51 2,81 8,77
VIA Sistema nervoso 83,33 12,59 1,67 1,11 0,93 0,37
VIB Olho e anexos, ouvido e ap´ofise mas-
oide
73,92 23,29 1,53 0,84 0,42 0,42
VIIA Circulat´orio, menos veias e linf´ati-
cos
63,09 18,81 7,25 3,36 2,71 4,78
VIIB Veias e linf´aticos 88,17 9,51 1,20 0,51 0,51 0,09
VIIIA Infec¸oes respirat´orias agudas 83,88 11,73 3,03 0,80 0,40 0,16
VIIIB Outras doen¸cas respirat´orias 95,80 4,06 0,14 0,14 0,14 0,14
VIIIC Doen¸cas crˆonicas vias ereas inferi-
ores
72,75 12,70 6,56 2,25 1,84 3,89
XA Doen¸cas urin´arias 85,20 11,46 2,15 0,36 0,48 0,36
XB Doen¸cas genitais masculinas 93,66 5,97 0,37 0,37 0,37 0,37
XC Doen¸cas genitais femininas 89,27 9,86 0,76 0,11 0,11 0,11
XD Insuficiˆencia renal 89,26 6,04 2,68 2,68 1,34 0,67
XI Gravidez, parto e puerp´erio 81,68 14,13 2,87 0,47 0,62 0,23
XII Pele e tecido subcutˆaneo 95,17 2,76 2,07 2,07 2,07 2,07
XIII Osteomuscular e tecido conjuntivo 84,64 9,78 3,41 0,68 0,46 1,02
XIV Anomalias congˆenitas 91,57 7,23 1,20 1,20 1,20 1,20
XV Afec¸oes originadas no per´ıodo pe-
rinatal
98,67 1,33 1,33 1,33 1,33 1,33
XVII Causas externas 89,26 9,05 1,23 0,38 0,38 0,09
XXII Outros 88,44 9,79 1,35 0,21 0,10 0,10
5.1 Resultados dos Modelos Estat´ısticos 86
tificativas m´ultiplas. A verdade ´e que, no Brasil, ao realizados mais partos ces´areos do
que partos normais. Isto pode ser observado na Tabela 17, que apresenta o percentual de
partos normais e de ces´areos cobertos pelo ISM, bem como o TMP nos partos.
Tabela 17: Quantidade de partos normais e ces´areos.
Parto N´umero Percentual TMP
de partos %
Ces´areo 1270 85,18 3,17
Normal 221 14,82 2,75
Na Tabela 18, ao observadas as porcentagens de rec´em-nascidos (RN) e de aes
internadas nos primeiros 12, 24 e 36 meses ap´os o parto, de acordo com o tipo do parto.
Os per´ıodos utilizados para 12, 24 e 36 meses os-parto foram: 1998 a 2002, 1998 a
2001 e 1998 a 2000, respectivamente. A redu¸ao do per´ıodo em estudo fez-se necess´aria,
pois, quando se deseja avaliar as interna¸oes 24 meses ap´os o parto, por exemplo, deve-
se considerar somente os partos ocorridos 24 meses antes da data final considerada no
estudo de caso. Muitos RN ao ao credenciados junto ao PSISM. Isto ocorre em caso
de ´obito do RN, ou quando os pais optam por outro plano de sa´ude, ou ainda, quando
a parturiente ´e dependente - filha de ae e/ou pai funcion´ario. Neste caso, o RN ´e
neto e ao tem direito de ser credenciado no plano. Para o alculo do percentual de RN
internados, foram contabilizados apenas os credenciados; a o alculo do percentual de
aes internadas foi feito com base no total de partos. Para contabilizar o percentual de
aes internadas, desconsideraram-se as interna¸oes cujos diagn´osticos estivessem dentro
do cap´ıtulo XI - Gravidez, parto e puerp´erio.
Tabela 18: Rec´em-nascidos e aes internadas nos primeiros meses ap´os o parto.
Rec´em-nascidos aes
Per´ıodo Parto N´umero Creden- Internados % Internadas %
os-parto de partos ciados
12 Ces´areo 1036 667 116 17,39 70 6,76
meses Normal 188 88 13 14,77 14 7,45
24 Ces´areo 808 514 159 30,93 111 13,74
meses Normal 162 77 14 18,18 20 12,35
36 Ces´areo 607 387 148 38,24 106 17,46
meses Normal 123 58 17 29,31 17 13,82
Utilizando os mesmos crit´erios de alculo da Tabela 18, a Tab ela 19 apresenta os
RNs e aes que se internaram nos primeiros 24 meses ap´os o parto, segundo a faixa
5.2 Resultados da Clusteriza¸ao 87
salarial do titular (funcion´ario filiado ao PSISM). Inicialmente, foram catalogadas 5 faixas
salariais, cujos valores, em reais, ao: 1)at´e 500,00; 2)de 501,00 a 1000,00; 3)de 1001,00
a 2000,00; 4)de 2001,00 a 3000,00; 5)acima de 3000,00. Durante o processo de alculo
da estat´ıstica por faixa salarial, verificou-se que apenas uma parcela insignificante de
benefici´arios possu´ıam ganhos que se enquadravam na faixa salarial 5)acima de 3000,00
e at´e mesmo, na faixa salarial 4)de 2001,00 a 3000,00. Assim sendo, utilizou-se apenas
as trˆes primeiras faixas, sendo que, a terceira se tornou: 3)acima de 1000,00. O alculo
para definir a faixa salarial na qual o benefici´ario se enquadra, ´e feito atrav´es da edia
dos sal´arios recebidos no per´ıodo.
´
E importante ressaltar que, o sal´ario aqui considerado,
trata-se do sal´ario de um membro da fam´ılia, e ao da renda familiar, cujo valor ao ´e
informado.
Tabela 19: Internadas nos primeiros 24 meses ap´os o parto, segundo a faixa salarial.
Rec´em-nascidos aes
Faixa Salarial Parto N´umero Creden- Inter- % Inter- %
em reais de partos ciados nados nadas
Ae Ces´areo 517 311 114 36,66 81 15,67
500,00 Normal 105 43 11 25,58 14 13,33
Total 622 354 125 35,31 95 15,27
De 501,00 Ces´areo 202 148 36 24,32 20 9,90
a 1000,00 Normal 31 21 3 14,29 2 6,45
Total 233 169 39 23,08 22 9,44
Acima de Ces´areo 89 55 9 16,36 10 11,24
1000,00 Normal 26 13 0 0 4 15,38
Total 115 68 9 13,24 14 12,17
5.2 Resultados da Clusteriza¸ao
Efetuou-se a clusteriza¸ao nas informa¸oes de pacientes contumazes de interna¸ao,
definidos como aqueles que se internaram pelo menos trˆes vezes no per´ıodo de 1998 a
2003 - o total foi de 2.519 pacientes. Os atributos selecionados para a clusteriza¸ao foram:
quantidade de interna¸ao, quantidade de dias de interna¸ao, sexo do paciente e idade
do paciente. O treinamento da rede SOM foi executado para redes em formato 15x15,
18x18, 20x20 e 25x25, que possuem 225, 324, 400 e 625 os, respectivamente. Para a
apresenta¸ao dos resultados, utilizou-se o formato 20x20. A rede com formato 25x25
apresentou o resultado melhor, segundo o ´ındice de Davies-Bouldin e o erro percentual,
mas a visualiza¸ao foi prejudicada devido `a quantidade de grupos formados.
5.2 Resultados da Clusteriza¸ao 88
Os agrupamentos formados pela clusteriza¸ao est˜ao organizados em uma matriz, em
que L
n
representa a linha n, C
m
a coluna m e L
n
C
m
, o grupo visualizado na referida
linha e coluna. Nas matrizes de clusteriza¸ao, os grupos formados recebem tons em escala
de cinza - a intensidade da cor ´e proporcional `a quantidade de pacientes no grupo.
5.2.1 Agrupamentos gerados na clusteriza¸ao
Figura 23: Resultado da clusteriza¸ao com as vari´aveis de entrada: quantidade de
interna¸ao, quantidade de dias de interna¸ao, sexo do paciente e idade do paciente.
Na Figura 23, visualizam-se os agrupamentos formados, na rede com formato 20x20.
O n´umero mostrado em cada grupo representa a quantidade de pacientes a ele pertencente.
Exemplificando, o grupo formado na Linha L
1
e Coluna C
1
possui 56 pacientes inseridos
nele, os quais possuem as seguintes caracter´ısticas: 1) idade entre 15 e 19 anos; 2) sexo
feminino; 3) internaram-se entre 3 e 5 vezes e permaneceram internados por um per´ıodo
de 4 a 10 dias. Na Tabela 20, tˆem-se as caracter´ısticas de alguns agrupamentos. A
clusteriza¸ao gerou grupos seccionados por sexo - em um grupo havia somente pessoas do
sexo feminino ou somente do sexo masculino.
5.2 Resultados da Clusteriza¸ao 89
Tabela 20: Caracter´ısticas encontradas em grupos da clusteriza¸ao.
Quantidade Quantidade edia Idade
Grupo de Sexo M´edia de de (em anos)
Pacientes Interna¸ao Dias
Grupos com maior quantidade de pacientes
L
12
C
19
132 Masculino 3,09 10,00 50 a 80
L
1
C
10
118 Feminino 3,00 7,80 40 a 49
L
1
C
12
100 Feminino 3,09 8,30 50 a 59
L
1
C
5
98 Feminino 3,00 7,82 30 a 39
L
20
C
19
87 Masculino 3,69 11,90 0 a 4
L
15
C
19
77 Masculino 3,44 11,51 40 a 49
Maior m´edia de dias de interna¸ao
L
1
C
17
10 Masculino 23,30 329,80 23 a 58
5.2.2 Agrupamentos gerados x cap´ıtulos da CID dos diagn´osti-
cos
Buscou-se encontrar um padr˜ao de doen¸ca relacionado com os atributos clusterizados.
Este processo foi executado da seguinte maneira:
informa-se o cap´ıtulo da CID;
para cada agrupamento, calculam-se os pacientes que apresentam diagn´osticos per-
tencentes a este cap´ıtulo;
colore-se em tons de cinza, o resultado. O grupo com o maior n´umero de pacientes,
na condi¸ao acima, recebe a cor preta, e os demais, os tons em cinza, obedecendo `a
proporcionalidade a intensidade da cor.
Efetuou-se este procedimento para todos os cap´ıtulos da CID, e, posteriormente, to-
das as matrizes geradas foram comparadas visualmente. Nesta primeira compara¸ao,
verificou-se que determinados cap´ıtulos apresentaram matrizes semelhantes entre si. Um
grande percentual de pacientes, cujos diagn´osticos pertencem a estes cap´ıtulos, ocuparam
os mesmos locais na matriz da clusteriza¸ao. Fez-se, ent˜ao, um estudo detalhado dos
cap´ıtulos visualmente semelhantes. Para exemplificar, descreve-se, a seguir, dois conjun-
tos de cap´ıtulos semelhantes. O primeiro ´e formado por: I-Infecciosas e parasit´arias; III-
End´ocrinas, nutricionais e metab´olicas e VIIIA-Infec¸oes respirat´orias agudas; e o segundo
pelos cap´ıtulos: II-Neoplasias; VIIA-Circulat´orio, menos veias e linf´aticos; XA-Doen¸cas
urin´arias e XIII-Osteomuscular e tecido conjuntivo.
5.2 Resultados da Clusteriza¸ao 90
5.2.2.1 Estudo detalhado dos cap´ıtulos I, III e VIIIA
Figura 24: Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID I.
Figura 25: Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID III.
ode-se verificar uma certa semelhan¸ca entre as matrizes dos cap´ıtulos I (Figura 24),
III (Figura 25) e VIIIA (Figura 26), que possuem 397, 315 e 501 pacientes, respectiva-
5.2 Resultados da Clusteriza¸ao 91
Figura 26: Matriz de incidˆencia de pacientes com diagn´osticos no cap´ıtulo da CID VIIIA.
mente. O grau de semelhan¸ca foi confirmado por meio de uma an´alise num´erica.
O grau de semelhan¸ca ´e encontrado da seguinte maneira: (1) calcula-se a quantidade
relativa de todos os grupos das duas matrizes que se deseja comparar (sendo a quantidade
relativa a quantidade de pacientes dividida pelo total de pacientes do cap´ıtulo); (2) para
cada grupo da matriz, calcula-se a diferen¸ca em rela¸ao ao grupo corresp ondente na outra
matriz; (3) somam-se as diferen¸cas; (4) calcula-se, enao, a semelhan¸ca pela equa¸ao:
100
2
=
S
(2 D)
(5.1)
onde S ´e o percentual de semelhan¸ca que se deseja encontrar e D ´e a soma das
diferen¸cas das duas matrizes. O resultado da an´alise num´erica dos cap´ıtulos I, I II e VIIIA
pode ser visto na Tabela 21.
Tabela 21: Semelhan¸ca num´erica entre os cap´ıtulos da CID: I-Infecciosas e parasit´arias;
III-End´ocrinas, nutricionais e metab´olicas e VIIIA-Infec¸oes respirat´orias agudas.
CIDs Semelhan¸ca %
I - III 58,66
I - VIIIA 66,27
III - VIIIA 64,80
5.2 Resultados da Clusteriza¸ao 92
Tabela 22: Percentual de pacientes que se internam por diagn´osticos em um cap´ıtulo e
em outro.
Pacientes I % III % VIIIA %
I 397 100,00 16,37 23,68
III 315 20,63 100,00 23,49
VIIIA 501 18,76 14,77 100,00
Na Tabela 22, visualiza-se o p ercentual de pacientes que possuem interna¸oes cujos
diagn´osticos se encontram em ambos os cap´ıtulos em compara¸ao. Esta tabela deve
ser lida assim: 20,63% dos pacientes que p ossuem interna¸oes com diagn´osticos em III
tamem tˆem interna¸oes com diagn´osticos em I; enquanto que 16,37% dos pacientes que
se internam com diagn´osticos em I tamem se internam com diagn´osticos pertencentes ao
cap´ıtulo III. A Tabela 21 mostra o qu˜ao semelhantes ao as distribui¸oes das do en¸cas nos
grupos (que ao formados baseados em caracter´ısticas dos pacientes), e a Tabela 22 mostra
o percentual de pacientes que, efetivamente, internaram-se segundo os dois cap´ıtulos da
CID.
Quando se faz inferˆencias somente em um agrupamento, os resultados podem ser mais
precisos. Por exemplo: o grupo L
20
C
19
da clusteriza¸ao, em rela¸ao aos diagn´osticos nos
cap´ıtulos I e II I, apresentam o seguinte resultado: dos pacientes que ao internados por
diagn´osticos no cap´ıtulo I, 33,33% tamb´em ao internados por diagn´osticos no cap´ıtulo III,
e 48,15% dos que ao internados pelo cap´ıtulo III, ao internados, tamem, pelo cap´ıtulo I.
O grupo L
20
C
19
´e composto de pacientes contumazes de interna¸ao, do sexo masculino,
com idade de 0 a 4 anos. Resultados como esses ao facilmente obtidos com a utiliza¸ao
do aplicativo desenvolvido nesta pesquisa.
5.2.2.2 Estudo detalhado dos cap´ıtulos da CID II, VIIA, XA e XIII
A semelhan¸ca verificada entre os cap´ıtulos II, VIIA, XA e XIII, que possuem 360, 878,
318 e 301 pacientes, respectivamente, pode ser comparada por meio de an´alise num´erica,
cujo resultado ´e mostrado na Tabela 23.
A Tabela 24 mostra o percentual de pacientes cujas interna¸oes possuem diagn´osticos
nos cap´ıtulos em compara¸ao.
O estudo de quais doen¸cas afetam determinados grupos de pessoas (definidas por um
conjunto de caracter´ısticas) e de qual a correla¸ao entre os arios tipos de doen¸cas ´e de
grande importˆancia para a preven¸ao, preven¸ao esta direcionada a pessoas pertencentes
5.2 Resultados da Clusteriza¸ao 93
Tabela 23: Compara¸ao dos cap´ıtulos: II-Neoplasias; VIIA-Circulat´orio, menos veias e
linf´aticos; XA-Doen¸cas urin´arias e XIII-Osteomuscular e tecido conjuntivo.
CIDs Semelhan¸ca %
II - VIIA 66,56
II - XA 65,69
II - XIII 67,87
VIIA - XA 58,03
VIIA - XIII 64,40
XA - XIII 66,27
Tabela 24: Percentual de pacientes que se internam em um cap´ıtulo e em outro.
Pacientes II % VIIA % XA % XIII %
II 360 100,00 24,17 13,89 13,06
VIIA 878 9,91 100,00 8,54 10,25
XA 318 15,72 23,58 100,00 13,52
XIII 301 15,61 29,90 14,29 100,00
aos grupos de risco.
5.2.3 Resultados da clusteriza¸ao com entrada de 6 dimens˜oes
O objetivo de se efetuar a clusteriza¸ao de 6 dimens˜oes, foi estudar, detalhadamente,
a correla¸ao de dois cap´ıtulos da CID. Esta nova clusteriza¸ao utiliza as quatro vari´aveis
da clusteriza¸ao de 4 dimens˜oes, mais duas vari´aveis para os dois cap´ıtulos seleciona-
dos, contendo a informa¸ao de existˆencia ou inexistˆencia de interna¸oes com diagn´osticos
pertencentes a estes cap´ıtulos. Por exemplo: um vetor de entrada contendo as quatro
vari´aveis da clusteriza¸ao anterior, acrescido das vari´aveis “interna¸ao no cap´ıtulo II” e
“interna¸ao no cap´ıtulo XA”, que recebem o valor 1 ou 0, para existˆencia ou inexistˆencia
de interna¸ao com diagn´ostico no cap´ıtulo em quest˜ao.
Esta clusteriza¸ao foi realizada nas informa¸oes de pacientes contumazes de interna-
¸ao, que possu´ıam interna¸oes cujos diagn´osticos pertenciam a um dos cap´ıtulos ou a
ambos, totalizando 628 pacientes. O treinamento da rede SOM foi executado para redes
em formato 8x8 e 10x10.
O resultado desta clusteriza¸ao ao foi satisfat´orio. As vari´aveis sexo do paciente,
interna¸ao no cap´ıtulo II e interna¸ao no cap´ıtulo XA possuem somente valores 0 ou
1. Estes valores apresentam um intervalo grande em rela¸ao aos intervalos das demais
vari´aveis de entrada. Por este motivo, ap´os a clusteriza¸ao, cada grupo formado apresenta
5.2 Resultados da Clusteriza¸ao 94
pacientes de somente um tipo de sexo e um ´unico padr˜ao de interna¸ao em rela¸ao ao
cap´ıtulo da CID - ou todos os pacientes ao internados somente por um cap´ıtulo, ou
todos os pacientes ao internados por ambos. O problema ´e que as vari´aveis normalizadas
em valores com pequenos intervalos, ap´os a clusteriza¸ao, apresentam valores, em cada
grupo, que abrangem quase todo seu universo. Por exemplo: o grupo L
1
C
1
da matriz
de clusteriza¸ao de 6 dimens˜oes, possui 200 pacientes do sexo feminino, os quais possuem
interna¸oes somente com diagn´osticos no cap´ıtulo II. Entretanto, as idades dos pacientes
do grupo est˜ao no intervalo de 1 a 83 anos, o per´ıodo de internao ´e de 4 a 164 dias e
a quantidade de internao varia de 3 a 21. Observe que estas caracter´ısticas do grupo
L
1
C
1
apresentam uma faixa muito grande de valores e, por esse motivo, nenhuma
informa¸ao relevante ´e obtida.
Partindo-se da suposi¸ao que o insucesso dos resultados desta clusteriza¸ao tenha
sido provocado por problemas de normaliza¸ao de dados (o valor que informa a existˆen-
cia ou inexistˆencia de interna¸ao sob um cap´ıtulo da CID com intervalo muito grande),
trabalhou-se uma alternativa a essa clusteriza¸ao: atribuiu-se `as vari´aveis que informam
interna¸ao no cap´ıtulo II e interna¸ao no cap´ıtulo XA, os valores 0,5 ou 0, para existˆen-
cia ou inexistˆencia de interna¸ao com diagn´ostico no cap´ıtulo em quest˜ao. Efetuou-se
nova clusteriza¸ao. O resultado desta, apresentou os mesmos problemas da clusteriza¸ao
anterior.
Com o objetivo de obter resultados significativos para a rede de 6 dimens˜oes, foram
realizados arios testes como: 1) execu¸ao da clusteriza¸ao para outros formatos de rede -
variou-se de 8x8 at´e 20x20; 2) utiliza¸ao de outros valores para normaliza¸ao, por exemplo:
0,25 e 0,75 para existˆencia ou inexistˆencia de interna¸ao sob um cap´ıtulo; 3) utiliza¸ao de
outros cap´ıtulos da CID (por exemplo II e XIII). Constatou-se que a inser¸ao de infor-
ma¸oes sobre hip´otese de doen¸cas, produz uma clusteriza¸ao em que as demais vari´aveis
obtˆem faixas grandes de valores, ao produzindo informa¸ao ´util. A solu¸ao ´e efetuar
a clusteriza¸ao nas demais vari´aveis e utilizar a informa¸ao de diagn´ostico apenas para
verificar a incidˆencia de um grupo de doen¸cas nas caracter´ısticas clusterizadas, como foi
realizado na clusteriza¸ao de 4 dimens˜oes.
95
Conclus˜ao
Esta pesquisa teve como objetivo aplicar o processo de descoberta de conhecimento em
base de dados da sa´ude, e apresenta como um dos resultados a utiliza¸ao deste processo
na descri¸ao das interna¸oes hospitalares do plano de sa´ude do ISM. As rela¸oes descritas
incluem o processo de interna¸ao/reinterna¸ao em rela¸ao aos seus diagn´osticos, um estudo
de interna¸oes ap´os os partos (normal e ces´areo) e a correla¸ao entre os diagn´osticos das
interna¸oes.
Os resultados obtidos no estudo de caso, tra¸caram um perfil dos pacientes que se
internam, especialmente dos pacientes contumazes de interna¸ao. Estes resultados podem
ser de grande ajuda nas tomadas de decis˜oes pela equipe edica do ISM, pois localiza os
pacientes pertencentes ao grupo de risco, viabilizando a ado¸ao de medidas de preven¸ao.
No ISM, especificamente, a uma equipe de assistentes sociais que visitam os pacientes
que est˜ao internados. Baseando-se nos resultados desta pesquisa, estes profissionais se
vˆeem munidos de informa¸ao, proporcionando um trabalho preventivo, direcionado para
as caracter´ısticas do paciente. Deseja-se, assim, com este trabalho, diminuir a quantidade
de reinterna¸oes.
A pesquisa resultou na confec¸ao de um aplicativo, totalmente desenvolvido pela au-
tora. Nele, o especialista da sa´ude pode extrair diversas informa¸oes de interna¸oes hos-
pitalares com facilidade - o que permite ao usu´ario buscar informa¸oes, partindo de suas
pr´oprias hip´oteses. Introduziu-se a cultura da minera¸ao de dados, e, em virtude dos
resultados obtidos, a existem demandas de outros projetos de DCBD no pr´oprio ISM e
em sistemas de pesquisa da Secretaria da Educa¸ao. O aplicativo gerado neste trabalho
pode tamb´em ser facilmente utilizado em base de dados de outros sistemas que possuem
informa¸oes de interna¸oes hospitalares.
Outro importante resultado, obtido na etapa de sele¸ao e limpeza dos dados, ´e o
relat´orio encaminhado ao ISM, contendo sugest˜oes de melhoria para o PSISM no processo
de capta¸ao das informa¸oes.
Uma relevante contribui¸ao, refere-se a mo difica¸oes no “Agrupamento da Classifi-
ca¸ao Internacional de Doen¸cas para an´alise de reinterna¸oes hospitalares”, criado por
Conclus˜ao 96
Castro e Carvalho (2005) e aqui utilizado. O agrupamento original foi criado com base
em interna¸oes de um grande hospital geral que, apesar de atender a diversas enfermida-
des, ao possui uma ´area exclusiva para interna¸oes de pacientes portadores de doen¸cas
mentais, o que gerou uma baixa taxa de interna¸ao destes pacientes e provocou a inser¸ao
do cap´ıtulo que trata de doen¸cas mentais, no cap´ıtulo gen´erico XXII-Outros. O PSISM
trata-se de um plano de sa´ude que atende os pacientes em hospitais e cl´ınicas conveniadas,
o que abrange praticamente todas as especialidades m´edicas. Basendo-se neste panorama
e com o aux´ılio das estat´ısticas extra´ıdas dos dados do PSISM, verificou-se que a inter-
na¸ao de paciente com diagn´ostico de doen¸ca mental ´e um importante objeto de estudo,
devido ao longo per´ıodo de permanˆencia em interna¸ao e `a quantidade de reinterna¸ao.
Modificou-se, enao, a tabela sugerida por Castro e Carvalho (2005), desagregando-se o
Cap´ıtulo V-Doen¸cas Mentais do Cap´ıtulo XXII-Outros.
Ao ermino desta pesquisa, ode-se chegar a arias conclus˜oes acerca do processo
de Descoberta de Conhecimento em Base de Dados e de sua utiliza¸ao. Primeiramente,
constatou-se que o processo de DCBD ´e bastante dependente do usu´ario - quanto maior
o conhecimento dos dados e das t´ecnicas utilizadas, melhores ao os resultados obtidos.
Assim, a utiliza¸ao de uma metodologia adequada ´e de grande valor para o sucesso de um
projeto de DCBD. A ado¸ao da CRISP-DM permitiu verificar e compreender as fases que
comp˜oe a DCBD.
Observou-se que um ponto a analisar com cuidado ´e a prepara¸ao dos dados. Nesta
pesquisa, o tempo despendido nesta fase foi de aproximadamente 60% do tempo total do
projeto de DCBD (e ao da pesquisa como um todo).
Verificou-se que a rede neural SOM ´e bastante utilizada no processo de clusteriza¸ao.
Isto ocorre, principalmente, pela sua caracter´ıstica de ser flex´ıvel a novos padr˜oes a ela
apresentados, ou seja, a rede rapidamente se adapta, se adequa a novos padr˜oes de entrada.
E, finalmente, constatou-se que o processo de DCBD ´e cont´ınuo, pois sempre haver´a
conhecimentos impl´ıcitos, e, a cada nova descoberta, o anseio por novos conhecimentos se
renova.
Trabalhos Futuros
Algumas propostas ao apresentadas como forma de dar continuidade a este estudo.
Sugere-se que as ecnicas utilizadas por Castro e Carvalho (2005) na obten¸ao do “Agru-
pamento da Classifica¸ao Internacional de Doen¸cas para an´alise de reinterna¸oes hospita-
lares” sejam aplicadas em interna¸oes de planos de sa´ude, os quais abrangem uma grande
Conclus˜ao 97
rede de hospitais e cl´ınicas de diversas especialidades e, se poss´ıvel, diversas localida-
des. a ind´ıcios que a aplica¸ao dessas t´ecnicas em um ambiente com maior diversidade,
produza melhores resultados.
Outra sugest˜ao, ´e o estudo da minera¸ao de dados como ferramenta ´util para melho-
rar, ou at´e mesmo reconstruir o sistema que lhe forne¸ca os dados.
´
E comum em DCBD,
mais especificamente no processo de sele¸ao e limp eza dos dados, encontrar problemas
nos dados originais (dados cedidos ao processo de descoberta) que dificultem o trabalho
do minerador, problemas como: campos ao preenchidos ou com preenchimento incor-
reto, redundˆancia de dados e, at´e mesmo, uma informa¸ao importante armazenada em
um campo alfanum´erico e sem nenhuma consistˆencia. Esses problemas podem provocar
uma manuten¸ao corretiva ou at´e mesmo a reconstru¸ao do sistema que gerou os dados
originais. Um estudo sobre este “efeito” da DCBD no sistema original ´e um interessante
objeto de pesquisa.
Um interessante objeto de pesquisa, voltado para desenvolvedores, ´e criar t´ecnicas
para se desenvolver sistemas com vis˜ao em descoberta de conhecimento em base de dados.
Grande parte dos desenvolvedores focam a solu¸ao somente no problema do usu´ario e
se esquecem da descoberta de conhecimento - que o ´e realizada quando o sistema a
est´a em uso e possui dados suficientes. Sistemas desenvolvidos sem vis˜ao em descoberta
de conhecimento podem apresentar problemas como: 1) utiliza¸ao de tabela pr´opria do
sistema quando existe outra de dom´ınio ublico (por exemplo: uso de uma tabela de
procedimentos m´edicos que ao seja a recomendada pela Associa¸ao edica Brasileira);
2) ao categoriza¸ao de informa¸oes importantes (exemplo: Em dados sobre endere¸co, a
informa¸ao de bairro ser um campo literal e ao um odigo do bairro, catalogado em uma
tabela a parte). Fatores decididos na an´alise e implementa¸ao, como os descritos aqui,
podem dificultar e at´e inviabilizar o processo DCBD.
Uma proposta atraente ´e desenvolver o processo de descri¸ao de interna¸oes em siste-
mas ligados `a rede p´ublica de sa´ude, pode-se, inclusive, utilizar o aplicativo aqui desen-
volvido e se obter um estudo comparativo.
Outra proposta interessante ´e apresentar um trabalho descritivo das interna¸oes re-
ferentes a grupos diagn´osticos espec´ıficos, por exemplo: estudar o processo das interna-
¸oes de pacientes diab´eticos. Este estudo ´e interessante quando se considera todos os
procedimentos m´edicos realizados nas interna¸oes, mas apresenta como fator limitante
a necessidade de se ter um n´umero grande de pacientes diagnosticados dentro do grupo
espec´ıfico.
Conclus˜ao 98
Outra sugest˜ao ´e descobrir conhecimento em base de dados de interna¸oes hospitalares,
considerando outras caracter´ısticas do paciente, como situa¸ao ocio-econˆomica, grau de
instru¸ao e regi˜ao de habita¸ao.
99
Referˆencias Bibliogr´aficas
ABEL, M. Inteligˆencia Artificial para Finan¸cas. [S.l.]: Dispon´ıvel em http://marabel.
inf.ufrgs.br/Publico/Disciplinas/Financas/IA-FinancasApo%stila.pdf
Consultado em Abril de 2005, 2003.
ADRIAANS, P.; ZANTINGE, D. Data Mining. [S.l.]: Addison-Wesley, Edinburg, U.K.,
1996.
AGRAWAL, R. et al. Automatic subspace clustering of high dimensional data for data
mining applications. 2002.
BOFF, L. H. I - gest˜ao de conhecimento: O que ´e, para que serve e o que eu tenho a ver com
isso? Revista Global Manager, Dispon´ıvel em http://www.fsg.br/revistatexto1.php
Consultado em Abril de 2005, v. 1, 2002.
BRAGA, A. P.; CARVALHO, A. P. L. F.; LUDERMIR, T. B. Redes Neurais Artificiais:
Teoria e Aplicoes. [S.l.]: Livros T´ecnicos e Cient´ıficos Editora S.A, 2000.
CASTRO, M. S. M.; CARVALHO, M. S. Agrupamento da classifica¸ao internacional de
doen¸cas para an´alise de reinterna¸oes hospitalares. Caderno de Sa´ude ublica - Rio de
Janeiro, 2005.
CASTRO, M. S. M.; TRAVASSOS, C.; CARVALHO, M. S. Fatores associados `as
interna¸oes hospitalares no brasil. Ciˆencia e Sa´ude Coletiva, 2002.
CASTRO, M. S. M.; TRAVASSOS, C.; CARVALHO, M. S. Fatores associados `as
readmiss˜oes hospitalares em um hospital geral brasileiro. Scielo Brazil - Cadernos de
Sa´ude P´ublica, 2004.
CHAPMAN, P. et al. CRISP-DM Step-by-step Data Mining Guide. [S.l.], 2000.
COLLAZOS, K. S.; BARRETO, J. M.; ROISENBERG, M. Dificuldade na aplica¸ao de
kdd em medicina. II Workshop de Inform´atica aplicada `a Sa´ude, 2002.
COUTINHO, F. V. [S.l.]: Dispon´ıvel em http://www.dwbrasil.com.br/html/dmining.
html Consultado em Julho de 2004, 2004.
COX, D. Regression models and life-tables. Journal of the Royal Statistical Society, 1972.
DAVENPORT, T. H.; PRUSAK, L. Conhecimento empresarial: como as organiza¸oes
gerenciam o seu capital intelectual. [S.l.]: Editora Campus, 1998.
DUNN, J. Well separated clusters and optimal fuzzy clustering. [S.l.]: J. Cybern, 1974.
FAYYAD, U. Advances in Knowledge Discovery and Data Mining. [S.l.]: American
Association for Artificial Intelligence, 1996.
Referˆencias Bibliogr´aficas 100
FILHO, J. T. Gerenciando Conhecimento. [S.l.]: Servi¸co Nacional de Aprendizagem
Comercial, 2001.
GOOGLE. [S.l.]: Dispon´ıvel em http://www.google.com.br Consultado em Julho de
2005, 2005.
GUROVITZ, H. O que cerveja tem a ver com fraldas? [S.l.]: Dispon´ıvel em
http://www.datawarehouse.inf.br/artigos/cervejaefraldas.asp Consultado em
Julho de 2004, 2004.
HALKIDI, M.; Y.BATISTAK; VAZIRGIANNIS, M. Cluster Validity Methods: Part I.
[S.l.]: Sigmod Record, 2002.
HAN, J.; KAMBER, M. Data Mining Concepts and Techniques. [S.l.]: Morgan Kaufmann
Publishers, 2001.
HAND, D.; MANNILA, H.; SMYTH, P. Principles of Data Mining. [S.l.]: A Bradford
Book, 2001.
HAYKIN, S. Redes Neurais: Princ´ıpios e Pr´aticas. [S.l.]: Bookman, 2001.
KOHONEN, T. Self-Organizing Maps. [S.l.]: Springer, 2001.
LUBEL, K. [S.l.]: Dispon´ıvel em http://faculty.ed.umuc.edu/~meinkej/inss690/
lubel.htm Consultado em Julho de 2004, 2004.
LUZ, N. Algoritmos de Clusteriza¸ao como Apoio `a Modelagem de Preditores de
S´ıtios Arqueol´ogicos Baseados em Vari´aveis Ambientais. Disserta¸ao (Mestrado)
Universidade Federal de Goi´as, 2004.
OMS, O. M. da S. CID-9 - Classificao Internacional de Doen¸cas. [S.l.]: Sagra-Dc
Luzzatto, 1979.
OMS, O. M. da S. CID-10 - Classificao Estat´ıstica Internacional de Doen¸cas e
Problemas Relacionados `a Sa´ude. [S.l.]: Editora da Universidade de ao Paulo, 1996.
PELLEGRINI, G.; COLLAZOS, K. Extrao de Conhecimento a partir dos Sistemas de
Informa¸ao. [S.l.]: Dispon´ıvel em http//www.rational.com/uml/references, 1999.
RILEY, G.; LUBITZ, J. Outcomes of sugery in the medicare aged population:
Rehospitalization after surgery. Healt Care Financing Review, 1986.
SCHUMANN, J.; OSTFELD, A.; WILLARD, H. Discharge planning in an acute
hospital. Archives of Physical Medicine and Rehabilitation, 1976.
STEDMAN, C. [S.l.]: Dispon´ıvel em http://www.computerworld.com/news/1997/
story/0,11280,5332,00.html Consultado em Julho de 2004, 2004.
UCS, U. de Caxias do S. [S.l.]: Dispon´ıvel em http://dein.ucs.br/Pesquisa/
Projetos/Mecbds/inicial.htm Consultado em Julho de 2004, 2004.
UFRGS, U. F. do Rio Grande do S. [S.l.]: Dispon´ıvel em http://www.inf.ufrgs.br/
~projsus/pobjet.html Consultado em Julho de 2004, 2004.
Referˆencias Bibliogr´aficas 101
WITTEN, I.; FRANK, E. Data Mining - Practical Machine Learning Tools and
Techniques with Java Implementations. [S.l.]: Morgan Kaufmann Publishers, 2000.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo