Download PDF
ads:
UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL
UNIVERSIDADE FEDERAL DE GOIÁS
UNIVERSIDADE DE BRASÍLIA
CONTRIBUIÇÃO AO ESTUDO DE CONSUMO
ALIMENTAR NAS FAMÍLIAS DO DISTRITO
FEDERAL: APLICAÇÃO DA TECNOLOGIA DE
DESCOBRIR CONHECIMENTO EM BASE DE DADOS
(KDD)
RICARDO MARQUES DE CARVALHO
DISSERTAÇÃO DE MESTRADO EM AGRONEGÓCIOS
BRASÍLIA/DF
JUNHO/2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL
UNIVERSIDADE FEDERAL DE GOIÁS
UNIVERSIDADE DE BRASÍLIA
CONTRIBUIÇÃO AO ESTUDO DE CONSUMO ALIMENTAR NAS FAMÍLIAS DO
DISTRITO FEDERAL: APLICAÇÃO DA TECNOLOGIA DE DESCOBRIR
CONHECIMENTO EM BASE DE DADOS (KDD)
RICARDO MARQUES DE CARVALHO
ORIENTADOR: Profº Edwin Pinto De La Sota Silva, D.Sc.
DISSERTAÇÃO DE MESTRADO EM AGRONEGÓCIOS
PUBLICAÇÃO: 26/2006
BRASÍLIA/DF
JUNHO/2006
ads:
REFERÊNCIA BIBLIOGRÁFICA E CATALOGAÇÃO
CARVALHO, R.M. Contribuição ao estudo de consumo alimentar nas famílias
do distrito federal: aplicação da tecnologia de descobrir conhecimento em
base de dados (KDD). Brasília: Faculdade de Agronomia e Medicina Veterinária,
Universidade de Brasília, 2006, 106 p. Dissertação de Mestrado.
Documento formal, autorizando reprodução desta dissertação de
mestrado para empréstimo ou comercialização, exclusivamente para
fins acadêmicos, foi passado pelo autor à Universidade Federal de
Mato Grosso do Sul, Universidade de Brasília e Universidade Federal
de Goiás e acha-se arquivado na Secretaria do Programa. O autor
reserva para si os outros direitos autorais, de publicação. Nenhuma
parte desta dissertação de mestrado pode ser reproduzida sem a
autorização por escrito do autor. Citações são estimuladas, desde que
citada a fonte.
FICHA CATALOGRÁFICA
Carvalho, Ricardo Marques de.
Contribuição a analise da demanda de consumo
alimentar nas famílias de baixa renda do Distrito Federal:
Aplicação da tecnologia de descobrir conhecimento em base de
dados (KDD), Ricardo Marques de Carvalho; orientação de
Edwin Pinto de la Sota Silva. – Brasília, 2006.
124 p.: il.
Dissertação de Mestrado (M) – Universidade de
Brasília/Faculdade de Agronomia e Medicina Veterinária. 2006.
1
. Agronegócios. 2. Pesquisa de Orçamentos familiares (POF).
3. Redes neurais (Computação). 4. Tecnologia da informação. 5. Banco
de dados. 6. KDD. I. Silva, E. II. Título
.
iii
iv
UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL
UNIVERSIDADE FEDERAL DE GOIÁS
UNIVERSIDADE DE BRASÍLIA
CONTRIBUIÇÃO AO ESTUDO DE CONSUMO ALIMENTAR NAS FAMÍLIAS DO
DISTRITO FEDERAL: APLICAÇÃO DA TECNOLOGIA DE DESCOBRIR
CONHECIMENTO EM BASE DE DADOS (KDD)
RICARDO MARQUES DE CARVALHO
DISSERTAÇÃO DE MESTRADO SUBMETIDA AO PROGRAMA DE
PÓS-GRADUAÇÃO MULTIINSTITUCIONAL EM AGRONEGÓCIOS
(CONSÓRCIO ENTRE A UNIVERSIDADE FEDERAL DE MATO
GROSSO DO SUL, UNIVERSIDADE DE BRASÍLIA E A
UNIVERSIDADE FEDERAL DE GOIAS), COMO PARTE DOS
REQUISITOS NECESSÁRIOS À OBTENÇÃO DO GRAU DE
MESTRE EM AGRONEGÓCIOS NA ÁREA DE CONCENTRAÇÃO
DE GESTÃO, COORDENAÇÃO E COMPETITIVIDADE DOS
SISTEMAS AGROINDUSTRIAIS.
APROVADA POR:
___________________________________________
Prof. EDWIN PINTO DE LA SOTA SILVA, D.Sc. (UnB)
(ORIENTADOR)
___________________________________________
Prof. FLÁVIO BORGES BOTELHO FILHO, PhD. (UnB)
(EXAMINADOR INTERNO)
___________________________________________
Prof. CARLOS HENRIQUE ROCHA, PhD. (Consultor)
(EXAMINADOR EXTERNO)
___________________________________________
Prof. MAURO DEL GROSSI, D.Sc. (UnB)
(SUBSTITUTO - EXAMINADOR INTERNO)
BRASÍLIA/DF, 17 de JUNHO de 2006.
v
“Tudo posso naquele que me fortalece.”
Filipenses 4:13
vi
A DEUS,
por ter me criado e me dado a capacidade de executar este trabalho;
Ao meu Avô (In Memorian) e minha Avó,
por me guiarem e servirem de exemplo de vida;
Ao meu Pai e minha Mãe,
por me acompanharem em todos os momentos de minha vida;
À minha Irmã,
pela amizade e carinho;
À minha namorada Aline,
pelo amor, amizade e apoio;
OFEREÇO
Aos meus familiares, meus professores e amigos que compartilharam comigo esta
experiência tão bela que é a vida;
DEDICO
vii
AGRADECIMENTOS
Meus agradecimentos:
Ao meu orientador, que incentivou a participação nesta jornada de conhecimentos,
compartilhando suas idéias e reflexões, possibilitando a minha pessoa o
aperfeiçoamento técnico-especializado.
Ao Prof. Dr. Mauro Del Grossi, pelo seu auxílio, competência e presença nos
momentos de dificuldades da pesquisa. Seu incentivo e conhecimento foram
fundamentais para o alcance do meu objetivo.
Ao Prof. Dr. Flávio Botelho, que desde o início deu crédito e relevância a esta
pesquisa, motivando-me a seguir em frente.
À Srta. Suely, pela amizade e auxílio em todas as etapas do mestrado.
À Sra. Marina Solano, pelos incentivos, compreensão e apoio, sem os quais esta
dissertação seria apenas um sonho engavetado.
viii
Agradeço também aos meus amigos de trabalho, colegas e professores do
Agronegócio e de outras ciências que contribuíram com aportes intelectuais e
discussões técnicas, de grande valia para a elaboração desta pesquisa.
ix
ÍNDICE
1. INTRODUÇÃO ........................ ..............................................................................1
2. CARACTERIZAÇÃO E OBJETIVOS DA PESQUISA...........................................13
2.1. Identificação do objeto da pesquisa ..................................................................13
2.2. Objetivos da Pesquisa.......................................................................................19
2.2.1. Objetivos Gerais..............................................................................................19
2.2.2. Objetivos Específicos......................................................................................20
2.3. Contribuições da pesquisa................................................................................20
3. FUNDAMENTAÇÃO TEÓRICA............................................................................22
3.1. Pesquisa de Orçamento Familiar (POF)............................................................22
3.2. Knowledge Database Discovery (KDD).............................................................25
3.2.1. Conceito do KDD.............................................................................................25
3.2.2. Fatores para a implementação de um KDD ....................................................26
3.2.3. Metodologias de Aplicação do KDD................................................................28
3.2.3.1. CRISP-DM....................................................................................................29
3.2.3.2. Metodologia KDD – CARVALHO..................................................................31
3.2.3.3. Metodologia SEMMA....................................................................................32
3.2.3.4. Metodologia FAYYAD...................................................................................32
3.3. Banco de Dados.................................................................................................33
3.3.1. Dados ..........................................................................................................33
3.3.2. Introdução ao Banco de Dados.......................................................................33
3.3.3. As aplicações de Bancos de Dados................................................................34
3.4. Business Intelligence (B.I.)................................................................................35
3.5. Data Warehouse ...............................................................................................38
3.5.1. Introdução ao Data Warehouse.......................................................................38
3.5.2. Modelagem do Data Warehouse.....................................................................42
3.5.3. Extração de Dados..........................................................................................43
3.5.4. Extract Transform Load (ETL).........................................................................44
3.6. Data Mining .......................................................................................................46
3.6.1. Conceituação e Aplicação do Data Mining......................................................46
3.6.2. Algoritmos .......................................................................................................48
x
3.6.3. Etapas para aplicação do Data Mining............................................................49
3.6.4. Origem e Evolução do Data Mining.................................................................50
3.6.5. Regras Heurísticas..........................................................................................54
3.6.6. Aplicações de sucesso do Data Mining...........................................................55
3.6.7. Técnicas de Data Mining.................................................................................57
4. MÉTODOS DE PADRONIZAÇÃO E ASSOCIAÇÃO DOS DADOS .....................62
4.1. Técnica das Centróides.....................................................................................63
4.1.1. Atributos de segmentação...............................................................................63
4.1.2. Número de segmentos....................................................................................63
4.1.3. Interações do Processo...................................................................................64
4.1.4. Tamanho da amostra ......................................................................................64
4.1.5. Conceito de centróides....................................................................................64
4.1.6. Distância dos centróides .................................................................................64
4.2. Redes Neurais Artificiais (RNAs).......................................................................65
4.2.1. Introdução as RNAs .......................................................................................65
4.2.2. Topologias de RNAs ......................................................................................72
4.2.3. Topologias não-recorrentes............................................................................73
4.2.4. Topologias recorrentes...................................................................................74
4.2.5. Utilização de Redes Neurais Artificiais...........................................................80
4.2.6. Modelos de RNAs ..........................................................................................84
5. METODOLOGIA DA PESQUISA .........................................................................93
5.1. Definição da Metodologia .................................................................................94
5.2. Compreensão da Pesquisa ..............................................................................94
5.3. Inventário de Recursos ........ ............................................................................95
5.4. Compreensão dos dados da POF.....................................................................96
5.5. Objetivos Analíticos da Mineração....................................................................97
5.6. Base de Dados .................................................................................................98
5.7. Elaboração das Regras Heurísticas................................................................101
5.8. Ferramentas de Data Mining Utilizadas ..........................................................102
5.9. Apresentação dos Resultados ........................................................................104
6. ANÁLISE DOS DADOS E DOS RESULTADOS OBTIDOS ...............................106
6.1. Resultados da Aplicação do Data Mining........................................................108
6.2. Avaliação dos Resultados ..............................................................................122
xi
6.3. Desenvolvimento ............................................................................................123
7. CONSIDERAÇÕES FINAIS .... .........................................................................125
7.1. Conclusão ............................ ..........................................................................125
7.2. Trabalhos Futuros ..........................................................................................129
8. REFERÊNCIAS BIBLIOGRÁFICAS...................................................................131
9. APÊNDICES ......................................................................................................135
9.1. (A) - REGRAS OBTIDAS NO MODELO NEURAL COMBINATÓRIO.............135
9.2. (B) - VARIÁVEIS DA POF ..............................................................................135
9.3. (C) - MANUAL TÉCNICO DA APLICAÇÃO.....................................................135
9.4. (D) - METODOLOGIA CRISP-DM...................................................................135
xii
CONTRIBUIÇÃO AO ESTUDO DE CONSUMO ALIMENTAR NAS FAMÍLIAS DO
DISTRITO FEDERAL: APLICAÇÃO DA TECNOLOGIA DE DESCOBRIR
CONHECIMENTO EM BASE DE DADOS (KDD)
RESUMO GERAL
Esta pesquisa apresenta uma análise metodológica para auxiliar na concepção
e formulação de planos estratégicos, a partir do conhecimento descoberto em base
de dados. Utilizando para esse descobrimento o KDD (Knowlege Discovery in
Database) com técnicas de Data Mining. O KDD tem sido muito utilizado em
diversas aplicações, tais como detecção de fraudes em retirada de dinheiro,
segmentação de clientes para aumento da venda de produtos, análise de solos para
plantações de determinada cultura, previsão de retirada de dinheiro em caixas
eletrônicos, previsão de índices financeiros e previsão de lucro para portifólio de
investimentos. Essas aplicabilidades idealizaram a crença de que aplicando o KDD
em uma base de dados socioeconômica, obteríamos indícios relativamente seguros
com relação as variáveis que medem a conduta de consumo alimentar, de forma a
contribuir para as análises de consumo na formulação de planos estratégicos para o
agronegócio. A metodologia de análise de dados CRISP-DM foi utilizada porque
permitiu acompanhar o processo e criar a documentação para a execução de outros
projetos deste nível futuramente. A pesquisa utilizou a base de dados reais da
Pesquisa de Orçamentos Familiares (POF) no âmbito do Distrito Federal. Como
técnica de Data Mining foi aplicada o artifício de Redes Neurais Artificiais (RNAs),
com o qual obtiveram-se Regras Heurísticas sobre as características de consumo
dos entrevistados pela POF.
Palavras-chaves: Agronegócio, Análise de Consumo, CRISP-DM, Descoberta de
conhecimento em base de dados, Data Mining, POF, e Redes Neurais Artificiais.
xiii
CONTRIBUTION TO THE STUDY OF ALIMENTARY CONSUMPTION IN THE
FAMILIES OF THE FEDERAL DISTRICT: APPLICATION OF THE TECHNOLOGY
OF KNOWLEDGE DISCOVERING IN DATABASE (KDD)
ABSTRACT
This research presents a methodological analysis to aid in the conception and
formulation of strategic plans, starting from knowledge discovered in a database.
Using for this discovery the KDD (Knowledge Discovery in Database) with techniques
of Data Mining. KDD has been a lot used in several applications, such as detection of
frauds in retreat of money, customers' segmentation for increase of the sale of
products, analysis of soils for plantations certain culture, forecast of retreat of money
in electronic boxes, forecast of financial indexes and profit forecast for profit of
investments. The mentioned applications idealized the faith that applying KDD in a
base of data socioeconomic, we would obtain indications relatively safe with
relationship the variables that measure the conduct of alimentary consumption, in
way to contribute for the consumption analyses in the formulation of strategic plans
for the agribusiness. The methodology of it analyzes of data CRISP-DM was used
because it allowed to accompany the process and to create the documentation
hereafter for the execution of other projects of this level. The research used the base
of data real of the Research of Family Budgets (POF) in the ambit of District Federal
at Brazil. As technique of Data Mining was applied the artifice Nets Artificial Neurons
(RNAs), with which were obtained Heuristic Rules on the characteristics of the
interviewees' consumption for POF.
Key-words: Agribusiness, Analysis of Consumption, Crisp-dm, Discovered of
knowledge in Database (KDD); Data Mining, POF, and Neural Network.
xiv
ÍNDICE DE ILUSTRAÇÕES
Figura Página
Capítulo 3
3.1 – Processo de KDD.............................................................................................30
3.2 – Metodologia para o processo de KDD..............................................................33
3.3 – Business Intelligence Architecture....................................................................36
3.4 – Do Dado ao Conhecimento..............................................................................36
3.5 – Tecnologia da Informação nas Organizações ..................................................37
3.6 – Estrutura dos dados do Sistema Transacional com o Data Warehouse ..........39
3.7 – Data Warehouse X Sistema Transacional (OLTP)...........................................40
3.8 – Arquitetura do Data Warehouse.......................................................................41
3.9 – Modelo Star Schema........................................................................................42
3.10 – Cubo de Dados ..............................................................................................43
3.11 – Sistema de ETL..............................................................................................45
3.12 – Exemplo de Matriz de Inter-relação para Regras de Associação...................59
Capítulo 4
4.1 – Topologias básicas de RNAs ...........................................................................73
4.2 – Modelo MLP.....................................................................................................85
4.3 – Modelo de Hopfield simples .............................................................................87
4.4 – Modelo de KOHONEN......................................................................................90
4.5 – Modelo Neural Combinatório............................................................................91
Capítulo 5
5.1– Faixas Salariais derivadas do valor de renda..................................................100
5.2 – Junção das Variáveis no Identificador............................................................100
5.3 – Processo de ETL da Pesquisa.......................................................................101
5.4 – Resultados das Regras Heurísticas pelo Software GO Mining ......................105
5.5 – Resultados Visuais da Mineração ..................................................................105
Capítulo 6
6.1 – Regras Heurísticas (0-1000) ..........................................................................108
6.2 – Análise Exploratória das Regras Heurísticas (0-1000)...................................109
xv
6.3 – Regras Heurísticas (1001-3000) ....................................................................112
6.4 – Análise Exploratória das Regras Heurísticas (1001- 3000)............................112
6.5 – Regras Heurísticas (3001- 5000) ...................................................................114
6.6 – Análise Exploratória das Regras Heurísticas (3001- 5000)............................115
6.7 – Regras Heurísticas (5001-8000) ....................................................................117
6.8 – Análise Exploratória das Regras Heurísticas (5001-8000).............................117
6.9 – Regras Heurísticas (8001 - *).........................................................................120
6.10 – Análise Exploratória das Regras Heurísticas (8001 - *)................................120
xvi
ÍNDICE DE TABELAS
Tabela Página
Capítulo 3
3.1 – Passos evolutivos do Data Mining....................................................................53
Capítulo 4
4.1 – Tarefas executadas x Arquiteturas por paradigma...........................................80
Capítulo 6
6.1 – Atributos utilizados no Data Mining ................................................................106
6.2 – Principais Produtos Consumidos (0-1000).....................................................110
6.3 – Principais Produtos Consumidos (1001- 3000) ..............................................113
6.4 – Principais Produtos Consumidos (3001- 5000) ..............................................116
6.5 – Principais Produtos Consumidos (5001- 8000) ..............................................119
6.6 – Principais Produtos Consumidos (8001 - *)....................................................121
xvii
LISTA DE SÍMBOLOS E ABREVIAÇÕES
BI Business Intelligence
ADALINE Adaptative Linear Element
CRISP-DM Cross Industry Standard Process for Data Mining
CSP Constraint Satisfaction Problems
ETL Extract Transform Load
KDD Knowledge Discovery in Database
IA Inteligência Artificial
IBGE Instituto Brasileiro de Geografia e Estatística
MADALINE Many Adaline
MLP Multi Layer Perceptrons
OLAP Online Analytical Processing
OLTP Online Transaction Processing
POF Instituto Brasileiro de Geografia e Estatística
RNA Rede Neural Artificial
SGBD Sistema Gerenciador de Banco de Dados
SQL Structured Query Language
SOM Self Organization Map
VLSI Very Large scale Integrated
xviii
SUMÁRIO
1. INTRODUÇÃO ........................ ..............................................................................1
2. CARACTERIZAÇÃO E OBJETIVOS DA PESQUISA...........................................13
2.1. Identificação do objeto da pesquisa ..................................................................13
2.2. Objetivos da Pesquisa.......................................................................................19
3. FUNDAMENTAÇÃO TEÓRICA............................................................................22
3.1. Pesquisa de Orçamento Familiar (POF)............................................................22
3.2. Knowledge Database Discovery (KDD).............................................................25
3.3. Banco de Dados.................................................................................................33
3.4. Business Intelligence (B.I.)................................................................................35
3.5. Data Warehouse ...............................................................................................38
3.6. Data Mining .......................................................................................................46
4. MÉTODOS DE PADRONIZAÇÃO E ASSOCIAÇÃO DOS DADOS .....................62
4.1. Técnica das Centróides.....................................................................................63
4.2. Redes Neurais Artificiais (RNAs).......................................................................65
5. METODOLOGIA DA PESQUISA .........................................................................93
5.1. Definição da Metodologia .................................................................................94
5.2. Compreensão da Pesquisa ..............................................................................94
5.3. Inventário de Recursos ........ ............................................................................95
5.4. Compreensão dos dados da POF.....................................................................96
5.5. Objetivos Analíticos da Mineração....................................................................97
5.6. Base de Dados .................................................................................................98
5.7. Elaboração das Regras Heurísticas................................................................101
5.8. Ferramentas de Data Mining Utilizadas ..........................................................102
5.9. Apresentação dos Resultados ........................................................................104
6. ANÁLISE DOS DADOS E DOS RESULTADOS OBTIDOS ...............................106
6.1. Resultados da Aplicação do Data Mining........................................................108
6.2. Avaliação dos Resultados ..............................................................................122
6.3. Desenvolvimento ............................................................................................123
7. CONSIDERAÇÕES FINAIS ... ..........................................................................125
xix
7.1. Conclusão ............................ ..........................................................................125
7.2. Trabalhos Futuros ..........................................................................................129
8. REFERÊNCIAS BIBLIOGRÁFICAS...................................................................131
9. APÊNDICES ......................................................................................................135
9.1. (A) - REGRAS OBTIDAS NO MODELO NEURAL COMBINATÓRIO.............135
9.2. (B) - VARIÁVEIS DA POF ......... ....................................................................135
9.3. (C) - MANUAL TÉCNICO DA APLICAÇÃO.....................................................135
9.4. (D) - METODOLOGIA CRISP-DM...................................................................135
1. INTRODUÇÃO
Segundo Haddad (HADDAD, 1998), não é simples delimitar as fronteiras
intersetoriais que definam o que seja o agronegócio em um país como o Brasil, que
já atingiu um grau de industrialização muito acentuado. Entretanto, diversos estudos
que analisam o agronegócio brasileiro, compreendendo “os negócios da agricultura
de dentro para fora da porteira”, estimam que este represente mais de 30% do
Produto Interno Bruto, emprega mais de 50% da população economicamente ativa
residente e responde por 40% das exportações do País.
O estudo do agronegócio apresenta-se como instrumento analítico e
experimental para a realização de diagnóstico e simulações estratégicas para as
cadeias produtivas, em virtude de poder-se analisar sob uma abordagem sistêmica a
interação dos negócios agrícolas com os outros setores da economia. Essa visão
holística do agronegócio subsidia aos tomadores de decisão quanto à definição de
objetivos políticos e estratégicos que venham a integrar e coordenar as diferentes
cadeias produtivas e seus agentes. Por sua vez, o estudo de cadeias produtivas,
possibilita oportunidades de investimentos e amplia o número e a lucratividade em
novas alternativas de negócios.
1
Alguns segmentos do agronegócio formaram a base do processo de
desenvolvimento dos países mais avançados do mundo. Segundo Rodrigues
(RODRIGUES, 2004) a agricultura e a pecuária são relevantes na formulação da
riqueza de um país, já que nenhuma nação nasceu industrializada. Todo o processo
começou com a agropecuária, logo desenvolveram os serviços e depois as
indústrias, quer dizer, o agronegócio participa direta e indiretamente de toda a
economia. Os automóveis rodam com pneus porque um produtor planta
seringueiras, de que se extrai látex para fabricar borracha. A calça jeans tem como
matéria-prima o algodão. Sapatos, bolsas, cintos e carteiras existem graças à
criação de bois, dos quais se obtém o couro. Também não haveria roupas íntimas
nem gravatas sem o cultivo das amoreiras que alimentam as lagartas do bicho-da-
seda. Esses fatores nos mostram a importância do agronegócio, pois a agropecuária
pode produzir isso tudo, além de transferir riqueza para outros setores da economia.
Mas para que esse processo ocorra de forma consistente e sustentável, é
necessário sustentar e abrir novos mercados, exportar mais, desenvolver o
agronegócio com modelos adequados de crescimento e conquistar fronteiras
agrícolas com total respeito ao meio ambiente e a biodiversidade. Enfim, para
alcançarmos estes desígnios é necessária a estruturação de um plano estratégico
para especificar os objetivos que se deseja alcançar, os limites do mercado, os
concorrentes e as metas que desejamos atingir para cada um dos objetivos
específicos e para os mecanismos de captação de recursos e demais escopos
relacionados.
Para o desenvolvimento de planos estratégicos, do setor agrícola, de forma a
tratar as questões apresentadas no parágrafo anterior, são necessárias informações
relevantes a subsidiar a formulação, acompanhamento e tomada de decisões tático-
2
estratégicas, com as quais podem-se encontrar soluções plausíveis aos desafios
apresentados. Em virtude do dinamismo e amplitude dos processos das cadeias
produtivas do agronegócio esta tarefa torna-se dispendiosa.
Dinâmico por natureza, o processo de administração estratégica é
representado pelo elenco completo de compromissos, decisões e ações necessárias
para que uma empresa alcance a competitividade estratégica e aufira retornos
superiores à média. Para maior eficácia na formulação e implementação estratégica,
é necessário dispor de informações estratégicas pertinentes (Entradas) obtidas a
partir da realização de análises do ambiente interno e externo. Por sua vez, as ações
estratégicas são pré-requisitos para a obtenção dos resultados desejados na
competitividade estratégica e nos retornos superiores à média. As ações
estratégicas eficazes que ocorrem no contexto de uma formulação e implementação
cuidadosamente integrada geram os resultados estratégicos desejados.
De acordo com Mancuso (MANCUSO, 2004) a preocupação do empreendedor
rural, antes restrita ao como produzir vai agora além dos limites da propriedade em
tempos de globalização e mercado disputado. O processo demanda atenção com o
plantio, a colheita, o manuseio, a armazenagem e, também, com o transporte, a
apresentação e, acima de tudo: a preferência do consumidor. Sendo que, este último
elo da cadeia merece uma atenção especial, pois são as pessoas que consomem os
produtos, decidem o que comprar como comprar e aonde comprar. Por isso, saber
suas preferências e anseios significa dar um passo à frente dos concorrentes rumo à
hegemonia mercadológica.
As empresas capazes de antecipar e satisfazer as necessidades
desconhecidas pelos clientes-alvo, agregam vantagens competitivas. As que
conseguem essa façanha proporcionam um valor agregado a seus clientes, isto é,
3
uma característica não solicitada pelos clientes, mas que será valorizada por estes.
Além disso, ao antecipar-se às necessidades dos clientes, a empresa gera
oportunidades de moldar o futuro de seu setor e de alcançar vantagens competitivas
por antecipação. Em determinados casos a estratégia formalmente enunciada da
empresa pode ser edificada no sentido de fornecer benefícios inesperados aos
clientes e obter as vantagens da jogada inicial estando sempre um passo a frente
dos concorrentes.
Uma das maneiras de conhecermos a preferência do consumidor é através do
estudo e compreensão de suas necessidades, pois através desta captação podemos
descobrir fatores ligados ao consumo, possibilitando manter e criar novos mercados
para produtos que satisfaçam os interesses dos consumidores.
A compreensão destes fatores determinantes ao consumo dos produtos do
agronegócio brasileiro, torna-se requisitos relevantes na concepção estratégica para
este segmento. Uma vez que o conhecimento de tais fatores permeia uma melhoria
nos processos produtivos, no sentido de saber o que plantar, quanto plantar e aonde
plantar. Possivelmente, com a descrição deste cenário de consumo, seria possível
melhorar o relacionamento entre as áreas de logística dos canais de distribuição
bem como das vendas dos produtos do agronegócio brasileiro. Pois de posse
dessas informações, segundo Mancuso (MANCUSO, 2004), incentiva-se a criação e
formulação de planos estratégicos eficientes.
Para poder explicar a importância de se conhecer o consumo, cita-se a
pesquisa de Moon (Moon, 2003), na qual sumarizam a análise das vantagens da
compreensão das preferências do consumidor, indicando que esse processo auxilia
as organizações a identificar as oportunidades de mercado, melhorar os canais das
relações, aumentar a satisfação dos clientes, reduzir os investimentos em estoque,
4
eliminar a obsolescência na produção, melhorar as operações de distribuição e
antecipar as necessidades futuras de financiamentos e investimentos.
Adicionalmente não é possível executar um adequado planejamento operacional de
marketing e financeiro sem que haja um adequado planejamento de vendas
baseado em estudos e previsões confiáveis das preferências de consumo.
Pensando na importância dos itens mencionados no parágrafo anterior, a Latin
Panel (LATIN PANEL, 2005), que constitui a maior empresa de Painéis de
Consumidores da América Latina e a única organização presente em 15 países da
região, com cobertura de 96% do PIB, vem acompanhando a evolução de mais de
70 categorias nos setores de alimentos, bebidas, higiene pessoal, limpeza doméstica
e telecomunicações, além de realizar estudos e análises especiais para outros
segmentos da economia. A Latin Panel busca fornecer aos clientes o melhor serviço
de informações para toda a América Latina. Para isso assegura a constante
inovação e desenvolvimento da pesquisa junto ao consumidor, disseminando o
conceito de Painel de Consumidores. O crescimento e o constante desenvolvimento
de empresas como a Latin Panel justificam a importância de se entender os desejos
e anseios do consumidor. Este estudo contribui no processo de tomada de decisões
dos formuladores de estratégicas. Pois conhecendo as preferências dos
consumidores pelos produtos alimentares do agronegócio brasileiro consegue-se
obter vendas com maiores margens de lucros. Isso justifica a importância de se
conhecer as preferências de consumo dos alimentos referentes às classes sociais e
locais de compras.
A importância de analisar o consumo alimentar faz jus a busca por métodos e
técnicas eficientes de análise de dados. Os quais permitam descobrir os produtos
requisitados pelos consumidores e a associação entre eles.
5
Para estudar as preferências de consumo alimentar mencionada no parágrafo
anterior, pesquisamos fontes de dados socioeconômicos para subsidiar esta
pesquisa, no sentido de aplicar uma análise empírica sobre estes dados. Nessa
utilizamos à Pesquisa de Orçamento Familiar (POF
1
), cujos dados subsidiam a
questão levantada de forma a efetuar processos analíticos na busca de informações
e conhecimentos relativos ao consumo. A área de abrangência dos dados se
restringe ao Distrito Federal, visto os interesses iniciais do estudo limitar-se a esta
região.
Uma vez encontrada a fonte dos dados a subsidiar nossa pesquisa, nos
deparamos com a seguinte questão: como analisar de forma eficiente os dados
provenientes da POF a fim de atingirmos o objetivo da pesquisa, que é adquirir
conhecimento acionável ao analisar dados relativos ao consumo alimentar das
famílias do Distrito Federal, auxiliando a formulação e execução de planos
estratégicos a partir de toda uma análise de conhecimento sobre essa fonte de
dados.
Para aclarar a questão, foi efetuada pesquisa bibliográfica sobre as principais
tecnologias envolvidas dentro de um processo analítico de dados, pois sabemos que
cada vez mais é necessário um proveito maior dos dados. Os conceitos iniciais
encontrados permitiram definir a tríade: dado, informação e conhecimento. Segundo
a definição de Viana (VIANA, 2004), o dado é algo bruto, é a matéria-prima da qual
podemos extrair informação. Informação é o dado processado, com significado e
contexto bem definido. O computador, em essência por meios analíticos, serve para
transformar dados em informações. Por fim o conhecimento é o uso inteligente da
informação, é a informação contextualizada e utilizada na prática. Dessa forma, a
6
1
A POF é uma pesquisa domiciliar por amostragem, que investiga informações sobre características de domicílios, famílias,
moradores e principalmente seus respectivos orçamentos, isto é, suas despesas e recebimentos.
qualidade da informação sustenta o conhecimento (VIANA, 2004), permitindo o
desenvolvimento do planejamento estratégico.
Segundo Fayyad (FAYYAD, 1996), em se tratando de dados, a descoberta de
conhecimento ocorre por meio de complexas interações realizadas entre o homem e
uma base de dados
2
, geralmente por meio de utilização de série heterogênea de
ferramentas. Stedman (STEDMAN, 2004), afirma que as três grandes áreas da
ciência da computação que lidam com análises de informações em bases de dados
são: Data Mining (Mineração de Dados para dados estruturados); Information
Extraction (Extração de Informação para dados não estruturados); e Information
Retrieval (Recuperação da Informação) para textos ou palavras. Essas três
tecnologias vêm causando uma revolução nos métodos tradicionais de análise de
dados, permitindo a exploração de informações relevantes a partir de qualquer fonte.
O que antes se limitava apenas aos dados estruturados em formas de planilhas,
Banco de Dados ou em arquivos que permeavam o armazenamento de dados de
forma estruturada. Hoje os Bancos de Dados abrangem textos, imagens ou qualquer
tipo de informação em formato digital.
Os Bancos de Dados permitem extração de diversas informações usando a
SQL (Structured Query Language) que é uma ferramenta de pesquisa declarativa
para o Banco de Dados relacional. O mecanismo é simples: elabora-se um
problema, é realizado um mapeamento para a linguagem de consulta, e esta é
submetida ao Banco de Dados. Observe que esse processo resolve questões que
necessariamente devem ser definidas, ou seja, as informações extraídas são
respostas a uma consulta previamente estruturada. No entanto, dados armazenados
podem esconder diversos tipos de padrões e comportamentos relevantes que a
7
2
As bases de dados ou Banco de Dados são estruturas computacionais usadas para guardar e manipular dados.
princípio não podem ser descobertos utilizando-se a SQL. Alem disso, por mais que
o pesquisador ou analista seja criativo, a pesquisa com a SQL irá apenas conseguir
elaborar algumas questões de forma que se obtenha resultados práticos ou
esperados no final, por exemplo, podemos através da SQL obter as seguintes
informações: qual a quantidade de consumidores de mamão da cidade de Brasília
ou quantas pessoas ganham acima de R$ 10.000,00 por mês. Mas em virtude das
limitações da SQL, não conseguimos obter informações da seguinte natureza: qual a
probabilidade de um consumidor levar tomate e sal ou quais os fatores relacionados
ao consumo do mamão. Nesse contexto, para responder as questões desta última
natureza de acordo com Viana (VIANA, 2004) foi inserida a mineração de dados
3
ou
Data Mining como forma de absorver essas questões que antes da mineração são
indefinidas e que após a aplicação do Data Mining tornam-se claras e provavelmente
com objetivos mais bem definidos.
Os processos de decisão nas empresas e organizações dependem fortemente
do conhecimento que os decisores têm da realidade com que trabalham (mercados,
clientes, etc). Muito desse conhecimento pode ser retirado dos dados resultantes da
atividade normal da empresa, que são continuamente acumulados pelos sistemas de
informação. A transformação eficiente e eficaz desses dados em conhecimento
acionável, que possa resultar para um melhor desempenho da organização, passa
pelo domínio de técnicas de análise de dados. Entre estas contam-se várias
oriundas da estatística e mais recentemente as de Data Mining, especialmente
vocacionadas para a extração de conhecimento a partir de massas de dados
existentes em Banco de Dados. De acordo com Madsad (MADSAD, 2005) todos
8
3
Mineração de dados ou Data Mining consiste em um conjunto de técnicas computacionais que permitem processar dados no
intuito de descobrir relações e padrões entre os mesmos, de forma a encontrar conhecimentos obscuros a partir de dados
complexos.
estes dados transformados em informações servem, em última análise, para apoiar o
processo de tomada de decisões nas organizações.
Segundo Sanjay (SANJAY, 2001), esses padrões e regras ajudam as
corporações a aprimorar diversas áreas, tais como marketing, vendas e operações
de suporte ao cliente. Com o passar dos anos, as corporações acumularam Bancos
de Dados de aplicativos muito grandes, como planejamento de recursos
empresariais, gerenciamento de relações com o cliente ou outros sistemas de
informações. As pessoas acreditam que há valores ocultos nesses dados. As
técnicas de Data Mining podem ajudar a obter os padrões e informações ocultas
desses dados.
Como exemplos, consideremos um volume de 700 famílias cadastradas pela
POF e, usando as técnicas de mineração, foi descoberto que 7% destas encontram-
se na faixa etária compreendida entre 31 e 40 anos, possuindo pelo menos 2 filhos e
que consomem apenas carne bovina. Uma campanha de marketing direcionada a
esse grupo de clientes poderia ser realizada objetivando um aumento no consumo
da carne especificada. Note que inicialmente não foi elaborada uma questão do tipo
“Identifique as famílias que com faixa etária entre 31 e 40 anos e que possuem pelo
menos 2 filhos”. O próprio processo de mineração identificou a pergunta e a
resposta. Apresentando então, uma nova maneira para analisar os dados, onde são
identificadas automaticamente as prováveis hipóteses em resposta aos
questionamentos estipulados.
Assim, mineração de dados pode ser definida como o processo automatizado
de descoberta de novas informações a partir de massas de dados, utilizando
processos analíticos empíricos (VIANA, 2004). A mineração de dados também é
vista como parte de um processo maior denominado Knowledge Discovery in
9
Database (KDD) cujo significado é Descoberta de Conhecimento em Base de
Dados. Esse processo é dividido em duas etapas principais: a preparação dos dados
e a mineração de dados. Sendo que a preparação dos dados consiste em preparar o
ambiente de forma a torná-lo propício à aplicação da mineração de dados.
Como os dados da POF encontram-se armazenados em arquivos estruturados
e levando em consideração que um dos quesitos para execução do Data Mining é a
disposição dos dados em um Banco de Dados. Necessitamos efetuar procedimentos
computacionais que permeassem a transmissão destes dados para um Banco de
Dados. Esses procedimentos fazem parte de uma tecnologia intitulada por Extract
Transform Load (ETL
4
), que consiste na elaboração e execução da 1ª etapa da
mineração de dados. Essa tecnologia será detalhada no referencial teórico da
presente pesquisa.
10
Sabendo que estaremos utilizando a POF como origem dos dados e a
tecnologia do KDD como meio analítico, necessitamos saber quais técnicas de Data
Mining deve apropriá-se adequadamente aos quesitos da pesquisa, visto a
existência de inúmeras técnicas de mineração para os mais diversos casos.
Efetuando a análise bibliográfica descobrimos que uma das técnicas da mineração
de dados intitulada por Associação, consiste em dividir os dados em classes de
elementos similares buscando encontrar padrões e associações entre os dados.
Neste caso, nada é informado ao sistema a respeito das classes existentes. O
próprio algoritmo
5
descobre as classes a partir das alternativas encontradas na base
de dados, agrupando assim um conjunto de objetos por classes de objetos
semelhantes. Por exemplo, uma população inteira de dados sobre tratamento de
4 ETL - Extract Transform Load (Extração Transformação Carga), são ferramentas de software cuja função é a extração de
dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim a carga dos mesmos em um
Banco de Dados.
5 Algoritmo é uma forma estruturada de resolver problemas numa seqüência lógica, passo a passo até obter o resultado
desejado.
uma doença pode ser dividida em grupos baseados na semelhança de efeitos
colaterais produzidos; acessos a Internet realizada por um conjunto de usuários em
relação a um conjunto de documentos podem ser analisados para revelar clusters ou
categorias de usuários, fazendo uma descrição dos dados e transformando-os em
informações relevantes ao estudo. Essas informações são apresentadas por meio de
gráficos e de Regras Heurísticas que representam o conhecimento adquirido a partir
da execução do Data Mining.
Após análise de técnicas e métodos de Data Mining, verificamos que esta
técnica pode ser empregada para a identificação de padrões de consumo de
produtos alimentares por meios de Regras Heurísticas, usando como fonte de dados
a Pesquisa de Orçamento Familiar (POF). Esta tecnologia pode ser estendida e
aplicada em outras pesquisas do agronegócio e do setor agrícola em geral, onde
perguntas são feitas e as respostas podem estar escondidas em uma Base de
Dados.
Dispondo-se de uma ampla massa de dados socioeconômicos de forma a
aplicar estudos empíricos utilizando as técnicas de Data Mining na busca de padrões
e relacionamentos entre os dados apresentados, a partir da associação dos
mesmos, chegamos ao objetivo geral do trabalho, que é aplicar a Extração de
Conhecimento em Base de Dados (KDD) para descobrir regras de consumo a
contribuir para a análise de consumo alimentar no Distrito Federal, sendo que estas
informações poderão auxiliar na prospecção estratégica, permitindo maximizar
lucros e vendas, bem como auxiliar o alcance de novos mercados para o setor
produtivo.
O restante da pesquisa encontra-se dividida em 7 seções e 4 apêndices.
11
A segunda seção apresenta a caracterização do objeto da pesquisa, onde se
encontram a identificação do objeto, os objetivos, a problematização, a justificativa e
as contribuições do estudo, e ainda, os resultados esperados e a delimitação da
pesquisa.
A terceira seção apresenta a fundamentação teórica.
Na quarta seção, são explicados os métodos de padronização e associação
dos dados.
A quinta seção apresenta a metodologia empregada, onde é explicado como foi
conduzido o estudo empírico da presente pesquisa.
A sexta seção traz a análise dos dados e dos resultados obtidos com a
aplicação dos métodos de mineração de dados. Por fim, a sétima e última apresenta
as considerações finais e os trabalhos futuros.
No apêndice A encontram-se as Regras Heurísticas obtidas na fase de
elaboração de modelos neurais através do Modelo Neural Combinatório e as
análises exploratórias a partir destas regras. Estes resultados foram colocados no
apêndice para facilitar a visualização e organização do trabalho.
No apêndice B dispõem-se os códigos e a descrição dos produtos consumidos
empregadas nesta pesquisa.
No apêndice C temos o manual técnico da aplicação, onde são descritos os
experimentos computacionais desta pesquisa.
No apêndice D, visto sua extensão e complexidade, está descrita de forma
detalhada a metodologia CRISP-DM, servindo como normativas a serem seguidas.
As etapas, as tarefas genéricas e específicas foram delineadas para um melhor
entendimento de cada fase desta metodologia.
12
2. CARACTERIZAÇÃO E OBJETIVOS DA PESQUISA
2.1. IDENTIFICAÇÃO DO OBJETO DA PESQUISA
A partir da pesquisa se pretende conhecer fatores ligados ao consumo
alimentar dos produtos do agronegócio no Distrito Federal, subsidiando a formulação
de táticas e estratégias. Estas permitem contribuir para prosperidade desse negócio
na atualidade brasileira. Porém, para atingirmos esta compreensão é necessário
efetuar processos analíticos de pesquisa nos dados de forma a encontrarmos
cenários que demonstrem padrões e associações entre as variáveis dos produtos
consumidos. Essas informações nos permitiram identificar novas oportunidades de
mercado, analisar e melhorar os canais das relações comerciais, aumentando a
satisfação dos consumidores. Conseqüentemente poderíamos reduzir os
investimentos em estoque, eliminar a obsolescência na produção, melhorar as
operações de distribuição e antecipar possíveis necessidades futuras para calcular e
efetuar projeções a futuros investimentos no agronegócio.
Para iniciarmos o estudo do processo analítico, necessitamos buscar a origem
dos dados com características socioeconômicas inerentes ao consumo, renda,
13
localização geográfica e demais correlatos influentes na aquisição de produtos
alimentares.
O Instituto Brasileiro de Geografia e Estatística (IBGE) é o principal provedor de
dados e informações para o país, atendendo às necessidades dos mais diversos
segmentos da sociedade civil, bem como dos órgãos das esferas governamentais
federal, estadual e municipal. Identificando e analisando o território, mostrando como
a economia evolui através do trabalho e da produção das pessoas, revelando ainda
como elas vivem e seu crescimento populacional (IBGE, 2005).
O IBGE, a partir de suas informações oferece uma visão completa e atual do
País, através do desempenho de suas principais funções:
Produção e análise de informações estatísticas;
Coordenação e consolidação das informações estatísticas;
Produção e análise de informações geográficas;
Coordenação e consolidação das informações geográficas;
Estruturação e implantação de um sistema de informações
ambientais;
Documentação e disseminação de informações;
Coordenação dos sistemas estatístico e cartográfico nacionais
(IBGE, 2005).
Nesse raciocínio e dentro de sua abrangência institucional, o IBGE como
responsável pela Pesquisa de Orçamentos Familiares (POF), nos subministra às
mensurações e estruturas de consumo, dos gastos e rendimentos familiares.
Possibilitando traçar um perfil das condições de vida da população brasileira a partir
da análise de seus orçamentos domésticos (POF, 2004). A esses dados aplicamos
14
técnicas de Extração de Conhecimentos em Base de Dados (KDD) como
mecanismo analítico do presente trabalho.
Além das informações referentes à estrutura orçamentária, características
associadas às despesas e rendimentos dos domicílios e famílias são investigadas.
Viabilizando o desenvolvimento de estudos sobre a composição dos gastos das
famílias segundo as classes de rendimentos, as disparidades regionais, as áreas
urbanas e rurais, a extensão do endividamento familiar, a difusão e volume das
transferências entre as diferentes classes de renda e a dimensão do mercado
consumidor para grupos de produtos e serviços. Ampliando assim o potencial de
utilização de seus resultados (POF, 2004).
Portanto, a Pesquisa de Orçamentos Familiares possui múltiplas aplicações,
não só para a gestão pública, contribui também para subsidiar o estabelecimento de
prioridades na área social com vistas à melhoria da qualidade de vida da população,
incluídas as políticas públicas e temáticas nos campos da nutrição, orientação
alimentar, saúde, moradia, entre outras. Para o setor privado, a pesquisa pode ser
útil na definição de estratégias de investimentos em que o conhecimento do perfil do
consumidor e da demanda por bens e serviços seja determinante. Sob a ótica da
qualidade das estatísticas públicas, destacam-se, ainda, a atualização das estruturas
de ponderação das medidas de inflação, em particular do Sistema Nacional de
Índices de Preços ao Consumidor, produzido pelo IBGE, e da parcela de consumo
das Contas Nacionais e Regionais (POF, 2004). A relevância desses aspectos e a
crescente necessidade de conhecimento da realidade brasileira relacionada ao perfil
socioeconômico da população justificam a realização da POF.
A POF é realizada por amostragem, as variáveis que constam são por
domicílios particulares permanentes, na qual é identificada a unidade básica da
15
pesquisa – Unidade de Consumo - que compreende um único morador ou conjunto
de moradores que compartilham da mesma fonte de alimentação ou compartilham
as despesas com moradia.
A Unidade de Consumo da POF coincide com a “família”, segundo o conceito
adotado no IBGE. A POF registrou um total de 48 534 638 Unidades de Consumo
(POF, 2004).
Pelas características enunciadas ate então, os dados da POF após um
eficiente processo analítico, nos fornecerão as condições necessárias para
compreendermos melhor o comportamento de consumo por tipo de renda, local de
compra e pelos produtos do agronegócio brasileiro no Distrito Federal. Sendo,
portanto, a nossa fonte de dados para a pesquisa em questão.
Uma das maneiras de se obter um conhecimento acionável sobre as
características do consumo citado, no parágrafo anterior, seria a criação de perfis de
consumo das classes por tipo de renda e local de compra. Para isso é necessária
uma análise depurada entre os itens de consumo associados. O que torna esse
processo como algo não trivial de se fazer, pois existe uma imensidão de
combinações possíveis entre os valores das variáveis estudadas. Essa dificuldade
implica na problemática a ser tratada nesse estudo, ou seja, como conseguir criar
associações entre as variáveis de consumo e descobrir conhecimento relevante a
partir da combinação de centenas de produtos oriundos dos dados da POF.
Geralmente esses conhecimentos são criados utilizando recursos matemáticos
e estatísticos, tais como a regressão logística e outras técnicas consideráveis. Mas
em alguns casos onde exista uma grande quantidade de variáveis envolvidas, esse
procedimento tornar-se dispendioso e ineficaz. Com as recentes descobertas e
evoluções dos métodos de análises de dados, surgiu a técnica de Rede Neural
16
Artificial (RNA). Sendo esta empregada nas principais ferramentas de Data Mining,
tema a ser abordado a seguir. A RNA, além de trabalhar de forma eficiente nos
casos em que existe uma grande quantidade de variáveis, de acordo com Siqueira
(SIQUEIRA, 1997), esta possui a capacidade de associar variáveis na busca de
causas para problemas de maneira mais satisfatória e simples que a regressão
logística.
A análise de grande quantidade de dados, bem como as relações entre as
diversas variáveis na busca de padrões ou relacionamento entre elas de forma
eficaz e eficiente é realizada por um conjunto metodológico intitulado por Knowledge
Database Discovery (KDD). Sistemas utilizados pelas organizações para a aquisição
de conhecimento nas bases de dados da própria empresa, esse método analítico
(KDD) conta com várias técnicas oriundas da estatística e heurística que através de
métodos da inteligência artificial (I.A.) são unificadas para dar origem ao termo
intitulado Data Mining (mineração para prospecção em dados). O KDD é um
conjunto de Métodos e técnicas especialmente desenvolvidas para identificar as
relações e padrões entre os elementos existentes nos mais diversos conjuntos de
dados armazenados em Bancos de Dados. Todos estes dados, posteriormente
aplicados com os métodos expostos, originam informações valiosíssimas no intuito
de servirem como apoio fundamental para tornar os processos de tomadas de
decisões mais eficientes.
Data Mining é um conjunto de técnicas, cujo objetivo é melhorar a qualidade e
eficácia das decisões, “garimpando” relações entre informações, que são
imperceptíveis aos usuários ou ferramentas de suporte a decisões tradicionais. O
Data Mining é complementar às demais ferramentas de análise de informações,
17
geradores de relatórios ou cubos de decisão. Seu foco reside na análise meticulosa
dos dados existentes nos Bancos de Dados das empresas.
Uma definição científica pode ser: “Data Mining é um conjunto estruturado de
processos de exploração e análise de volume de dados, por meio de métodos
automáticos e semi-automáticos, com o intuito de descobrir e determinar padrões,
tendências, relacionamentos e regras, que permitam converter tais dados em
conhecimento de alto valor estratégico” sendo, portanto, seu objetivo automatizar ao
máximo o processo de análise de informações contidas em um Banco de Dados,
descobrindo correlações, associações, ausência ou presença de ciclos que, a
princípio, são impossíveis de se enxergar a olho nu.
A aplicação do KDD tem sido abrangida em diversas aplicações para inúmeras
instituições nos mais diversos segmentos de negócios existentes, desde instituições
financeiras que vem conseguindo através da aplicação do KDD: detectar fraudes em
transações que envolvam dinheiro, segmentação de clientes problemáticos e
lucrativos visando aumentar os dividendos na venda de produtos financeiros,
previsão de retirada temporal de dinheiro dos caixas, previsão de índices nas bolsas
a gerar melhores oportunidades nas escolhas das carteiras de investimentos
financeiros, bem como organismos voltados para a saúde, como institutos que
pesquisam tratamentos de doenças, que por meio das técnicas de Data Mining,
podem correlacionar os dados dispostos por um paciente com os dados de outros
pacientes, permitindo então de forma precoce diagnosticar a doença, avaliar todos
os tratamentos conhecidos e seus respectivos resultados. Podendo então, mediante
análise, encontrar o melhor tratamento a ser aplicado em um diagnóstico específico.
Como mostrado no parágrafo anterior, a aplicação do KDD abrange os mais
diversificados segmentos, com grau de satisfação relevante. Isto retifica à
18
importância deste método de análise na aplicação da presente pesquisa. Pois, a
dificuldade em responder, por meios analíticos convencionais, a problemática
apresentada nos reforça e embasa a utilização dos processos de KDD na análise
empírica dos dados da POF de forma a conseguir:
Descobrir empiricamente Regras Heurísticas que permitam
diagnosticar padrões de consumo alimentar através dos dados da POF;
Utilizar metodologias e ferramentas tecnológicas de análise do
Knowledge Database Discovery – KDD (Extração de Conhecimento em Base
de Dados);
Aplicar esta pesquisa no âmbito do Distrito Federal;
Contribuir, através dos resultados obtidos com a aplicação do KDD,
para concepção e formulação de planos estratégicos relevantes para o
agronegócio;
Mostrar a importância do Data Mining em processos analíticos.
O que enriquece este trabalho é a importância e quase inexistência de
aplicações desta natureza no agronegócio.
2.2. OBJETIVOS DA PESQUISA
2.2.1. Objetivos Gerais
Desenvolver uma metodologia de análise aplicada a Banco de Dados
para a Extração de Conhecimento em Base de Dados (KDD). Visando
analisar as variáveis e descobrir regras de consumo em função dos níveis de
renda, locais de compras e produtos consumidos, a contribuir para a
19
concepção e formulação de planos estratégicos relevantes para o
agronegócio do Distrito Federal, utilizando nesta pesquisa como fonte de
informações os dados da POF.
2.2.2. Objetivos Específicos
1. Encontrar através da aplicação do Knowledge Database Discovery
(KDD - Extração de Conhecimento em Base de Dados) Regras Heurísticas
que permitam identificar preferências de consumo nas famílias do Distrito
Federal;
2. Efetuar estudos sobre as tecnologias envolvidas no processo de
Knowledge Database Discovery (KDD - Extração de Conhecimento em Base
de Dados);
3. Aplicar e avaliar a tecnologia de análise do KDD, como método
analítico, na procura de soluções e padrões de comportamento a beneficiar a
concepção e formulação de planos estratégicos relevantes para o
agronegócio do Distrito Federal.
2.3. CONTRIBUIÇÕES DA PESQUISA
A crescente oferta de produtos no mercado, a complexidade dos gostos e das
preferências dos consumidores e o acirramento da concorrência fazem as empresas
buscarem se posicionar de maneira eficaz na procura de oportunidades rentáveis de
mercado. Exceto em situações de monopólio, isto se reflete na adoção de
estratégias em direção a alcançar nichos de mercado especializados. Afinal a meta
consiste em gerar valor para os consumidores, no atendimento às suas
20
necessidades. Segundo Kotler (Kotler, 1999) O processo de segmentação de
mercado é um componente do planejamento organizacional que, ao lado da
identificação do público alvo e do posicionamento estratégico do produto no
mercado, constitui as bases das decisões estratégicas de uma empresa.
Neste contexto, o processo de segmentação de mercado é de fundamental
importância na criação de estratégias. Segundo Carpenter (CARPENTER, 1988), a
segmentação de mercado pode ser entendida como “o processo de dividir mercados
em grupos de consumidores potenciais com necessidades ou características
similares que, provavelmente, exibirão comportamento de compra similar”. Portanto,
o primeiro passo para otimização das estratégias nas empresas leva a reconhecer
que nem todos os produtos e serviços oferecidos são direcionados para todos os
consumidores.
Em relevância ao parágrafo anterior, esta pesquisa visa apresentar e aplicar
uma metodologia que busca eficientemente trabalhar dados, a fim de encontrar
associações entre os mesmos, segmentando-os e criando nichos de mercado mais
especializados. Promovendo a sua aplicação com o objetivo de contribuir para o
desenvolvimento socioeconômico da região do Distrito Federal.
21
3. FUNDAMENTAÇÃO TEÓRICA
3.1. PESQUISA DE ORÇAMENTO FAMILIAR (POF)
Para prática da pesquisa utilizaremos os dados da POF, (Pesquisa de
Orçamentos Familiares), pois esta visa mensurar as estruturas de consumo dos
gastos e dos rendimentos das famílias brasileiras. Para traçar um perfil das
condições de vida da população a partir da análise de seus orçamentos domésticos
(POF, 2004).
Além das informações referentes à estrutura orçamentária, várias
características associadas às despesas e rendimentos dos domicílios e famílias são
investigadas, viabilizando o desenvolvimento de estudos sobre a composição dos
gastos das famílias segundo as classes de rendimentos, as disparidades regionais
nas áreas urbanas e rurais, a extensão do endividamento familiar, a difusão e o
volume das transferências entre as diferentes classes de renda e a dimensão do
mercado consumidor para grupos de produtos e serviços, ampliando o potencial de
utilização de seus resultados (POF, 2004).
22
Podendo ser analisada, a Pesquisa de Orçamentos Familiares possui múltiplas
aplicações. Para a gestão pública, contribui para subsidiar o estabelecimento de
prioridades na área social com vistas à melhoria da qualidade de vida da população,
incluídas as políticas públicas temáticas nos campos da nutrição, orientação
alimentar, saúde, moradia, entre outras. Para o setor privado, a pesquisa pode ser
útil na definição de estratégias de investimentos em que o conhecimento do perfil do
consumidor e da demanda por bens e serviços sejam necessárias. Sob a ótica da
qualidade das estatísticas públicas, destacam-se a atualização das estruturas de
ponderação das medidas de inflação de preços ao consumidor e da parcela de
consumo das contas nacionais e regionais.
Essas e outras aplicações que podem ser fomentadas pela POF nos mostram
a importância e relevância deste trabalho feito pelo IBGE.
Na POF, o termo “família” representa a unidade de consumo, também
adotadas no Censo Demográfico e demais pesquisas domiciliares do IBGE.
Pela grande quantidade de variáveis envolvidas no estudo da POF, uma
riqueza de informações estratégicas pode ser encontrada ao se fazer análise das
tendências e busca de padrões entre esses dados, o grande problema é encontrar
essas informações, pois há uma infinidade de combinações e valores possíveis entre
as referidas variáveis. O que torna dificultoso, pelos meios estatísticos tradicionais,
analisar essas combinações no intuito de encontrar os padrões, tendências e
comportamentos relevantes e mensuráveis entre as variáveis expostas no estudo, o
que dificulta encontrar nos processos tradicionais o estado do ótimo na explicação e
elucidação de possíveis hipóteses formuladas.
Como explorar todos esses dados gerando resultados claros e objetivos?
23
Os resultados destes dados nunca serão expostos de forma como os
administradores desejam. E jamais poderiam ser manipulados manualmente, face à
complexidade deste processo. Justamente nesse panorama que se encaixam as
ferramentas de Data Mining, podendo auxiliar no processo de tomada de decisão.
Grande parte das ferramentas analíticas existentes no mercado, que não
utilizam o conceito de Data Mining, tem a capacidade de realizar sofisticadas
perguntas realizadas pelos usuários. Por exemplo: em uma administradora de
cartões de crédito, seria interessante descobrir qual é o volume de gastos dos
clientes, agrupando o resultado pela distribuição de faixa de limites concedidos,
gerando como resultado a condição de descobrir quais são mais rentáveis e que
certamente irão ficar durante vários meses lutando para saldar os juros da dívida,
quais são os clientes perigosos (aqueles que estão ultrapassando o limite e podem
gerar conflitos judiciais) e quem são os clientes comuns (aqueles com gastos baixos,
sempre dentro do limite, com pagamentos integrais de suas faturas).
No entanto, tais ferramentas são limitadas em sua habilidade de descobrir
padrões complexos e tendências, pois são dependentes das hipóteses e perguntas
feitas pelos usuários, como por exemplo: comportamentos fraudulentos. Hipóteses
importantes nem sempre são obvias ou vêm de padrões obscuros escondidos entre
as informações. Nesse campo é atribuído ao Data Mining um importante papel, visto
que algumas técnicas desta tecnologia descobrem de forma analítica e automática
hipóteses sobre os comportamentos nos dados.
Pequenas mudanças no plano estratégico das empresas, provenientes das
descobertas das ferramentas de Data Mining, podem traduzir-se em resultados
positivos significativos. O que torna as ferramentas de Data Mining praticamente
uma necessidade.
24
3.2. KNOWLEDGE DATABASE DISCOVERY (KDD)
3.2.1. Conceito do KDD
O termo KDD é empregado para descrever o processo de extração de
conhecimento de um conjunto de dados. Neste contexto, conhecimento significa
relações e padrões entre os elementos dos conjuntos de dados. O termo Data
Mining, segundo os autores, deve ser usado exclusivamente para o estágio de
descoberta do processo de KDD que se divide em 7 estágios: Definição do
problema, seleção dos dados, eliminação de incongruências / erros dos dados
(“limpeza” dos dados), enriquecimento dos dados, codificação dos dados, Data
Mining e relatórios.
Uma definição formal, de acordo com Fayyad (FAYYAD, 1996), é que KDD é
um processo não trivial de identificação de padrões dentro de um conjunto de dados
que possuam as seguintes características:
Validade: A descoberta de padrões deve ser válida em novos dados
com algum grau de certeza ou probabilidade;
Novidade: Os padrões são novos (pelo menos para o sistema em
estudo), ou seja, ainda não foram detectados por nenhuma outra abordagem;
Utilidade Potencial: Os padrões devem poder ser utilizados para a
tomada de decisões úteis, medidas por alguma função; e
Assimiláveis: Um dos objetivos do KDD é tornar os padrões
assimiláveis ao conhecimento humano.
25
De acordo com Adriaans & Zantinge (ADRIAANS, 1996), existe uma confusão
entre os termos KDD - ou Descoberta de Conhecimento em Banco de Dados - e
Data Mining.
Segundo John (JOHN, 1997), KDD é um novo nome para o velho processo de
encontrar padrões em dados, que permitiu a unificação de esforços de diferentes
áreas de pesquisa acadêmica, como estatística, aprendizado de máquina, Banco de
Dados, Redes Neurais, reconhecimento de padrões, econometria, entre outros, que
estavam trabalhando sobre o mesmo tipo de problema: a análise de dados.
KDD é uma área emergente que se apóia nos diferentes campos de estudo
acima citados, mas vai além, procurando o desenvolvimento de novas abordagens,
técnicas e soluções para viabilizar a extração de conhecimento em bases de dados
(FAYYAD, 1996).
3.2.2. Fatores para a implementação de um KDD
A implementação de um sistema KDD já existia ao menos como algoritmos
acadêmicos, há anos. No entanto, apenas nos últimos tempos houve a aplicação do
KDD à área comercial e científica em maiores proporções. Isto ocorreu devido os
seguintes fatores apresentados por Carvalho (CARVALHO, 2001): (a) Produção de
Dados; (b) Armazenamento de dados; (c) Recursos computacionais disponíveis a
preços acessíveis; e (d) A competitividade.
Uma das características para aplicar o KDD é a qualidade e disposição dos
dados. Para obter um resultado satisfatório é necessário dados que caracterizem o
objeto de estudo e que permitam construir modelos através das suas diversas
estruturas disponíveis. Assim a filosofia empresarial dirigida ao cliente deve
considerar cada item de informação sobre os clientes para cada interação em pontos
26
de venda, cada chamada ao serviço de atendimento ao cliente e cada visita a uma
página da world wide web como uma oportunidade de obter dados e aprender sobre
eles (CARVALHO, 2001).
Com a difusão da tecnologia de Data Warehouse
6
, criou-se um ambiente ideal
para a mineração de dados. O Data Warehouse tem como principal característica
armazenar, integrar e qualificar volumes de dados em uma base única e disponível.
O KDD utiliza-se das técnicas de Data Mining que, para obter resultados
satisfatórios, necessita de massas de dados integradas, disponíveis e confiáveis,
gerando conclusões mais seguras. Para o aprendizado ocorrer, uma série de
informações de diferentes formatos e fontes precisa ser organizada de maneira
consistente na grande memória empresarial, o Data Warehouse.
As empresas de telefonia, cartões de crédito, bancos, televisão por assinatura,
comércio eletrônico, entre outras, geram a cada dia grande quantidade de dados
sobre seus serviços e clientes. Com a tecnologia de Data Warehouse, os dados de
várias fontes estão sendo organizados e padronizados de forma a possibilitar sua
organização dirigida para o auxílio à tomada de decisão. Para a implementação de
um processo de KDD é necessário um Banco de Dados padronizado, limpo e
organizado (CARVALHO, 2001).
O crescimento da capacidade computacional dos computadores pessoais
permitiu aos fabricantes de softwares desenvolver aplicativos de gerenciamento
paralelo de Banco de Dados relacionais. Junto com o poder de processamento dos
computadores pessoais, houve uma redução dos custos para aquisição destes
equipamentos. O avanço da área de Banco de Dados, através da construção de
27
6
Um data warehouse (ou armazém de dados) é um sistema de computação utilizado para armazenar informação relativa às
atividades de uma organização em um bancos de dados, de forma consolidada. Essa base de dados favorece a construção de
relatórios, análise de grandes volumes de dados e obtenção de informações estratégicas que podem facilitar a tomada de
decisão.
base de dados distribuídas, também auxiliou o desenvolvimento do processo de
KDD (SERRA, 2001).
O aumento da competição entre diversas áreas do mercado, como os setores
de telecomunicações, seguros e serviços financeiros, juntados à necessidade de
informações sobre a empresa e os concorrentes, impulsionaram o crescimento e
desenvolvimento tecnológico dos sistemas de Banco de Dados. As empresas
existentes nestas áreas são muito ricas em dados, favorecendo a aplicação do KDD.
Várias tendências de mercado estão mudando devido a importância da informação,
como o surgimento de empresas que vendem informações como um produto
(AMARAL, 2001), criando poder competitivo nas organizações, pois a informação
passa a ser um ativo de suma importância nas empresas. Assim estas buscam
adquirir dados para analisar melhor seu caminho futuro através dos sistemas de
apoio à decisão. Para as empresas de serviços a aquisição de dados é importante,
assim passam a conhecer e oferecerem a um público alvo produtos direcionados a
uma necessidade segmentada. Para estas empresas, informações passam a
conferir vantagens competitivas, registrando as preferências de seus clientes,
possibilitando a disponibilização de produtos e serviços personalizados (AMARAL,
2001).
3.2.3. Metodologias de Aplicação do KDD
A metodologia de aplicação do KDD parte de um processo descritivo por fases
de implementações e existência de várias metodologias para a execução de projetos
de KDD.
28
Para realizar um projeto de KDD se deve utilizar uma metodologia específica,
para que o processo se torne mais eficaz e com maiores chances de sucesso.
Sendo as seguintes metodologias as mais significativas:
CRISP-DM (CRISP, 2005);
KDD - CARVALHO (CARVALHO, 2001);
SEMMA (SAS, 2003); e
FAYYAD (FAYAAD, 1996).
3.2.3.1. CRISP-DM
A CRISP-DM foi a metodologia escolhida na pesquisa para conduzir as
atividades do KDD. Essa escolha deveu-se a três fatores: (a) É a metodologia mais
usada em projetos de KDD no mundo, sendo utilizada em 51% dos trabalhos
realizados (KDNUGGETS, 2004); (b) Possui uma vasta documentação explicativa
sobre todas as suas fases e tarefas; e (c) É a metodologia que mais se aproxima da
realidade e necessidade do estudo de caso no trabalho proposto.
É importante ressaltar que até meados da década de 90, as metodologias
existentes para o processo de KDD eram direcionadas principalmente para projetos
acadêmicos. Então em 1996 o consórcio CRISP-DM (CRoss-Industry Standard
Process for Data Mining
7
) formado pelas empresas DaimlerChrysler (Indústria), a
SPSS (Data Mining) e a NCR (Data Warehouse) propôs a metodologia CRISP-DM.
Que foi criada com o propósito de auxiliar os administradores, analistas,
responsáveis técnicos e cientistas no processo geral de planejar e executar a
mineração de dados, desde o início do processo até a sua finalização com a
29
7
O termo Data Mining é utilizado comercialmente como todo o processo KDD e por isto ele é usado em toda a
documentação da CRISP-DM. No âmbito acadêmico este termo significa uma fase do processo de KDD. Neste
trabalho será utilizado o significado no âmbito acadêmico.
apresentação de resultados. Foi um “casamento” entre as necessidades comerciais
e as pesquisas acadêmicas.
Para a metodologia CRISP-DM, o processo de KDD segue uma seqüência de
fases, conforme mostrado na Figura 3.1. Essas fases são executadas de forma
interativa. Assim, pelas entradas e respostas providas pelo usuário, a seqüência da
execução pode ser alterada. O encadeamento das ações, dependendo do objetivo e
de como as informações se encontram, permite o retorno a fases já realizadas
(SILVA, 2005).
As fases da metodologia CRISP-DM são constituídas por seis partes (CRISP,
2005): (a) Compreensão do Negócio; (b) Compreensão dos Dados; (c) Preparação
dos Dados; (d) Modelagem; (e) Avaliação; e (f) Aplicação.
Figura 3.1 Processo de KDD.
Fonte: (CRISP, 2005).
30
Cada fase é composta de várias tarefas genéricas e estas possuem suas
tarefas específicas. O apêndice A contém a descrição detalhada das tarefas
genéricas e tarefas específicas de cada fase desta metodologia.
3.2.3.2. Metodologia KDD – CARVALHO
Segundo a metodologia de Carvalho (CARVALHO, 2001), parte da descoberta
de conhecimento pode ser realizada de três maneiras distintas em função do nível
de conhecimento que se tem do problema estudado: (a) Descoberta não
supervisionada de relações; (b) Teste de hipótese; e (c) Modelagem matemática dos
dados.
Caso não se tenha o conhecimento sobre a área de estudo, deve-se utilizar as
técnicas automáticas do Data Mining para procurar nos dados relacionamentos
escondidos e que, provavelmente, não seriam encontrados de outra forma. Isto é
feito através do método de descoberta não supervisionada de relações. Um exemplo
de quando se pode usar este método diz respeito a um supermercado que deseja
vasculhar os dados da sua base, não dispondo de nenhum problema em específico
a ser resolvido, para de repente descobrir alguma relação nova e útil.
Quando existe algum conhecimento sobre o campo de atuação da empresa ou
alguma idéia sobre que relação nova se está buscando, pode-se definir uma
hipótese e verificar sua confirmação ou refutação por meio do teste de hipótese.
Pode-se ainda citar como exemplo, a busca nos dados de uma loja que vende
chocolate e produtos de beleza. A partir de uma hipótese de um gerente que
acredita que existe uma relação entre os consumidores destes produtos, esta é
testada e a partir de técnicas de Data Mining é validada ou não a hipótese em
questão.
31
Se há um nível maior de conhecimento da área e da relação que se deseja
estudar, utiliza-se então o método de modelagem dos dados. Como exemplo deste
método, cita-se a necessidade de avaliar os consumidores dos produtos descritos no
parágrafo anterior.
3.2.3.3. Metodologia SEMMA
A metodologia SEMMA foi desenvolvida pela SAS (SAS, 2003) – empresa
americana de tecnologia que desenvolve ferramentas para Data Warehousing e
KDD. Esta metodologia possui 5 fases: (a) Sample (Amostragem); (b) Explore
(Exploração); (c) Modify (Modificação); (d) Model (Modelagem); e (e) Assess
(Avaliação).
As fases visam ajudar o usuário a criar questões que provavelmente ele não
pensaria em perguntar. A fase inicial utiliza uma amostra estatisticamente
representativa dos dados. Em seguida são aplicadas estatísticas exploratórias,
processos de limpeza, transformação e carga dos dados. A modelagem envolve as
variáveis preditivas mais significativas e visa a previsão de resultados através das
técnicas de Data Mining. Por fim, a fase de avaliação tem como objetivo confirmar a
acurácia do modelo.
3.2.3.4. Metodologia FAYYAD
A metodologia proposta por Fayyad (FAYYAD, 1996), inicia o processo de
análise do KDD a partir da compreensão das seguintes fases: (a) Compreender o
domínio da aplicação; (b) Criação de um conjunto de dados, (c) Depuração dos
dados e pré-processamento; (d) Redução e transformação dos dados, (e) Escolha
32
da função de Data Mining; (f) Escolha do algoritmo de Data Mining; (g) Data Mining;
(h) Interpretação; e (i) Consolidação do conhecimento extraído.
A Figura 3.2 mostra a seqüência do processo segundo esta metodologia.
Figura 3.2 Metodologia para o processo de KDD.
Fonte: (FAYYAD, 1996).
3.3. BANCO DE DADOS
3.3.1. Dados
Os dados são os elementos básicos pertencentes a um conjunto determinado
de informações. Por exemplo, um documento de identificação pode conter vários
dados de uma pessoa como nome, sexo, data de nascimento, etc. Outros exemplos:
a temperatura de uma cidade ou a área de um território. Ainda que estes pareçam,
por vezes, isolados, podem sempre englobar-se em conjuntos (as temperaturas das
cidades de uma província ou país ou as áreas de um conjunto de territórios) ou
séries (as temperaturas de uma cidade ao longo do tempo) (WIKIPEDIA, 2005).
3.3.2. Introdução ao Banco de Dados
Os Bancos de Dados são conjuntos de dados com uma estrutura regular que
organizam a informação. Essas estruturas costumam ter a forma de tabelas e cada
tabela é composta por linhas e colunas. As informações são armazenadas em
33
células que agrupadas formam um Banco de Dados como definido pela Wikipedia
(WIKIPEDIA, 2005).
Em sistemas computacionais as bases de dados são geridas por um sistema
gestor de Bancos de Dados (SGBD
8
), onde a apresentação dos dados pode ser
semelhante à de uma planilha eletrônica, porém, os sistemas de gestão do Banco de
Dados possuem características especiais para o armazenamento, classificação e
recuperação dos dados (WIKIPEDIA, 2005).
Os Bancos de Dados fornecem tecnologias de armazenamento preferencial
para aplicações multiusuário nas quais é necessário haver coordenação entre vários
usuários. Entretanto, são convenientes também para indivíduos e muitos programas
de correio eletrônico e organizadores pessoais baseados em tecnologias
padronizadas de Bancos de Dados. Um Banco de Dados é um conjunto de
informações com uma estrutura regular. Um Banco de Dados é normalmente, mas
não necessariamente, armazenado em algum formato de máquina lido pelo
computador. Há uma grande variedade de Bancos de Dados, desde simples tabelas
armazenadas em um único arquivo até gigantescos Bancos de Dados com muitos
milhões de registros, armazenados em salas cheias de Discos Rígidos
9
(WIKIPEDIA, 2005).
3.3.3. As aplicações de Bancos de Dados
Os Bancos de Dados são usados em muitas aplicações, sendo o responsável
pelo armazenamento das informações manipuladas pelos softwares computacionais.
Os Bancos de Dados são os meios de armazenamento para aplicações
multiusuárias onde a coordenação entre muitos usuários é necessária.
34
8
SGBD (Sistema Gerenciador de Banco de Dados)
9
Discos computacionais responsáveis pelo armazenamento de dados.
Um Aplicativo de Banco de Dados é um tipo de software exclusivo para
gerenciar uma estrutura organizacional de dados, dentro de uma lógica definida para
o Banco de Dados. Os Bancos de Dados abrangem uma vasta variedade de
necessidades e objetivos, desde ferramentas de arranjos de variáveis até complexos
sistemas empresariais que contemplem tarefas como a contabilidade e o controle
financeiro (WIKIPEDIA, 2005).
3.4. BUSINESS INTELLIGENCE (B.I.)
O termo Business Intelligence (B.I.) foi criado pelo Gartner Group
10
nos anos
80. O que pode ser traduzido como Inteligência de Negócios ou Inteligência
Empresarial. Sendo um conjunto de metodologias de gestão, implementadas através
de ferramentas de software, cuja função é proporcionar ganhos nos processos
decisórios gerenciais e da alta administração nas organizações. Baseia-se na
capacidade analítica das ferramentas que integram em um só lugar todas as
informações necessárias ao processo decisório. Na Figura 3.3 temos uma visão
geral do B.I. Vale ressaltar que alguns termos da Figura serão clarificados no
decorrer desta pesquisa.
35
10
Gartner Group é uma consultoria de pesquisas de mercado na área de tecnologia da informação.
Figura 3.3 Business Intelligence Architecture.
Fonte: (DHAR, 2003).
O objetivo do Business Intelligence é transformar não só dados em
informações, mas principalmente em conhecimento conforme nos mostra a Figura
3.4. Suportando o processo decisório, o B.I. tem como objetivo gerar vantagens
competitivas (WIKIPEDIA, 2005).
Figura 3.4 Do Dado ao Conhecimento.
Fonte: (LEME, 2004).
36
No processo gerencial, a tecnologia tem um papel tático, permitindo a tomada
de decisões num estágio intermediário entre os pólos estruturados e sem estrutura.
A gerência não trabalha mais com dados, mas sim com informação e sua ação volta-
se tanto para a sobrevivência quanto para a evolução do negócio. A gerência deve
atuar como agente controlador da operação, garantindo que a matéria-prima (os
dados operacionais) seja gerada constantemente e como agente fornecedor de
informação para a direção.
Conforme ilustrado na Figura 3.5, no topo da hierarquia, a direção tem funções
estratégicas, destinadas basicamente à evolução do negócio. Sua função consiste
em criar processos que serão executados pela operação e controlados pela
gerência. Com a cadeia produtiva em perfeito funcionamento, a direção não
trabalhará mais com dados, tampouco com informação, mas sim com o
conhecimento, sendo suas ações direcionadas para a eficácia, onde a pergunta
chave é: estamos fazendo a coisa certa?
O B.I. ajuda a programar e implementar os mecanismos necessários para
responder a questão acima.
DADO
Conhecimento
Figura 3.5 Tecnologia da Informação nas Organizações.
Fonte: (LEME, 2004).
.
37
3.5. DATA WAREHOUSE
3.5.1. Introdução ao Data Warehouse
Um sistema de Data Warehouse (ou armazém de dados) é um sistema de
computação utilizado para armazenar informação relativa às atividades de uma
organização em Bancos de Dados de forma consolidada. O desenho da base de
dados favorece a criação de relatórios e a análise de grandes volumes de dados e
obtenção de informações estratégicas que podem facilitar o processo de tomada de
decisão.
Segundo a Wikipedia (WIKIPEDIA, 2005) O processamento de dados em um
Data Warehouse é sempre referenciado como Online Analytical Processing (OLAP)
ou Processo Analítico em Tempo Real, em contraste com o Online Transaction
Processing (OLTP) - usado para armazenar as operações de negócios conforme
exemplo da Figura 3.6. Outra diferença é que os dados em um Data Warehouse não
são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções
de dados previamente carregados. Os dados então, são somente para leitura, vindo
de diversos sistemas transacionais, portanto não podem ser alterados.
O Data Warehouse possibilita fornecer mecanismos para a análise de grandes
volumes de dados, armazenados pelos sistemas transacionais (OLTP) ao longo do
tempo. São as chamadas séries históricas que possibilitam uma melhor análise de
eventos passados para a tomada de decisões presentes e prever eventos futuros.
38
Figura 3.6 Estrutura dos dados do Sistema Transacional com o Data Warehouse.
Fonte: (LEME, 2004).
Os sistemas de Data Warehouse surgiram como conceito acadêmico na
década de 80. Com o amadurecimento dos sistemas de informação empresariais, as
necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP
não conseguiam cumprir a tarefa de análise com a simples geração de relatórios.
Nesse contexto a implementação do Data Warehouse passou a se tornar realidade
nas grandes corporações. O mercado de ferramentas de Data Warehouse, que faz
parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e
mais sofisticadas foram desenvolvidas para apoiar a estrutura do Data Warehouse e
sua utilização, na Figura 3.7 temos uma visão da concepção entre o Data
Warehouse e o Sistema Transacional (WIKIPEDIA, 2005).
39
Figura 3.7 Data Warehouse X Sistema Transacional (OLTP).
Fonte: (LEME, 2004).
Pela sua capacidade de sumarizar grandes volumes de dados e de possibilitar
análises, o Data Warehouse é atualmente o núcleo dos sistemas de informações
gerenciais e apoio à decisão das principais soluções de Business Intelligence do
mercado, conforme nos mostra a Figura 3.8 (WIKIPEDIA, 2005).
Um grande armazém de dados. Não poderia ser mais apropriada à definição
para armazenar informações e propiciar a constituição de ambientes mais
estruturados para suporte à decisão. Um dos componentes básicos, e talvez o mais
importante para se fazer um bom Business Intelligence, é o Data Warehouse. O
ponto de partida para a utilização eficaz do Data Warehouse é o entendimento de
sua natureza, que diverge em vários aspectos dos conhecidos sistemas
transacionais.
40
O Data Warehouse é o ponto central de uma arquitetura especialmente
desenvolvida para receber dados e devolver informações por meio de técnicas de
transformação. Essa arquitetura esta voltada para o processamento informacional,
suportando análises gerenciais.
Figura 3.8 Arquitetura do Data Warehouse.
Fonte: (DHAR, 2003).
Um Data Warehouse pode armazenar grandes quantidades de informação, às
vezes divididas em unidades lógicas menores que são chamadas de Data Marts. O
esquema de dados mais utilizado é o ‘’Star Schema’’ conforme disposto na Figura
3.9, também conhecido como Modelagem multidimensional. Apesar de bastante
utilizado não existe um padrão na indústria de software para o armazenamento de
dados. Existem, na verdade, algumas controvérsias sobre qual a melhor maneira
para estruturar os dados em um Data Warehouse (WIKIPEDIA, 2005).
41
Figura 3.9 Modelo Star Schema.
Fonte: (DHAR, 2003).
Geralmente o Data Warehouse não armazena informações sobre os processos
correntes de uma única atividade de negócio e sim cruzamentos e consolidações de
várias unidades de negócios de uma empresa (WIKIPEDIA, 2005).
3.5.2. Modelagem do Data Warehouse
Os sistemas de base de dados tradicionais utilizam a normalização no formato
de dados para garantir consistência dos dados e uma minimização do espaço de
armazenamento necessário. Entretanto, frequentemente as transações e consultas
em bases de dados normalizadas são lentas. Um Data Warehouse utiliza dados em
formato desnormalizado (Star Schema). Este formato aumenta o desempenho das
consultas e a possibilidade de combinações possíveis entre as variáveis existentes
no Data Warehouse. (WIKIPEDIA, 2005).
42
O sistema de Data Warehouse é normalmente acedido através de Data Marts,
que são pontos específicos de acesso a sub-conjuntos do Data Warehouse. Os Data
Marts são construídos para responder prováveis perguntas de um tipo específico de
usuário. Por exemplo: um Data Mart financeiro poderia armazenar informações
consolidadas dia-a-dia para um usuário gerencial e em periodicidades maiores
(semana, mês, ano) para um usuário no nível da diretoria. Um Data Mart pode ser
composto por um ou mais cubos de dados conforme mostrado na Figura 3.10
(WIKIPEDIA, 2005).
Figura 3.10 Cubo de Dados.
Fonte: (DHAR, 2003).
3.5.3. Extração de Dados
A extração dos dados que serão introduzidos em um Data Warehouse, passam
por uma área conhecida como área de stage
11
ou área temporária. O stage de
dados é necessário quando existem processos periódicos de leitura de dados de
fontes como sistemas OLTP, planilhas, arquivos textos, etc. Os dados necessitam
ser armazenados no stage para entrar em um processo de transformação, qualidade
e desnormalização. Sequencialmente os dados são gravados no Data Warehouse.
11
Stage – Área temporária, utilizada pelos processos de ETL como área de rascunho.
43
Este processo de extração, transformação e carga é realizado por uma tecnologia
intitulada ETL.
3.5.4. Extract Transform Load (ETL)
Extract Transform Load (ETL - Extração Transformação Carga), são
ferramentas de software cuja função é a extração de dados de diversos sistemas,
transformação desses dados conforme regras de negócios e por fim a carga dos
mesmos em um Data Mart ou Data Warehouse.
Os projetos de Data Warehouse consolidam dados de diferentes fontes. A
maioria dessas fontes tende a ser Bancos de Dados relacionais ou flat files
12
, mas
podem existir outras fontes. Um sistema ETL tem que ser capaz de se comunicar
com as bases de dados e ler diversos formados de arquivos utilizados por toda a
organização. Essa pode ser uma tarefa não trivial, pois muitas fontes de dados
podem não ser acessadas muito facilmente, necessitando de árduos trabalhos para
burlar esta questão.
A fase de transformação olha para o dado que está sendo lido e faz uma série
de coisas. Algumas fontes de dados irão requerer muito pouca manipulação de
dados. Outras fontes proverão mais fontes do que o necessário, portanto, um
sistema ETL seleciona os dados importantes consolidando-os em um formato mais
apropriado para o Data Warehouse. Além disso, sistemas ETL podem ser requeridos
para combinar dados de múltiplas fontes antes de inseri-los no Data Warehouse.
Finalmente, o dado consolidado é carregado no Data Warehouse. Dependendo
das necessidades da organização, o processo pode variar muito. Alguns dados
44
12
Arquivos em formato de texto
simplesmente sobrescrevem informação antiga com dado novo. Sistemas mais
complexos podem seletivamente atualizar informações.
Sistemas ETL podem ser um tanto complexos e certamente problemas podem
ocorrer. Sistemas ETL com falha no seu projeto ou a eventual mudança no formato
de uma das fontes de dados causam sérios problemas neste estágio, com risco de
destruir ou corromper quantidades significativas de dados, inutilizando-os. Uma
dificuldade adicional está em garantir que o dado que está sendo carregado é
consistente. A partir do momento que múltiplas origens de dados têm ciclos de
atualização diferentes (alguns podem ser atualizados a cada minuto, enquanto
outros levam dias ou semanas), um sistema ETL pode necessitar que seja
represado um conjunto de dados até que todas as fontes estejam sincronizadas. A
Figura 3.11 nos mostra uma visão geral do sistema de ETL.
Figura 3.11 Sistema de ETL.
Fonte: (WOLD, 2005).
45
3.6. DATA MINING
3.6.1. Conceituação e Aplicação do Data Mining
A definição do Data Mining parte da análise de um sistema computacional
típico, mas difere de um sistema operacional com processos e resultados esperados.
O Data Mining é um processo criativo no qual não existe uma regra ou procedimento
bem definido. O Data Mining pode levar a resultados que não signifiquem nada,
podendo não ser contextualizados dentro de um processo de tomada de decisão. O
pesquisador precisa compreender o que tem valor para os negócios e como
organizar os dados para encontrar o que realmente é valioso. Para isso exige a
necessidade de agir diante dos resultados, pois quanto maior for a demora menor
será o sucesso dos processos de Data Mining (SERRA,2001).
A mineração de dados pode ser conceituada como a exploração e análise de
dados classificados para descobrir significativamente os diferentes modelos e
regras. O Data Mining é o processo de extrair informação válida a partir de uma base
de dados, usando-as nas decisões cruciais de consultas nas variáveis de um Banco
de Dados, no sentido de permitir aos usuários explorar e inferir informação a partir
da análise dos dados, descobrindo relacionamentos escondidos no Banco de Dados
(DW, 2005).
O Data Mining como minerador de dados não procura reproduzir resultados já
alcançados. Uma vez atingido um objetivo deverá ser definidas novas metas. Se o
objetivo é descobrir um novo segmento de clientes que consomem um determinado
produto, não faz sentido aplicar a mesma regra para o mesmo produto. Essa é uma
das principais distinções com os sistemas operacionais típicos, os quais objetivam
reproduzir os mesmos resultados.
46
Por isso, o Data Mining torna-se um processo que pode existir com diversas
inferências de análise sobre a base de dados, conforme é o conhecimento dos
gerentes sobre o negócio. Um outro fator a ser considerado é em relação aos
padrões encontrados na mineração de dados, isso porque esses se desatualizam
com o tempo devido a dinâmica de negócios das empresas, que se preocupam em
acompanhar as mudanças de mercado e as necessidades dos próprios clientes.
O Data Mining se apresenta como um método alternativo e automático para
descobrir padrões nos dados. É alternativo porque ele trabalha diretamente contra
todos os dados de um grupo, em vez de se ater a seguir determinado caminho ao
longo de alguns dados ou grupos de dados e executar um drill down
13
em busca de
detalhes. É automático em sua execução devido ao fato de que esta ferramenta
analisa os dados e apresenta seus “achados” aos usuários. Apesar da necessidade
do usuário tomar o cuidado de fornecer dados úteis à ferramenta, uma vez isto feito
ela recebe o comando e “tritura” o grupo de dados ao seu modo segundo os padrões
de seu sistema.
Devido a essas características, o Data Mining é extremamente adequado para
analisar grupos de dados que seriam difíceis de mensurar usando apenas a função
OLAP, visto que esses grupos são grandes demais para serem explorados
manualmente ou ainda porque contêm dados muito densos ou não intuitivos para
serem compreendidos.
É importante indicar que o Data Mining não requer que o usuário guie a
ferramenta ao longo do processo de análise dos dados ou administre o processo ao
longo de seu andamento. Fornecidos os dados adequados no início do processo, a
ferramenta de Data Mining traz sentido a grupos de dados, achando suas tendências
47
13
drill down - ação do usuário para aumentar o nível de detalhe da informação analisada.
ou padrões “escondidos” e apresenta-os ao usuário num formato compreensível ou
dado um nível determinado de conhecimento do grupo de dados e variáveis.
Em muitos casos os resultados apresentados pelo Data Mining fazem surgir
questões interessantes sobre os dados originais, levando a estudos e criações de
relatórios nos Data Warehouse visando obter confirmações ou associações com os
mesmos. Este pode ser um outro exemplo de como o Data Mining agrega valor aos
Sistemas de Apoio à Decisão.
Quando os resultados do Data Mining propõem questões adicionais, os
usuários podem procurar por mais respostas em tempo real simplesmente
executando novas consultas à base de dados a qual configura como uma nova
mineração. Os usuários podem usar os resultados de uma mineração anterior como
orientador para norteá-los a pesquisar mais dados usando a análise OLAP. Desta
forma, o Data Mining está se tornando um componente essencial para análise nos
Sistemas de Apoio à Decisão, complementando as funções e tecnologias já
existentes.
3.6.2. Algoritmos
Os algoritmos consistem na estruturação de passos finitos com instruções e
processos (e símbolos que os representam) necessários para efetuar uma operação
que busque elucidar um problema. Estas seqüências são implementadas em
computadores, resultando em softwares específicos para tratar um problema ou
evento.
A palavra algoritmo tem origem no sobrenome Al-Khwarizmi, do matemático
persa do século IX Mohamed ben Musa, cujas obras foram traduzidas no ocidente
cristão no século XII, tendo uma delas recebido o nome "Algorithmi de número
48
indorum", sobre os algoritmos usando o sistema de numeração decimal (indiano).
Outros autores, contudo, defendem a origem da palavra em Al-goreten (raiz -
conceito que se pode aplicar aos cálculos). Sendo assim, o conceito de algoritmo é
freqüentemente mais complexo e pode repetir interações de decisões tais como
comparações matemáticas ou lógicas até que as tarefas sejam completadas. Um
algoritmo executado poderá resolver um problema se estiver correto ou direcionado
apropriadamente ao problema.
Um algoritmo não representa, necessariamente, um programa de computação
e sim os passos necessários para realizar uma tarefa. Sua implementação pode ser
feita por um computador ou outro tipo de autômato mesmo sendo humano.
Diferentes algoritmos podem realizar a mesma tarefa usando um conjunto
diferenciado de instruções num determinado momento.
Os softwares de Data Mining são construídos a partir de complexos algoritmos
computacionais responsáveis por resolver os mais diversificados tipos de problemas.
3.6.3. Etapas para aplicação do Data Mining
Segundo Davis King (KING, 2004) o Data Mining é um sistema incumbido de
procurar relações escondidas em conjunto de dados. Onde as técnicas de Data
Mining podem ser a princípio semelhantes às análises de regressão
14
. Segundo
Decker & Focardi (DECKER, 2005) esta é uma metodologia que procura uma
descrição lógica e matemática, eventualmente de natureza complexa, de padrões e
regularidades em um conjunto de dados.
49
14
Um método estatístico de fazer análises / prognósticos de séries temporais
Segundo Robert Grossman (GROSSMAN, 2005) o Data Mining é uma
descoberta de padrões, associações, mudanças, anomalias e estruturas estatísticas
e eventos em dados.
Segundo Moxon (MOXON, 2004), o método científico de Data Mining é
composto basicamente por 5 etapas: definir o problema, gerar hipóteses /
modelos, coletar dados / conduzir experimentos que: gerem dados, testam modelos
em confrontação com os dados e utilizam os resultados para gerar novas hipóteses.
Raramente é um processo automatizado, sendo conduzido normalmente com uma
grande intervenção do pesquisador responsável pelo estudo.
A aplicação típica de Data Mining começa com a análise de dados e poucas
definições, a maioria dos algoritmos tratam os dados iniciais como uma “caixa-preta”,
sem nenhuma informação disponível sobre o que os dados descrevem, quais
relações existem entre os dados e se contém erros. Ao examinar os dados, um
algoritmo pode explorar milhares de prováveis regras, a partir de diversas técnicas
(MOXON, 2004).
3.6.4. Origem e Evolução do Data Mining
Desde a antiguidade, o homem tem buscado dados sobre os acontecimentos
que o cercam, como fenômenos naturais, culturas, religiões, entre outras. Esses
dados permitiram a criação de novas teorias, doutrinas e fórmulas que descrevem o
mundo natural e suas leis. Há muito tempo, sem a ajuda dos computadores, as
pessoas sempre estiveram analisando dados e procurando padrões repetitivos.
As referências históricas das técnicas de Data Mining baseiam-se pela
influência de disciplinas como algoritmos genéticos e as Redes Neurais, que
surgiram de tentativas para criar modelos de processos biológicos em computadores
50
(HARRISON, 1998). Uma outra área importante foi a estatística, que tem uma
influência muito marcante no Data Mining, pois várias técnicas que são utilizadas na
mineração de dados originaram-se desta área. Assim, as técnicas estatísticas como
a estatística descritiva, a análise de correlação e a amostragem são bastante
eficientes no processo de mineração.
Com o advento do computador digital, no início dos anos 60, as teorias de
funcionamento da mente, as funções matemáticas e as técnicas de estatísticas e de
Redes Neurais puderam utilizar os recursos computacionais, apesar de limitados.
Como o computador recém-surgido era uma máquina que trabalhava guiada por
uma seqüência finita de operações bem-definidas e de forma determinística
(CARVALHO, 2001), acreditava-se ser possível aplicar a essas máquinas técnicas
específicas que possibilitassem a extração do conhecimento. Na atualidade o Data
Mining é fundamentalmente a adaptação das técnicas de estatísticas, Inteligência
Artificial (IA) e machine learning.
A técnica estatística utilizada no Data Minining envolve os conceitos como
distribuição normal, variância, análise de regressão, desvio simples, análise de
conjuntos, análises de discriminantes e intervalos de confiança, todos usados para
estudar dados e os relacionamentos entre eles. A estatística desempenha um papel
fundamental nas atuais ferramentas de Data Mining.
Outra área fundamental para a existência do Data Mining é a Inteligência
Artificial, sendo construída a partir dos fundamentos da heurística. Em oposto à
estatística, a Inteligência Artificial tenta imitar a maneira como o ser humano pensa
na resolução dos problemas estatísticos. Assim, o Data Mining requer um
impressionante poder de processamento, que era impraticável até os anos 80,
51
quando os computadores começaram a oferecer um bom poder de processamento a
preços mais acessíveis.
A machine learning é a última área a influenciar diretamente no surgimento do
Data Mining, pode ser descrita como o “casamento” entre a estatística e a
inteligência artificial. Enquanto a I.A. não se transformava em sucesso comercial,
suas técnicas foram sendo largamente cooptadas pela machine learning, que foi
capaz de se valer das sempre crescentes taxas de preço e performance oferecidas
pelos computadores nos anos 90, conseguindo mais e mais aplicações devido às
suas combinações entre heurísticas e análise estatística. A machine learning tenta
fazer com que os programas de computadores “aprendam” com os dados que eles
estudam. Tal que esses programas tomem decisões diferentes baseadas nas
características dos dados estudados, usando a estatística para os conceitos
fundamentais e adicionando mais heurística avançada da I.A. e algoritmos para
alcançar os seus objetivos.
Dentro da evolução dos dados voltada para os negócios, cada novo passo era
construído sobre o passo anterior, como o acesso dinâmico aos dados através de
aplicações de navegação de dados e a habilidade de armazenamento de bases de
dados, sendo este um fator crítico para o Data Mining (SERRA,2001). Do ponto de
vista do usuário, os passos listados na tabela 3.1 mostram com clareza esta
evolução.
52
Tabela 3.1 - Passos evolutivos do Data Mining.
Passo Evolutivo Questionamento de
Negócios
Capacidades
tecnológicas
Características
Armazenamento dos
dados
(1960s)
Qual é o meu rendimento
total nos últimos cinco
anos?
Computadores, drivers,
disco de armazenamento.
Retrospectiva,
distribuição de
dados estáticos.
Acesso aos dados
(1980s)
Quais são as unidades de
venda na Região Sudeste
no mês de março?
Base de dados Relacionais
(RDBMS), Linguagem de
consulta estruturada
(SQL), ODBC.
Retrospectiva,
disponibilização
dinâmica dos dados
em nível de
registro.
Data Warehouse e
Sistemas de Suporte
a Decisão
(1990s)
Quais são as unidades de
vendas na Região Sudeste
no mês de março,
analisando o estado do
RS?
Processamento Analítico
On-Line (OLAP), Base de
dados multidimensional,
Data Warehouse.
Retrospectivo,
disponibilização
dinâmica dos dados
através de múltiplos
níveis.
Data Mining
(Atualmente)
Qual o provável
acontecimento nos pontos
de venda do RJ no
próximo mês? Por quê?
Algoritmos avançados,
computadores com
multiprocessadores,
grande bases de dados.
Prospectivo,
disponibilização de
informações
proativas.
Fonte: (SERRA, 2001).
Atualmente as tecnologias de Data Mining tiveram um crescimento gradativo e
o desenvolvimento dessas técnicas unidas com alta performance das bases de
dados relacionais e o grande esforço de interação dos dados, fez dessas tecnologias
práticas ideais para os ambientes de Data Warehouse. Mas entre todos os fatores, o
mais determinante foi a necessidade de informação no ambiente tático-estratégico.
Há pouco tempo, ser uma empresa competitiva era sinônimo de abundância de
capital financeiro. Os líderes de mercado defendiam suas posições basicamente
gastando mais que seus competidores. Essa estratégia não é mais um fator
preponderante. No mercado atual, a informação é um dos bens mais valiosos que
uma empresa pode usar para sobreviver à competitividade acirrada e defender a sua
posição no mercado. O capital intelectual alcançou uma posição igual, se não
superior ao do capital financeiro (HARRISON, 1998). Notam-se empresas como a
Google, Yahoo e Microsoft, cujo valor acionário supera inúmeras vezes o capital
físico.
53
As vendas de produtos, atualmente, continuam sendo o fator mais importante
da empresa, mas com um grande diferencial. Além do produto vendido, o serviço
que o acompanha torna-se o principal diferencial competitivo. Um dos melhores
exemplos de competitividade e sucesso no setor de computadores é a Microsoft
Corporation, uma empresa fundada virtualmente sem capital financeiro, exercendo
suas atividades em um setor altamente competitivo dominado pela IBM. Apesar
disto, a Microsoft levou pouco mais de 20 anos para superar a IBM em capacidade
de gerar lucros (HARRISON, 1998).
3.6.5. Regras Heurísticas
As Regras Heurísticas constituem uma das mais utilizadas formas de
apresentação dos resultados do Data Mining. Segundo Carvalho (CARVALHO,
2001) a palavra heurística deriva do grego eureka, significando “descoberta”. Muito
do conhecimento humano é expresso em heurísticas, como por exemplo, os ditados
populares, as observações da clínica médica, os macetes dos analistas financeiros,
etc. Estas heurísticas são adquiridas ao longo da vida ou vivência com um tipo de
situação ou problema. A inteligência é o uso correto de nossas heurísticas, nos
tornando mais eficientes no lidar com o mundo. Este princípio é sumariamente
utilizado nos preceitos computacionais da Inteligência Artificial.
A inteligência pode ser emulada por sistemas de símbolos que são criados e
manipulados por operadores. A expressão inteligente é medida pela eficiência da
busca de uma solução para o problema abordado. Esta busca é feita de forma
organizada utilizando-se o Data Mining. Operadores são aplicados sobre os
símbolos, gerando novos símbolos interligados. Para tal expansão, as heurísticas,
representantes do conhecimento prévio do problema, são utilizadas para indicar
54
sobre que símbolos devem ser aplicados os operadores, gerando novas e mais
promissoras ligações entre os neurônios da Rede Neural Artificial.
As Regras Heurísticas são as representações simbólicas dos operadores,
capazes de criar e alterar os símbolos, que agora estão representados pela base de
dados. As regras são os resultados das aplicações de Data Mining à base de dados,
alterando-a até que a solução do problema seja encontrada, As regras têm a forma:
“SE um conjunto de condições é satisfeito ENTÃO realize uma dada operação”. As
regras materializam outra forma de conhecimento denominado de “operativo”, pois
elas operam sobre o problema na busca de solução.
55
3.6.6. Aplicações de sucesso do Data Mining
As aplicações de Data Mining não se restringem ao ambiente acadêmico,
sendo mais utilizadas em setores das empresas comerciais, assim temos os
seguintes exemplos:
A Wal-Mart, uma das maiores cadeias varejistas dos Estados Unidos, que
instalou diversas lojas no território nacional, iniciou um projeto de Data Mining em
1997, baseado em Redes Neurais, cujos conceitos serão tratados adiante. O
objetivo do projeto foi obter previsões de venda detalhadas de cada produto em
cada um de seus 3.000 pontos de venda. Objetivando reduzir custos de manutenção
de estoque e prevenir riscos de falta de estoque. O sistema consulta os 7 terabytes
15
de dados que a Wal-Mart possui armazenado e utiliza Redes Neurais para a
previsão de vendas de mais de 100.000 diferentes produtos (STEDMAN, 2004).
Outro caso citado é sobre a ShopKo, concorrente da Wal-Mart, que utilizou
programas de Data Mining para reconhecimento de padrões de consumo nas suas
15
Terabyte = 1 099 511 627 776 (2
40
) Bytes.
Bytes = forma de quantificação utilizada em Informática onde se torna mais útil utilizar potências de dois do que potências
de dez.
lojas. Descobriu que a venda de certos produtos foi decorrida da venda indireta de
outros produtos. A ShopKo resistiu à agressiva entrada da Wal-Mart em 90% dos
mercados (LUBEL, 2004).
No segmento telefônico temos o caso da Sprint, um dos líderes deste mercado
americano em telefonia de longa distância, desenvolveu um método capaz de prever
com 61% de segurança se um consumidor trocaria de companhia telefônica dentro
de um período de 2 meses. Isso lhe permitiu ter um marketing agressivo, conseguiu
evitar a deserção de 120.000 clientes e uma perda de US$ 35 milhões no
faturamento por ano (GUROVITZ, 2003).
No Brasil temos o caso do banco Itaú, que costumava enviar mais de 1 milhão
de malas diretas para todos os correntistas. No máximo 2% deles respondiam às
promoções. Atualmente, o banco tem armazenada toda a movimentação financeira
de seus mais de 3 milhões de clientes e após análise desses dados, identificaram as
cartas a serem enviadas apenas aos correntistas com maior chance de responder. A
taxa de retorno subiu para 30%. A redução com os custos de envio postal foi de 80%
(GUROVITZ, 2003).
Outra aplicação verificada no setor de bancos de serviços, instituições
financeiras é a utilização do Data Mining para classificar os clientes de acordo com o
risco de crédito. É possível obter diferentes níveis de classificação de risco e
associar esses níveis às estratégias de marketing das instituições ou limitações de
créditos.
Um caso na medicina que vem tendo sucesso é a análise de dados médicos
através do Data Mining para identificação das probabilidades de sobrevivência de
pacientes ou melhores tratamentos a serem utilizados em determinadas doenças.
56
No agronegócio O Data Mining vem sendo empregado em estudos logísticos,
buscando encontrar rotas eficazes no transporte de produtos, auxiliando nos
problemas computacionais similares ao problema do caixeiro viajante. Onde uma
origem e destino são informados e o Data Mining analisa e mostra a melhor rota a
seguir, esta descoberta baseia-se nos tempos, horários e caminhos já percorridos e
armazenados em um Banco de Dados. Outro caso citado é a aplicação na
agricultura, onde são feitas análises dos solos com a produtividade da cultura
plantada, buscando identificar fatores responsáveis pela quantidade de produção
alcançada em determinada cultura face às características do solo apresentadas em
colheitas anteriores, cujos dados encontram-se armazenados em um Banco de
Dados.
3.6.7. Técnicas de Data Mining
Apresentamos os métodos de Data Mining em forma sistematizada pelas
etapas que se seguem na aplicação:
a) Tarefa de Classificação.
É a tarefa mais comum no Data Mining. A classificação consiste em examinar
as características de um objeto e associar essas características a classes pré-
determinadas. Que podem ser do tipo simples ou múltipla. A classificação simples
consiste na identificação de características binárias, pesando a determinação da
existência ou não de determinada característica. A classificação múltipla consiste em
identificar as classes de um determinado objeto. Dessa forma, o problema é
caracterizado por uma definição detalhada de classes, possuindo um conjunto de
57
dados para treinamento com exemplos pré-classificados. Objetivando a construção
de modelos capazes de gerar classificações de dados.
As técnicas de Data Mining que utilizam classificação para construir modelos
preditivos baseados em dados históricos, que permitem prever o comportamento de
casos. Dentre as técnicas mais utilizadas, destacam-se: Árvore de Decisão, Rede
Neural e Naïve-Bayes. Algumas dessas técnicas produzem também modelos
descritivos que permitem a compreensão do relacionamento dos dados como, por
exemplo, para a avaliação de crédito bancário, onde, além de classificar futuros
empréstimos como bons ou ruins, pode-se detectar que a renda familiar é o fator
mais importante para determinar se um potencial cliente é um bom pagador ou não.
É possível ainda citar outros exemplos desta tarefa: Definição de palavras-
chave em artigos para publicação acadêmica; Classificação de seqüência de DNA;
Detecção de fraudes; e Previsão de falências.
b) Tarefa de Regras de Associação
As Regras de Associação são derivadas de um tipo de análise que extrai
informação de padrões que se repetem no Banco de Dados. Esse tipo de análise é
chamado de Market Basket Analyze, Um tipo clássico dessa análise é a
determinação de padrões de consumo em cadeias de supermercados.
As Regras de Associação são obtidas através de matriz de inter-relação, onde
a probabilidade do acontecimento conjunto de cada evento é calculada. Podemos
exemplificar através de um exemplo de padrões de consumo em uma loja de
conveniências. Essa associação pode ser observada através de matrizes de inter-
relação definidas por regras associativas, como é observada na Figura 3.12, que
58
considera a análise de 12 produtos. A análise matricial poderia ser estendida para
“N” produtos ou para “N” dimensões.
Figura 3.12 Exemplo de Matriz de Inter-relação para Regras de Associação.
Fonte: (CARVALHO, 2001).
Através de um exemplo analisado através da matriz, pode-se notar a existência
de uma forte relação entre a compra de pão e de leite. O mesmo acontece com
relação a cereais e leite. São relações que inicialmente são intuitivas e que, a
princípio, não trazem muito esclarecimento na análise. No entanto, ao utilizar essa
abordagem, notamos relações não tão diretas, quanto à correlação entre morangos
e champagne e entre ração animal e champagne. O grande benefício dessa análise
está na descoberta desses padrões não intuitivos e sua posterior interpretação.
As Regras de Associação possuem grande aplicação em processos de análise
exploratória de dados, em busca de relações interessantes que possam existir no
conjunto de dados. Para as regras identificadas como úteis, podemos utilizá-las para
prever padrões de consumo e atuar com estratégias de marketing. No entanto, o fato
de detectar eventos que ocorrem em conjunto não necessariamente indica que essa
59
relação é significativa ou possa ser generalizada. Logo, as regras não intuitivas
devem ser cuidadosamente estudadas utilizando algum outro método.
c) A tarefa de Clusterização
A técnica de clustering consiste em agrupar os dados de acordo com valores
em comum. Os dados são colocados no gráfico baseado em valores de algum de
seus atributos em uma das coordenadas em observação (x, y ou z). Tipicamente,
quando esses valores representam um conjunto arbitrário de descrições (ex.: nomes,
doenças, números de identificação, tipos de conta) aparecerão concentrações de
dados com valores em comum.
A abordagem mais simples é o diagrama de scatter (scatter plot), utilizado para
visualizar informação de dois atributos em um espaço cartesiano, no entanto
diversas metodologias podem ser utilizadas nesta técnica. Para a construção dos
segmentos, podemos utilizar informações absolutas ou relativas dos dados.
A análise de cluster é normalmente uma técnica preliminar para segmentar os
dados de um mercado. É uma típica análise de agrupamentos onde consumidores
são reunidos em classes representativas dos segmentos e mercados. Para esse tipo
de análise são utilizadas as Redes Neurais Artificiais, Estatística e Algoritmos
Genéticos como ferramentas utilizadas para a análise de agrupamentos.
d) Tarefas de Previsão / Estimativa.
Essa técnica resume-se na avaliação do valor futuro de algum índice,
baseando-se em dados do comportamento passado deste índice (WESTPHAL,
1998). A previsão pode incluir tarefas como: determinar se o índice BOVESPA subirá
ou descerá amanhã, quanto o valor de uma dada ação da bolsa variará no próximo
60
pregão, qual será a população de certa cidade daqui a dez anos, entre outras. O
único meio de verificarmos se uma previsão foi bem feita é aguardar o
acontecimento e verificar o quanto foi ou não acertada a previsão realizada. Sem
duvida, a previsão é uma das tarefas mais difíceis não somente no Data Mining, mas
também em nossa vida. Redes Neurais Artificiais e Estatísticas são ferramentas
utilizadas em previsão.
61
4. MÉTODOS DE PADRONIZAÇÃO E ASSOCIAÇÃO DOS DADOS
Os dois principais algoritmos de Data Mining responsáveis pela busca de
padrões e associações entre os dados são a segmentação e a extração de Regras
Heurísticas. Sendo que a Segmentação ou Clusterização, como é conhecida essa
técnica, consiste em dividir um determinado Banco de Dados em segmentos
(clusters), onde os elementos desses segmentos possuem afinidades e
semelhanças. Os Centróides são os algoritmos mais usados para esta
Clusterização.
A Extração de Regras Heurísticas consiste na aplicação de algoritmos de
particionamento sucessivo, partem a massa de dados original em subgrupos até que
se atinja o nível de detalhe para se extrair as Regras Heurísticas precisas sobre os
padrões encontrados nos dados. As Redes Neurais são empregadas nesta técnica,
assim como a técnica de Árvore de Decisão. A seguir se faz o funcionamento destas
técnicas:
62
4.1. TÉCNICA DAS CENTRÓIDES
Segundo a GO DIGITAL (GO DIGITAL, 2005), a técnica agrupa informações
homogêneas de um Banco de Dados e aponta o item que melhor representa cada
segmento (centróide) permitindo, desta forma, que consigamos perceber as
tendências e padrões de cada grupo.
4.1.1. Atributos de segmentação
A segmentação de um Banco de Dados é baseada em um grupo de
informações chamado de atributo de clusterização. Para que seja feita uma
segmentação adequada deve-se fazer, inicialmente, uma análise dos tipos de dados
existentes no contexto, para depois encolher qual ou quais dados serão utilizados
como atributos para a segmentação.
A segmentação só pode ser feita utilizando atributos quantitativos (numéricos)
e não qualitativos (texto). Isso devido ao fato de que a segmentação é baseada em
cálculos matemáticos que realizam uma estimativa de quais são os elementos que
compõem cada cluster (segmento).
4.1.2. Número de segmentos
O número de segmentos é na realidade a quantidade de divisões que serão
feitas no Banco de Dados. Se a segmentação for feita em um banco de dado muito
extenso. É valida a criação de vários clusters ou segmentos. Quando se faz a
segmentação em um Banco de Dados muito pequeno a divisão em muitos
segmentos não se torna eficaz, pois as divisões criadas terão poucos registros de
dados.
63
4.1.3. Interações do Processo
O número máximo de interações representa o número de vez em que o
algoritmo de segmentação será aplicado durante o processo de segmentação.
Quanto maior for o número de interações, mais confiável será a segmentação.
Porém, isso irá acarretar em um tempo maior para a realização do processo.
4.1.4. Tamanho da amostra
O tamanho da amostra é o número de registros que o algoritmo irá utilizar para
realizar a segmentação. Esses registros são escolhidos aleatoriamente pelo sistema.
Caso seja informada uma amostra maior que a quantidade de registros existentes no
Banco de Dados, o algoritmo irá realizar as interações com todos os registros
existentes.
4.1.5. Conceito de centróides
O conceito de centróides é definido durante o processo de segmentação, o
algoritmo seleciona valores aleatórios que, depois de processados e recalculados,
irão representar os centros de cada segmento. Os registros existentes são
agrupados em torno desses centróides, formando, assim os segmentos.
4.1.6. Distância dos centróides
Para fazer a segmentação, o algoritmo verifica a distância entre cada registro e
os centróides. Após isso, ele agrupa os registros mais próximos de cada centróide
para formar os segmentos. A diferença numérica entre o valor do registro e o valor
do centróide é chamada de distância.
64
4.2. REDES NEURAIS ARTIFICIAIS (RNAS)
4.2.1. Introdução as RNAs
A aplicação do modelo das Redes Neurais é mais indicado quando se busca
novos métodos de segmentação de dados, o qual é usado para determinar
subgrupos de dados que são definidos em termos de padrões comuns, separados
de outras partes da população. O modelo das Redes Neurais Artificiais (RNAs)
fundamenta-se teoricamente em estudos sobre a estrutura do cérebro humano
tentando emular a inteligência de processar dados e convertê-los em informação.
Estudos da neurofisiologia consideram que a riqueza computacional do cérebro
humano está associada ao grande número de neurônios, interconectados por uma
rede complexa de sinapses (CARVALHO, 2001)
O grande benefício do uso de Redes Neurais está no fato de não necessitar de
uma hipótese inicial sobre as diferenças esperadas no conjunto de dados. Sua
utilização como técnica tem sido facilitada pela disponibilidade de algoritmos e
aplicativos disponíveis que aplicados em processos de soluções de Bancos de
Dados já existentes. Geralmente é utilizado em projetos de identificação de tipos de
consumidores que possuem certa probabilidade de compra de algum produto,
processando a determinação de conjunto de sintomas que caracterizam certa
doença ou de caracterização de índices que segregam padrões incomuns de
comercialização de ações no mercado financeiro. Sua aplicação é como
reconhecimento de padrões em funções de estimação de densidade e
processamento de dados.
O primeiro modelo de Redes Neurais artificiais foi proposto por Warren S.
McCulloch e Walter Pitts, em 1943 no artigo "A logical calculus of the ideas
65
immanent in nervous activity", do Bulletin of Mathematical Biophysics. Os autores:
McCulloch era um psiquiatra e um neuroanatomista e Pitts era um matemático que
colaborava com McCulloch na Universidade de Chicago, ambos faziam parte de um
dos primeiros grupos do mundo dedicado ao estudo da Biofísica Teórica, criado por
Nicolas Rashevsky (WEISS, 1997).
Naquela época, o conhecimento sobre os neurônios biológicos era muito
limitado e os estudos sobre as bases iônicas e elétricas da atividade neural eram
ainda incertas. Porém, já se sabia da existência potencial de ação e sua natureza
"tudo-ou-nada". Na sua pesquisa McCulloch e Pitts propuseram um modelo de
sistema neural em que as unidades básicas os neurônios são bastante simples no
seu funcionamento. A riqueza de processamento e a capacidade computacional do
sistema decorrentes da conectividade entre esses elementos simples. Usando um
termo moderno, pode-se dizer que o modelo de McCulloch e Pitts foi o primeiro
modelo conexionista a aparecer (WEISS, 1997).
O Modelo original (de 1943) de McCulloch e Pitts foi baseado em cinco
hipóteses: (a) a atividade de um neurônio é binária, a cada instante o neurônio está
disparando (atividade 1), ou não está disparando (atividade 0); (b) a Rede Neural é
constituída por linhas direcionadas, sem pesos, ligando os neurônios. Essas linhas
(inspiradas nas sinapses) podem ser excitatórias ou inibitórias; (c) cada neurônio
tem um limiar fixo, de maneira que ele só dispara se a entrada total chegando a ele,
num dado instante, for maior ou igual a 1; (d) a chegada de uma única sinapse
inibitória num dado instante evita absolutamente o disparo do neurônio,
independentemente do número de sinapses excitatórias que estejam chegando
conjuntamente com a sinapse inibitória; e (e) um sinal leva uma unidade de tempo
66
para passar de um neurônio da rede para outro. Isso procura reproduzir o atraso
sináptico (WEISS, 1997).
Usando a terminologia atual das Redes Neurais, o modelo de neurônio de
McCulloch e Pitts é classificado como um modelo cuja função de ativação (ou de
transferência) é do tipo degrau, ou seja, é um modelo de neurônio não-linear, ao
contrário do modelo linear da Adaline. Duas das cinco propriedades do modelo
original de neurônio de McCulloch e Pitts não são mais consideradas nos modelos
modernos: (a) as conexões sinápticas entre os neurônios não têm pesos; e (b) basta
uma única entrada inibitória para fazer com que o neurônio fique nos estado 0. A
influencia histórica que o artigo de 1943 de McCulloch e Pitts teve deve-se ao
seguinte teorema que eles conseguiram provar: “Qualquer expressão lógica finita
pode ser implementada por uma rede de neurônios do tipo definido pelas cinco
propriedades citadas”. A implicação deste teorema foi obtida com o uso de regras da
lógica formal, O impacto deste teorema foi que: Qualquer procedimento
computacional pode ser implementado por uma rede de neurônios. O impacto do
modelo de McCulloch e Pitts foi na Ciência da Computação, que estava
engatinhando durante a década de 1940. O pai dos modernos computadores
digitais, John Von Neumann, foi bastante influenciado pelo trabalho de McCulloch e
Pitts. Von Neumann percebeu o grande poder computacional que um sistema feito
por unidades lógicas simples e interconectadas entre si possuía. Isto serviu de
inspiração e motivação para que se tivesse crença na possibilidade de construção
de máquinas capazes de executar operações complexas.
Uma das fraquezas do modelo original de McCulloch e Pitts é que ele não
contém a noção de peso sináptico. Portanto, ele não permite a implementação de
67
aprendizado por meio de modificações nos pesos sinápticos, como nas modernas
Redes Neurais Artificiais.
Os primeiros modelos de Redes Neurais que usaram pesos sinápticos e
implementaram algum tipo de aprendizado baseado em modificações desses pesos
foram os modelos baseados na chamada lei de Hebb. Conjuntamente com a noção
de aprendizado vem a de memória, pois quando se aprende algo (que não é
esquecido logo em seguida) deve-se guardar, ou memorizar, este algo - aprendizado
Hebbiano.
Na pesquisa do psicólogo Donald Hebb editada em 1949 no livro The
Organization of Behavior, procurou encontrar um mecanismo neural capaz de
explicar como as memórias podem ser armazenadas por longos períodos de tempo
sem serem esquecidas ou se perderem. Isso acontece quando um conjunto de
neurônios recebe um estímulo (sensorial, por exemplo) pelo qual os neurônios
permanecem ativos (disparando potenciais de ação) por um curto período de tempo,
da ordem de milisegundos, que dura apenas enquanto o estímulo estiver sendo
apresentado. Esta atividade foi chamada de reverberatória por Hebb. Na visão dele,
a atividade reverberatória de um conjunto de células corresponderia ao que os
psicólogos chamam de memória de curta duração como aquela que é esquecida
assim que um estímulo desaparece.
Para que pudesse existir uma memória de longa duração, capaz de durar por
períodos de tempo muito mais longos que milisegundos, Hebb propôs que alguma
mudança estrutural nas conexões (sinapses) entre os neurônios do conjunto deveria
acontecer enquanto eles estivessem ativos. Essa mudança estrutural não
desapareceria após a extinção do estímulo, mas perduraria por um longo tempo.
Numa passagem do seu livro, Hebb descreveu uma hipótese para essa mudança
68
estrutural associada à memória de longa duração: "Quando um axônio de uma
célula A está próximo o suficiente de uma célula B para excitá-la e, repetida e
persistentemente, toma parte em fazê-la disparar algum processo de crescimento ou
mudança metabólica ocorre em uma ou ambas as células de maneira que a
eficiência de A, como uma das células que fazem B disparar, é aumentada". Hebb
não propôs uma formulação matemática para esta hipótese. Em seu livro, ele
apenas descreve um possível mecanismo de reforço da eficiência sináptica entre
dois neurônios segundo o qual os botões sinápticos cresceriam, aumentando a área
de contato sináptico entre as células.
Independentemente do mecanismo fisiológico causador do aumento da
eficiência sináptica proposta por Hebb e até mesmo da existência de um tal
mecanismo, a hipótese de Hebb pode ser escrita em termos matemáticos. A maneira
mais simples de expressar a hipótese de Hebb matematicamente é supor que existe
um peso w associado a uma sinapse entre dois neurônios e que esse peso aumenta
quando os dois neurônios estão ativos ao mesmo tempo.
Em 1956, Nathaniel Rochester desenvolveu um modelo de Rede Neural
artificial, no qual era simulada a interconexão de centenas de neurônios e um
sistema para verificar o comportamento da rede diante dos estímulos externos. No
entanto, a rede que se tornou mais popular foi a Rede Perceptron, criada por Frank
Rosenblat em 1957.
A primeira rede capaz de imitar o cérebro humano utilizando processadores
paralelos (em vez de um único processador) surgiu com Widrow e Hoff, em 1959,
com a estruturação da Rede ADALINE, (Adaptative Linear Element). Anos depois
Widrow e Hoff estruturaram uma nova rede denominada MADALINE (Many Adaline).
69
Nos anos 60, na linha biológica, prosseguiram os desenvolvimentos de
conceitos relativos às RNAs com o aprimoramento do modelo Perceptron e do
Adaline. Ambos utilizavam as mesmas idéias de rede, porém a lógica de
aprendizado os diferenciava (MINSKY, 1969).
Para a linha psicológica a década de 60 foi caracterizada pela descoberta da
Inteligência Artificial. Utopicamente, os pesquisadores desta linha acreditavam ser
possível realizar tarefas humanas, tais como o pensamento e a compreensão da
linguagem, através do computador. Realmente acreditava-se ser possível a
reprodução pura e simplesmente do raciocínio humano no computador.
Neste sentido, foi tentada a interpretação da linguagem no computador, tal
como compreendida pelo ser humano. No ímpeto da racionalização imposta pelo
desenvolvimento de suas pesquisas, acreditaram que apenas através do raciocínio
seria possível a interpretação da linguagem. Obviamente a linguagem humana não é
fruto apenas da razão, mas de todo o aparato sensorial e lógico do ser humano.
Por outro lado, em 1969, Marvin Minsky e Sigmour Papert publicaram um livro
denominado Perceptrons, no qual fizeram severas críticas às Redes Neurais,
argumentando que os Perceptrons apresentavam limitações em suas aplicações,
não possuíam capacidade de aprendizado para resolver problemas simples e não
possuíam adequada sustentação matemática. Eles tiveram êxito na sua empreitada,
levando ao ostracismo os pesquisadores da linha biológica (BRAGA, 2004).
Na linha psicológica, estudos mais aprofundados demonstraram o óbvio: que
não seria possível a representação numa máquina dos estados mentais humanos
responsáveis pelo pensamento. Ao menos naquele estado da tecnologia.
Apesar de terem surgido trabalhos significativos na década de 60 e 70, como
os de Werbos, Anderson, Grossberg, as pesquisas com as Redes Neurais só
70
voltaram a recuperar sua credibilidade em 1982 com os trabalhos do físico e biólogo
John Hopfield que provou ser possível a simulação de um sistema físico através de
um modelo matemático baseado na teoria das Redes Neurais (HOPFIELD, 1982).
Em 1986, uma equipe de especialistas das mais diversas áreas reuniu-se para
validar as pesquisas em torno das Redes Neurais, possibilitando a volta da pesquisa
nesta linha. Uma das formas de recuperação do prestígio das Redes Neurais foi a
proposta de um modelo, utilizando MLP (Perceptron Multi-Layers), que ampliava o
potencial do Perceptron de modo a permitir a superação das limitações do modelo
primitivo (BRAGA, 2004).
Enquanto isso se ampliava técnicas e aplicações dos sistemas especialistas.
Havendo, também, interesse de trabalho conjunto com outras áreas cientificas que
seriam beneficiadas com os estudos de Inteligência Artificial, tais como interfaces
inteligentes, sistemas de apoio à decisão, controles de robôs etc.
Finalmente na década de 90, as Redes Neurais tiveram uma explosão
exponencial de aplicações e desenvolvimento de modelos. Foram centenas de
propostas de novos modelos ou aperfeiçoamento de modelos a cada ano, tal o
interesse pela área. A partir daí, consolidam-se as Redes Neurais como parte
integrante do estudo da Inteligência Artificial propriamente dita.
Reconhece-se, também, que os paradigmas biológico e psicológico são
complementares e necessários para sistemas mais evoluídos. Desta forma,
começam nesta década a serem construídos os chamados Sistemas Híbridos. Estes
sistemas são as uniões das concepções das duas linhas de pesquisa, permitindo a
construção de grandes sistemas que pretendem abranger uma forma mais completa
de representação do comportamento humano. Ideal este da própria Inteligência
Artificial.
71
As RNAs são tentativas de reproduzir sistemas de aprendizado biologicamente
realísticos. A principal importância da Rede Neural artificial está associada à
capacidade de aprender. O conhecimento é adquirido pela rede através de um
processo de aprendizado e a força de conexão inter-neurônio, conhecida como peso
sináptico. Sendo usada para armazenar o conhecimento (KOHONEN, 1989).
O procedimento usado para realizar o processo de aprendizado é chamado de
algoritmo de aprendizado, cuja função é modificar os pesos sinápticos de uma
maneira ordenada para atingir um objetivo desejado. O princípio básico de um
processo de aprendizado é a diminuição dos erros entre a saída desejada e a saída
obtida. Se uma saída incorreta é produzida, espera-se que na próxima iteração isso
não ocorra. Se uma Rede Neural aprende, ela retém conhecimento. O conhecimento
adquirido não está localizado em um endereço e, dessa forma, ela não separa
memória de dados armazenados. O conhecimento armazenado está distribuído por
toda a rede. O conhecimento dos neurônios reside nos pesos sinápticos
(SERRANO-CINCA, 1996).
A Rede Neural Artificial possui neurônios artificiais, que foram projetados
mantendo bastante similaridade com o neurônio biológico. O neurônio artificial
recebe as entradas, que podem ser comparadas com os impulsos nos neurônios
biológicos, multiplica-as pelos pesos e realiza uma soma que é o sinal de excitação
do neurônio. A função do neurônio é comparar essa soma (entrada ponderada) com
um limiar para produzir uma saída (KOHONEN, 1989).
4.2.2. Topologias de RNAs
As topologias de RNAs buscam reproduzir, através de algoritmos
matemáticos, a densa conectividade existente entre as células do cérebro humano, o
que concede a tais estruturas capacidades essencialmente humanas, como
72
aprendizado pela experiência e reconhecimento de padrões complexos. As
topologias básicas de RNAs podem ser divididas em duas classes: não-recorrentes,
ou alimentação progressiva (Feedforward), e recorrentes (Feedback), conforme
mostrado na Figura 4.1.
Figura 4.1 Topologias básicas de RNAs.
Fonte: (BRAGA, 2004).
As RNAs são apresentadas por estruturas denominadas não-recorrentes e
recorrentes, conforme explicação a seguir:
4.2.3. Topologias não-recorrentes
As topologias não-recorrentes são caracterizadas por apresentarem uma
estrutura formada por uma ou mais camadas e não possuírem realimentação de
suas entradas / saídas e por não possuírem memória. Este tipo de topologia é
comumente utilizado em situações onde as informações são todas introduzidas de
uma só vez. Assim, os dados fluem através da rede em uma única direção e a
resposta é baseada somente no conjunto de entradas correntes.
Em Redes Neurais não-recorrentes, a estrutura de interconexões não é
complexa, um neurônio de uma camada não se conecta a neurônios da camada
73
anterior e nem a neurônios da mesma camada. Cada neurônio combina todos os
sinais de entrada com um valor limiar e esta soma é então submetida à função de
ativação, que determina a saída atual do neurônio que se torna entrada para outra
camada subseqüente. As camadas que não possuem ligações (conexões) diretas
nem com neurônios da camada de entrada nem com a de saída são chamadas de
camadas ocultas. Redes com essa organização são conhecidas como
multicamadas, que intuitivamente podem ser resumidas num conjunto de neurônios
de entrada, uma camada de saída e uma ou mais camadas ocultas. As Redes
Neurais de aprendizado MLP apresentam esta topologia. Essas redes são capazes
de aproximar quaisquer funções lineares, com maior ou menor precisão, conforme o
número de neurônios. Porém, têm uma dinâmica muito limitada (WASSERMAN,
1989).
Estas RNAs podem ser representadas na forma de grafos sem ciclos. A
camada de entrada recebe sinais de excitação e não é considerada uma camada da
rede, pelo fato de apenas distribuir os padrões. Já os neurônios da última camada
representam a saída da Rede Neural (HERTZ, 1991).
4.2.4. Topologias recorrentes
As Redes Neurais com topologias recorrentes possuem uma ou mais conexões
de realimentação, e se caracterizam pela presença de memória com realimentação
de suas entradas / saídas, sendo sua saída atual determinada pelas entradas e
saídas, após aplicar uma nova entrada, a saída é calculada e então realimentada
para modificar a entrada.
As RNAs com essa topologia tendem a apresentar conexões bem mais
complexas do que as RNAs não-recorrentes. Sua estrutura em camadas permite
74
interconexões entre neurônios da mesma camada e entre camadas não
consecutivas, de forma que a realimentação pode ser local, se esta se dá ao nível
de um neurônio, ou global, se engloba alguma camada completa. Assim, as
ativações das camadas ocultas e de saída são recalculadas até que toda a rede se
estabilize. Redes com estas características destacam-se pelo seu alto poder de
simulação de sistemas e soluções complexas que envolvem função de otimização.
a) Paradigmas de Aprendizado
As RNAs possuem a capacidade de aprender por exemplos e fazer
interpolações e extrapolações do que aprenderam. No aprendizado conexionista não
se procura obter regras como na abordagem simbólica da Inteligência Artificial, mas
determinar a intensidade de conexões entre neurônios. Um conjunto de
procedimentos bem definidos para adaptar os parâmetros de uma RNA para que a
mesma possa aprender uma determinada função é chamado de algoritmo de
aprendizado. Como era de se esperar, não há um único algoritmo de aprendizado. O
que há é um conjunto de ferramentas representadas por diversos algoritmos (que
diferem basicamente pela maneira pela qual o ajuste dos pesos é realizado), cada
qual com suas vantagens e desvantagens.
A utilização de uma RNA na solução de uma tarefa passa inicialmente por uma
fase de aprendizagem, onde a rede extrai informações relevantes de padrões de
informação apresentados para a mesma, criando assim uma representação própria
para o problema. A etapa de aprendizagem consiste em um processo iterativo de
ajuste de parâmetros da rede, os pesos das conexões entre as unidades de
processamento que guardam, ao final do processo, o conhecimento que a rede
adquiriu do ambiente em que está operando.
75
Malcon (MALCON, 1995) tem a seguinte definição geral do que é
aprendizagem: “Aprendizagem é o processo pelo quais os parâmetros de uma Rede
Neural são ajustados através de uma forma continuada de estímulo pelo ambiente
no qual a rede está operando, sendo o tipo específico de aprendizagem realizada
definido pela maneira particular como ocorrem os ajustes realizados nos
parâmetros”.
Diversos métodos para treinamento de redes foram desenvolvidos, podendo
estes ser agrupados em dois paradigmas principais: Aprendizado Supervisionado e
Aprendizado Não Supervisionado. Outro paradigma bastante conhecido é de
Aprendizado por Reforço, que pode ser considerado um caso particular do
Aprendizado Supervisionado. Nas próximas seções, estes três principais paradigmas
serão mais detalhados, porém vale lembrar que existem também outros paradigmas
e mecanismos de aprendizado tais como Aprendizado por Competição, Correção de
Erros, Aprendizado Hebbiano, Modelo de Linsker, Regra de Oja, Regra de Yuille e
Modelo de Kohonen (BARLOW, 1989).
b) Aprendizado Supervisionado
Este método de aprendizado é o mais comum no treinamento das RNAs, tanto
de neurônios com pesos, como de neurônios sem pesos, sendo chamado
aprendizado supervisionado porque a entrada e saída desejadas para a rede são
fornecidas por um supervisor (professor) externo. O objetivo é ajustar os parâmetros
da rede, de forma a encontrar uma ligação entre os pares de entrada e saída
fornecidos.
Neste método o professor indica explicitamente um comportamento bom ou
ruim para a rede, visando direcionar o processo de treinamento. A rede tem sua
76
saída corrente (calculada) comparada com a saída desejada, recebendo
informações do supervisor sobre o erro da resposta atual. A cada padrão de entrada
submetido à rede, compara-se a resposta desejada (que representa uma ação ótima
para ser realizada pela rede) com a resposta calculada e ajustam-se os pesos das
conexões para minimizar o erro (KOHONEN, 1989). A minimização da diferença é
incremental, já que pequenos ajustes são feitos nos pesos a cada etapa de
treinamento de tal forma que estes caminhem - se houver solução possível - para
uma solução. A soma dos erros quadráticos de todas as saídas é normalmente
utilizada como medida de desempenho da rede e também como função de custo a
ser minimizada pelo algoritmo de treinamento.
A desvantagem do aprendizado supervisionado é que na ausência do
professor, a rede não conseguirá aprender novas estratégias para situações não
cobertas pelos exemplos do treinamento da rede.
O exemplo mais conhecido de algoritmos para aprendizado supervisionado é a
Regra Delta e a sua generalização para redes de múltiplas camadas, personificada
pelo algoritmo de backpropagation (ROSENBLAT, 2001).
O aprendizado supervisionado pode ser implementado basicamente de duas
formas: off-line e on-line. Para treinamento off-line, os dados do conjunto de
treinamento não mudam, sendo que uma vez obtida uma solução para a rede, esta
deve permanecer fixa. Caso novos dados sejam adicionados ao conjunto de
treinamento, um novo treinamento, envolvendo também os dados anteriores, deve
ser realizado para se evitar interferência no treinamento anterior. Por sua vez, no
aprendizado on-line, o conjunto de dados muda continuamente, sendo que a rede
deve estar em contínuo processo de adaptação, este modo apresenta um ambiente
totalmente dinâmico.
77
c) Aprendizado Não Supervisionado
No aprendizado não supervisionado, como o próprio nome sugere, não há um
supervisor para acompanhar o processo de aprendizado. Apesar de a semelhança
entre o aprendizado supervisionado com o aprendizado nos seres humanos, muitos
dos sistemas biológicos ocorrem através de aprendizado não supervisionado como,
por exemplo, os estágios iniciais dos sistemas de visão e audição.
Para estes algoritmos, somente os padrões de entrada estão disponíveis para
a rede, ao contrário do aprendizado supervisionado, cujo conjunto de treinamento
possui pares de entrada e saída. A partir do momento em que a rede estabelece
uma harmonia com as regularidades estatísticas da entrada de dados, desenvolve-
se nela uma habilidade de formar representações internas para codificar
características da entrada e criar novas classes ou grupos automaticamente. Este
tipo de aprendizado, só se torna possível quando existe redundância nos dados de
entrada. Sem redundância seria impossível encontrar quaisquer padrões ou
características dos dados de entrada (BRAGA, 2000).
A estrutura do sistema de aprendizado não supervisionado pode tomar uma
variedade de formas diferentes. Ela pode, por exemplo, consistir de uma camada de
entrada, uma camada de saída, conexões feed-forward da entrada para a saída e
conexões laterais entre os neurônios da camada de saída. Um outro exemplo é uma
rede feed-forward com múltiplas camadas, onde a livre organização procede na base
de camada por camada.
Nestes dois exemplos, o processo de aprendizado consiste em modificar
repetidamente o peso sináptico de todas as conexões do sistema em resposta às
entradas.
78
d) Aprendizado por Reforço
O aprendizado por reforço pode ser visto como um caso particular de
aprendizado supervisionado. A principal diferença entre o aprendizado
supervisionado clássico e o aprendizado por reforço é a medida de desempenho
usada em cada um dos sistemas (BRAGA, 2000).
No aprendizado supervisionado, a medida de desempenho é baseada no
conjunto de respostas desejadas usando um critério de erro conhecido, enquanto
que no aprendizado por reforço o desempenho é baseado em qualquer medida que
possa ser fornecida ao sistema.
No aprendizado por reforço, a única informação de realimentação fornecida à
rede é se uma determinada saída está correta ou não. Isto é, não é fornecida à rede
a resposta correta para o padrão de entrada.
O aprendizado por reforço é uma forma de aprendizado on-line obtido por um
mapeamento de entrada-saída através de um processo de triagem e erro
desenvolvido para maximizar o índice de desempenho escalar chamado de sinal de
reforço. O termo aprendizagem por reforço foi inicialmente citado por Minsky em
seus estudos iniciais de Inteligência Artificial. A idéia básica que está por trás do
termo "reforço" tem sua origem em estudos experimentais sobre aprendizado dos
animais (HERTZ, 1991).
e) Tarefas das Arquiteturas das RNAs
Tanto paradigmas de aprendizagem supervisionada quanto não-supervisionada
empregam regras de aprendizagem em comum. Entretanto, cada algoritmo de
aprendizagem é projetado para treinar uma arquitetura específica e desempenha
79
melhor uma tarefa específica. A tabela 4.1 resume e mostra as tarefas executadas
por cada arquitetura e seus respectivos paradigmas de aprendizado:
Tabela 4.1 Tarefas executadas x Arquiteturas por paradigma.
Paradigma
Regra de
aprendizagem
Arquitetura
Algoritmo de
aprendizagem
Tarefa
Perceptron com uma
camada
Algoritmos de
aprendizagem do
Perceptron
Associação de padrões
Correção do erro
Perceptron com várias
camadas
Backpropagation;
Adaline e Madaline
Aproximação de
funções, predição e
controle
Boltzmann Recorrente
Algoritmo de
aprendizagem de
Boltzmann
Associação de padrões
Hebb
Multi-camadas em
avanço
Análise discriminante
linear
Análise de dados;
Associação de padrões
Competitiva
Quantização do
vetor de aprendizagem
Categorização em
classes internas;
compressão de dados
Supervisionado
Competitiva
Rede ART ARTMap
Associação de
padrões; categorização
em classes internas
Correção do erro
Multi-camadas em
avanço
Projeção de Sammon Análise de dados
Em avanço ou
competitiva
Análise da
componente principal
Análise de dados;
compressão de dados
Hebb
Rede Hopfield
Aprendizagem de
memória associativa
Memória associativa
Competitiva Quantização de vetores
Categorização;
compressão de dados
SOM de Kohonen SOM de Kohonen
Categorização;
análise de dados
Não supervisionado
Competitiva
Rede ART ART1, ART2 Categorização
Híbrido
Correção de
erros e
competitiva
Rede RBF
Algoritmo de
aprendizagem RBF
Associação de padrões;
aproximação de funções;
predição; controle
Fonte: (BRAGA, 2004).
4.2.5. Utilização de Redes Neurais Artificiais
Uma Rede Neural tem seu poder computacional relacionado principalmente a
sua estrutura fortemente distribuída e paralela e também à sua capacidade de
aprender e por conseqüência generalizar (ou seja, capacidade que a Rede Neural
80
possui de produzir saídas razoáveis para entradas não apresentadas na fase de
aprendizagem / treinamento) (KOHONEN, 1989).
Estas duas capacidades de informação e processamento tornam possível a
solução de problemas complexos por meio da utilização de técnicas de RNA. Na
prática, entretanto, RNA não podem por si só gerar soluções. Devem ser integradas
numa consistente abordagem de Engenharia de Sistemas. Desta forma, deve-se
tomar o problema complexo o qual se deseja chegar a uma solução, decompô-lo
num certo número de tarefas relativamente simples e atribuir a determinadas destas
tarefas (reconhecimento de padrões, memória associativa, controle etc.) técnicas de
RNA para solucioná-las (KOHONEN, 1989).
O uso de RNA oferece as seguintes propriedades e capacidades úteis
(BRAGA, 2000):
a) Não-linearidade
Um neurônio é basicamente um dispositivo não-linear. Conseqüentemente uma
Rede Neural, composta por uma interconexão de neurônios, é por si própria não-
linear. Além disso, é uma não-linearidade especial no modo que ela é distribuída
através da rede. A não-linearidade é uma propriedade de suma importância,
principalmente se o mecanismo físico que está por baixo, responsável pela geração
de um sinal de entrada for inerentemente não-linear.
b) Mapeamento Entrada-Saída
Um paradigma popular de aprendizado chamado de aprendizado
supervisionado envolve a modificação dos pesos sinápticos de uma Rede Neural por
meio da aplicação de exemplos de treinamento. Cada exemplo é composto de um
81
sinal de entrada único e sua resposta desejada correspondente. Um exemplo
escolhido aleatoriamente do conjunto é apresentado a Rede Neural e os pesos são
modificados de modo a minimizar a diferença entre a resposta desejada e a resposta
realmente produzida pela Rede Neural de acordo com um critério estatístico. O
treinamento da rede é repetido até que ela chegue a um estado estável, a partir do
qual não haja uma mudança significativa nos pesos. Desse modo, a rede aprende
através de exemplos, construindo um mapeamento entrada-saída para o problema
que está sendo tratado.
c) Adaptação
As Redes Neurais possuem uma capacidade embutida de adaptar os seus
pesos a mudanças no ambiente ao seu redor. Em particular, uma Rede Neural
treinada para operar num ambiente específico pode ser facilmente retreinada para
lidar com pequenas mudanças nas condições de operação. Além disso, quando a
RNA está operando num ambiente não-estacionário (um nos quais as estatísticas
são modificadas de acordo com o tempo), esta pode ser projetada para modificar
seus pesos em tempo real.
A arquitetura natural de uma Rede Neural para associação de padrões,
processamento de sinais e aplicativos de controle, juntamente com a capacidade
adaptativa da rede, faz com que ela seja uma ferramenta ideal para uso em
associação de padrões adaptativos, processamento de sinais adaptativos e controle
adaptativo. Como regra geral, pode-se dizer que quanto mais adaptativo um sistema
for feito de um modo propriamente projetado, assumindo que o sistema adaptativo
seja estável, mais robusto será o seu desempenho quando ele for requisitado a
operar num ambiente não-estacionário. Entretanto, deve-se enfatizar que a
82
capacidade de adaptação nem sempre leva à robustez, podendo na verdade, levar
ao caso totalmente contrário. Por exemplo, um sistema adaptativo com constantes
de tempo curta pode mudar rapidamente tendendo a responder a falsas mudanças,
causando então uma degradação no desempenho do sistema. Para que os
benefícios da capacidade de adaptação sejam totalmente aproveitados, as
constantes principais de tempo do sistema devem ser longas o suficiente para que
ele ignore perturbações falsas, mas curtas o suficiente para responder a mudanças
significativas no ambiente.
d) Resposta evidente
No contexto de associação de padrões uma Rede Neural pode ser projetada
para prover informações não somente sobre qual padrão em particular escolher, mas
também na confiança da decisão feita. Esta última informação pode ser utilizada
para rejeitar padrões ambíguos, caso surjam, e desse modo melhorar o desempenho
da associação da rede.
e) Informação contextual
O conhecimento é representado pela estrutura e estado de ativação da rede.
Cada neurônio da rede é potencialmente afetado pela atividade global de todos os
outros neurônios dela. Conseqüentemente a informação contextual é lida com
naturalidade pela Rede Neural.
83
f) Tolerância à falha
Uma Rede Neural, implementada na forma de hardware, é potencialmente
tolerante a falhas de modo que o seu desempenho não é degradado de forma
abrupta em condições adversas.
g) Implementabilidade em VLSI (very-large-scale-integrated)
A natureza enormemente paralela de uma Rede Neural a torna potencialmente
rápida para a computação de certas tarefas. Esta mesma característica torna uma
Rede Neural ideal para implementação utilizando a tecnologia VLSI.
h) Uniformidade de Análise e Projeto
Basicamente as Redes Neurais dispõem da universalidade como
processadores de informação, ou seja, a mesma notação é utilizada em todos os
domínios envolvendo aplicações de Redes Neurais. Esta característica se manifesta
em três formas diferentes.
Os neurônios, de uma forma ou de outra, representam um elemento comum a
todas as Redes Neurais, permitindo que teorias e algoritmos de aprendizado sejam
compartilhados em diferentes aplicações de Redes Neurais, que por modulariedade
podem ser construídas através de uma consistente integração dos módulos.
4.2.6. Modelos de RNAs
Nesta seção serão descritos os principais modelos de Redes Neurais Artificiais
utilizados atualmente. Em cada modelo será discorrida a sua arquitetura e a forma
de representação do conhecimento.
84
a) MLP
O modelo MLP (Multi-Layer Perceptrons) é formado por Redes Neurais
totalmente conectadas, com tipos diversos de camadas e sem realimentação. Um
esquema típico deste tipo de rede está representado na Figura 4.2.
Figura 4.2 Modelo MLP.
Fonte: (BRAGA, 2004).
Tem-se uma camada de entrada que realiza a interface com os elementos
sensoriais do mundo externo. As camadas intermediárias não se comunicam
diretamente com o ambiente externo e assim podem ser utilizadas para criar
representações internas, o que é necessário quando os padrões de treinamento
fornecidos a rede não são suficientes para fazer um mapeamento direto para os
respectivos padrões de saída.
A questão é que há problemas em que padrões de entrada similares não
correspondem a padrões de saída similares e isto de fato não pode ser tratado se
não houver algum tipo de representação interna, a qual permitiria computar funções
85
que não sejam do tipo linearmente separáveis. Como no caso do XOR
16
de duas
variáveis em que se armazena a existência de duas classes (dois zeros e menos de
dois zeros), para depois subdividir-se a segunda classe em outras duas (uma com
dois 1 e outra com um 1 e um 0) e se faz os mapeamentos adequados. E por fim há
a camada de saída a qual informa a saída da rede através dos níveis de ativação de
suas unidades, enviando uma resposta para o ambiente externo. Cada unidade em
uma camada está conectada a todas as unidades da camada seguinte.
As camadas intermediárias armazenam uma representação interna que será
útil para que a rede resolva o problema. O conhecimento da rede estará contido nos
pesos das conexões entre as unidades. Devido às camadas internas, podem-se
desenvolver detectores de funções complexas que correspondem às representações
internas necessárias para resolução do problema.
De fato, as camadas intermediárias funcionam como extratoras de
características, seus pesos são uma codificação de características apresentadas nos
padrões de entrada e permitem que a rede crie sua própria representação, mais rica
e complexa, do problema. Com o número adequado de camadas intermediárias e
um conjunto suficientemente grande de unidades dentro dessas camadas é possível
encontrar a função que produz o mapeamento correto da entrada para a saída
através da representação intermediária.
b) HOPFIELD
O modelo de Hopfield possui algumas características interessantes no modo de
representar o conhecimento e de processamento distribuído. A unidade básica são
os elementos de processamento, chamados aqui simplesmente de unidades, cada
86
16
O operador binário XOR, ou disjunção binária exclusiva devolve um bit 1 sempre que apenas um dos
operandos seja '1'
qual assumindo um estado binário (ativo ou inativo). Estas unidades estão
conectadas entre si por arestas simétricas com pesos. Arestas com pesos positivos
indicam que as duas unidades tendem a ativar uma a outra, se o peso for negativo
uma unidade ativa pode desativar outra unidade conforme apresentado na Figura
4.3.
Figura 4.3 Modelo de Hopfield simples.
Fonte: (BRAGA, 2004).
Uma rede de Hopfield possui uma série de características interessantes. É um
modelo de representação distribuída, pois uma memória é armazenada como um
padrão de ativação em um conjunto de unidades. Diferentes memórias
correspondem a diferentes padrões sobre o mesmo conjunto de unidades. O
processamento é distribuído e assíncrono, pois cada unidade toma decisão baseada
somente em sua situação local, a qual é função dos pesos das conexões existentes
para a unidade e do estado de ativação das unidades vizinhas.
Tal estrutura de rede também traz outras vantagens: dado um padrão que se
deseja e procura. É possível encontrar na rede o padrão que mais se aproxime
deste, sem precisar ser exato. Algo que permitiria encontrar o conceito de elefante
87
numa busca por “mamífero, grande e cinza”, embora o padrão fornecido para a rede
seja um tanto abstrato. A memória é assim endereçável por conteúdo, e tal nível de
abstração inclusive permite que a memória seja tolerante a falhas, pois se algumas
unidades falham, ou erram, a rede ainda funcionará apropriadamente, já que
padrões ainda poderão ser encontrados com uma boa aproximação.
c) BOLTZMANN
O modelo é uma variação da idéia da rede de Hopfield. Na rede de Hopfield,
unidades se interligam umas às outras por conexões simétricas e atualizam seus
estados de forma assíncrona até a rede atingir a estabilidade. No modelo de
Boltzmann, a função de ativação é estocástica de modo a obtermos um melhor
resultado global.
Além de ser uma memória endereçável por conteúdo, o modelo de Hopfield
pode ser utilizada para resolver uma grande variedade de problemas de satisfação
de restrições, conhecidos como Constraint Satisfaction Problems ou CSP. Cada
unidade é uma hipótese. Conexões de peso positivo entre as unidades indicam
hipóteses compatíveis, enquanto pesos negativos indicam hipóteses incompatíveis.
O modelo de Hopfield, ao tentar atingir um estado estável, definirá verdadeiro e falso
para cada hipótese, enquanto viola o mínimo de restrições possíveis. Este modelo
busca a estabilidade através da atuação local, atingindo mínimos locais, o que é
uma abordagem adequada para construir memórias endereçáveis por conteúdo.
Mas para abordar os CSPs é preciso encontrar uma solução ótima global para o
problema. Se uma rede Hopfield atinge uma solução em que cada unidade atinge
uma solução local, mas que não é uma solução global ótima para a rede, então se
tem um estado estável e não é necessário ir atrás da solução global ótima existente.
88
O modelo de Boltzmann possibilitará fugir de soluções locais, atingindo uma solução
que globalmente se apresente melhor para resolução do problema.
d) KOHONEN
Este é um dos modelos baseados em aprendizado competitivo. As redes de
Kohonen possuem uma característica interessante, possibilitam o aprendizado sem
supervisionamento, contudo esta rede possui treinamento mais lento que as redes
com treinamento supervisionado. A rede, conforme ilustrado na Figura 4.4, recebe
um conjunto de padrões, e os analisa, tentando descobrir regularidades e
relacionamentos entre diferentes padrões do conjunto. As redes de Kohonen são
compostas por uma camada de saída plana, formando uma grade 2-D, e uma
camada de entrada. Todas as unidades da camada de entrada possuem conexões a
todas as unidades da camada de saída. A saída é determinada pelos estados das
unidades da grade de saída. As conexões entre os neurônios na vizinhança são
inibitórias, fazendo que um neurônio ativo iniba a ativação de todos os que o
circundam.
A rede é capaz de identificar as características comuns ao longo do domínio
dos padrões de entrada, agrupando os padrões em um mapa topográfico de
características expresso na grade 2-D da camada de saída. O algoritmo de auto-
organização atua como um classificador de características dos padrões de entrada,
descobrindo as regularidades e dividindo-os em classes de elementos similares.
89
Figura 4.4 Modelo de KOHONEN.
Fonte: (BRAGA, 2004).
A camada de saída forma o mapa topográfico, que é uma representação local e
auto-organizada da informação (SOM ou Self-Organization Map). As características
comuns são agrupadas na representação do mapa topográfico, correspondendo às
regiões ativadas no mapa. Neste modelo há a associação de um padrão junto com
outros que têm características semelhantes, formando classes. Estas classes são
organizadas no mapa, onde se pode observar a distribuição dos padrões. Desta
maneira, no instante em que um padrão é inserido na rede, esta o coloca na classe
onde melhor o padrão se adapta em função das suas características.
e) MODELO NEURAL COMBINATÓRIO
Normalmente os aplicativos de Redes Neurais não geram informação sobre a
probabilidade de ocorrência de determinado resultado, além de ocultar o processo
entre a entrada e o resultado. Em algumas aplicações, isso pode não ser um
90
problema, contudo existem circunstâncias onde justificativas sobre decisões e
previsões devem ser destacadas. Nesses casos deve ser utilizada outra técnica
como árvores de decisão ou visualização. Alguns aplicativos de Redes Neurais já
possuem soluções que minimizam esses problemas (BIGUS, 1996). O software GO
Mining utilizado nesta pesquisa possui o Modelo Neural Combinatório para
solucionar este tipo de óbice.
O modelo Neural Combinatório, em acordo com a Figura 4.5, é formado por
mecanismos para mapear o conhecimento prévio para a Rede Neural, algoritmos de
“treinamento”, além de critérios de poda para extrair da rede apenas o conhecimento
significativo e representá-lo simbolicamente. A Rede Neural em si tem três camadas
(entrada, camada oculta e saída), todas conectadas para frente (feed-foward) e o
treinamento se dá por uma variante do mecanismo de retro-propagação
(backpropagation) convencional.
Figura 4.5 Modelo Neural Combinatório.
Fonte: (FELDENS, 2000).
A camada de entrada (parte inferior da Figura 4.5) da rede representa “literais”,
as características dos exemplos a ser considerados no processo de aprendizagem.
A camada intermediária (camada combinatória) é construída automaticamente de
91
forma que haja um neurônio para cada possível combinação de entradas para cada
saída. Desta forma, existe uma correspondência direta entre os neurônios na
camada intermediária e cada uma das “hipóteses”, cada possível regra que poderá
ser descoberta utilizando o modelo.
O modelo Neural combinatório integra o conhecimento simbólico e o “sub-
simbólico” (conhecimento em uma Rede Neural). Esta integração apresenta diversas
características desejáveis em sistema de Data Mining (FELDENS, 2000):
Simplicidade do aprendizado Neural: tira proveito da capacidade de
generalização inerente às Redes Neurais, em um mecanismo que exige o
mínimo de parametrização por parte do usuário em comparação com outros
modelos neurais;
Capacidade de explanação: O modelo é capaz de mapear o
conhecimento da Rede Neural para uma representação simbólica (Regras
Heurísticas);
Alta velocidade de treinamento: o aprendizado ocorre com uma única
“passada” pelos exemplos;
Tratamento de incertezas: Pode-se extrair a medida de confiança das
regras a partir de pesos no modelo neural; e
complexidade linear: O tempo de processamento aumenta
linearmente conforme o número de exemplos a ser considerado.
92
5. METODOLOGIA DA PESQUISA
Para o desenvolvimento dos modelos neste estudo, inicialmente foram
definidos os objetivos da pesquisa juntamente com a base de dados a subsidiar o
processo analítico.
Em seguida verificou-se a necessidade de utilização de metodologias que
abrangessem processos de KDD minimizando as chances de fracasso.
As metodologias pesquisadas foram analisadas e mensuradas de maneira que
fosse escolhida a metodologia que mais se aproximasse dos objetivos estabelecidos
na pesquisa. Seguida a metodologia, no final do trabalho foram obtidas Regras
Heurísticas que possibilitaram identificar modelos de consumo alimentar nas famílias
do Distrito Federal a subsidiar processos de tomada de decisão. Sendo que, os
resultados obtidos só foram possíveis face à aplicação da tecnologia do KDD.
Atendendo aos objetivos definidos na pesquisa seguem os processos
metodológicos utilizados:
93
5.1. DEFINIÇÃO DA METODOLOGIA
Para a geração das regras de consumo alimentar através do KDD utilizou-se a
metodologia CRISP-DM visando executar as atividades necessárias de maneira
organizada e evolutiva visando obter os resultados pretendidos.
Esta metodologia foi abordada e está amplamente descrita no apêndice C
desta pesquisa. Desta forma, nesta seção, não haverá um detalhamento
aprofundado do conteúdo da CRISP-DM.
5.2. COMPREENSÃO DA PESQUISA
É importante que o pesquisador ao aplicar as técnicas de Data Mining detenha
o conhecimento sobre a pesquisa a qual está sendo executado um projeto de
Descoberta de Conhecimento em Base de Dados (KDD). Assim, foram necessárias
reuniões com os analistas de negócios para compreender a base de dados da POF.
Logo, apesar da pouca disponibilidade dos conhecedores do negócio e do
pesquisador, as reuniões foram executadas virtualmente através da troca de e-mail
além de algumas presenciais. Isto permitiu ao autor entender o funcionamento da
POF e, principalmente, dos dados pertinentes ao consumo alimentar.
Primeiramente, buscou-se identificar os objetivos, as necessidades e
exigências da pesquisa a partir de sua perspectiva de negócio, para então convertê-
los num problema de Data Mining e elaborar um plano preliminar para realizar estes
objetivos.
94
Os objetivos definidos foram a obtenção de Regras Heurísticas de consumo
alimentar nas famílias do Distrito Federal para subsidiar os processos de tomada de
decisão na formulação e execução de planos estratégicos.
O critério de sucesso da pesquisa foi outra tarefa executada. A meta a ser
atingida no projeto seria a obtenção de regras com percentual de confiabilidade de
ao menos 70%.
5.3. INVENTÁRIO DE RECURSOS
Foram levantados e identificados por meio de uma lista os recursos pessoais e
materiais a serem utilizados na pesquisa. Incluindo a parte de pessoal (Analistas de
Negócios, de Banco de Dados e de Data Mining), de dados (Banco de Dados com
suporte a Data Warehouse) e de computação (plataformas de hardware e software,
ferramentas de Data Mining e ferramentas OLAP).
Em relação às suposições, a única informada foi que a capacidade de
discriminação dos modelos iria depender bastante da qualidade dos dados da POF,
suposição esta confirmada no projeto.
Os custos diretos de desenvolvimento e implementação do projeto foram a
preparação do ambiente de dados - havendo o envolvimento de alguns profissionais
da área de tecnologia – e as definições do projeto pelo analista de negócio. Os
benefícios foram os controles da qualidade dos dados em questão e principalmente
a possibilidade de tomada de decisões a partir de fatores verificáveis.
Por fim foi criado o “plano do projeto” a partir das tarefas genéricas e
específicas acima descritas e realizadas a avaliação inicial de ferramentas e técnicas
a serem utilizadas.
95
5.4. COMPREENSÃO DOS DADOS DA POF
A compreensão dos dados da POF é relevante, pois a identificação da
informação que pudesse levar o estudo a uma primeira familiarização com o seu
conteúdo, descrição, qualidade e utilidade se fez necessário na pesquisa.
Esta fase envolveu as seguintes tarefas genéricas:
a) Coletar Dados Iniciais;
A coleção inicial dos dados teve como tarefa adquirir a informação com a qual
iríamos trabalhar listando as fontes, os procedimentos de leitura e os problemas
detectados. Planejamos e checamos a disponibilidade das informações necessárias
para atingir as metas do Data Mining e também como os dados seriam extraídos.
b) Explorar os Dados;
A exploração dos dados teve como meta verificar a qualidade e relevância dos
mesmos. Fazendo-se necessário avaliar se os dados estavam completos para
atender todas as exigências da pesquisa, se os mesmos estavam corretos ou
continham erros e se estava faltando valores.
Através de consultas feitas à base de dados, verificamos a disposição e valores
dos dados. Ao final do processo de exploração concluímos que os dados atendiam
aos quesitos expostos pela pesquisa.
c) Seleção das variáveis
Ao todo foram analisadas e selecionadas cinco (5) Variáveis para serem
analisadas pelo processo de mineração de dados, sendo a descrição das mesmas:
ID - Representa a identificação de cada unidade de consumo;
ITEM -Representa a identificação do produto consumido;
96
N_GRUPO - Representa a identificação do grupo do produto
Consumido;
RENDA - Representa o valor monetário correspondente a renda da
unidade de consumo;
CD_LOCAL_COMPRA - Representa o local de compra do produto.
Estas variáveis foram selecionadas empiricamente pelo analista da POF, sendo
a indicação destas baseadas na relevância, experiência e objetivos da pesquisa. No
apêndice B desta dissertação encontra-se o código de identificação e a descrição de
cada produto cadastrado na POF.
5.5. OBJETIVOS ANALÍTICOS DA MINERAÇÃO
Para atingirmos os objetivos analíticos da pesquisa, selecionamos a técnica de
mineração conhecida por Associação desenvolvida a partir das RNAs.
Sequentemente buscamos softwares que implementavam esta técnica e que
tivessem uma curva de aprendizado baixa.
A partir da definição das questões técnicas acima, definimos os objetivos
esperados com a aplicação da mineração de dados, estes foram:
Identificar quais os Itens consumidos por faixa de renda;
Quais os locais de compra de determinados produtos por faixa de renda;
Identificar as Regras Heurísticas que explicam os padrões existentes nos
dados.
97
5.6. Base de Dados
A criação da base de dados para a execução do Data Mining foi a atividade
mais demorada, pois os dados encontravam-se em várias bases e formatos
distintos, tiveram que ser, através da utilização de ferramentas de ETL, integrados
em um Data Warehouse, para que então pudessem sofrer os processo de Data
Mining, os processos computacionais realizados para esta integração foram
descritos no apêndice C.
Os dados utilizados no processo de KDD nesta pesquisa são reais e foram
obtidos da base de dados da POF. Nenhum dado foi analisado ou apresentado de
forma individual considerando-se que a integridade e a confiança das informações
trabalhadas era uma das exigências da pesquisa.
Para a execução desta atividade utilizaram-se dados oriundos de planilhas do
software Microsoft Excel, estas foram trabalhadas de forma a povoarem um Data
Warehouse no Banco de Dados Microsoft Access para que então pudéssemos
executar a análise no Data Mining.
Primeiramente foram selecionados os registros das cadernetas de despesas,
pois necessitaríamos descobrir quais os itens consumidos pelas faixas de renda.
Desta forma buscamos identificar a associação entre eles, selecionado os registros
das planilhas de cadernetas de despesas, condições de vida, domicílios e o cadastro
de locais de compra. Estes dados encontravam-se em planilhas distintas, logo foi
necessário transformá-los de forma que pudéssemos armazená-los em um ambiente
único e propício para o processo de Data Mining. O atributo ID (Identificador da
Família) presente em todas as tabelas distintas, foi essencial para a integração das
bases, pois esse atributo foi utilizado como atributo integrador.
98
O total de linhas de registros da POF, no que diz respeito ao Distrito Federal, é
de 16.448 referindo-se à caderneta de despesas distribuídas em uma quantidade de
881 famílias pesquisadas representando, por amostragem, a população do Distrito
Federal. Esses dados foram utilizados para descobrir o perfil de consumo disposto
nos objetivos da pesquisa.
Esses 16.448 registros correspondem a 16.448 unidades de consumo
distribuídas entre as 881 famílias pesquisadas.
A análise desta base mostrou que os registros não apresentavam problemas
de qualidade de dados. Todos os atributos estavam satisfatoriamente preenchidos.
Desta forma, não foram necessárias correções para a utilização dos dados, o que é
muito raro, pois um dos maiores empecilhos para um processo de tomada de
decisão é a qualidade dos dados.
Fora necessárias algumas transformações nos dados por necessidade da
pesquisa. A ferramenta de ETL utilizada nesta transformação foi o DTS da Microsoft.
Os experimentos e as descrições da utilização desta ferramenta esta disponibilizado
no apêndice C. As modificações nos dados correspondem a:
Criar Faixas Salariais a partir da derivação do valor de renda; desta
forma criamos grupos de faixas rendas (0-1000, 1001-3000, 3001-5000, 5001-
8000 e acima de 8000). Estas foram criadas a partir de conversas com
pessoas envolvidas com estudos da POF. A Figura 5.1 representa o
mapeamento e execução deste processo;
Juntar as variáveis tipo_uf, gr_est, sequenc, dv_seq, dom,
unidade_consumo , e f_dom de forma que esta junção resultasse na
identificação da unidade familiar, sendo transformados a junção destes
99
atributos no atributo ID. A Figura 5.2 apresenta o mapeamento e execução
deste processo.
Figura 5.1 Faixas Salariais derivadas do valor de renda.
Fonte: Dados da pesquisa.
Figura 5.2 Junção das Variáveis no Identificador.
Fonte: Dados da pesquisa.
Outros processos de transformação foram efetuados, como a transformação na
tipagem dos dados, em virtude da especificação dos tipos de dados do Excel ser
diferente dos tipos do Access. Na Figura 5.3 visualizamos o processo macro de
transformação efetuado na pesquisa. Mostrando desde o processo de buscar os
100
dados das planilhas no Excel até a parte de carga dos dados no Data Warehouse da
POF.
Figura 5.3 Processo de ETL da Pesquisa.
Fonte: Dados da pesquisa.
5.7. ELABORAÇÃO DAS REGRAS HEURÍSTICAS
Seguindo a metodologia, foram selecionadas e aplicadas a tarefa e a técnica
de Data Mining mais apropriada de acordo com os objetivos pretendidos. Esta
representa a fase central e principal do processo, pela obtenção das Regras
Heurísticas de forma a extrair os melhores resultados para alcançar as metas. É
importante citar que nem todas as técnicas e ferramentas são aplicáveis às tarefas
existentes. Assim, foi necessário analisar as técnicas apropriadas para a
necessidade da pesquisa, bem como as ferramentas que suportam tais técnicas.
Neste trabalho a tarefa escolhida foi a Associação. Esta foi utilizada
considerando que o projeto consistia em examinar as características de um objeto e
associar essas características aos demais objetos, encontrando então classes
associativas. O objetivo era a descoberta de Regras Heurísticas que identificasse e
101
explicasse os padrões existentes nos dados de maneira a contribuir com estudos
das cadeias produtivas do agronegócio.
Outro fator que levou o autor a escolher a tarefa de Associação foi seguir a
Matriz Tridimensional de Associação de Moxon (MOXON, 2004). Nesta matriz,
através da análise de vários casos de estudos, foi proposta qual a tarefa deve ser
utilizada para solucionar um determinado problema.
Geralmente os modelos de perfil de consumo das instituições são obtidos a
partir do uso de regressão logística, visto que este tipo de técnica estatística é muito
eficiente na geração de modelos classificatórios para os clientes. A técnica de Rede
Neural Artificial foi usada visando obter modelos por meios de Regras Heurísticas
com alto grau de eficácia, considerando que, de acordo com Siqueira (SIQUEIRA,
1997) as RNAs possuem a capacidade de associação maior que a regressão
logística.
5.8. FERRAMENTAS DE DATA MINING UTILIZADAS
Após a definição da tarefa e da técnica a serem aplicadas, foram escolhidas as
ferramentas de Data Mining para a geração das Regras Heurísticas. Para identificar
e explicar os perfis de consumo, por meio destas regras, utilizou-se o GO Mining -
versão 3.14.2.49 - da empresa GO Digital.
O software permitiu a geração de regras bastante claras com alto grau de
confiabilidade através do modelo neural combinatório. O Go Mining é um software
para execução da fase de Data Mining. Este implementa 3 tarefas (GO DIGITAL,
2005): classificação, segmentação e associação.
102
A ferramenta Go Mining foi escolhida para uso nesta pesquisa por três motivos:
(a) Possui um Modelo Neural Combinatório; (b) Possui uma versão de uso
acadêmico com praticamente as mesmas funcionalidades da versão comercial; e (c)
É uma ferramenta de fácil utilização.
A ferramenta possui versão em português e inglês.
Dentre as suas principais características pode-se mencionar:
Ferramenta com interface bastante amigável;
Possui versão acadêmica gratuita com os mesmos recursos
computacionais da versão comercial;
Menor curva de aprendizado;
Geração de saídas prontas para que outras aplicações utilizem as
Regras Heurísticas descobertas como modelos para classificação de dados;
Capacidade para grandes volumes de dados (milhões de registros
de clientes e transações);
Apresenta compatibilidade com os principais Bancos de Dados do
mercado (Oracle, SQL Server, Access e Sybase);
Realiza clustering automático (aprendizado não supervisionado) via
Centróides;
Suporta diferentes proposições de valor e metodologias analíticas
(market basket analysis, predictive churn modeling,value prediction);
Suporta validação das Regras Heurísticas descobertas pelo usuário
através de interface gráfica; e
Aplica as Regras Heurísticas validadas pelo usuário sobre qualquer
base de dados (com formato compatível), atribuindo probabilidades a cada
regra descoberta.
103
A utilização do Go Mining foi facilitada por causa da interface amigável e
intuitiva. A ferramenta ainda possui assistentes para auxiliar a execução do Data
Mining. Apesar de suportar apenas 3 tarefas de Data Mining o software se apresenta
muito eficiente para a execução de trabalhos onde aplicam-se estas técnicas.
5.9. APRESENTAÇÃO DOS RESULTADOS
As seguintes configurações foram efetuadas no Go Mining: (a) não considerar
os valores não informados ou não aplicáveis dos atributos, evitando informações não
relevantes; (b) ordem máxima igual a 11 (valor máximo permitido pela ferramenta);
(c) suporte mínimo igual a 7%; (d) número de casos igual 7; e (e) confiabilidade
mínima igual a 70%.
Vale mencionar que “ordem máxima” é número máximo de cláusulas que
formarão o lado SE das regras, “suporte mínimo” é o percentual mínimo de registros
que se enquadram na regra com relação ao número de registros existentes na
mesma classe e “número de casos” é o número mínimo de registros que se
encaixam na regra.
Os resultados analíticos do Data Mining foram apresentados através da
disposição das Regras Heurísticas mostradas na Interface de resultados do software
GO Mining, conforme ilustrado na Figura 5.4 e através da construção de gráficos
correspondentes às regras, mostrando visualmente os resultados da mineração
conforme disposto na Figura 5.5.
104
Figura 5.4 Resultados das Regras Heurísticas pelo Software GO Mining.
Fonte: Dados da pesquisa.
Figura 5.5 Resultados Visuais da Mineração.
Fonte: Dados da pesquisa.
105
6. ANÁLISE DOS DADOS E DOS RESULTADOS OBTIDOS
Após a aplicação da metodologia da pesquisa e execução do Data Mining,
obteve-se os resultados do Modelo Neural em formas de Regras Heurísticas. Serão
apresentados os resultados obtidos posterior aplicação do software Go Mining.
O Data Mining identificou relações entre as faixas de rendas, os produtos
adquiridos e os locais de compras preferidos pelos consumidores do Distrito Federal.
A Tabela 6.1 nos mostra as variáveis selecionadas, bem como suas descrições.
Tabela 6.1 Atributos utilizados no Data Mining.
ID Identificação de cada unidade de consumo;
ITEM Identificação do produto consumido;
N_GRUPO Identificação do grupo do produto consumido;
RENDA Valor monetário correspondente a renda da unidade de consumo;
FAIXA_RENDA Faixa de Renda da população pesquisada;
CD_LOCAL_COMPRA Local de compra do produto.
Fonte: Dados da pesquisa.
106
Desta forma, após a execução do Data Mining obtiveram-se 22 Regras
Heurísticas que possuíam pelo menos 70% de confiabilidade – percentual mínimo
exigido nas metas da pesquisa.
As Regras Heurísticas, descobertas pelo processo de Data Mining, estão
ordenadas por ordem de confiabilidade. Pela natureza numérica de se trabalhar os
dados através das Redes Neurais, as regras dispostas estão em formato numérico,
necessitando de uma decodificação, estas foram feitas através das tabelas e
gráficos apresentados, lembrando que no apêndice B encontram-se os códigos e as
descrições de todos os produtos da POF podendo ser utilizado como material de
referência.
Em acordo com o manual do Go Mining (GO DIGITAL, 2005), os atributos que
representam as regras descobertas no processo de data mining possuem a seguinte
definição:
Se - São os acontecimentos que influenciarão na ocorrência do fato,
ou seja, os fatores responsáveis pela ocorrência do “Então”;
Então - O atributo “Então” é a conseqüência, representa o alvo da
pesquisa. É o efeito atingido pelo atributo “SE”;
Classe - Quando são reunidos registros em determinados grupos
levando em consideração a semelhança existente entre determinados
parâmetros comuns aos registros, estão sendo formadas classes;
Confiança - O nível de confiança de uma regra caracteriza-se pela
legitimidade da mesma. Isto quer dizer que quanto mais alto for o nível de
confiança, maior a validade e acerto da regra;
107
Casos - Os casos representam a quantidade de entidades cobertas
pela regra. Isso significa que “Casos” correspondem ao número de registros
que se enquadram perfeitamente na regra;
Suporte - O suporte é o percentual de registros que se enquadram
perfeitamente a regra em relação ao número de registros existentes na
mesma classe.
6.1. RESULTADOS DA APLICAÇÃO DO DATA MINING
Após executarmos o Data Mining, descobrimos Regras Heurísticas distintas
para cada faixa de renda estipulada, estas são apresentadas na Figura 6.1.
a) Faixa de Renda de 0-1000
Figura 6.1 Regras Heurísticas (0-1000).
Fonte: Dados da pesquisa.
108
Figura 6.2 Análise Exploratória das Regras Heurísticas (0-1000).
Fonte: Dados da pesquisa.
Através dos resultados apresentados nas Figuras 6.1 e 6.2, observamos que
os principais grupos de produtos consumidos, por essa classe de renda, são os
Panificados / carnes industrializadas, seguidos pelas Carnes / vísceras e Frutas.
Sendo a preferência do local de compra: dos Panificados / carnes industrializadas a
padaria; das Carnes / vísceras o açougue; e das Frutas o sacolão.
Verificamos que os Panificados / carnes industrializadas são adquiridos
preferencialmente nas padarias, nas feiras e nos sacolões; enquanto que as frutas
são adquiridas através dos ambulantes e também sacolões, já as Carnes e Vísceras
são compradas nos açougues.
Analisando os gráficos, averiguamos ser necessário a informação sobre quais
produtos fazem parte da categoria apresentada pelo Data Mining. Fizemos uma
listagem das mercadorias consumidas através da análises exploratórias. No entanto,
o número de produtos listados foi grande, o que impactaria no desenvolvimento
desta dissertação caso fossem apresentados todos os valores. Então, resolvemos
109
apresentar apenas os principais produtos, conforme ilustrado na Tabela 6.2. No
apêndice A é apresentado todos os produtos consumidos nas categorias
mencionadas.
Tabela 6.2 Principais Produtos Consumidos (0-1000).
110
Fonte: Dados da pesquisa.
A disponibilidade dos produtos consumidos nas categorias explicitadas pelo
Data Mining, permitem uma visão panorâmica do perfil de consumo das classes de
renda 0-1000, estas permitem estabelecer com os clientes uma relação duradoura
de troca, oferecendo-lhe soluções capazes de satisfazer suas necessidades e
expectativas. Tais soluções materializam-se na forma de produtos e serviços que
serão entregues ao cliente certo, com padrão de qualidade adequado, na hora certa
e no lugar certo, com maior eficiência e rapidez que os concorrentes. Em resposta
111
aos dados apresentados, identificamos os grupos com perfil e comportamento de
compra homogêneo, podendo desenvolver ofertas específicas para tais grupos de
acordo com a cadeia de valores estipulados. Além de direcionar seus esforços para
um grupo específico de clientes, a organização pode estabelecer modelos
produtivos de comportamento, maximizando assim suas oportunidades e lucros ao
longo do tempo. Esses e demais fatores nos mostram a importância do KDD como
metodologia analítica.
Faixa de Renda de 1001-3000
Figura 6.3 Regras Heurísticas (1001-3000).
Fonte: Dados da pesquisa.
Figura 6.4 Análise Exploratória das Regras Heurísticas (1001- 3000).
Fonte: Dados da pesquisa.
112
Os resultados apresentados nas Figuras 6.3 e 6.4 nos mostram que os
principais grupos de produtos consumidos, por essa classe de renda, são os
Panificados / carnes industrializadas, seguidos pelas Frutas, Carnes / vísceras,
Hortaliças e Agregados. Consistindo a preferência do local de compra: dos
Panificados / carnes industrializadas a padaria; das Frutas os sacolões, Carnes /
vísceras o açougue; e dos Agregados o hortifruti.
Verificamos que os Panificados / carnes industrializadas são adquiridos,
preferencialmente, nas padarias e nos hortifruti, enquanto as frutas são adquiridas
nos sacolões, já as Carnes e Vísceras são compradas nos açougues e os
Agregados nos hortifruti.
Os principais produtos adquiridos em acordo com as categorias explícitas no
parágrafo acima são descritos na Tabela 6.3.
Tabela 6.3 Principais Produtos Consumidos (1001- 3000).
113
Fonte: Dados da pesquisa.
b) Faixa de Renda de 3001- 5000
Figura 6.5 Regras Heurísticas (3001- 5000).
Fonte: Dados da pesquisa.
114
Figura 6.6 Análise Exploratória das Regras Heurísticas (3001- 5000).
Fonte: Dados da pesquisa.
Os resultados dispostos nas Figuras 6.5 e 6.6 retratam que os principais
grupos de produtos consumidos, por essa classe de renda, são os Panificados /
carnes industrializadas, seguidos pelas Frutas e Carnes / vísceras. A preferência do
local de compra consiste em: dos Panificados / carnes industrializadas a padaria;
das Frutas as Feiras e as Carnes / vísceras o açougue.
Verificamos que os Panificados / carnes industrializadas são adquiridos,
preferencialmente, nas padarias e nos sacolões; enquanto que as frutas são
adquiridas nas feiras; já as Carnes e Vísceras são compradas nos açougues.
Os principais produtos adquiridos em acordo com as categorias explícitas no
parágrafo acima são descritos na Tabela 6.4.
115
Tabela 2.4 Principais Produtos Consumidos (3001- 5000).
116
Fonte: Dados da pesquisa.
c) Faixa de Renda de 5001-8000
Figura 6.7 Regras Heurísticas (5001-8000).
Fonte: Dados da pesquisa.
Figura 6.8 Análise Exploratória das Regras Heurísticas (5001-8000).
Fonte: Dados da pesquisa.
117
Os resultados dispostos nas Figuras 6.7 e 6.8 mostram que os principais
grupos de produtos consumidos, por essa classe de renda, são os Panificados /
carnes industrializadas, seguidas pelos Produtos de Higiene Corporal / Bebidas
Alcoólicas e Produtos de Limpeza Doméstica / Outros e pelos Cereais /
Leguminosas / Hortaliças Tuberosas. A preferência do local de compra consiste em:
dos Panificados / carnes industrializadas a padaria; dos demais seguimentos o
Hipermercado.
Verificamos que neste segmento social, as classes preferem comprar a maioria
dos produtos nos hipermercados, com ressalva para os Panificados e carnes
industrializadas que são adquiridas na Padaria, essa característica pode ser
explicada porque a maioria das pessoas desta classe possui carro, o que facilita a
locomoção nestes centros de mercadorias, além do fato destas classes preferirem
comprar todos os utensílios em apenas um lugar centralizado, pois dispõem de
pouco tempo.
Os principais produtos adquiridos em acordo com as categorias explícitas no
parágrafo acima são descritos na Tabela 6.5.
118
Tabela 6.5 Principais Produtos Consumidos (5001- 8000).
Fonte: Dados da pesquisa.
119
d) Faixa de Renda de 8001 - *
Figura 6.9 Regras Heurísticas (8001 - *).
Fonte: Dados da pesquisa.
Figura 6.10 Análise Exploratória das Regras Heurísticas (8001 - *).
Fonte: Dados da pesquisa.
Os resultados dispostos nas Figuras 6.9 e 6.10 mostram que os principais
grupos de produtos consumidos, por essa classe de renda, são os Panificados /
carnes industrializadas, seguidas pelos Produtos de Higiene Corporal / Bebidas
Alcoólicas. A preferência do local de compra consiste em: dos Panificados / carnes
industrializadas a padaria; dos demais seguimentos o Hipermercado.
Verificamos que neste segmento social, as classes preferem comprar a maioria
dos produtos nos hipermercados, com ressalva para os Panificados e carnes
industrializadas que são adquiridas nas padarias ou sacolões. Essa característica
pode ser explicada pelos mesmos fatores elucidados na classe (5001 - 8000).
120
Os principais produtos adquiridos em acordo com as categorias explícitas no
parágrafo acima são descritos na Tabela 6.6.
Tabela 6.6 Principais Produtos Consumidos (8001 - *).
Fonte: Dados da pesquisa.
121
Após verificarmos os resultados apresentados em todas as classes de renda,
constatamos que a quantidade de observações a serem feitas são inúmeras, tendo
uma série de aplicações práticas na gestão do agronegócio. A exemplo de que
avaliações podem ser realizadas para explorar oportunidades de mercado, outra
para desenvolver opções de segmentação de mercado, outra para compreender as
atitudes e os comportamentos do consumidor que levam à aquisição dos produtos
mencionados. Enfim, ter o melhor conhecimento de mercado permite um
posicionamento diferencial e a tecnologia do KDD permite obter uma visão
apreciável das necessidades e anseios do consumidor.
6.2. AVALIAÇÃO DOS RESULTADOS
Esta fase consistiu basicamente na avaliação dos resultados, revendo os
passos seguidos e verificando se os objetivos pretendidos foram alcançados.
Procurou-se fazer uma última validação e encontrar fatores importantes que possam
ter sido omitidos.
Foram avaliados os resultados das execuções do Data Mining com o Modelo
Neural Combinatório. Verificou-se que as metas e objetivos do projeto foram
alcançados, visto que as Regras Heurísticas obtidas através deste modelo eram
superiores ao patamar mínimo de 70% de confiabilidade, mostrando o cenário do
perfil de consumo no Distrito Federal. A pesquisa cumpriu esta exigência e a
restrição determinada, sendo finalizada com sucesso.
O Data Ming forneceu informações difíceis de serem obtidas por outros
meios analíticos. A mineração retornou, lucidamente, apenas os resultados mais
relevantes nas relações ocultas nos dados até então. Fornecendo indícios
relativamente seguros quanto às características presentes nos dados. Os resultados
mostram os principais grupos de produtos consumidos por classe de renda e local
de compra, segmentando e definindo as características dos consumidores.
122
Existem muitas maneiras das companhias relacionadas ao agronegócio
usufruir destas informações: promoções diretas a um público específico, vendas
direcionadas, planos de evolução de consumo, acréscimo de planos estratégicos
para o desenvolvimento de mecanismos direcionados a sustentabilidade do
agronegócio. Enfim, o ciclo de atividade na cadeia de beneficência é sem fim. As
companhias podem fazer mais análises; tomar ações; adaptar-se a cadeia e suas
necessidades particulares, não exigindo rigidez aos segmentos.
Pelos resultados apresentados nas Regras Heurísticas, confirma-se que a
técnica de Redes Neurais Artificiais é realmente muito poderosa para executar
tarefas de Associação, pois mesmo com uma pequena amostra de dados foram
obtidos altos graus de confiabilidade nas associações obtidas.
A análise das Regras Heurísticas permitiu uma melhor compreensão das
necessidades e desejos do consumidor. O painel de resultados consente, após
análises, vantagens competitivas sustentáveis, melhorando o posicionamento
estratégico. Levando à crença na importância do KDD como instrumento poderoso
de análise de mercado e de interpretação da realidade, colaborando com a
resolução desta e demais questões relevantes. Podemos perceber que algumas
regras foram úteis por não serem de conhecimento dos analistas de negócio e por
apresentarem informação interessante, invisível até então.
Ao desenvolvermos a metodologia em questão e finalizarmos a execução
dos processos do KDD, conseguimos atingir os objetivos da pesquisa, pois
encontramos regras de consumo, por meios da associação nos relacionamentos das
variáveis entre os produtos consumidos pelas famílias do Distrito Federal, utilizando
como fonte de dados a POF. Estas informações poderão ser utilizadas para
formulação de planos estratégicos.
6.3. DESENVOLVIMENTO
Conseguimos, através da metodologia aplicada e dos recursos computacionais
disponíveis, transformar dados brutos em informações que ao serem analisadas,
possibilitarão transformar estas informações em conhecimentos, possibilitando
123
modificar capacidades, desempenhos, habilidades e recursos num processo
decisório estratégico.
Os resultados e regras obtidas apresentam grande significância e relevância ao
estudo do comportamento de consumo por produtos do agronegócio, e que segundo
Moon (Moon, 2003) a compreensão destas regras e a aplicação das mesmas na
identificação das oportunidades de mercados, podem melhorar os canais das
relações entre os fornecedores e consumidores, possivelmente reduzindo os
investimentos em estoques e diminuindo a obsolescência na produção. Entre outros
benefícios podemos, através destas informações, implementar melhorias
consideráveis nas cadeias produtivas do agronegócio.
O uso do Modelo Neural Combinatório permitiu a geração de regras de fácil
compreensão e aplicabilidade. Assim, as instituições interessadas poderão utilizá-las
de acordo com as suas necessidades, aplicando-as em seus sistemas especialistas
de forma a aumentar conhecimento sobre o comportamento do consumidor. Poderão
também utilizar as técnicas, aqui mencionadas, do KDD para as mais diversas
aplicações de pesquisas científicas e comerciais.
124
7. CONSIDERAÇÕES FINAIS
7.1. CONCLUSÃO
As instituições ligadas ao agronegócio vêm criando e aperfeiçoando, nos
últimos anos, sistemas especialistas para evitar perdas em operações de produção,
estocagem e transporte. Para o desenvolvimento destes sistemas, muitos problemas
estão sendo enfrentados pelos analistas e tomadores de decisões destas
instituições, entre eles destacam-se a eleição das variáveis úteis ao processo, a
técnica a ser empregada e a forma de implementação do processo. Em ambos os
casos o KDD mostra-se como um eficiente mecanismo para elucidação destas
questões.
O KDD tem se mostrado um processo interessante para auxiliar na criação dos
sistemas especialistas de análise de processos para diversas instituições de todos
os segmentos de negócio e o crescimento da sua utilização demonstra a confiança
que ele está adquirindo nas mais diversificadas áreas.
125
Este trabalho abordou a utilização do KDD, do Data Mining e da técnica de
Redes Neurais Artificiais para criar Regras Heurísticas sobre os comportamentos
relativos ao consumo no Distrito Federal, utilizando como fonte de dados a POF.
As contribuições desta pesquisa incluem: (a) relatório de experiência na qual
descreve-se a aplicação da metodologia CRISP-DM; (b) complexidade e dificuldade
na execução de um projeto de KDD; (c) importância da qualidade de dados e
preparação de dados; (d) prudência no dimensionamento da duração do projeto; (e)
critérios para escolha de ferramenta de Data Mining; e (f) demonstração da utilização
da técnica de Redes Neurais Artificiais por meios da execução do software GO
Mining.
Ao término desta pesquisa várias conclusões podem ser feitas acerca do
processo de KDD e sua utilização na busca de padrões e associações entre as
variáveis. Primeiramente, a utilização de uma metodologia adequada foi de grande
valor para o sucesso do projeto. A adoção da CRISP-DM permitiu verificar e
entender as fases que compõem o KDD, implementá-las na devida seqüência e
compreender o momento de interagir no processo.
O projeto de KDD é bastante complexo e exige muito esforço e dedicação do
analista de Data Mining e dos demais profissionais envolvidos. Infelizmente, como o
autor não dispôs de tempo suficiente para uma participação mais efetiva no
processo, o andamento das atividades foi prejudicado e o tempo de execução do
projeto incrementado. É válido mencionar que a indisposição do autor ocorreu (e
comumente ocorre) porque os projetos de cunho acadêmico não recebem prioridade
alguma nas empresas, e não por má vontade dos mesmos, o que ocorrera na
empresa na qual trabalho. Relato a dificuldade em desenvolver uma pesquisa desta
magnitude face ao descaso à ciência feita por algumas empresas.
126
Um ponto a analisar com cuidado no KDD é a preparação dos dados. Muitos
autores citam que esta fase toma de 40% a 60% do tempo total do projeto. Contudo,
nesta pesquisa o tempo dispendido nesta fase foi de aproximadamente 30% do
tempo total do projeto de KDD, fato justificado pela qualidade dos dados oriundos da
POF.
A qualidade dos dados para a utilização em um projeto deste tipo é de
fundamental importância. Sabe-se que quanto maior a qualidade dos dados
disponíveis para o KDD, maiores serão as chances de alcançar bons resultados.
Neste trabalho verificou-se a inexistência de inconsistências e anomalias, o que não
é muito comum acontecer. Estes fatores dificultam a implementação de qualquer
trabalho desta natureza, o que diminui a eficiência dos resultados. Desta forma,
sugere-se a aplicação de um processo de qualidade de dados nos dados a serem
esmiuçados pela mineração, bem como a criação de mecanismos nos sistemas
transacionais para evitar a inclusão de dados com qualidade ruim. Isso é de suma
importância para análises futuras.
Uma consideração importante a ser feita é que para a geração de um modelo
mais adaptado à realidade de qualquer instituição, esta deve guardar o histórico
cadastral e negocial dos clientes para efetuar o processo de KDD envolvendo todos
os dados pertinentes ao negócio a ser analisado.
Os resultados das regras mostraram-se como se esperava, uma forte
dependência da qualidade de dados. A técnica de Redes Neurais Artificiais mostrou-
se muito vinculada ao número de registros disponíveis e à qualidade dos mesmos.
Assim, vê-se mais uma vez a importância da qualidade de dados para a obtenção de
regras com alto grau de confiabilidade.
127
Como a maioria dos dados sempre envolve informações pessoais, sempre há
um certo receio por parte das instituições quanto à garantia da manutenção do sigilo
dos dados. Desta forma é preciso muita negociação com a diretoria e a gerência da
instituição para obter a autorização formal de uso dos dados. Logo, recomenda-se
muita prudência ao tentar iniciar projeto que utilizem estes tipos de dados.
A escolha da ferramenta a ser utilizada no Data Mining não é uma tarefa
simples e envolve os seguintes fatores: (a) a disponibilidade ou não de recursos,
levando ao uso de freeware
17
; (b) o conhecimento sobre a ferramenta, visto que
aprender a usá-la não é muito fácil; (c) o formato da base de dados; (d) a tarefa e a
técnica a ser utilizada; e (e) os objetivos que devem ser alcançados.
Os resultados obtidos reforçam a importância de um maior investimento em
projetos de KDD nas pesquisas que buscam associação entre as diversas variáveis
existentes nos mais diversificados sistemas disponíveis. O poder das ferramentas de
Data Mining para construção de modelos preditivos torna seu uso quase que
obrigatório nas empresas do setor agroindustrial, onde a concorrência é grande e o
risco de crédito e de investimentos devem ser bastante controlados.
Muitos dados da POF podem auxiliar os tomadores de decisão na busca de
conhecimento não explicitado e compreender os padrões de comportamentos de
seus clientes. Desta forma, sugere-se o aperfeiçoamento deste projeto e a
implementação deste e de outros projetos de KDD correlatos, em complemento aos
sistemas de auxílio à decisão já existentes.
128
17
Freeware – Produto sem custo financeiro.
7.2. TRABALHOS FUTUROS
Após desenvolver um trabalho deste nível, onde foi percorrido todo o caminho
de um processo de descoberta de conhecimento de base de dados e compreendido
algumas das principais necessidades de informações que uma pesquisa como a
POF fornece, pode-se mencionar vários trabalhos correlatos que certamente seriam
de grande interesse e relevância no âmbito acadêmico e profissional.
Atualmente o autor já desenvolve um trabalho correlato na CODEPLAN
(Companhia de Desenvolvimento do Planalto Central). Este pretende utilizar técnicas
de Data Mining para identificação de quais fatores são determinantes para o
crescimento vegetativo da folha de pagamento do Governo do Distrito Federal,
sendo estes um dos agravantes que a administração pública enfrenta. Pode citar
ainda:
Ampliar esta pesquisa para todos os estados da federação;
Estudo comparativo entre as técnicas de Redes Neurais Artificiais e
Regressão Logística;
Utilizar outras técnicas para este mesmo estudo, tal como a Árvore
de Decisão;
Desenvolver uma pesquisa para aplicar técnicas de Data Mining para
gestão e controle de armazenamento de grãos na CONAB;
Aplicar o KDD para avaliação de rotas nos transportes de grãos
rodoviários de forma a diagnosticar os melhores caminhos a percorrer;
Utilizar a tarefa de Afinidade de Grupos para associar os
empréstimos do crédito rural aos clientes com menor probabilidade de risco.
129
Analisando para isso o histórico da base de dados de empréstimos do crédito
rural; e
Empregar a tarefa de Previsão para antever a produção de grãos no
território brasileiro.
130
8. REFERÊNCIAS BIBLIOGRÁFICAS
ADRIAANS, P.; ZANTINGE, D. (1996). Data Mining. Harlow: Addison-Wesley, Pub.
Co.
AMARAL, F. (2001). Data Mining: Técnicas e aplicações para o marketing direto.
Editora Berkeley, São Paulo.
BARLOW, H. (1989). Unsupervised Learning, Neural Computation.
BIGUS, J. P. (1996). Data Mining With Neural Networks: Solving Business
Problems from Application Development to Decision Support. Pub. McGraw-Hill, New
York.
BRAGA, A. P.; LUDERMIR, T. B.; CARVALHO, A. (2000). Redes Neurais
Artificiais: Teoria e Aplicações, Editora LTC, São Paulo.
BRAGA, V. R. M. (2004). Construindo modelos de perfil de clientes em uma
instituição financeira com KDD. Dissertação de mestrado em Gestão do
Conhecimento. Universidade Católica de Brasília, Brasília.
CARVALHO, L.A.V. (2001). DATAMINING: A Mineração de Dados no Marketing,
Medicina, Economia, Engenharia e Administração. Editora Érika, São Paulo.
CARPENTER, G. A.; GROSSBERG, S. (1988).The Art of Adaptive Pattern
Recognition by a Self-Organazing Neural Networks. Pub. The MIT Press.
CRISP - Cross Industry Standard Process for Data Mining. CRISP-DM. Disponível na
Internet: <http://www.crisp-dm.org>. Citado: 12 de Fev. 2005.
DAYHOFF, J. (1990). Neural Network Architectures: Na Introduction. Pub. Van
Nostrand Reinhold, New York.
131
DAVIS, J.H.; GOLDBERG, R.A. (1957). A Concept of Agribusiness. Pub. Harvard
University, Boston.
DECKER, K.; FOCARDI, S. Technological Overview: A report on Data Mining.
Disponível na Internet: <http://www.cscs.com>. Citado: 16 de Fev. 2005.
DHAR, V.; STEIN, R. (2003). Seven Methods for Transforming Corporate Data
into Business Intelligence. Pub. Prentice-Hall.
DIAS, C. (2000). Segurança e Auditoria da Tecnologia da Informação. Editora
Axcel Books, Rio de Janeiro.
DW. Site da DW Brasil. Disponível na Internet:
<http://www.dwbrasil.com.br/html/dmining.html>. Citado: 15 de Mar. 2005.
FAYYAD, U. M. (1996). Advances in Knowledge Discovery and Data Mining.
Pub. AI Press, California.
FELDENS, M. A.; Beckenkamp, F. G. (2000). Optimizations of the Combinatorial
Neural Model. Artigo. Simpósio Brasileiro de Redes Neurais Artificiais.
GO DIGITAL, Site da Go Digital. Disponível na Internet:
<http://www.godigital.com.br>. Citado: 21 de Set. 2005.
GROSSMAN, R. Data Mining: challenges and opportunities for Data Mining during
the next Decade. Disponível na Internet: <http://www.magnify.com/technology>.
Citado: 10 de Nov. 2005.
GUROVITZ, H. O que cerveja tem a ver com fraldas? Disponível na Internet:
<http://www.datawarehouse.inf.br/artigos/cervejaefraldas.asp>. Citado: 10 de Nov.
2003.
HADDAD, P. (1998). Competitividade do Agronegócio. Editora Singer, Belo
Horizonte.
HARRISON, T.H. (1998). Intranet Data Warehouse. Editora Berkeley Brasil, São
Paulo.
HERTZ, J.; KROGH, A.; PALMER, R.G. (1991). Introduction to the Theory of
Neural Computation. Pub. Lecture Notes, Santa Fe Institute Studies in The Science
of Complexity, Addison-Wesley.
HOPFIELD, J. J. (1982). Neural Networks and Physical Systems with Emergent
Collective Computational Abilities. Pub. Proceedings of the National Academy of
Sciences of the USA.
IBGE - INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (Brasil).
Disponível na Internet: <http://www.ibge.gov.br>. Citado: 24 de Jun. 2005.
JOHN, G.H.; KOHAVI R.; PFLEGER, K. (1997). Irrelevant features and the subset.
Pub. Pen Books.
KDNUGGETS . Site KDNUGGETS. Disponível na Internet:
<http://www.kdnuggets.com>. Citado: 11 de Jun 2004.
132
KING, D. Numerical Machine Learning. Disponível na Internet:
<http://www.cc.gatech.edu/~kingd/datamine/datamine.html>. Citado: 16 de Fev.
2004.
KOHONEN, T. (1989). Self-Organization and Associate Memory. Pub. Springer-
Verlag.
KOTLER, P. (1999). Princípios de Marketing. Editora LTC, Rio de Janeiro.
LATIN PANEL. Líder em conhecimento do consumidor. Disponível na Internet:
<http://www.latinpanel.com/article/frontpage/1>. Citado: 13 de Out. 2005.
LEME, T. F. (2004). Business Intelligence no Microsoft Excel. Editora Axcel
Books, Rio de Janeiro.
LUBEL, K. ShopKo use datamining to compete. Disponível na Internet:
<http://faculty.ed.umuc.edu/~meinkej/inss690/lubel.htm>. Citado: 10 de Nov. 2004.
MADSAD - Mestrado em Análise de Dados e Sistema de Apoio à Decisão
(Portugal). Disponível na Internet:
<http://www.fep.up.pt/cursos/mestrados/madsad/>. Citado: 7 de Nov. 2005.
MALCON, A. T.; XEREZ, M.; RODRIGUES, I. W. (1995). Redes Neurais Artificiais,
Introdução e Princípios de Neurocomputação. Editora Furb, São Paulo.
MANCUSO, M. Conhecimento do Mercado. Revista Frutifatos, Número 5, Pg. 1,
Junho 2004.
MINSKY, M.; PAERT, S. (1969). An Introduction to computacional geometry.
Pub. MIT Press.
MOON, M.A. Keys to Better Forecasting. Pub. Business Horizons, Set., 2003.
MOXON, B. Defining Data Mining. Disponível na Internet:
<http://www.dbmsmag.com/9608d53.html>. Citado: 8 de Dez. 2004.
POF. INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE (Brasil).
Pesquisa de Orçamentos Familiares 2002-2003, Rio de Janeiro, 2004.
RODRIGUES, R. O Maior Negócio do País. Revista Veja, Edição Especial –
Agronegócio, Editora Abril, Pg. 22, 2004.
ROSENBLATT, F. (2001). A Probabilistic Model for Information Storage and
Organization in the Brain. Pub. McGraw-Hill.
SANJAY, S. (2001). Estudo do desempenho dos algoritmos de data mining da
Microsoft. Pub. Microsoft Corporation.
SAS. (2003). Relatório Miner da SAS. Pub. SAS Corporation.
SERRA, L. A. (2001). A Essência do Business Intelligence. Editora Berkeley
Brasil, São Paulo.
133
SERRANO-CINCA, C. (1996). Self-Organizing Neural Networks for Financial
Diagnosis. Pub. Decision Support Systems.
SILVA, J.U. (2005). Text Mining Com uma Aplicação na Validação dos Registros
de Ocorrências Policiais na Região da Grande Florianópolis. UFSC,
Florianópolis.
SIQUEIRA, J.; ALMEIDA, F. (1997). Comparação entre regressão logística e
redes neurais na previsão de falência de bancos brasileiros. Terceiro Congresso
Brasileiro de Redes Neurais, Florianópolis-SC.
STEDMAN, C. Wal-Mart Mines for Forecasts. Computerworld.
Disponível na Internet:
<http://www.computerworld.com/news/1997/story/0,11280,5332,00.html>.
Citado: 10 de Nov. 2004.
VIANA, R. (2004). Data Mining – Teoria e Prática. Revista SQL MAGAZINE, Editora
Neoficio, Ed. 10, Ano 01, Grajaú- RJ.
WASSERMAN, P. D. (1989). Neural Computing: Theory and Practice. Pub.
Netcomp.
WEISS, S.; INDURKHYA,N. (1997). Predictive Data Mining: A Practical Guide.
Pub. Academic Press, New York.
WESTPHAL, C.; BLAXTON, T. (1998). Data Mining Solutions: Methods and Tools
for Solving Real-World Problems. New York.
WOLD, C. (2005). La Extraccion de lo Dato, Pub. Iquesol.
WIKIPEDIA. Eciclopédia livre. Disponível na Internet: <http://pt.wikipedia.org/>.
Citado: 23 de Nov. 2005.
134
9. APÊNDICES
Em virtude da quantidade de páginas dos apêndices, estes encontram-se
disponibilizados em mídia digital acompanhando esta dissertação.
9.1. (A) - REGRAS OBTIDAS NO MODELO NEURAL COMBINATÓRIO
9.2. (B) - VARIÁVEIS DA POF
9.3. (C) - MANUAL TÉCNICO DA APLICAÇÃO
9.4. (D) - METODOLOGIA CRISP-DM
135
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo