Download PDF
ads:
FUNDAÇÃO EDSON QUEIROZ
UNIVERSIDADE DE FORTALEZA
DESCOBERTA DE CONHECIMENTO EM MÚLTIPLAS
PERSPECTIVAS: APLICAÇÃO EM BASES DE DADOS
DO ICMS
José Aguilberto Silveira Gomes Júnior
Orientador: Professor João José Vasco Furtado, Doutor
Fortaleza, CE, Brasil
Junho de 2002
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
DESCOBERTA DE CONHECIMENTO EM MÚLTIPLAS
PERSPECTIVAS: APLICAÇÃO EM BASES DE DADOS
DO ICMS
José Aguilberto Silveira Gomes Júnior
Dissertação submetida ao Corpo Docente
do Mestrado em Informática Aplicada da
Universidade de Fortaleza como parte dos
requisitos necessários para a obtenção do
grau de Mestre em Ciência da Computação.
Orientador: Prof. João José Vasco Furtado, Doutor
Aprovada por:
Prof. João José Vasco Furtado, Doutor
Prof. Eber Assis Schimtz, Ph.D.
Prof. Pedro Porfírio Muniz Farias, Doutor
Fortaleza, CE, Brasil
Junho de 2002
ii
ads:
Resumo da Dissertação apresentada ao Mestrado em Informática Aplicada - MIA da
Universidade de Fortaleza - UNIFOR como parte dos requisitos necessários para a
obtenção do grau de Mestre em Ciência da Computação (M.Sc.).
DESCOBERTA DE CONHECIMENTO EM MÚLTIPLAS
PERSPECTIVAS: APLICAÇÃO EM BASES DE DADOS DO ICMS
José Aguilberto Silveira Gomes Júnior
Junho de 2002
Orientador: Prof. João José Vasco Furtado, Doutor
Curso: Mestrado em Informática Aplicada
Neste trabalho, descreve-se a metodologia e as técnicas usadas no trabalho de
exploração de bases de dados do ICMS da Secretaria da Fazenda do Estado do Ceará e
os primeiros resultados alcançados a partir deste processo. Trata-se de um trabalho
prático que se insere no contexto da Engenharia do Conhecimento e faz recurso às
técnicas de modelagem organizacional e algoritmos indutivos de aprendizagem
automática. A contribuição principal da pesquisa desenvolvida consiste no
desenvolvimento de uma metodologia de auxílio à preparação dos dados a serem
submetidos a um algoritmo de formação de conceitos, que podem ser visualizados em
diferentes perspectivas. Este enfoque visa dar aos especialistas de uma organização, em
particular os especialistas fazendários, uma forma melhor de estruturar as informações
contidas nos bancos de dados e a descobrir conhecimento a partir dos mesmos. O
algoritmo FORMVIEW gera hierarquias de conceitos e descobre relacionamentos entre
as hierarquias de diferentes perspectivas, o que fornece um mecanismo para prover
comunicação entre diferentes expertises.
iii
Abstract of the Dissertation presented to the Masterate in Applied Computer Science of
the University of Fortaleza - UNIFOR as partial fulfillment of the requirements for the
degree of Master in Science of Computing (M.Sc.).
MULTIPLE-PERSPECTIVE KNOWLEDGE DISCOVERY: AN
APPLICATION IN TAXPAYER DATABASE
José Aguilberto Silveira Gomes Júnior
June, 2002
Advisor: Prof. João José Vasco Furtado, Doutor
Course: Masterate in Applied Computer Science
In this work, we describe the methodology and techniques used in the task of exploring
the tax database (ICMS) of the Secretary of the Treasury of the State of Ceara along
with the initial results obtained from this process. It is a practical work within the
context of Knowledge Engineering that makes use of organizational modeling
techniques and inductive algorithms from automatic learning. The main contribution of
this study lies in developing a methodology to assist in preparing data for submission to
a concept formation algorithm that generates hierarchies which can then be viewed from
various perspectives. This approach permits Treasury specialists to better structure
information contained in the database and to abstract knowledge from it. The algorithm
FORMVIEW generates concept hierarchies and reveals relationships between different
hierarchical perspectives providing a means through which individuals of dissimilar
levels of expertise may better communicate with one another.
iv
SUMÁRIO
CAPÍTULO 1: INTRODUÇÃO
1.1 Motivação ........................................................................................................... 01
1.2 Estrutura da dissertação ...................................................................................... 04
CAPÍTULO 2: ESTADO DA ARTE
2.1 Introdução ........................................................................................................... 05
2.1.1 Inteligência artificial .................................................................................. 05
2.1.2 Sistemas Baseados em Conhecimento ....................................................... 06
2.1.3 Sistemas Especialistas ............................................................................... 06
2.1.4 A Engenharia do Conhecimento ................................................................ 07
2.2 Aquisição de conhecimento ................................................................................ 08
2.3 Aprendizagem automática (Machine Learning).................................................. 11
2.3.1 Aprendizagem supervisionada ................................................................... 13
2.3.2 Aprendizagem não supervisionada ............................................................ 13
2.4 Algoritmos de agrupamento conceitual (Clustering) ......................................... 13
2.4.1 Algoritmo COBWEB ................................................................................ 14
2.5 Knowledge Discovery in Databases - KDD........................................................ 16
2.5.1 Preparação de dados ................................................................................... 17
2.6 Data Mining ........................................................................................................ 18
2.6.1 Algoritmo FORMVIEW............................................................................. 20
2.7 Multi-perspectivas .............................................................................................. 22
2.8 Goal Dependency Networks (GDN) ................................................................... 23
CAPÍTULO 3: DESCRIÇÃO DO PROBLEMA
3.1 A Secretaria da Fazenda do Estado do Ceará ..................................................... 26
3.1.1 Estrutura organizacional ............................................................................ 26
3.1.2 Modelo de gestão ....................................................................................... 27
3.2 Problemas identificados ...................................................................................... 28
3.3 A proposta .......................................................................................................... 29
v
CAPÍTULO 4: DESCRIÇÃO DA PROPOSTA
4.1 Introdução ........................................................................................................... 31
4.2 Preparação de dados ........................................................................................... 33
4.3 Metodologia básica de preparação de dados ...................................................... 34
4.3.1 Análise geral da organização ..................................................................... 38
4.3.2 Identificação das áreas de negócio ............................................................ 39
4.3.3 Identificação das áreas de atuação ............................................................. 41
4.3.4 Identificação das entidades ........................................................................ 43
4.3.5 Identificação das perspectivas .................................................................... 44
4.3.6 Identificação dos atributos relevantes às perspectivas .............................. 45
4.3.7 Extração dos campos dos bancos de dados ............................................... 46
4.4 Processamento dos dados ................................................................................... 47
4.4.1 O Software SmartBase ............................................................................... 47
CAPÍTULO 5: APLICAÇÃO DA PROPOSTA E ANÁLISE DOS RESULTADOS
5.1 Aplicação da metodologia na Secretaria da Fazenda do Estado do Ceará ......... 54
5.1.1 Fase 1: Análise geral da organização ........................................................ 54
5.1.2 Fase 2: Identificação das áreas de negócio ................................................ 54
5.1.3 Fase 3: Identificação das áreas de atuação ................................................ 55
5.1.4 Fase 4: Identificação das entidades ........................................................... 57
5.1.5 Fase 5: Identificação das perspectivas ....................................................... 57
5.1.6 Fase 6: Identificação dos atributos relevantes às perspectivas .................. 57
5.1.7 Fase 7: Extração dos campos dos bancos de dados ................................... 59
5.2 Processamento dos dados ................................................................................... 59
5.3 Resultados obtidos .............................................................................................. 60
5.4 Análise dos resultados ........................................................................................ 62
CONCLUSÃO
6.1 Conclusão e trabalhos futuros ............................................................................ 72
vi
REFERÊNCIAS
7.1 Referências bibliográficas .................................................................................. 75
7.2 Artigos aceitos .................................................................................................... 79
vii
viii
AGRADECIMENTOS
A Deus, pela força que me deu e por ter iluminado o meu caminho ao longo desta
jornada.
Aos meus Pais e Irmãos, pela motivação que me deram.
À Secretaria da Fazenda do Estado do Ceará, pelas condições oferecidas.
Ao Professor Vasco Furtado, pela amizade, orientação e apoio.
A Ricardo Rebouças, pela grande ajuda no processamento dos dados.
Aos professores do Curso de Mestrado em Informática Aplicada da Unifor.
Aos colegas de Curso, pela amizade e pelo convívio.
1
CAPÍTULO 1
INTRODUÇÃO
1.1 Motivação
Conhecimento é de vital importância para as organizações no mundo moderno.
Sua utilização tem se tornado um fator de importância para o sucesso ou até para a
sobrevivência destas organizações. Não só o seu uso, mas também a velocidade de
acesso, a sua qualidade e a adequada disseminação por suas áreas de atuação. A
informação vem desempenhando um papel fundamental em todos os setores da
sociedade e o desenvolvimento e sucesso das organizações baseiam-se, cada vez mais,
na capacidade de coletar, tratar, interpretar e utilizar a informação de forma eficaz.
Com o desenvolvimento e redução dos custos das soluções de tecnologia da
informação com fins corporativos, tornou-se possível às organizações a adoção
crescente de soluções mais sofisticadas para dar suporte aos seus processos,
principalmente os de caráter operacional, que necessitam de forte controle no tratamento
dos dados. Nos dias atuais, é de fundamental importância para as empresas a
informatização de seus processos de forma a garantir agilidade às atividades referentes
ao seu negócio e às de apoio administrativo. Desta forma, grandes volumes de dados
passaram a ser manipulados pelas empresas, os quais, em geral, não são devidamente
explorados com o objetivo de serem transformados em informações estratégicas, tão
importantes para a tomada de decisões em todos os níveis hierárquicos, notadamente
quanto àqueles que lidam com a necessidade de decisões rápidas. Um grande número
dessas organizações ainda hoje se depara com a situação de terem muitos dados, poucas
informações e quase nenhum conhecimento acerca do seu negócio, além de fazerem uso
somente dos métodos convencionais de análise e exploração de dados. A dita Era da
Informação em que estamos vivendo tem atingido às organizações na forma de uma
necessidade contínua de uma gestão mais eficiente da informação para viabilizar o seu
uso de forma estratégica, como forma de criar um diferencial nos mercados
competitivos.
É evidente a necessidade de tratamento destes volumes de dados de forma
metódica e estruturada. A descoberta de conhecimento a partir deles pode gerar grandes
2
benefícios. É bem verdade que é tarefa árdua analisar os dados armazenados em
complexas estruturas de softwares na busca de conhecimento que possa trazer
benefícios às organizações. Além do mais, há o problema de processamento de grandes
volumes de dados, o que exige a necessidade de capacidade de processamento e
armazenamento na obtenção dos resultados necessários. Entende-se que este é um
problema que a tecnologia da informação hoje existente nos mercados internacionais
pode resolver, haja vista o rápido aumento da capacidade computacional e barateamento
dos computadores.
As entidades responsáveis pela prestação de serviços públicos para a sociedade
passam por situação análoga, e até mesmo mais crítica. Por terem um quantitativo
elevado de clientes e necessitarem oferecer uma gama de serviços diversificada à
sociedade, esta última crescentemente mais exigente e rigorosa na fiscalização do
cumprimento do papel do Estado e do uso dos recursos públicos, via de regra, limitados,
quando não escassos. Estas circunstâncias levam ao acúmulo de considerável volume de
dados nos bancos de dados dos governos federal, estadual e municipal, que podem ser
utilizados com o objetivo fim de melhoria dos serviços prestados pelo Estado. Hoje
vemos os Governos tomando iniciativas para a realização de grandes investimentos em
projetos de Governo Eletrônico (e-Gov), construção de Data Warehouse, por exemplo,
como forma de criar mais canais de atendimento ao cidadão através do uso da
tecnologia da informação.
Dentro do contexto do serviço público do Estado do Ceará, tomamos como
exemplo a Secretaria da Fazenda (SEFAZ-CE), responsável pela geração de recursos
através do exercício do poder do Estado. A citada organização lida com uma
considerável quantidade de dados e de contribuintes (clientes). Nesta área estratégica de
atuação das instituições governamentais, há legislações tributárias complexas e
mecanismos de controle rigorosos estabelecidos pelo fisco, como forma de garantir o
cumprimento das obrigações tributárias. Os contribuintes são obrigados, por força de
lei, a fornecer ao fisco muitas informações relativas às suas atividades econômico-
tributárias, levando ao acúmulo de grandes volumes de dados nos bancos de dados,
dados estes que registram todo o comportamento dos contribuintes em um espaço de
tempo e que refletem o comportamento da economia estadual.
O objetivo deste trabalho é propor um modelo estruturado de exploração dos
dados corporativos na área da Administração Tributária da Secretaria da Fazenda do
3
Estado do Ceará, fazendo uso de técnicas de modelagem de conhecimento em
organizações e de algoritmos indutivos incrementais, não supervisionados, de
aprendizagem automática, por formação de conceitos. Estes algoritmos formam
conceitos e categorias de dados através de agrupamentos conceituais, como forma de
descobrir conhecimento oculto em grandes volumes de dados. Outro conceito
considerado é o da existência de diferentes perspectivas para um mesmo objeto, ou
entidade, dentro do contexto organizacional e as conexões entre si. No caso da
Secretaria da Fazenda, este objeto pode ser, por exemplo, o contribuinte, visto por
diferentes perspectivas pelas diversas áreas.
Concentramo-nos na descoberta de conhecimento em forma de agrupamentos
conceituais através de algoritmos de formação de conceitos. Neste trabalho, o algoritmo
a ser utilizado é FORMVIEW [Vasco 97], visto que gera hierarquias de conceitos em
diversas perspectivas. Isto é uma característica fundamental para este trabalho pelo
motivo de existirem, de fato, visões (perspectivas) diferentes de entidades.
Propomos uma metodologia que parte da modelagem de conhecimento dentro
da estrutura organizacional da SEFAZ até o nível de identificação de dados relevantes a
serem aplicados ao algoritmo.
Aplicamos as teorias que suportam a descoberta de conhecimento por formação
de conceitos e de categorias de dados através de agrupamentos conceituais.
Exemplificamos com a aplicação desta metodologia para descoberta de conceitos sobre
o contribuinte do ICMS do Estado do Ceará. Mostramos alguns exemplos de
conhecimento verificado por especialistas na área bem como conhecimento que indica a
necessidade de explorações futuras e que podem vir a significar importantes conceitos
não ainda totalmente compreendidos no contexto em estudo.
4
1.2 Estrutura da Dissertação
Este trabalho está estruturado em seis partes, na forma de capítulos, da seguinte
maneira: no Capítulo 1 realizamos ma introdução aos assuntos a serem abordados e ao
domínio da aplicação; no Capítulo 2 falamos sobre o estado da arte para as teorias que
darão suporte às idéias aqui propostas e descritas; no Capítulo 3 descrevemos o domínio
da aplicação do trabalho (Secretaria da Fazenda do Estado do Ceará) e os problemas lá
identificados; no Capítulo 4 detalhamos a solução proposta para alguns problemas
encontrados no domínio que pretendemos atacar; no Capítulo 5 tratamos da aplicação da
solução proposta no domínio e mostramos os resultados obtidos. No Capítulo 6, são
descritas as conclusões a que chegamos e apontamos para a continuidade e melhoria
desta dissertação, na forma de sugestão de trabalho futuros.
5
CAPÍTULO 2
ESTADO DA ARTE
2.1 Introdução
2.1.1 Inteligência Artificial
Inteligência Artificial (IA) é uma disciplina da Ciência da Computação que
procura fazer programas de computador que simulem o comportamento humano [Vasco
93]. É a ciência que busca os meios necessários à imitação mecânica da inteligência
humana.
Os computadores provêem os artefatos para fazer com que as aplicações de IA
se tornem possíveis. As soluções de softwares para IA tendem a ser muito sofisticadas e
poderiam até não funcionar se não fossem os constantes avanços na capacidade de
processamento e memória que a indústria de computadores vem promovendo [Russell
95].
Um sistema IA não é capaz somente de armazenamento e manipulação de
dados, mas também da aquisição, representação e manipulação de conhecimento. Esta
manipulação inclui a capacidade de inferir novos conhecimentos - novas relações sobre
fatos e conceitos - a partir do conhecimento existente e utilizar métodos de
representação e manipulação para resolver problemas complexos que são
freqüentemente não-quantitativos por natureza. Uma das idéias mais úteis que
emergiram das pesquisas em IA é que fatos e regras - conhecimento declarativo - podem
ser representados separadamente dos algoritmos de decisão - conhecimento
procedimental.
Muitos pesquisadores hoje acreditam que IA é uma tecnologia chave para o
software do futuro. As pesquisas em IA estão relacionadas a áreas de aplicação que
envolvem o raciocínio humano, tentando imitá-lo e realizando inferências. Estas áreas
de aplicação que geralmente são incluídas nas definições de IA incluem, entre outras, os
Sistemas Baseados em Conhecimento, sistemas inteligentes para aprendizagem,
compreensão e tradução de linguagem natural, etc.
6
O campo de IA tem como objetivo o contínuo aumento da inteligência do
computador, pesquisando, para isto, também os fenômenos da inteligência natural. Para
este fim, IA pode ser também definida como sendo uma coleção de técnicas suportadas
por computador emulando algumas capacidades dos seres humanos.
2.1.2 Sistemas Baseados em Conhecimento
O desempenho humano em suas principais atividades tais como compreender
uma linguagem natural, planejar e tomar decisões ou mesmo realizar atividades físicas
envolve o uso hábil de uma certa quantidade de conhecimento. A partir dessa premissa,
surgiram os Sistemas Baseados em Conhecimento (SBC).
Os SBC são programas de computador que se fundamentam na aquisição e
manuseio de conhecimento. Esses sistemas têm como característica principal a
existência de uma separação explícita entre o conhecimento que possuem (base de
conhecimento) e as suas estratégias de controle (máquina de inferência). Eles são
sistemas de inteligência artificial criados para resolver problemas em determinado
domínio cujo conhecimento utilizado é fornecido por pessoas que são especialistas
naquele domínio.
Um Sistema Baseado em Conhecimento utiliza o conhecimento humano em
um assunto para solucionar tópicos de forma similar a um especialista humano. Um
Sistema Baseado em Conhecimento serve como um assistente cujas habilidades incluem
encontrar soluções para problemas que requerem conhecimento, como por exemplo,
problemas que não dispõem de respostas rápidas e concretas. Para solucionar tais
problemas, os Sistemas Baseados em Conhecimento (SBC) precisam ter acesso a uma
base de conhecimento substancial do domínio de aplicação, base que precisa ser criada
do modo eficiente.
2.1.3 Sistemas Especialistas
Sistemas Especialistas (SE) são um tipo especial de sistemas baseados em
conhecimento que visam resolver problemas complexos em domínios específicos de
conhecimento. Esses sistemas procuram simular o comportamento do especialista
humano na resolução de problemas.
7
Sistemas Especialistas podem ser definidos como sistemas de inteligência
artificial criados para resolver problemas em determinado domínio cujo conhecimento
utilizado é fornecido por pessoas que são especialistas naquele domínio. O centro de um
SE é um corpo de conhecimento sobre um domínio específico acumulado durante a
construção do sistema. Ele também deve possuir a capacidade de continuar o processo
de acúmulo de conhecimento. O conhecimento é explicito e organizado de forma a
simplificar a tomada de decisão.
Muitos autores enfocam as principais diferenças entre as tecnologias de
implementação dos SE e dos programas computacionais convencionais, como forma de
auxiliar-nos na compreensão da definição dos SE. Embora já saibamos que os SE,
essencialmente, manipulam conhecimentos, podem, dependendo do tipo de
conhecimento manipulado e do problema a resolver, pairar dúvidas sobre qual
tecnologia é a mais adequada para a resolução do problema em questão.
Os programas computacionais convencionais são, basicamente, constituídos de
algoritmos, onde o programador define todos os passos que os programas devem
executar, e de uma grande massa de dados, especialmente numéricos. Por sua vez, os SE
introduziram uma importante mudança no que diz respeito à filosofia de programação,
sendo constituídos, basicamente, de uma grande massa de conhecimento e de processos
de inferências.
Um Sistema Baseado em Conhecimento se transforma em um Sistema
Especialista quando o conhecimento disponível alcança o estado de um conhecimento
especialista. Nos anos recentes, Sistemas Baseados em Conhecimento se transformaram
em sucessos tecnológico e industrial. Foram desenvolvidos sistemas computadorizados
que controlam processos de manufatura, auxiliam em tomadas de decisões,
diagnosticam doenças, detectam falhas em máquinas, etc.
2.1.4 A Engenharia do Conhecimento
Engenharia do Conhecimento (EC) é o termo usado para descrever o processo
global de desenvolvimento de um Sistema Especialista. Os problemas tratados na EC
estão relacionados às etapas necessárias para a criação de um SBC: análise de
requisitos, escolha de uma linguagem de programação adequada para a implementação e
escolha do formalismo de representação do conhecimento. Tipicamente envolve uma
8
forma especial de interação entre o construtor do sistema, chamado de Engenheiro do
Conhecimento e um ou mais especialistas na área em questão. Este profissional é
responsável pela estruturação e construção de um sistema inteligente. Ele geralmente
possui algum conhecimento em computação e IA, o que também o capacita para
construir um Sistema Especialista. O Engenheiro do Conhecimento entrevista o
especialista, organiza o conhecimento, decide como ele deve ser representado e pode
ajudar programadores na construção do sistema.
Especialistas, também chamados de peritos ou experts, são pessoas que
possuem um alto grau de conhecimento em dado domínio e habilidade para transmitir
esse conhecimento. Em muitos casos eles são a fonte de conhecimento para a
funcionalidade de um sistema especialista.
O objetivo do processo de Engenharia do Conhecimento é capturar e
incorporar o conhecimento fundamental de um especialista do domínio, bem como seus
prognósticos e sistemas de controle. Este processo envolve reunir informação,
familiarização do domínio, análise e esforço no projeto. Além disso, o conhecimento
acumulado deve ser codificado, testado e refinado.
A área de Engenharia de Conhecimento procura investigar os sistemas
baseados em conhecimento e suas aplicações. A área engloba atividades como
investigação teórica de modelos de representação de conhecimento, estabelecimento de
métodos de comparação, tanto do ponto de vista formal como experimental entre os
diferentes modelos, desenvolvimento de sistemas baseados em conhecimento e estudo
das relações entre sistemas e o processo de ensino/aprendizagem.
Os aspectos cognitivos da EC (por exemplo: escolha da representação do
conhecimento ou construção do modelo de conhecimento) são tratados mais
especificamente pela disciplina conhecida como Aquisição de Conhecimento (AC).
Aqui iremos mostrar uma introdução a essa disciplina com o objetivo de destacar alguns
dos conceitos da AC.
2.2 Aquisição de conhecimento
A aquisição do conhecimento é uma das atividades da Engenharia do
Conhecimento e sua meta é obter conhecimento detalhado utilizado pelo especialista
9
para solucionar problemas e então transformar e transferir esta informação para um
programa de computador.
O processo de aquisição de conhecimento consiste de se obter conhecimento de
uma fonte de conhecimento e transformá-lo em uma representação explícita, formando
uma base de conhecimento. Esta fonte de conhecimento pode ser um especialista,
documentos sobre o domínio ou um banco de dados.
A tarefa de aquisição de conhecimento para Sistemas Especialistas apresenta
dificuldades que podem ser vistas de diferentes perspectivas. Deve-se entender que a
atividade de adquirir conhecimento é uma tarefa de modelagem e não uma simples
translação de conhecimentos para dentro de programas de computador. As abstrações e
distinções necessárias para construir os modelos podem não ser totalmente previstas ou
mesmo serem imprecisas. Alia-se a isso, o fato de que sempre existem dificuldades em
se implementar mecanicamente modelos, dificuldades essas que podem levar a
problemas de representação gerados pela lacuna semântica entre o mundo real e o
conhecimento em uma forma computável.
A segunda perspectiva nos mostra a dificuldade de aquisição de conhecimento
em função das diferentes formas do conhecimento humano, principalmente no que se
refere ao conhecimento tácito ou compilado que é um conhecimento baseado em
experiências e difícil de ser enunciado.
A terceira perspectiva aponta para o problema da indeterminação. A
indeterminação surge quando o especialista se expressa vagamente ou
indeterminadamente sobre a natureza das associações entre os eventos. O problema da
indeterminação reflete o fato de que normalmente os especialistas não conversam sobre
associações de eventos em um caminho que precisamente seja o adequado na resolução
de um dado problema. Embora o especialista possa ser encorajado ou guiado para ser o
mais específico possível, um sistema de aquisição de conhecimento tem que ser hábil
para tolerar ambigüidades e indeterminações.
Uma última perspectiva nos mostra o problema da incompletude, que pode ser
examinado por dois ângulos diferentes. Em um deles, o especialista esquece de
especificar alguma parte do conhecimento. Em outro ângulo, a incompletude ocorre
porque o conhecimento do especialista não cobre completamente o assunto em questão.
10
Um sistema guiado para vencer a incompletude procura identificar conhecimentos que
estão faltando e incrementalmente adicioná-los à base de conhecimento.
Em função dessas dificuldades que envolvem a tarefa de aquisição de
conhecimento, podemos afirmar que: o processo de aquisição de conhecimento é
incremental e gradual. As pessoas, e principalmente os especialistas levam anos para
formar seu conhecimento sobre o assunto. Seria por demais pretensioso desejar que em
uma única sessão de aquisição de conhecimento um sistema de computador pudesse se
tornar apto a responder satisfatoriamente sobre o domínio do problema. A fase de
refinamento se estende indefinidamente, por isso o sistema deve estar sempre pronto
para aprender mais.
O paradigma simbolista da Inteligência Artificial, devido às influências
recebidas da Psicologia Comportamentalista e da estrutura física dos computadores
digitais, assume que os processos inteligentes são sempre realizados por uma seqüência
de operações controladas por um elemento centralizador ou supervisor. Essas operações
devem ser representadas por símbolos, que seriam as raízes da inteligência. A
inteligência propriamente dita estaria armazenada em símbolos especiais de alto nível,
denominados de heurísticas [Carvalho 01].
Os métodos de aquisição de conhecimento podem ser divididos em métodos
cognitivos e métodos automatizados. Os métodos automatizados por sua vez podem ser
os baseados em entrevistas (semi-automáticos) ou os baseados em aprendizado
automático [Boose 88].
Pelo fato de que a metodologia da Inteligência Artificial se fundamenta na
escolha de uma atividade inteligente, surgem as subdivisões do paradigma em
especialidades, como, por exemplo, o Aprendizado de Máquina, ou Aprendizado
Automático (Machine Learning) que trata da criação de algoritmos que permitam ao
computador aprender com o ambiente ao qual está exposto. É a área da IA que trata das
técnicas relativas à extração de regras heurísticas que possam estar embutidas em
grandes volumes de dados. Se fornecermos a um algoritmo de aprendizado uma massa
de dados, ele será capaz de retirar algumas conclusões sobre as relações existentes
nesses dados. Os algoritmos de aprendizado automático transformam dados em regras,
na forma de árvores de decisão, que expressam o conhecimento que foi encontrado a
partir da extração de regras heurísticas que porventura existiam na massa de dados.
11
Destacaremos a seguir métodos de aprendizado automático.
2.3 Aprendizagem automática (Machine Learning)
As técnicas de aprendizado automático podem ser utilizadas para realizar
aquisição de conhecimento para Sistemas Baseados em Conhecimento. Essas técnicas
são úteis no refinamento de uma base de conhecimento utilizando os conceitos de
indução e dedução para expansão ou derivação de conhecimento. Além disso, podem-se
adquirir fatos e regras a partir de casos. Esta última funcionalidade é importante,
sobretudo em situações em que o especialista tem dificuldades de explicar o seu
raciocínio.
Uma série de taxonomias, inclusive com diferentes nomenclaturas, definem
aprendizado automático, os quais parecem obter consenso. Ele pode ser dividido em
quatro grandes paradigmas [Carbonell 89]: métodos conexionistas (modelos baseados
em redes neurais artificiais), algoritmos genéticos (sistemas classificadores),
aprendizado analítico (aprendizado baseado em explanações e certas formas de
analogias) e aprendizado indutivo (adquirir conceitos a partir de induções sobre
exemplos e contra-exemplos). Destacaremos aqui o paradigma indutivo por sua
aplicação neste trabalho.
Dos quatro paradigmas citados, o mais amplamente estudado e aplicado é o
indutivo. Nele, procura-se induzir uma descrição geral de um conceito a partir de uma
seqüência de instâncias deste conceito e (normalmente) conhecidos contra-exemplos do
conceito. A tarefa é construir uma descrição geral do conceito no qual todas as
instâncias prévias podem ser rederivadas por instanciação, mas nenhuma das instâncias
prévias negativas (os contra-exemplos) podem ser rederivados pelo mesmo processo.
Nesse nível de abstração o problema pode soar simples, mas existe uma série de
dificuldades a serem vencidas. A maior dificuldade a considerar é que o espaço de
busca de sistemas indutivos pode crescer exponencialmente, principalmente em
domínios não determinísticos, devido à existência de ruídos. Os ruídos existem em
função de exemplos que possuem desvios do padrão, seja por estarem classificados
erroneamente, ou seja, pela raridade do aparecimento.
As técnicas de aprendizado automático podem ser utilizadas para realizar
aquisição de conhecimento para SBC. Essas técnicas são úteis no refinamento de uma
12
base de conhecimento utilizando os conceitos de indução e dedução para expansão ou
derivação de conhecimento. Além disso, pode-se adquirir fatos e regras a partir de
casos. Esta última funcionalidade é importante, sobretudo em situações em que o
especialista tem dificuldades de explicitar o seu raciocínio.
Indução, em oposição à dedução, é o processo de se obter uma hipótese a partir
dos dados e fatos já existentes. Em geral, os projetos de DM, os fatos são os registros
existentes nos bancos de dados e a hipótese é uma árvore de decisão que deverá
segmentar os dados de forma significativa. A árvore de decisão pode ser usada para
criar regras com os nós servindo como pontos de decisão. Muitas ferramentas têm
parâmetros para automatizar partes do processo de indução, mas ainda é necessária
muita intervenção humana em estágios críticos desse tipo de análise.
Indução pode ainda ser explicado como sendo a conclusão de informações
provenientes de dados e aprendizagem indutiva é o processo de construção de modelo
onde o ambiente, isto é, o banco de dados é analisado com uma visão para achar
padrões. Objetos semelhantes são agrupados em classes e regras formuladas por meio
das quais é possível predizer a classe de objetos não vistos. Este processo de
classificação identifica classes tal que cada classe tem um padrão único de valores que
forma a descrição de classe. A natureza do ambiente é dinâmica e por isso o modelo
deve ser adaptável, isto é, deve ser capaz de aprender.
Indução é então a extração de padrões. A qualidade do modelo produzido por
métodos de aprendizagem indutiva é tal que o modelo poderia ser usado para predizer o
resultado de situações futuras. Em outras palavras poderia ser usado não somente para
estados encontrados, mas também para estados não vistos que pudessem acontecer. O
problema é que a maioria dos ambientes tem estados diferentes, isto é, mudanças dentro,
e nem sempre é possível verificar um modelo conferindo isto para todas as possíveis
situações. Dado um conjunto de exemplos o sistema pode construir múltiplos modelos
alguns dos quais serão mais simples que outros.
A aprendizagem indutiva, onde o sistema gera o conhecimento pela observação
do seu ambiente tem duas estratégias principais que serão descritas a seguir.
13
2.3.1 Aprendizagem supervisionada
A aprendizagem indutiva supervisionada é a aprendizagem por meio de
exemplos onde um professor ajuda o sistema a construir um modelo definindo classes e
exemplos abastecedores de cada classe [Russell 95] [Carbonell 89]. O sistema tem que
achar uma descrição de cada classe, isto é, as propriedades comuns nos exemplos. Uma
vez que foi formulada a descrição e a forma da classe, uma regra de classificação pode
ser usada para predizer a classe de objetos previamente não vistos. Exemplos de
sistemas deste tipo são os que criam árvores de decisão, tais como os algoritmos TDIDT
(Top-Down Induction Decision Tree) tipo C4.5, ID3 [Quinlan 93].
2.3.2 Aprendizagem não-supervisionada
A aprendizagem indutiva não supervisionada é a aprendizagem por meio de
observações e descobertas. O sistema de dados é provido com objetos, mas nenhuma
classe é definida. Assim tem-se que observar os exemplos e reconhecer padrões (isto é,
descrição de classe) por si só. Este sistema resulta em um conjunto de descrições de
classe, um para cada classe descoberta no ambiente [Russell 95] [Carbonell 89].
Em um ambiente de aprendizado sem supervisionamento o sistema tem que
descobrir suas próprias classes e uma maneira de se fazer isso é particionar os dados
(dividir os dados) no banco de dados.
2.4 Algoritmos de agrupamento conceitual (Clustering)
Uma outra classe dos métodos existentes de aprendizado automático relevante
para o processo de descoberta de conhecimento são os algoritmos de agrupamento
conceitual. Alguns destes algoritmos, não supervisionados, realizam um processo de
formação de categorias e conceitos através de reagrupamento conceitual (conceptual
clustering) [Michalski 83].
Agrupamento ou segmentação em banco de dados é um processo de separação
de dados em componentes que refletem um consistente padrão de comportamento. Uma
vez que os modelos (padrões) estejam determinados, eles podem ser usados para dividir
os dados em subconjuntos que possam ser compreendidos com maior facilidade. Eles
são similares aos algoritmos de agrupamento (clustering) convencionais, mas além de
14
agrupar por uma medida de similaridade, função unicamente das propriedades (valores
dos atributos) dos exemplos que estão sendo comparados, eles também consideram a
linguagem de descrição e o ambiente. Destacamos aqui o algoritmo COBWEB [Fisher
87].
Os sistemas incrementais, devido a sua abordagem cognitiva, são conhecidos
como sistemas de formação de conceitos. Estes sistemas realizam uma busca heurística,
no espaço de todas as hierarquias de conceitos possíveis, da melhor (segundo um
critério pré-estabelecido) estrutura conceitual a gerar (geralmente uma hierarquia).
Nessa busca o aspecto fundamental a ser considerado é a função que define o critério de
qualidade e que é utilizada para medir a qualidade das hierarquias geradas e assim,
escolher a melhor dentre elas.
Os algoritmos de aprendizagem partem da premissa que listas de pares
atributo/valor são disponibilizadas e que, a partir destas, pode-se construir um
reagrupamento conceitual. Alguns trabalhos abordam a questão da preparação de dados,
mas somente no que concerne à identificação e formatação de campos dos bancos de
dados [Simoudis 96] que se configura na verdade com sendo uma etapa deste processo.
Citamos, em particular, o sistema COBWEB que usa uma representação chamada
conceitos probabilísticos, definida originariamente por Smith e Medin [Smith 81] no
contexto da psicologia cognitiva. Esta representação consiste de uma lista de pares
atributo/valor onde cada par possui uma probabilidade associada. Esta probabilidade
também chamada de predictabilidade (predictability) é a probabilidade condicional de
que uma entidade possua um atributo com um determinado valor, dado que esta
entidade pertence à categoria.
A Seguir fazemos uma descrição mais detalhada o referido algoritmo de
aprendizado automático.
2.4.1 Algoritmo COBWEB
COBWEB [Fisher 87] é um algoritmo incremental de formação de conceitos
que classifica objetos em uma hierarquia de categorias visando aumentar a capacidade
de inferência sobre determinado domínio. Esta seção explicará seu funcionamento,
buscando detalhar o método incremental de categorização, mais especificamente a
15
medida heurística de avaliação das categorias, a forma de representação dos conceitos, a
estrutura e a estratégia de controle utilizados no processo de construção da hierarquia.
COBWEB utiliza uma medida heurística chamada Category Utility para
direcionar o processo de busca da melhor solução. Essa medida foi desenvolvida [Gluck
85] originalmente como uma forma de representar a forma básica de raciocínio humano
em termos de conceitos. Ou seja, no processo humano de reconhecimento de objetos,
conceitos no nível básico (ex.: pássaro) são reconhecidos mais rapidamente que outros
mais genéricos (ex.: animal) ou mais específicos (ex.: pardal). Os conceitos no nível
básico, em linhas gerais, estariam onde o homem se destaca melhor sua habilidade de
inferência [Mervis 81].
Category Utility também pode ser vista como uma função de clustering
tradicional, ou seja, objetos similares estão contidos numa mesma classe enquanto
objetos dissimilares em classes distintas. Particularmente, essa função de avaliação é
uma comparação entre a semelhança dentro de uma classe (Intra-Classe) e a diferença
entre classes (Inter-Classe), onde os objetos são descritos como um conjunto de pares de
atributo-valor.
COBWEB incrementalmente incorpora objetos na hierarquia de conceitos,
onde cada nó da árvore é um conceito probabilístico representando um conjunto de
objetos. A incorporação consiste num processo de classificação dentro da hierarquia,
atualizando as informações dos nós do caminho apropriado e executando uma das
seguintes operações a cada nível da hierarquia:
Encaixe do objeto em uma classe existente;
Criação de uma nova classe;
Junção de duas classes em uma só, e
Divisão de uma classe em várias.
Cada nó da hierarquia gerada por COBWEB representa uma categoria
(conceito). Essa categoria é reconhecida por um conceito probabilístico que totaliza a
distribuição dos pares atributo/valor dos objetos nela classificados. Os nós na parte
superior da hierarquia representam as categorias mais genéricas enquanto os da parte
inferior representam categorias mais específicas.
16
O mecanismo de classificação e busca do COBWEB é baseado no método Hill-
Climbing. Esse método consiste na escolha do melhor caminho a seguir baseado numa
medida heurística (Category Utility).
COBWEB possui algumas limitações como suporte somente a atributos
discretos. Outro problema é que cada objeto inserido na hierarquia fica armazenado em
nós terminais. Embora essa abordagem funcione bem para domínios nominais e sem
sujeira (noise), isso pode levar a uma criação excessiva de ramos (overfiting) em
ambientes com sujeira ou informações numéricas. Estudos de otimização e poda
(prunning) tem sido realizados visando amenizar esse problema [Gennari 89].
COBWEB não ataca diretamente o problema levantado, mas serve como base para
várias outras implementações.
2.5 Knowledge Discovery in Databases – KDD
KDD – Knowledge Discovery in Databases, ou descoberta de conhecimento
em bases de dados é uma área da Inteligência Artificial que analisa estatisticamente
grandes volumes de dados servindo de auxílio à tomada de decisões sobre problemas
que envolvam estes dados. É a atividade de encontrar conhecimento oculto em grandes
volumes de dados. Esta descoberta não é facilmente realizada por simples consultas a
tabelas ou o uso de sistemas operacionais corporativos informatizados e faz-se
necessário o emprego de técnicas para a estruturação da extração de novos
conhecimentos. Uma das fases deste processo é a da mineração dos dados (Data
Mining) onde se pode fazer uso de diversas técnicas disponíveis.
O KDD pode ser visto como o processo da descoberta de novas correlações,
padrões e tendências significativas por meio da análise minuciosa de grandes conjuntos
de dados estocados. Este processo se vale de tecnologias de reconhecimento utilizando
padrões e técnicas estatísticas e matemáticas.
A extração de conhecimento em bases de dados consiste na seleção e
processamento de dados com a finalidade de identificar novos padrões, dar maior
precisão em padrões conhecidos e modelar o mundo real.
17
O processo KDD é um processo não trivial de identificação de padrões válidos,
potencialmente úteis em um conjunto de dados [Fayaad 96]. Este processo envolve
diversas fases e também incorpora a tarefa de escolha da técnica de mineração de dados.
Estes conceitos podem ser melhor visualizados na figura abaixo.
Figura 2.1: O processo KDD segundo [Fayaad 96]
A grande maioria das empresas ainda realiza suas análises e previsões
manualmente, gastando tempo, esforço e recursos, podendo estar mais sujeitos a erros e
enganos. As técnicas de mineração de dados podem fornecem a estas empresas uma
maneira automática e confiável de realizar suas análises e previsões e podem ajudar às
empresas a compreenderem melhor o comportamento dos seus consumidores e clientes
e prever dados. Devido à aquisição de conhecimento, as empresas podem modificar suas
estratégias de ação para melhorar seu desempenho.
KDD é um processo interativo e muitos passos precisam ser repetidos para
serem refinados, provendo uma solução apropriada para a análise dos dados do
problema. Neste processo, a preparação de dados tem importância fundamental.
2.5.1 Preparação de dados
A Preparação dos Dados consiste basicamente em um conjunto de atividades
destinadas a obter, ou selecionar, o conjunto de dados final para a mineração a partir de
18
dados brutos. Esta etapa exige muito esforço e é crucial para a qualidade final dos
resultados, por isso a adequação dos métodos e ferramentas utilizadas são importantes.
Esta é uma fase muito importante dentro do processo KDD e ela á quase
sempre necessária devido aos problemas de qualidade dos dados originários a serem
explorados [Fayyad 96].
Portanto, preparar dados para obter-se modelos a serem submetidos à
mineração tem se mostrado um processo que consome muito tempo, é tradicionalmente
executado manualmente e muito difícil de automatizar [Pyle 99]. Além do mais há o
caráter cíclico desta etapa, que precisa às vezes ser executada várias vezes, visto que, o
modelo de dados proposto inicialmente nem sempre atende às necessidades das fases
seguintes.
Destacamos um outro aspecto muito importante aqui, que é a necessidade do
modelo utilizado para a geração dos dados estar em sintonia com o objetivo maior do
processo de descoberta de conhecimento, ou seja, estar adequado ao domínio da
aplicação.
2.6 Data Mining
Data Mining (DM), ou mineração de dados, consiste na aplicação de técnicas
de estatística e inteligência artificial em grandes bases de dados para encontrar
tendências ou padrões a fim de apoiar decisões. Todavia, a mineração de dados é apenas
uma etapa do processo KDD. Há várias técnicas para se fazer mineração de dados.
O Data Mining é uma das técnicas utilizada para a realização de KDD.
Aspectos específicos incluem investigação e criação de conhecimento, processos,
algoritmos e mecanismos de recuperação de conhecimento potencial de estoques de
dados [Norton 99].
A descoberta de conhecimento em bases de dados, KDD, é vista como uma
disciplina mais ampla, e o termo Data Mining (mineração ou garimpagem de dados)
como o componente que trata dos métodos do descobrimento do conhecimento [Fayyad
96].
Mineração de dados é uma área de pesquisa emergente, cujo objetivo principal
é extrair padrões e regras implícitos em bancos de dados. O desenvolvimento e a
19
implantação de sistemas de mineração de dados ajudam as corporações a se tornarem
mais competitivas e a se adaptarem mais rapidamente às mudanças e a tomarem
decisões de risco, com mais segurança.
A fase de mineração de dados, especificamente, começa com a escolha das
ferramentas (ou algoritmos) a serem utilizadas. Ao final dessa etapa a ferramenta de
mineração pode gerar um conjunto de descobertas, que possa então ser interpretado
pelos analistas e/ou pelos especialistas. E, após a interpretação das informações obtidas,
encontramos o conhecimento.
Há uma variedade de técnicas para promover-se data mining, classificadas em
diversos critérios, cada uma delas com características próprias o que resulta em sua
aplicabilidade. Há técnicas já bastante usadas e comprovadamente úteis e eficazes para
mineração de dados. Elas operam sobre grandes volumes de dados, extraindo
informações implícitas ou padrões de dados que não estão explícitos. Podemos destacar
as Redes Neurais, Regras de Associação, Algoritmos Genéticos, Algoritmos de
Aprendizagem Automática, Raciocínio Baseado em Casos, etc.
Evidentemente, não existe uma única técnica de data mining que resolva todos
os problemas. A familiaridade com as técnicas existentes é importante para
proporcionar a melhor abordagem para o problema apresentado e as características do
contexto de aplicação. Portanto, para cada tipo de aplicação deve-se aplicar um conjunto
de algoritmos com o objetivo de extrair padrões e relações dentro de uma base de dados
que se adeque ao caso.
Dentre as técnicas de data mining existentes destacamos o uso dos algoritmos
indutivos de aprendizagem automática não supervisionados que fazem uso de técnicas
de clustering, ou agrupamento, a fim de descobrir semelhanças e relacionamentos entre
os dados que estão em processamento, conforme descrito em 2.4. Para tanto, devem ser
analisados os atributos que caracterizam os elementos em análise.
Os algoritmos de aprendizagem citados acima partem da premissa que listas de
pares atributo/valor são disponibilizadas e que, a partir destas, pode-se construir um
reagrupamento conceitual. Alguns trabalhos abordam a questão da preparação de dados,
mas somente no que concerne à identificação e formatação de campos dos bancos de
dados [Simoudis 96] que se configura na verdade com sendo uma etapa deste processo.
Em domínios reais, esta atividade mostra-se não trivial. A representação do conjunto de
20
treinamento com atributos relevantes a uma visão de um especialista e assim relevantes
durante o processo de aprendizagem pelo algoritmo, é uma etapa de aquisição de
conhecimento. É necessário compreender a organização afim de que, após de
identificados seus objetivos estratégicos e táticos possa-se criar o conjunto de
treinamento.
Destacamos aqui o algoritmo FORMVIEW, descrito a seguir.
2.6.1 Algoritmo FORMVIEW
FORMVIEW [Vasco 97] é um algoritmo de formação incremental de
conceitos. Ele gera, a partir de observações e da pertinência das propriedades definida
em função do contexto considerado, várias hierarquias de categorias representando cada
um dos objetivos definidos. Parte-se do pressuposto que os objetivos da categorização
existem (fornecidos por um ou mais experts) antes do início do processo de formação de
conceitos. Este nos conduz a uma representação multi-perspectivas, já que os objetivos
têm influência na percepção das propriedades bem como na determinação da relevância
de características específicas do contexto. Consequentemente, esta situação favorece a
geração de diferentes organizações hierárquicas. Por exemplo, para alcançar-se o
objetivo de comprar um animal de estimação para uma criança, poderíamos considerar
beleza e preço como propriedades relevantes. Como resultado, a organização
hierárquica, que reflete esta situação em particular, provavelmente será diferente da
perspectiva de um veterinário para quem as propriedades relevantes seriam as de origem
fisiológicas.
Uma importante característica deste algoritmo é que ele fio desenvolvido em
um contexto de representação orientada a objetos e foi integrado originalmente na
linguagem baseada em frames Objlog+ [Faucher 91], permitindo a construção
automática de hierarquias de frames. Os detalhes e vantagens desta integração podem
ser obtidos em [Vasco 96a] e [Vasco 96b].
O input principal de FORMVIEW é uma ou várias observações que descrevem
uma entidade. Uma GDN (Goal Dependence Network) é usada com o objetivo de se ter,
para cada objetivo de categorização, um nível de relevância para cada propriedade que o
expert considere importante. Também, para cada objetivo, podem ser definidas
implicações entre propriedades.
21
Este algoritmo utiliza uma função para medir a qualidade das categorias
geradas que é baseada na noção de nível básico. A idéia geral utilizada nesta função
consiste em calcular a qualidade de uma categoria pelo seu poder de inferência [Corter
92]. Em linhas gerais, o poder de inferência de uma categoria é medido pela capacidade
que ela tem de permitir a realização de inferências válidas sobre propriedades de
entidades que não foram ainda observadas como fazendo parte da categoria em questão
[Vasco 96b] [Vasco 97].
Intuitivamente podemos compreender a noção de poder de inferência com o
seguinte exemplo. Suponhamos que observamos um animal e que sabemos que ele faz
parte da categoria de gatos. A partir desta informação podemos inferir propriedades para
o animal observado com o fato de gostar de beber leite e de miar. Fazemos isto porque
sabemos que a probabilidade de miar, dado que se trata de um gato, é alta (suponhamos
P(miar | gato) = 1). Sem o conhecimento da categoria, a probabilidade de que um
animal possua a propriedade de miar é menor que 1 (suponhamos 0.3). O poder de
inferência pode ser medido em se calculando o ganho que podemos ter ao fazer
inferências válidas sobre uma entidade sabendo que ela faz parte de uma categoria
menos as inferências válidas que poderiam ser feitas sem que tivéssemos tal
conhecimento. Em termos de probabilidade isto seria P (propriedade | C) –
P(propriedade). Ou seja, para este exemplo o poder de inferência E(miar) (para
propriedade miar) é P(miar | gato) - P(miar) = 1 - 0.3 = 0.7.
Nós não podemos, no entanto, calcular o poder de inferência de uma categoria
somente através destas duas probabilidades, sob pena de sempre considerar as
categorias mais específicas como as melhores. É neste momento que a noção de nível
básico é importante, pois ela nos mostra a necessidade de considerarmos uma outra
variável no cálculo do poder de inferência de uma categoria: a população que é atingida
pelas inferências realizadas. Voltando ao exemplo anterior, a inferência realizada sobre
a propriedade miar só é válida para a população dos gatos, enquanto que se
fizéssemos inferências sobre propriedades mais genéricas como respira oxigênio,
teríamos fortes probabilidades de ter sucesso, mesmo sem que soubéssemos a categoria
do animal. Assim, dizemos que o poder de inferência de uma categoria é o ganho em
nível de inferência pela quantidade de entidades que esta inferência atinge: E
(propriedade) * Quantidade de entidades da categoria.
22
A função utilizada por FORMVIEW leva igualmente em conta as categorias
geradas em outras perspectivas o que é possível pelo fato de que FORMVIEW descobre
automaticamente, durante o processo de categorização, as pontes entre categorias de
diferentes hierarquias representando diferentes perspectivas. Intuitivamente, se trata de
calcular o poder de inferência de uma categoria em uma perspectiva, mas considerando
igualmente as inferências que podem ser feitas a partir de outras categorias que estão
ligadas por meio das pontes entre hierarquias.
Os conceitos gerados pelo algoritmo FORMVIEW são conceitos
probabilísticos organizados em hierarquias. Estas hierarquias representam perspectivas
sendo que a principal característica de FORMVIEW é a possibilidade de se estabelecer
um meio de comunicação entre hierarquias representando diferentes perspectivas. Esta
comunicação se faz graças a links orientados entre hierarquias, chamados pontes. Uma
ponte pode representar a inclusão total ou parcial entre a extensão das categorias. A
possibilidade de uma inclusão parcial nos levou a definir une medida de proporção da
inclusão de um conjunto dentro de outro. Assim, as pontes são geradas com um fator de
probabilidade indicando que uma entidade que já pertence a uma categoria pertença
também a uma outra. Em outros termos, dizemos que a probabilidade que uma entidade
e coberta por uma categoria C esteja contida na categoria C´ em outra perspectiva é P( e
C | e C’).
FORMVIEW gera, a partir dos dados minerados, várias hierarquias de
categorias representando cada um dos objetivos definidos. FORMVIEW utiliza uma
função para medir a qualidade das categorias geradas que é baseada na noção de nível
básico. A idéia geral utilizada nesta função consiste em calcular a qualidade de uma
categoria pelo seu poder de inferência. Em linhas gerais, o poder de inferência de uma
categoria é medido pela capacidade que ela tem de permitir a realização de inferências
validas sobre propriedades de entidades que não foram ainda observadas como fazendo
parte da categoria em questão [Vasco 96b] [Vasco 97].
2.7 Multi-perspectivas
A noção de multi-perspectivas é há algum tempo objeto de estudo no contexto
da Inteligência Artificial onde podemos mencionar o trabalho de [Minsky 75] como
sendo um dos pioneiros. Sua idéia era de criar representações de objetos físicos em
23
diferentes perspectivas que representariam posições específicas diferentes deste objeto
em relação ao observador.
A partir de então o conceito de perspectiva tem evoluído para representar
diversas noções com o aspecto ligado a muti-expertise e o aspecto contextual. Em geral
podemos dizer que uma perspectiva é uma posição conceitual de onde um observador
olha uma entidade. Esta noção se refere assim à existência de um observador e um
mundo sobre o qual as observações são feitas. Normalmente adota-se a suposição de
que o mundo é único e que os observadores vêem este mundo de forma particular e
complementar. Uma perspectiva é assim uma representação parcial, mas concreta do
mundo, sendo que a união dessas perspectivas fornece uma representação mais
completa.
Dentro do contexto das linguagens de representação do conhecimento a
objetos, o conceito de múltiplas perspectivas é implementado de diversas formas: multi-
especificação de formas com herança múltipla de atributos [Chouraqui 88],
possibilidade de percorrer uma parte do grupo de frames segundo o interesse do
utilizador [Carré 89] e possibilidade de criar taxonomias diferentes de formas para cada
perspectiva e deslocando-as em correspondência [Mariño 93].
Neste último enfoque uma perspectiva determina não somente as propriedades
visíveis, relativas ao seu ponto de vista, mas toda a organização do conceito em uma
taxonomia de frames. Este último enfoque é utilizado por nós no contexto desta
dissertação.
2.8 Goal Dependency Networks (GDN)
A idéia das redes de objetivos dependentes (GDN) foi introduzida por Stepp &
Michalski [Michalski 83] [Michalski 86] e originalmente foi utilizada em agrupamentos
conceituais (conceptual clustering).
Em geral, um sistema inteligente tem muitos objetivos de aprendizado que
estão inter-relacionados de forma muito complexa. De forma a estruturar as interações
entre os objetivos de aprendizado, o sistema deve possuir alguma representação dos
relacionamentos entre estes objetivos, tais como suas inter-dependências e prioridades
relativas. Tal representação é chamada de Goal Dependency Network (GDN).
24
Uma GDN representa objetivos gerais e específicos e relações de subordinação
entre eles. Os objetivos são representados pelos nodos da rede e as dependências entre
eles são representadas pelos links, que podem possuir identificações que denotam o tipo
e o grau das dependências. São também representados os atributos relevantes e a
relevância da relação entre estes atributos e os objetivos correspondentes, que fazem uso
dele.
Em uma GDN, o objetivo mais geral e independente do domínio em questão é
o elemento de entrada da rede. Em seguida, objetivos mais específicos são derivados e
já com alguma dependência do domínio, depois os sub-objetivos mais específicos, com
mais dependência do domínio ainda, e assim por diante. Cada um destes objetivos é
ligado ao mais específico (sub-objetivos) seguinte (de nível menor) pelos links em uma
seqüência, até atingir-se um nível específico de conhecimento que possa ser definido na
forma de um atributo de existência real. Ilustramos estes conceitos na figura 2.2.
. . .
Objetivo n
Objetivo 1
Objetivo 2
Objetivo 3
Figura 2.2: Encadeamento de objetivos em uma GDN
Na figura 2.3 ilustramos o funcionamento de uma Goal Dependency Network.
Um objetivo geral Sobreviver foi definido como objetivo maior, independente de
qualquer domínio específico de conhecimento. Derivamos, dentre outros objetivos
subseqüentes, o objetivo Ter vida saudável, em um nível inferior e aqui já temos uma
menor independência de domínio. Para atingir-se este objetivo, devemos derivar para
outros mais específicos, em níveis inferiores, e que ficam cada vez mais inseridos, e
dependentes, em um domínio específico de conhecimento. Na figura, citamos
Alimentar-se bem, como exemplo de um dos objetivos necessários para atingir-se o
objetivo Ter vida saudável. Para efeito de exemplificação de cunho esclarecedor,
derivamos no nível seguinte já para atributos.
25
Comer frutas
Evitar comer carne
Alimentar-se bem
Sobreviver
Ter vida saudável
Não ingerir álcool
Beber bastante água
Objetivo geral Objetivo específico (nível 1) Objetivo específico (nível 2) Atributos
Figura 2.3: Exemplo de GDN
26
CAPÍTULO 3
DESCRIÇÃO DO PROBLEMA
3.1 A Secretaria da Fazenda do Estado do Ceará
A Secretaria da Fazenda do Estado do Ceará (SEFAZ-CE) constitui-se como
órgão do Poder Executivo do Governo do mesmo Estado responsável pela geração de
recursos financeiros, além de sua gestão e auditoria da sua aplicação. Dentro deste
contexto é classificada como órgão instrumental na estrutura do Governo.
Receita e despesa são os elementos básicos que compõem a atividade fim da
SEFAZ-CE, definidos claramente em sua missão de Maximizar a receita e otimizar a
despesa para o desenvolvimento do Estado do Ceará [Sefaz 97].
As atividades que promovem a maximização da receita são apoiadas
principalmente por sistemas corporativos informatizados, funcionando principalmente
de forma centralizada que manipulam grandes volumes de dados armazenados em
banco de dados centralizado na plataforma mainframe. Para o cumprimento de sua
missão, a citada Secretaria exerce algumas atividades que lhe são atribuídas pelo
Estado, tendo com foco principal o contribuinte.
3.1.1 Estrutura organizacional
Na figura 3.1 temos a visão sucinta da estrutura organizacional da SEFAZ-CE.
As suas atividades-fim são coordenadas por duas superintendências que são a
Superintendência da Administração Tributária e a Superintendência da Controladoria. A
Superintendência Administrativa tem a função de fornecer apoio administrativo às
demais. Nas hierarquias de nível mais baixo encontram-se os órgãos de atuação
regional, responsáveis pela execução das políticas e normas definidas pelos órgãos
centrais da organização.
27
Subsecretário
Superintendência
da Administração
Tributária
Superintendência
da Controladoria
Superintendência
Administrativa
Secretário
Gabinete
Assessoria de
Desenvolvimento
Institucional
Contencioso
Administrativo e Triburio
Corregedoria
Ouvidoria
Centro de Pesquisas e
Análise Fiscal
Núcleo de
Coordenação da
Região Central
Núcleo de
Coordenação da
Região Sul
Núcleo de
Coordenação da
Região Norte
cleo de
Coordenação da
Grande
Fortaleza
Figura 3.1: Organograma da SEFAZ-CE
Para efeito deste trabalho, limitamo-nos às atividades referentes ao exercício da
administração tributária.
3.1.2 Modelo de gestão
A competência tributária da SEFAZ-CE é direcionada à gestão dos impostos
estaduais, que são o Imposto Sobre Operações relativas à Circulação de Mercadorias e
sobre Prestações de Serviços de Transporte Interestadual e Intermunicipal e de
Comunicação - ICMS, Imposto Sobre a Propriedade de Veículos Automotores - IPVA e
Imposto Sobre Transferências de Bens Imóveis - ITCD. Atuamos, neste trabalho, sobre
os dados do ICMS, visto ser o principal imposto estadual, pela quantidade de recursos
gerados, e o gerador do maior volume de dados nos bancos de dados de organização.
A criação e o estabelecimento na forma da lei das normas tributárias relativas
aos impostos de competência estadual, bem como as sanções decorrentes do não
cumprimento delas é exercida pela área da administração tributária. Esta é uma
atividade básica do fisco estadual que se encontra inserido dentro do sistema tributário
nacional, estabelecendo as competências tributárias das esferas federal, estadual e
municipal.
28
A área de arrecadação de tributos é outra de competência deste Órgão sendo
conseqüência direta do estabelecimento das normas e tendo como principal objetivo
viabilizar ao contribuinte as formas e os mecanismos para o cumprimento das normas
tributárias referentes ao recolhimento de valores ao Estado. É uma atividade
basicamente de caráter operacional e exercida com a utilização de procedimentos
fortemente padronizados e informatizados, de modo a minimizar a intervenção humana.
Ressaltamos que aqui encontramos uma forte utilização da tecnologia da informação e a
geração de um grande volume de dados referentes aos recolhimentos feitos pelos
contribuintes.
A terceira área de atuação da administração tributária da SEFAZ-CE é a
fiscalização, a qual subdividi-se em fiscalização de estabelecimentos (empresas) e de
mercadorias em trânsito. Seu principal objetivo é o acompanhamento do fiel
cumprimento da norma tributária por parte dos contribuintes abrangidos, através do uso
de poder coercitivo que lhe é concedido em legislação específica. A elaboração do
planejamento da auditoria fiscal de empresas que é feito basicamente a partir dos dados
históricos dos contribuintes que se encontram armazenados no banco de dados da
SEFAZ-CE. A responsabilidade pela execução desse planejamento diz respeito aos
órgãos de atuação regional, através das equipes de Auditores Fiscais.
3.2 Problemas identificados
As macro-atividades descritas são exercidas tendo como principal elemento de
suporte às aplicações corporativas em funcionamento em um equipamento de grande
porte (mainframe) de forma centralizada. Estas processam informações armazenadas em
um gerenciador de banco de dados em funcionamento nesse equipamento. Outro fato
importante é que esta arquitetura está em funcionamento há cerca de oito anos, o que
leva à existência de um considerável quantitativo de dados históricos referentes aos
contribuintes do Estado do Ceará, como foi citado no início como um problema a ser
abordado. Os milhões de registros contendo informações operacionais acerca do
comportamento dos milhares de contribuintes do Ceará serão o alvo principal deste
trabalho.
No ambiente da Secretaria da Fazenda encontramos basicamente os seguintes
problemas:
29
i) O grande volume de informações armazenadas apresenta-se então como o
primeiro problema a ser atacado por este trabalho, em face da inexistência de
ferramentas adequadas para a exploração que leve à descoberta de conhecimento.
ii) Dentre as atividades mencionadas na seção anterior, ressaltamos que a
elaboração do planejamento da fiscalização é realizada sem a utilização de métodos
formais de análise dos dados referentes ao comportamento dos contribuintes ao longo
do tempo e sendo ausente a padronização de procedimentos. Além disso, é fortemente
apoiada no conhecimento tácito e suposições dos profissionais envolvidos, inclusive de
outras áreas, notadamente dos envolvidos com a execução da atividade de auditoria
fiscal de empresas, haja vista o seu conhecimento da realidade das diversas atividades
econômicas e dos contribuintes envolvidos nelas.
3.3 A Proposta
Este trabalho se insere no contexto da descoberta de conceitos e categorias a
partir de bases de dados e visa utilizar métodos de aprendizagem automática indutiva
para automatizar este processo. A premissa básica deste trabalho é de que o processo de
formação de conceitos é contextual e dependente dos objetivos de utilização. Essa
premissa nos levou a definir a noção de conceitos em perspectivas múltiplas e a utilizar
o algoritmo FORMVIEW, o qual gera hierarquias de conceitos representando estas
perspectivas.
Propomos uma metodologia para exploração de dados corporativos na área da
Administração Tributária da Secretaria da Fazenda do Estado do Ceará. Em particular,
descrevemos como, no contexto organizacional, a noção de perspectiva é identificada a
partir da identificação das diferentes áreas de negócios da organização e de seus
objetivos executivos e táticos. Para este fim, a metodologia descrita faz uso de técnicas
de modelagem de conhecimento em organizações para auxiliar a preparação dos dados a
serem utilizados pelo algoritmo de formação de conceitos.
No caso da SEFAZ-CE, a entidade selecionada como foco foi o contribuinte do
ICMS e de como ele é visto diferentemente em perspectivas particulares aos
especialistas de diferentes áreas de negócio. Duas perspectivas foram escolhidas: a
perspectiva da área de arrecadação e a perspectiva da área de tributação. Os objetivos
principais dessas áreas de negócios são identificados e permitem a definição dos
30
arquivos alimentantes ao processo de mineração de dados. Preparados os dados, o
algoritmo de formação de conceitos FORMVIEW pode ser executado construindo
hierarquias de conceitos em diferentes perspectivas, além de relacionamentos entre si.
31
CAPÍTULO 4
DESCRIÇÃO DA PROPOSTA
4.1 Introdução
O ambiente organizacional da SEFAZ-CE, conforme apresentado no Capítulo
3, com um crescente volume de dados armazenados, cada vez mais necessita de técnicas
e ferramentas para a extração de informações úteis a partir de seus bancos de dados para
os seus processos de tomada de decisão, seja no nível estratégico, tático ou até mesmo
operacional.
Um aspecto muito importante a destacar aqui é quanto ao fato da existência de
perspectivas no ambiente organizacional da SEFAZ-CE e da importância deste aspecto
para a proposta em questão. Isto porque, esta característica direcionou fortemente a
escolha da ferramenta (algoritmo de aprendizado automático) para a mineração dos
dados e da estruturação do método através do qual chegaremos até eles.
As diversas áreas que compõem essa organização fazem uso de um conjunto de
informações acerca das entidades existentes. Entenda-se por entidade como sendo a
representação real ou abstrata de coisas que são reconhecidas por uma ou mais áreas da
organização e que tem relação direta com o negócio da mesma. Elas podem ser entes
físicos, abstratos ou jurídicos, como, por exemplo, um documento, um material,
clientes, outras organizações, etc. As entidades possuem características peculiares que
as qualificam e quantificam, e que denominamos de atributos da entidade [Furlan 97].
Esta peculiaridade característica das organizações justifica o uso do algoritmo
FORMVIEW [Vasco 97]. À informação constituída de um atributo, referente a uma
entidade, e um valor denominamos propriedade.
Queremos destacar aqui a melhor adequação destes algoritmos ao ambiente da
SEFAZ-CE. Nos concentraremos em mineração de dados para categorização
(agrupamento ou clustering) e que para isto faremos uso do algoritmo FORMVIEW por
suas características peculiares, notadamente a da abordagem por perspectivas.
Ao buscarmos explorar os bancos de dados da Secretaria da Fazenda, com o
objetivo de descoberta de conhecimento, através da utilização de algoritmos de
32
aprendizagem automática, deparamo-nos com o problema de preparação dos dados.
Faz-se necessário processá-los de forma estruturada para que possam ser usados como
input do algoritmo. Esta fase de pré-processamento tem importância no processo, pois
os resultados obtidos pelo processamento a partir de um conjunto de dados mal
preparados pode levar a resultados frustrantes para o processo de descoberta de
conhecimento a partir de bancos de dados (KDD), daí a sua importância para a
implementação da solução proposta, pois ela estando bem estruturada podemos
aumentar a qualidade dos resultados finais, no sentido de resultados mais claros e
obtidos de forma mais rápida [Pyle 99].
Outro aspecto importante a destacar é quanto ao problema da escolha dos
dados. No modelo que propomos consideramos a existência de limites de capacidade de
processamento e armazenamento de dados, a otimização do modelo e o nível de
complexidade da estrutura de dados criada para se trabalhar. A princípio, todos os dados
que a organização faz uso no exercício de sua missão são importantes e devem ser
considerados o que pode levar a quantitativos muito grandes, dificultando o processo de
descoberta de conhecimento. Isto faz com que tenhamos que dar prioridade e relevância
aos dados que dizem respeito mais diretamente ao negócio exercido. Este problema é
atenuado pelo fato de que o processo de descoberta de conhecimento em bancos de
dados dentro de um ambiente organizacional é executado como um processo cíclico, ou
seja, após a avaliação dos resultados obtidos, pode-se voltar às etapas iniciais
(redefinição dos dados relevantes, por exemplo) e reiniciar-se o processo até que se
obtenha uma abordagem mais adequada às necessidades da organização ou mesmo
obtenha-se conhecimento novos. A participação dos especialistas (experts) é uma forma
de direcionar a seleção de dados, atenuando esse problema.
Queremos enfatizar aqui a natureza, às vezes, empírica deste processo cíclico.
Isto vem justificar que o processo de descoberta de conhecimento deve ser contínuo e
cumulativo e que um modelo que se apresenta adequado em determinada situação ou
pode ser melhorado ou mesmo mudado para modelos melhores em outro momento. O
conhecimento tácitos dos experts envolvido em algumas etapas do processo pode trazer
uma forte carga de subjetividade às definições de relevâncias dos dados, o que reforça a
tese da necessidade da natureza cíclica do processo.
Na figura 4.1 mostramos de forma gráfica a importante característica cíclica do
processo. Após a avaliação dos resultados pode-se voltar às fases iniciais para uma
33
redefinição dos dados que alimentarão o algoritmo como forma de aprimoramento dos
resultados obtidos até que eles possam se tornar possíveis de utilização. Aqui devemos
destacar o papel dos especialistas na mensuração da qualidade dos resultados obtidos.
Entendimento
dos dados
Entendimento
do negócio
Preparação
dos dados
Utilização do
conhecimento
Dados
Mineração
dos dados
Avaliação dos
resultados
Figura 4.1: O aspecto cíclico do processo de descoberta de conhecimento
4.2 Preparação dos dados
Encontramos aqui, então, basicamente um problema de preparação de dados
para a fase de mineração dentro do processo KDD e para resolvê-lo propomos uma
metodologia que se destina a identificar que dados são relevantes para a organização e
disponibilizá-los para processamento por um algoritmo de descoberta de conhecimento
em particular.
Esta metodologia leva-nos à preparação dos dados, até o nível de arquivos
fisicamente estruturados. É necessário primeiro chegar-se até a identificação dos
34
atributos que são relevantes para cada uma das diferentes perspectivas que possam
existir nas diversas áreas de atuação da organização.
Basicamente, trataremos aqui da estruturação das seguintes etapas:
1. Entendimento da organização e do seu negócio;
2. Identificação de entidades e as diferentes perspectivas delas;
3. Preparação e processamento dos dados.
4.3 Metodologia básica de preparação dos dados
Um processo de preparação de dados não é um processo trivial, no sentido de
não ser um acúmulo de registros a partir de arquivos com dados corporativos de uma
organização. Para que ele possa contribuir para a descoberta de conhecimento dentro de
um contexto organizacional nós consideramos que ele deve ser conseqüência de um
processo de modelagem organizacional e deve estar sendo direcionado pelos objetivos
estratégicos da organização, normalmente enumerados e descritos pela alta
administração de forma abrangente e até com forte carga de subjetividade.
Encontramos aqui a necessidade de propor algo estruturado que possa, partindo
de definições às vezes até meio subjetivas acerca de objetivos estratégicos da
instituição, se possa chegar a arquivos e registros que possam ser processados e que os
campos que compõem os registros sejam dados relevantes para o negócio da instituição,
obtidos a partir da identificação de suas áreas de atuação, entidades comuns e
perspectivas dessas entidades.
Precisamos de dados estruturados fisicamente, na forma de arquivos, para
aplicação do FORMVIEW. Antes de tudo, necessita-se identificar quais dados deverão
estar armazenados nestes arquivos para serem processados. Considerando a
complexidade dos modelos de dados usados pelas organizações, a sua forma de
armazenamento (muitas vezes desestruturadas) e as quantidades armazenadas em seus
bancos de dados, é necessária a criação de critérios para a escolha deles, até por
limitação da capacidade de processamento disponível. Além dos mais, esta proposta tem
caráter prático e de fornecer resultados em curto espaço de tempo, o que faz com que o
modelo proposto tenha um nível de eficiência e eficácia razoável.
35
Para resolver os problemas levantados, definimos uma metodologia de
preparação de dados que parte da análise organizacional. A metodologia, de forma
resumida, pode ser vista na figura 4.2. Cada etapa utiliza técnicas de modelagem
específicas e gera produtos que são resultantes da aplicação dessa(s) técnica(s). As
principais técnicas e resultados associados também podem resumidamente ser visto
nesta figura. Esta metodologia parte de uma análise top-down a partir da missão da
organização e de seus objetivos estratégicos até a identificação de objetivos próprios
inerentes às suas áreas de atuação permitindo, com isto, a identificação dos atributos
que descreverão o objeto em estudo, dentro do contexto da perspectiva de cada área.
Vale ressaltar que a participação dos especialistas é de fundamental importância em
todo o processo, notadamente na parte referente à descrição de entidades identificadas,
em cada perspectiva.
Na figura 4.2 mostramos resumidamente como partimos de uma visão geral da
organização e chegamos até à construção de um banco de dados que será submetido ao
processamento do algoritmo FORMVIEW. Temos à esquerda as fases da metodologia
com a identificação do que basicamente é efetuado em cada fase. À direita mostramos
os produtos resultantes da execução das fases. Nas ligações entre as duas colunas,
descrevemos os recursos utilizados para a obtenção dos referidos produtos.
36
Visão geral da
organização
Análise da organização
- Missão
- Objetivos do nível
estratégico
Análise da organização
Identificação
das áreas de
negócio
GDN
Objetivos executivos
Análise da organização
Identificação
das áreas de
atuação
GDN
Objetivos táticos
Correlação
Identificação
de entidades
Função x Recurso
Entidades focais
Identificação de
perspectivas das
entidades
GDN
Perspectivas
Identificação
de atributos
relevantes
GDN
Atributos relevantes
Modelo E-R
Processamento de dados
Geração de
arquivos
Banco de Dados
Figura 4.2: Resumo da metodologia de preparação dos dados
Ao final da aplicação da metodologia teremos como produto os arquivos
preparados para processamento por um algoritmo de descoberta de conhecimento. Eles
são compostos por m registros com n campos que correspondem aos atributos relevantes
de uma entidade identificada dentro de uma determinada perspectiva de uma área de
atuação da organização. Ou seja, as áreas de atuação de uma organização têm
perspectivas diferentes de uma mesma entidade comum. Para cada perspectiva existe
um conjunto de atributos que são relevantes para ela e que caracterizam a entidade. A
partir destes atributos identificados chegamos aos registros que compõem os arquivos
através da exploração dos bancos de dados.
37
A definição das áreas de atuação, ou objetivos táticos, é a fase imediatamente
anterior e é realizada por métodos de decomposição funcional. Elas são reflexo de uma
área de negócio em que a organização atua, ou um objetivo executivo, que por sua vez
são conseqüência dos objetivos estratégicos definidos pela missão da organização.
A técnica apresentada neste trabalho propõe-se, em síntese, partindo do
entendimento da razão de ser da organização, irmos até a identificação dos dados
relevantes referentes a cada entidade que seja visualizada por mais de uma perspectiva.
A figura 4.3 ilustra como se chega à identificação de uma entidade e seus
atributos relevantes (A1, A2, ... An), para cada perspectiva encontrada dentro de uma
área de atuação, a partir da identificação de uma área de negócio. a partir de uma
entidade identificada, as camadas que viabilizam a consecução de um objetivo
executivo.
Área de
negócio
Área de
atuação
1
Perspectiva
1
A1
A2
An
A1
ENTIDADE
A2
Perspectiva
2
An
Área de
atuação
A1
2
A2
An
Perspectiva
n
Área de
atuação
n
Figura 4.3: Contextualização de uma entidade
A seguir descrevemos detalhadamente as etapas que compõem a metodologia.
38
4.3.1 Análise geral da organização
O ponto de partida para a aplicação desta metodologia é a análise geral da
organização. É a forma de entendimento de sua missão e de seus objetivos do nível
estratégico da mesma. É necessário compreender o contexto organizacional e o contexto
sócio-econômico onde está localizada a organização para a consecução desta fase.
Os objetivos do nível estratégico são os chamados objetivos organizacionais,
ou seja, objetivos amplos e que abrangem a organização em sua totalidade. Suas
características básicas são a globalidade e o longo prazo.
A missão de uma organização é uma declaração única que representa sua
identidade, estabelecendo seu propósito mais amplo. É a razão de ser da organização e
procura determinar o seu negócio, por que ela existe, ou ainda em que tipo de atividade
deverá concentrar-se [Furlan 97].
A missão funciona como o propósito orientador para as atividades da
organização e para aglutinar os esforços de seus membros. Ela serve para clarificar e
comunicar os objetivos, os valores básicos e a estratégia organizacional. Cada
organização tem a sua missão própria e específica que corresponde aos seus propósitos
ou até às áreas de negócio. Os objetivos do nível estratégico devem buscam dar
sustentação à missão.
A importância da análise da missão deve-se ao fato de que em muitos casos ele
traz na sua descrição as áreas de negócio principais claramente definidas, o que torna
esta identificação mais direta. Em outros casos ela é apenas uma definição conceitual,
que dá um direcionamento para o futuro ou apresenta o propósito maior da organização.
Em síntese, esta fase tem como finalidade o entendimento da organização em
questão do ponto de vista macro, conforme quadro-resumo da figura 4.4.
FASE 1: Análise geral da organização
OBJETIVOS
Ter uma visão geral da organização
REQUISITOS
Modelo de gestão, documentos, informações de dirigentes e
funcionários, normas internas, legislação.
MÉTODOS
Entrevistas e análise de documentos
PRODUTOS
Objetivo maior da organização
Figura 4.4: Quadro-resumo da Fase 1 da metodologia
39
4.3.2 Identificação das áreas de negócio
Após identificar-se com clareza quais os propósitos maiores da organização,
passamos à segunda fase da metodologia com a finalidade de alcançarmos agora quais
as áreas de negócio nas quais a organização deverá estar posicionada para que possa
atingir a sua missão entendida na fase anterior. Podemos dizer que neste momento trata-
se de determinar dentro da organização quais os objetivos executivos. Estes devem ser
basicamente a situação a atingir pela organização com um todo. Há casos em que eles
vêm explicitamente definidos da missão, como já foi citado.
Os objetivos executivos são o sustentáculo necessário para a consecução da
missão, devendo possuir total compatibilidade com ela. Uma organização possui
normalmente três a sete objetivos executivos [Furlan 97]. Eles são a situação a atingir
pela organização com um todo, sustentam a missão e são as bases para que os objetivos
estratégicos.
A identificação destes objetivos leva à definição da(s) área(s) de negócio a
serem exploradas pela organização em questão para atingir-se a missão.
Neste momento, iniciamos o uso de um modelo que irá formando-se à medida
que nos aprofundamos no entendimento da organização. Trata-se de uma rede de
dependência por objetivos - GDN (Goal Dependency Network) [Michalski 86] aplicada
a este processo de preparação de dados, conforme ilustramos abaixo na figura 4.5. Nesta
figura, o objetivo organizacional maior, ou a missão, é decomposto em objetivos mais
específicos, aqui denominados de objetivos executivos, que correspondem às áreas de
negócio. Estes objetivos de segundo nível deverão ser atingidos para a consecução do
objetivo maior (nível anterior).
40
Objetivo
executivo 1
Objetivo
Objetivo
organizacional
executivo 2
Objetivo
executivo n
Missão Áreas de
negócio da organização
Figura 4.5: GDN correspondente à fase 1
Abaixo, o quadro-resumo desta fase da metodologia:
FASE 2: Identificação das áreas de negócio
OBJETIVOS
Identificar as áreas de negócio da organização
REQUISITOS
Missão e objetivos do nível estratégico
MÉTODOS
Decomposição dos objetivos organizacionais por GDN
PRODUTOS
Objetivos executivos
Figura 4.6: Quadro-resumo da Fase 2 da metodologia
41
4.3.3 Identificação das áreas de atuação
Nesta fase fazemos a identificação e caracterização das áreas de atuação
referentes a cada área de negócio, ou objetivo executivo, identificadas no passo anterior.
Aqui se aprofunda na caracterização das áreas de negócios, decompondo-as em
áreas de atuação, para definir-se os objetivos táticos destas áreas. Estes podem se
confundir com a estrutura organizacional na forma de caixas de um organograma,
descrevendo áreas de gerência em um nível alto da estrutura de poder da organização.
Para a organização atuar em cada área de negócio identificada, atividades
deverão ser desenvolvidas de forma estruturada. Aqui estamos no nível já de estrutura
organizacional que pode ser representada por um organograma, onde fica evidenciado
quais os departamentos, na forma de caixas, existirão para atender-se aos objetivos
executivos.
A expressão departamento é aqui usada no sentido de uma estrutura
administrativa formalmente estabelecida dentro de uma corporação e estruturada, com
grupos de trabalho alocados que atuarão em atividades específicas e com objetivos bem
determinados. Esta expressão, dependendo da filosofia usada para criar o modelo
organizacional em questão, poderia também ser uma superintendência, uma
coordenação, uma diretoria, uma gerência, etc. Também pressupõe-se que, do ponto de
vista hierárquico, possam existir outras estruturas administrativas abaixo desta
executando funções mais específicas e que mais abaixo ainda, outras estruturas
administrativas com funções mais específicas ainda ou até pontuais.
Nas organizações, estas estruturas citadas normalmente encontram-se definidas
em seus estatutos, atas de assembléias realizadas, leis publicadas que estabelecem a
estrutura organizacional (no caso de entidades públicas), etc.
Estas áreas identificadas, no exercício de suas atividades, trabalharão com
entidades, ou objetos. Aqui nos referenciamos unicamente às entidades ligadas à missão
da organização e que sejam relacionadas a mais de uma área de atuação. Denominamos
estas entidades de entidades essenciais. Ou seja, os alvos principais da organização.
Continuando a construção da GDN, temos nesta etapa, a seguinte situação
(figura 4.7). Aqui criamos um novo nível dentro da rede. Este corresponderá ao
desmembramento de cada objetivo executivo em objetivos táticos que corresponderão
42
às áreas de atuação necessárias que a organização atue para alcançar o objetivo
executivo desmembrado.
Objetivo
executivo 1
Objetivo
tático 1
Objetivo
Objetivo
Objetivo
organizacional
executivo 2
tático 2
Objetivo
tático n
Objetivo
executivo n
Missão Áreas de
negócio
Áreas de
da organização atuação
Figura 4.7: GDN correspondente à fase 3
Abaixo, o quadro-resumo desta fase da metodologia:
FASE 3: Identificação das áreas de atuação
OBJETIVOS
Identificar as áreas em que a organização precisa atuar para
alcançar os objetivos executivos
REQUISITOS
Áreas de negócio
MÉTODOS
Decomposição de objetivos executivos por GDN
PRODUTOS
Objetivos táticos
Figura 4.8: Quadro-resumo da Fase 3 da metodologia
43
4.3.4 Identificação das entidades
Na fase anterior identificaram-se os objetivos táticos referentes a cada objetivo
executivo da organização, que correspondem às áreas de atuação.
Nesta fase faremos uso da correlação entre os objetivos táticos e recursos para
se atingir estes objetivos, de forma a encontrar as entidades comuns a mais de um
objetivo tático. Na figura 4.9, temos um exemplo da aplicação do método para
identificarem-se os recursos para a execução de uma função [Furlan 97].
FUNÇÃO RECURSO
Planejamento Estratégia
Marketing Mercado (consumidores, concorrentes).
Pesquisa & Desenvolvimento Protótipos (projetos)
Suprimentos Materiais e insumos
Produção Processo produtivo
Qualidade Qualidade
Vendas Clientes
Distribuição Logística
Finanças Dinheiro
Recursos humanos Pessoas
Patrimônio Bens
Jurídico Leis e direitos
Figura 4.9: Exemplo de correlação função x recurso para a identificação das entidades
Neste quadro, os recursos corresponderão às entidades. Precisamos aqui
também saber quais entidades são necessárias para mais de uma função, para que
possamos aplicar o conceito de perspectiva para uma determinada entidade, em áreas
diferentes.
44
A seguir, o quadro-resumo desta fase da metodologia:
FASE 4: Identificação das entidades
OBJETIVOS
Identificar as entidades relevantes para a organização
REQUISITOS
Áreas de atuação
MÉTODOS
Correlação função x recurso
PRODUTOS
Entidades focais
Figura 4.10: Quadro-resumo da Fase 4 da metodologia
4.3.5 Identificação de perspectivas
Para a identificação das perspectivas continuamos fazendo uso da GDN. Isto
será feito pela decomposição, em mais um nível abaixo, dos objetivos táticos, em
objetivos mais específicos. Teremos, então, as perspectivas correspondendo a estes
objetivos, conforme a figura 4.11. Uma área de atuação identificada (objetivo tático),
dependendo da sua abrangência, já pode fornecer uma perspectiva de uma entidade. Em
alguns casos, há a necessidade de se ir a mais um nível abaixo para que se possa fazer a
identificação da mesma.
. . .
. . .
. . .
Objetivo
Objetivo
Objetivo
executivo
Objetivo
organizacional
específico
.
tático
. .
.
. .
.. .
Missão Área de
negócio
Área de
atuação
Perspectiva
organizacional
Figura 4.11: GDN corresponde à identificação das perspectivas
45
Abaixo, o quadro-resumo desta fase da metodologia:
FASE 5: Identificação de perspectivas
OBJETIVOS
Identificar perspectivas diferentes para cada entidade focal
REQUISITOS
Áreas de atuação, objetivos de cada área, entidades focais
MÉTODOS
Decomposição de objetivos táticos por GDN
PRODUTOS
Perspectivas
Figura 4.12: Quadro-resumo da Fase 5 da metodologia
4.3.6 Identificação dos atributos relevantes às perspectivas
O objetivo aqui é definir que atributos das entidades focais são relevantes a
cada perspectiva que foi identificada na fase anterior.
Podemos definir atributo como sendo um dado de significância pontual
(atômica) a uma entidade [Furlan 97].
Para identificá-los continuamos a composição a GDN - Goal Dependency
Network conforme a figura 4.13. Os objetivos táticos serão modelados para chegar-se
aos atributos de cada perspectiva, conforme figura abaixo.
Atributo 1
. . .
R1
. . .
. .
Figura 4.13: GDN correspondente à identificação dos atributos relevantes
Objetivo
organizacional
.
.
.
Missão
organizacional
Área de
negócio
Área de
atuação
Perspectiva
Objetivo
executivo
Objetivo
tático
Objetivo
.
R2
Atributo 2
específico
. .
Rn
. .
. .
Atributo n
Níveis de
relevância
46
Como foi citado na fase anterior, caso a área de atuação já indique um objetivo
com alto nível de especificidade, já pode-se, a partir destes, relacionarmos os atributos
relevantes para a perspectiva.
A seguir, o quadro-resumo da fase 6:
FASE 6: Identificação de atributos relevantes
OBJETIVOS
Identificar os atributos relevantes a cada perspectiva
identificada
REQUISITOS
Perspectivas e entidades focais
MÉTODOS
Decomposição de objetivos específicos por GDN
PRODUTOS
Atributos relevantes para cada perspectiva
Figura 4.14: Quadro-resumo da Fase 6 da metodologia
4.3.7 Extração de campos do banco de dados
Identificados os atributos relevantes para cada perspectiva, parte-se para a
geração dos arquivos de dados para processamento. As informações relevantes
identificadas precisam, neste momento, serem associadas aos atributos do banco de
dados corporativo da entidade em questão de forma a poderem ser usadas como entrada
para o algoritmo que vai minerar os dados. É construir, então, um banco de dados
composto de uma coleção de pares atributo/valor para cada uma das perspectivas. A
partir destes bancos de dados estruturados o algoritmo de aprendizado gera uma
hierarquia de conceitos de cada perspectiva e os links (pontes) entre elas.
Queremos destacar aqui duas dificuldades desta fase para o estabelecimento de
uma forma de se executá-la de forma estruturada ou, até mesmo, automatizada.
A primeira é quanto à especificidade das organizações quanto ao
armazenamento de seus dados corporativos, da execução das aplicações e da arquitetura
dos sistemas de computação utilizados. Apesar da crescente interoperabilidade dos
ambientes de processamento de dados, as soluções corporativas adotadas, notadamente
as mais antigas, possuem peculiaridades como conseqüência da gestão da tecnologia da
informação para prover a organização com as melhores soluções, considerando,
principalmente, a relação custo/benefício. Estes são alguns dos fatores, dependendo de
47
sua complexidade, que podem ter impacto na recuperação dos dados para a construção
dos arquivos físicos. Nas organizações que fazem uso de sistemas gerenciadores de
bancos de dados este trabalho é facilitado bem como a existência de documentação
detalhada do modelo de dados utilizado.
A segunda dificuldade inerente a esta fase é do próprio processo de
composição, filtragem e identificação dos campos dos arquivos, onde muitas vezes
encontramos a necessidade de processamento de grandes volumes de dados para a
geração e recuperação dos dados necessários. A existência de ferramentas que fazem
uso de linguagens estruturadas de consultas (SQL) podem facilitar a identificação dos
dados e até a sua recuperação. Sistemas legados apresentam-se na maioria das vezes
como elementos dificultadores, normalmente por problemas de documentação.
Abaixo, o quadro-resumo desta fase:
FASE 7: Extração dos campos dos bancos de dados
OBJETIVOS
Formar arquivos para processamento
REQUISITOS
Definição de atributos relevantes
MÉTODOS
Modelo Entidade-relacionamento e processamento de dados
PRODUTOS
Arquivos fisicamente estruturados
Figura 4.15: Quadro-resumo da Fase 7 da metodologia
4.4 Processamento dos dados
Para realizarmos a fase de processamento de dados, com vistas à descoberta de
conhecimento, faremos uso do algoritmo FORMVIEW [Vasco 96] pelo uso do software
SmartBase. Ele é um software de auxilio à mineração de dados em bancos de dados que
implementa algoritmos aprendizado automático.
4.4.1 O Software SmartBase
O SmartBase [Rebouças 00] conta com 3 métodos de extração de
conhecimento em bases de dados, através da utilização dos algoritmos abaixo, que ele
implementa.
48
C4.5 [Quinlan 93]: algoritmo de classificação para extração de regras de
negócios;
COBWEB [Fisher 87]: um algoritmo de categorização para a extração de
conceitos dos dados a partir da correlação entre as características das
observações;
FORMVIEW [Vasco 97]: um algoritmo de categorização utilizando
múltiplas perspectivas, ou seja, extrai hierarquias de conceitos a partir de
visões diferentes de uma mesma entidade como também a relação entre
elas.
Com um mesmo arquivo é possível fazer sua análise de três formas distintas.
Todos os resultados das análises também são armazenados de modo a permitir análises
futuras, como também a aquisição continuada e incremental de conhecimento.
Cada algoritmo tem sua forma particular de armazenamento dos resultados. No
caso do C4.5 são armazenadas as regras de negócios, facilitando sua reutilização. Já o
COBWEB tem seu conhecimento representado em forma de uma hierarquia de
conceitos. A cada conceito extraído também fica armazenada sua representação em
termos de conceitos probabilísticos, podendo ainda ser dada uma descrição textual da
categoria encontrada. FORMVIEW além armazenar as mesmas informações do
COBWEB sobre as hierarquias extraídas, ainda armazena as informações a respeito das
ligações entre diferentes perspectivas (pontes).
O funcionamento do SmartBase em linhas gerais inicia-se com a definição da
estrutura de banco de dados onde estão localizadas as informações a serem analisadas e
com conhecimento implícito em potencial. SmartBase foi testado e liberado para
utilização nos sistemas gerenciadores de bancos de dados Oracle, Microsoft SQL
Server, Microsoft Access, Inprise Interbase e Paradox. Abaixo temos a tela para o
fornecimento dessas informações. A figura 4.16 mostra a tela inicial do software onde
se informam estes dados para processamento.
49
Figura 4.16: Definição dos arquivos de entrada do SmartBase
Depois de escolhida o sistema gerenciador de banco de dados a ser utilizado, o
SmartBase permite a configuração dos arquivos a serem analisados. Essa configuração
consiste na determinação de características do arquivo em si, como sua descrição lógica
e física. Em seguida são configuradas as informações dos atributos ou campos do
arquivo. Para os atributos são armazenadas características como o tipo de dado do
atributo, a função do atributo (identificador de classe, identificador de observação, etc.),
uma cor de identificação para análise gráfica, uma descrição detalhada do atributo, entre
outros. É possível ainda informar uma descrição mais significativa para os valores dos
atributos discretos, permitindo que se trabalhe com os códigos dos atributos, o que é
bem comum em bases de dados relacionais. Todas essas informações sobre o arquivo
são armazenadas para a reutilização em análises futuras. Na figura 4.17 mostramos um
exemplo da tela onde se definem as características dos atributos de cada perspectiva.
50
Figura 4.17: Configuração de atributos no SmartBase
Na figura 4.18 temos um exemplo de configuração de uma perspectiva onde
encontramos a definição dos campos referentes aos atributos da entidade em questão.
Figura 4.18: Definição de perspectivas no SmartBase
51
Definidos os arquivo de entrada contendo propriedades (pares atributo/valor), é
possível escolher o método de análise a ser utilizado, ou seja, o algoritmo, que para este
trabalho será unicamente o FORMVIEW.
A seguir fazemos o processamento dos dados informados e, ao final, podemos
visualizar e analisar os resultados. O software disponibiliza de forma gráfica, para o
caso do algoritmo FORMVIEW, as duas hierarquias de classes geradas bem como as
pontes entre elas com os valores das probabilidades de inclusão de uma classe em
outras, entre as duas árvores (figura 4.19).
Por exemplo, ver na figura 4.19 que a ponte que liga a categoria C_2, da
perspectiva Animal, à categoria C_5, da perspectiva Animal ID 2, indica que 50% dos
elementos que estão em C_2 também estão em C_5. Do mesmo modo, no sentido
contrário, a ponte indica que 100% dos elementos C_5 estão em C_2.
Figura 4.19: Resultado gerado pelo FORMVIEW (hierarquias de conceitos e pontes)
Também é possível ver, na forma de gráfico de barras (figura 4.20) qual o
conceito probabilístico que determinada classe representa (representatividade da classe).
52
Figura 4.20: Tela do SmartBase onde visualizamos os detalhes de uma classe
A representatividade de uma classe dentro do universo das observações pode
também ser visualizada na figura 4.21. Além disso, há um recurso que permite se fazer
anotações nos resultados gerados, atribuir um rótulo para determinada classe, para que
se possa dar um caráter mais didático na análise dos resultados por pessoas que não
sejam familiarizadas com o software. É também possível a aplicação de filtros para a
diminuição do universo de classes apresentadas na tela, da quantidade de pontes
visualizadas e das probabilidades, quando for o caso de árvores com grande quantidade
de nós e pontes interligando-as.
53
Figura 4.21: Tela do SmartBase onde visualizamos a representatividade de uma classe
Propomos aqui uma metodologia básica para chegar-se à identificação e
preparação dos dados relevantes para a organização para alimentar um algoritmo de
aprendizagem automática, implementado pelo software SmartBase. Após este processo,
passa-se para a etapa de análise, validação e utilização do conhecimento descoberto.
Esta fase é executada pelos especialistas da organização e é um processo cíclico de
interação deles com o software, que pode gerar a necessidade de voltar-se a fases
anteriores do método para redefinição de perspectivas e/ou dados.
No capítulo seguinte, descrevemos a aplicação desta metodologia em um
domínio real, mostrando a execução de cada fase, como forma de torná-la mais clara e
mostrarmos como é feito o processo de utilização do conhecimento gerado.
54
CAPÍTULO 5
APLICAÇÃO DA PROPOSTA E ANÁLISE DOS
RESULTADOS
5.1 Aplicação da metodologia na SEFAZ
Neste capítulo demonstramos a aplicação da metodologia, proposta e descrita
nos capítulos anteriores, no ambiente organizacional da Secretaria da Fazenda do Estado
do Ceará (SEFAZ-CE). Em seguida faremos a análise dos resultados obtidos após a
consecução de todas as etapas da metodologia. Finalmente fazemos a validação dos
resultados com o auxílio dos especialistas da corporação.
5.1.1 Fase 1: Análise geral da organização
Partimos da contextualização da Secretaria da Fazenda dentro de um universo
maior que é o Governo do Estado do Ceará para o entendimento da mesma. Trata-se de
um órgão da administração direta, que tem um papel programático dentro da estrutura
do Governo estadual. Tem como principal função a geração e a gestão de recursos
públicos para a viabilização do papel do Estado.
Passando para o universo da própria Secretaria, a SEFAZ-CE tem como missão
Maximizar receitar e otimizar a despesa para o desenvolvimento do Estado do Ceará.
Isto é uma definição já contida nos documentos que define o seu modelo de gestão
[Sefaz 97], que já se encontra em avançado estágio de disseminação e entendimento por
toda a organização. O Modelo de Gestão foi o documento básico para a consecução
desta fase.
5.1.2 Fase 2: Identificação das áreas de negócio
A partir da identificação da função dentro do Governo e da missão, passamos
para o nível de áreas de negócio. Na SEFAZ-CE, isto foi conseguido basicamente pela
55
interpretação da declaração da missão, de onde identificamos duas grandes áreas de
negócio:
1. Maximizar a receita…: Esta declaração diz respeito ao papel da instituição
como geradora de recursos para o Governo, basicamente através do poder que lhe é
concedido pelo Estado de tributar determinadas atividades econômicas. Aqui
identificamos a área de atuação geradora da receita, ou Administração Tributária;
2. …otimizar a despesa…: Aqui se refere à função que a organização
também tem de ser gestora das despesas do governo. Isto, em nível de Governo, refere-
se às áreas de negócio das finanças públicas, contabilidade, orçamento e auditoria dos
gastos públicos;
Temos então, a identificação de duas grandes áreas de negócio que são receita
e despesa e que nos permite iniciar a construção da GDN pela composição dos objetivos
executivos, conforme a figura 5.1.
Gerar
receita
Objetivo
Organizacional
maior
Administrar
despesa
Missão da SEFAZ-CE Áreas de negócio
Figura 5.1: GDN correspondente à aplicação da fase 2
5.1.3 Fase 3: Identificação das áreas de atuação
Temos duas grandes áreas de negócio identificadas na SEFAZ-CE, conforme
passo anterior. Precisamos agora identificar, no nível de estrutura organizacional, em
que áreas a instituição deverá atuar para atingir os objetivos de cada área de negócio.
Para efeito de aplicação e demonstração da metodologia, seguiremos o
processo apenas para a área de negócio correspondente à geração de receita.
56
Nesta fase fizemos uso de documentação já existente sobre a instituição: o
organograma. Nele, a grande área que tem como objetivo a geração de receita
apresenta-se como usa estrutura organizacional, na forma de uma Superintendência,
denominada Superintendência da Administração Tributária, que por sua vez subdivide-
se em três sub-áreas que são:
1. Sub-área de tributação;
2. Sub-área da arrecadação;
2. Sub-área da fiscalização;
Podemos representar este estágio da compreensão detalhada do negócio da
organização da forma da figura 5.2, a partir do objetivo de gerar receita (área de negócio
da administração tributária). Desta forma, identificamos as áreas de atuação para a
realização do objetivo Gerar receita ou os objetivos táticos.
Figura 5.2: GDN correspondente à fase 3
Gerar receita
Tributar
Arrecadar
tributos
Fiscalizar
Administrar
tributos
despesa
Área de negócio Área de atuação
57
5.1.4 Fase 4: Identificação das entidades
Esta fase foi realizada através da busca da correlação dos objetivos táticos com
os recursos necessários para a consecução de cada um deles. Isto permitiu a
identificação de uma série de recursos que são comuns aos processos da Secretaria.
Citamos como exemplo, a norma tributária, o Contribuinte, o Auditor Fiscal, etc.
Na SEFAZ-CE, a entidade selecionada como foco para este trabalho foi o
contribuinte do ICMS. Ele é visto diferentemente em perspectivas particulares aos
especialistas de diferentes áreas da organização.
5.1.5 Fase 5: Identificação das perspectivas
Nesta etapa da construção da GDN já fica caracterizadas as diferentes e
específicas áreas de atuação, que já podem corresponder a objetivos bem específicos,
possibilitando a identificação de perspectivas a partir daqui, conforme a figura 5.2.
No caso da SEFAZ-CE, duas perspectivas foram escolhidas: a perspectiva da
área de arrecadação (objetivo arrecadar tributos) e a perspectiva da área de tributação
(objetivo tributar). Basicamente, a primeira diz respeito a informações referentes a
recolhimento de impostos pelos contribuintes e a segunda a informações referentes a
produtos e sua forma de tributação.
Identificados os objetivos principais dessas áreas de atuação, podemos fazer a
definição dos atributos que irão compor os arquivos, na forma de campos dos seus
registros, que alimentarão o processo de mineração de dados.
5.1.6 Fase 6: Identificação dos atributos relevantes às perspectivas
Esta fase foi realizada através da utilização do recurso de GDN, como
ilustramos nas figuras 5.3 e 5.4. Aqui tivemos a forte participação dos especialistas
fazendárias para a definição de quais atributos são relevantes para cada área de atuação,
constituindo, assim, cada perspectiva da entidade contribuinte.
58
Município
Categoria
Regime
recolhimento
Arrecadar
tributos
Natureza
jurídica
Segmento
econômico
Valor
arrecadado
Área de atuação/perspectiva Atributos relevantes
Figura 5.3: GDN para identificação de atributos relevantes (perspectiva arrecadação)
Município
Produto
Regime
pagamento
Natureza
Tributar
jurídica
Segmento
econômico
Valor pago
Valor
agregado
Área de atuação/perspectiva Atributos relevantes
Figura 5.4: GDN para identificação de atributos relevantes (perspectiva tributação)
59
5.1.7 Fase 7: Extração dos campos do banco de dados
Para a extração dos campos do banco de dados da SEFAZ-CE, recorremos à
elaboração de programas de computador para extrair da complexa estrutura de dados e
do grande volume armazenado no banco de dados desta organização.
Documentação do modelo de dados adotado e dos sistemas corporativos, além
do trabalho de Analistas de Sistemas e programadores da instituição, foram os recursos
utilizados para a obtenção dos arquivos para processamento pelo SmartBase.
A base de dados resultante desta etapa da aplicação da metodologia gerou
arquivos correspondentes às duas perspectivas com um quantitativo de 7.177
contribuintes do Estado do Ceará. Para a perspectiva da área de arrecadação, os
registros referem-se a dados de recolhimentos de ICMS destes contribuintes, referentes
ao período de julho de 2001. Na perspectiva da área de tributação os registros referem-
se às entradas interestaduais de mercadorias adquiridas pelos mesmos contribuintes, no
mesmo período.
5.2 Processamento dos dados
Ao longo desta fase, alguns ajustes foram feitos no modelo de dados
inicialmente gerado. Foi escolhido pelos especialistas o atributo Situação do
contribuinte como sendo relevante. Após o processamento, notou-se que quase a
totalidade dos registros processados possuía este atributo com o mesmo valor
(situação=ativo), de forma que este foi retirado do modelo de dados final. Outro fato a
ser destacado é quanto ao atributo Atividade econômica, inicialmente também
identificado como relevante e que, após o processamento e uma análise inicial,
verificamos que a diversidade de valores para este era demasiadamente alta (mais de
1000 valores possíveis) e pela amostra de contribuintes também ser muito diversificada
para este atributo. Este foi substituído pelo atributo Segmento econômico, que
também expressa a área de atuação do contribuinte no contexto econômico do Estado do
Ceará. Estas mudanças reforçam a necessidade do caráter cíclico e interativo da
metodologia.
As informações geradas pelo SmartBase foram armazenadas em um sistema
gerenciador de banco de dados relacional, permitindo assim que se trate grande volume
60
de informações, bem como o armazenamento dos resultados. Esta estratégia na
implementação do software trouxe um aumento de produtividade nas tarefas de
avaliação e interpretação do domínio pelos usuários (especialistas), uma vez que não foi
necessário gerar as hierarquias nem as pontes a cada sessão de análise. Maiores detalhes
sobre a implementação do SmartBase podem ser encontrados em [Rebouças 00].
5.3 Resultados obtidos
No caso SEFAZ-CE, partimos da missão de Maximizar receitar e otimizar as
despesas para o desenvolvimento do Estado do Ceará para compreender a organização.
As áreas de negócios foram identificadas e contextualizadas quanto a esta missão sendo
a área de Administração Tributária escolhida como foco para nosso trabalho. Dentro
desta área, continuando o processo de decomposição funcional da organização,
identificamos as sub-áreas de arrecadação e tributação e as definimos em função de que
objetivos elas trabalhavam. As duas visam atender o objetivo máximo da organização
de maximizar a receita e nestas áreas o contribuinte é visto de forma particular a cada
uma delas caracterizando uma perspectiva própria. A partir disto, buscamos definir que
informações relativas ao contribuinte são relevantes do ponto de vista de cada uma das
perspectivas. Todo este processo foi realizado interativamente com auxílio de
especialistas fazendários.
Cada objetivo modelado pode influenciar o processo de categorização e a
organização hierárquica das categorias geradas. No caso da Secretaria da Fazenda, a
organização hierárquica de categorias cujas entidades são contribuintes do ICMS varia
em função do contexto em que esta categorização é realizada e isto ocorre
principalmente pelo fato das propriedades relevantes neste contexto serem diferentes de
um outro qualquer. O especialista fazendário (Auditor Fiscal) da área de arrecadação, ao
analisar um contribuinte considera como propriedades pertinentes àquelas ligadas a
valores de arrecadação do contribuinte, seu segmento econômico de atuação, quanto é
seu faturamento, histórico de recolhimentos de impostos, etc. Por outro lado, o
especialista da área tributária dá mais importância às propriedades ligadas às alíquotas e
bases de cálculo usadas para calcular o imposto do contribuinte, a região geográfica
onde ele está situado, a sua atividade econômica, o faturamento do setor onde ele está
inserido, as entradas e saídas de mercadorias em sua empresa, etc.
61
Na figura 5.5 temos um resumo gráfico geral, de forma simplificada, da
aplicação da metodologia ao ambiente da Secretaria da Fazenda do Estado do Ceará, de
onde partimos do objetivo maior desta instituição até alcançarmos as hierarquias de
classes de duas perspectivas encontradas e os relacionamentos existentes entre elas.
Figura 5.5: Visão geral da aplicação da metodologia de preparação de dados na SEFAZ
62
5.4 Análise dos resultados
O resultado gerado, após uma iteração de mineração dos dados, referentes a
informações dos contribuintes obtidas dos bancos de dados da SEFAZ-CE pela
metodologia descrita, pode ser visualizado na figura 5.6.
Figura 5.6: Hierarquias de conceitos geradas após mineração dos dados
Aqui visualizamos as duas hierarquias de categorias, na forma de árvores, que
foram geradas por FORMVIEW. À esquerda, a hierarquia correspondente à perspectiva
de arrecadação e à direita, a correspondente à perspectiva da tributação. A primeira,
correspondente ao resultado da mineração de informações que dizem respeito a valores
arrecadados por um grupo de contribuintes em determinado período e a segunda diz
respeito a informações referentes a produtos adquiridos fora do Estado do Ceará
(operações interestaduais), pelos mesmos contribuintes, no mesmo período.
Ajustamos SmartBase para a visualização de até 3 níveis das hierarquias para a
figura 5.6. e a partir deste ponto iniciamos o processo de análise dos resultados
utilizando os recursos do SmartBase.
63
Ajustando o parâmetro que permite visualizar probabilidades de propriedades
dentro das classes para o valor de 50%, para efeito de simplificação da explanação e
também para considerar informações mais relevantes, e tomando como exemplo, na
perspectiva da arrecadação, a categoria (classe) C_20 para uma análise mais detalhada,
encontramos as suas características na figura 5.7.
Figura 5.7: Propriedades da classe C_20
Na figura 5.7. encontramos informações relevantes, do ponto de vista
probabilístico, que caracterizam a classe. Conforme a legenda (leitura de cima para
baixo, correspondendo às colunas do gráfico da esquerda para a direita), a primeira
coluna do gráfico mostra uma propriedade cuja probabilidade é cerca de 90%, que
corresponde a contribuintes do segmento de comércio varejista. Na segunda coluna,
uma outra característica mais marcante ainda, é a de contribuintes com natureza jurídica
do tipo firma individual terem esse valor em 100% . Na terceira coluna encontramos
uma probabilidade de cerca de 95% de contribuintes com regime normal de
64
recolhimento do ICMS dentro da classe. Uma outra informação importante para efeito
de análise dos agrupamentos realizados aqui, principalmente por tratar-se da perspectiva
da área de arrecadação, é o valor médio arrecadado de R$ 500,877, o que revela um
porte pequeno para os contribuintes aqui agrupados. Esta conclusão é reforçada pelo
fato da todos serem firmas individuais.
Uma outra forma de examinar esta classe é através do gráfico da figura 5.8,
onde temos informações acerca do quantitativo de exemplos que foram agrupados, no
caso este quantitativo é de 309, e da quantidade de ramos filhos que é 2.
Figura 5.8: Propriedades da classe C_20 (representatividade)
Após esta análise, os especialistas puderam identificar que tipo de contribuintes
foram agrupados nesta classe, no caso, com fortes indicações para o comércio varejista
de pequeno porte.
Passando para a análise de uma categoria da hierarquia de conceitos da
perspectiva da área de tributação (à direita da figura 5.6), tomando a categoria C_4,
65
encontramos as informações da figura 5.9. Na primeira barra do gráfico da figura, temos
uma informação que 50% dos contribuintes deste grupo pertencem ao município de
Fortaleza e cerca de 75% adquiriram mercadorias sujeitas a pagamento antecipado do
ICMS.
Figura 5.9: Propriedades da classe C_4
Neste caso, se pode aprofundar-se mais ainda a análise desta categoria em
busca de agrupamentos mais específicos, através da exploração de níveis mais abaixo
desta categoria para, por exemplo, identificar que produtos estão sendo adquiridos por
estes contribuintes agrupados, já que o atributo produto foi considerado como
relevante na construção desta perspectiva. Se descermos dois níveis abaixo de C_4,
encontraremos a sub-categoria C_13 com informações acerca de produtos adquiridos,
conforme figura 5.10. Neste caso, constatamos que nesta sub-categoria 100% dos
contribuintes fazem pagamento do ICMS de forma antecipada (pagamento quando da
66
entrada da mercadoria no Estado) e cerca de 55% adquiriram, em média, R$ 3.480,26
do produto Aparelho de barbear, com média de valor agregado de 14,964%.
Figura 5.10: Propriedades da classe C_13
Uma outra informação de C_4 que consta é o volume médio de compras, no
caso de R$ 48.900,191, o que representa um valor elevado, e que leva à conclusão de
que este grupo de contribuintes devem ter um volume médio de recolhimento de ICMS
alto. Também temos indicado a média de valor agregado para este grupo, no caso,
10,0137%.
Na figura 5.11 visualizamos informações acerca do quantitativo de exemplos
deste agrupamento de contribuintes.
67
Figura 5.11: Propriedades da classe C_4 (representatividade)
Esta fase do processo de análise dos resultados gerados pelo software
SmartBase possibilita ao especialista, através dos recursos da ferramenta, a identificação
dos grupos de contribuintes gerados e a sua qualificação.
Após outras análises realizadas pelas categorias, chegamos à identificação de
outros conjuntos de contribuintes, tais como grupos de contribuintes varejistas de
recolhimento normal, contribuintes varejistas do tipo firma individual, varejistas de
pequeno porte, para a perspectiva da arrecadação. Na outra perspectiva citamos a
identificação de grupos de contribuintes que adquiriram bebidas do Estado da Paraíba,
com valor médio de compras alto e baixo. Isto pode ser visualizado na figura 5.12.
Para chegarmos a estas conclusões, usamos os mesmos recursos mostrados
para a categoria C_4.
68
Figura 5.12: Categorias identificadas pelos especialistas
Uma segunda fase do processo de análise é a identificação e exame dos
relacionamentos (pontes) existentes entre as categorias das duas perspectivas. Isto
permite o exame das relações entre as classes, na forma de valores probabilísticos,
possibilitando a descoberta de conhecimento, ou constatação de conhecimento já
existente, por parte dos experts.
Figura 5.13: Pontes referentes à categoria VAREJO PEQUENO PORTE
69
Tomando como exemplo a categoria VAREJO PEQUENO PORTE da
perspectiva da área da arrecadação, conforme a figura 5.13, encontramos uma relação
entre esta e a categoria FORTALEZA/ANTECIPADO (grupo de contribuintes da
cidade de Fortaleza que fizeram compras com pagamento de ICMS antecipado) com
valor de 85,1%. Os exemplos que fazem parte de FORTALEZA/ANTECIPADO estão
incluídos neste valor percentual no universo de exemplos que compõem o grupo
VAREJO PEQUENO PORTE. Considerando que a classe VAREJO PEQUENO
PORTE tem média de arrecadação de R$ 500,877 em um período, e que a categoria
FORTALEZA/ANTECIPADO refere-se aos contribuintes que fizeram aquisições com
pagamento de ICMS em regime antecipado com valor médio de R$ 48.900,191, no
mesmo período considerado, constata-se uma discrepância entre um volume médio de
compras alto e um valor de recolhimento de ICMS baixo, pelo valor percentual alto de
inclusão. Isto pode caracterizar algum indício de sonegação fiscal, reforçado pelo fato
de que na atividade de comércio varejista de pequeno porte há índices consideráveis de
não emissão de notas fiscais, o que pode provocar baixos recolhimentos do imposto. Em
outras palavras, aqui encontramos basicamente, pela relação entre duas categorias,
mostrada por uma ponte, uma relação causa-efeito contrária ao que normalmente
acontece, ou seja, uma média alta de aquisição de produtos deveria corresponder a uma
média também alta de recolhimento de ICMS.
Para o aprofundamento do fato descrito no parágrafo anterior, podemos descer
para níveis mais abaixo, a partir de cada categoria, e também diminuir o valor
percentual mínimo para a visualização mais detalhada das informações. No caso da
continuação da investigação da discrepância encontrada, poderíamos ir a níveis mais
baixos da categoria FORTALEZA/ANTECIPADO, encontrando mais informações que
possam levar a alguma ação do Fisco Estadual. Na figura 5.14 podemos visualizar as
hierarquias com os níveis mais baixos exibidos, com a parametrização das
probabilidades dos atributos das classes diminuído para 20%.
70
Figura 5.14: Expansão dos níveis das categorias no SmartBase
Como podemos ver, nesta explanação da tarefa de análise dos resultados
gerados por FORMVIEW, através do software SmartBase, trata-se de um processo
investigativo e interativo para o especialista. Isto fica bastante facilitado pela interface
de apresentação dos resultados da mineração dos dados e pelos recursos da versão do
software utilizada. É bem verdade que se pode não chegar a conclusões concretas, que
possam ser importantes para a organização, mas o método pelo qual chegamos até os
resultados permite a revisão do modelo de dados, gerado a partir das fases de
entendimento da organização em questão, de forma a se chegar a novos resultados para
nova investigação na busca de conhecimento útil para a gestão dos negócios da
organização.
Neste capítulo descrevemos a aplicação da metodologia proposta no domínio
Secretaria da Fazenda do Estado do Ceará para duas áreas de atuação da instituição,
realizando data mining para visões diferentes de especialistas da SEFAZ-CE, da
71
entidade Contribuinte do ICMS Mostramos como os passos foram executados e
ressaltamos os aspectos relevantes. Alguns problemas foram encontrados e alguns
foram resolvidos fazendo uso da característica cíclica do método, ou seja, as definições
feitas que provocaram resultados irrelevantes ou sem propósito, puderam ser refeitas.
A fase de análise de resultados, como vimos, mostrou-se com forte
característica de interatividade entre os especialistas e os resultados apresentados pela
interface do SmartBase, possibilitando-os de fazerem tentativas e mais tentativas de
exploração das hierarquias de classes e dos relacionamentos entre elas.
72
CONCLUSÃO
6.1 Conclusão e trabalhos futuros
O Objetivo principal deste trabalho foi de atacar a questão da mineração de
dados pela abordagem de multi-perspectivas, usando um algoritmo de aprendizado
automático indutivo, não supervisionado, dentro de um ambiente organizacional. Neste
contexto, atacamos o problema de preparação de dados, em sintonia com os objetivos
organizacionais, para a descoberta de conhecimentos úteis à organização.
Nós descrevemos as linhas gerais de uma metodologia para alcançar-se
exploração de dados. Sua principal originalidade é a geração e uso de uma
representação em multi-perspectivas com um método híbrido de aquisição de
conhecimento. Uma fase inicial de modelagem permite compreender, a partir da missão
da organização, os objetivos secundários que movem as diversas áreas de negócios da
organização o que permite a preparação de dados que alimentam o algoritmo de
categorização FORMVIEW que pode construir diferentes hierarquias representando
diferentes perspectivas e as ligações entre elas (pontes).
Aplicamos a metodologia proposta no ambiente da Secretaria da Fazenda do
Estado do Ceará usando dados oriundos do banco de dados corporativo desta instituição
com o acompanhamento de especialistas na área fazendária. Esta aplicação ficou restrita
à análise dos dados da entidade contribuinte, referentes somente a duas perspectivas, no
caso, as das áreas de arrecadação e tributação.
Durante a fase de processamento dos dados, tivemos algumas dificuldades
quanto à redução do tempo necessário para a geração dos resultados para análise.
Apesar das tentativas de otimização do código do software SmartBase e da estrutura de
armazenamento dos dados a serem processados, ficou evidenciada a necessidade de
capacidade de processamento para aplicação do modelo em volumes de dados maiores.
Isto, de certa forma, é atenuado porque o software armazena todos resultados para a
realização da análise. Apesar deste aspecto estar fora do escopo deste trabalho, trata-se
de um problema que pode comprometer a aplicabilidade da metodologia, quando esta
for levada a domínios mais complexos e com volumes de dados maiores que os aqui
experimentados.
73
Durante a fase de análise dos resultados realizada pelos especialistas da
SEFAZ-CE, ficou fortemente comprovada a necessidade do caráter cíclico da
metodologia. Ao longo desta fase, foram necessários alguns reajustes no modelo de
dados final, provocados pela avaliação dos resultados obtidos, o que fez com que
tivéssemos que voltar a fases anteriores da metodologia para redefinições, geração de
novos arquivos e realização de novo processamento.
Outra conclusão que ficou clara foi que a interface de apresentação dos
resultados tem que fornecer bons mecanismos de interação com o usuário para que ele
possa visualizar os resultados e realizar as análises. Para os casos de hierarquias de
conceitos geradas com um nível alto de complexidade e com grande quantidade de
pontes, essa exigência torna-se de fundamental importância paro o processo. No nosso
caso, a versão do SmartBase utilizada para a aplicação da metodologia implementa uma
série de facilidades que atenderam a esta necessidade.
Os trabalhos futuros dentro deste projeto consistem, primeiramente, em aplicar
FORMVIEW com volumes maiores de dados aperfeiçoando os mecanismos de
tratamento das saídas geradas pelo algoritmo. Nossa experiência no domínio da SEFAZ-
CE tem deixado claro que a análise dos resultados obtidos pelo algoritmo também não
se mostra como uma atividade trivial. Apesar do bom nível da interface do SmartBase,
maiores investigações sobre como esses resultados devem ser fornecidos a fim de
facilitar a identificação por especialistas das categorias e hierarquias geradas serão fruto
de nossas futuras pesquisas. Além disso, devemos investigar como FORMVIEW se
comporta com mais de duas perspectivas. A complexidade de tal tarefa será maior,
embora o algoritmo seja quadrático [Vasco 98], mas a tarefa de interpretação dos dados
certamente será mais complexa e talvez exija uma nova versão de apresentação dos
resultados do SmartBase. De uma forma geral, a questão do tratamento das categorias
geradas pelos algoritmos de formação de conceitos e a visualização destas merece
análise especial.
Como extensão deste trabalho, também sugerimos trabalhos para a estruturação
de modelos para a validação dos resultados obtidos, que no nosso caso, foi feito
basicamente pelo conhecimento dos experts. Esta abordagem, no nosso entendimento e
vivência durante a realização deste trabalho, fica por demais dependente do
conhecimento tácito do profissional envolvido com esta tarefa, o que pode comprometer
74
o resultado final de descoberta de conhecimentos úteis para a organização onde está
sendo aplicada metodologia aqui proposta.
75
REFERÊNCIAS
7.1 Bibliografia
[Boose 88] Boose, J., Schema, D., Bradshaw, J.: Recent Progress in
AQUINAS: A Knowledge Acquisition Workbench. EKAW, 1988.
[Carbonell 89] Carbonell, J. G.: Introduction: Paradigms for Machine Learning.
Artificial Intelligence, Vol. 40, Págs. 1-9, 1989.
[Carré 89] Carré, B. : Méthodologie orientée objet pour la représentation dês
connaissances: concepts de point de vue, représentation multiple et
évolutive. Thèse de doctorat de l’Université de Lille. 1989.
[Carvalho 01] Carvalho, L. A. V. de: Datamining: A Mineração de Dados no
Marketing, Medicina, Economia, Engenharia e Administração.
Editora Érica, São Paulo, 2001.
[Chouraqui 88] Chouraqui, E., Dugerdil, P.: Conflicts Solving in a Frame-Like
Multiple Inheritance System. ECAI-88, Munchen, RFA, Págs. 226-
231. 1988.
[Corter 92] Corter, J., Gluck, M.: Explaining Basic Concepts: Feature
Predictability and Information. Psychological Bulletin, Vol. 111,
No. 2, 1992.
[Davenport 98] Davenport, T., Prusak, L. Conhecimento Empresarial: Como as
Organizações Gerenciam o Seu Capital Intelectual. Editora
Campus, Rio de Janeiro, 1998.
[Davenport 98] Davenport, T., Prusak, L.: Working Knowledge. Harvard Business
School Press, Boston, Massachusetts, 1998.
[Faucher 91] Faucher, C. Elaboration d´um Lenaguage Extensible Fondé sur les
Schemas le Language Objlog+. Tese de Doutorado, Université de
Droit d´Economie et des Sciences d´Aix-Marseille, 1991.
76
[Fayyad 96] Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uthurusamy, R.:
Advances in Knowledge Discovery and Data Mining. AAAI/The
MIT Press, Cambridge, Massachusetts, 1996.
[Fisher 87] Fisher, D.: Knowledge Acquisition Via Incremental Conceptual
Clustering. Machine Learning 2: Págs. 139-172, 1987.
[Freitas 95] Freitas, H. R. de, Kladis, C. M.: Da Informação à Política
Informacional das Organizações: Um Quadro Conceitual. RAP,
São Paulo, 1995.
[Furlan 97] Furlan, J. D.: Modelagem de Negócio. Makron Books, São Paulo,
1997.
[Gennari 89] Gennari, J. H, Langley, P., Fisher, D.: Models of Incremental
Concept Formation. Artificial Intelligence, Vol.. 40, 1989.
[Gluck 85] Gluck, M. A., Corter, J. E.: Information, Uncertainty, and the Utility
of Categories. Proceedings of the Seventh Annual Conference of
the Cognitive Science Society. Irvine, CA, Lawrence Erlbaum
Associates, 1985.
[Jonyer 01] Jonyer, I., Cook, D. J., Holder, L. B.: Graph-Based Hierarchical
Conceptual Clustering. Journal of Machine Learning Research 2:
Págs. 19-43, 2001.
[Mariño 93] Mariño, O.: Classification Dans un Modèle à Objets Avec
Multiples Perspectives. Tese de Doutorado, Université Joseph
Fourier, Grenoble, 1993.
[Mervis 81] Mervis, C. B., Rosch, E.: Categorization of Natural Objects.
Annual Review of Psychology, Vol. 32, 1981.
[Michalski 83] Michalski, R., Carbonnel, J., Mitchell, T.: Machine Learning, An
Intelligence Approach - Vol. I, Tioga Publishing, California, 1983.
[Michalski 86] Michalski, R., Carbonnel, J., Mitchell, T.: Machine Learning, An
Intelligence Approach - Vol. II, Tioga Publishing, California, 1986.
77
[Minsky 75] Minsky, M. A Framework for Representing Knowledge. In P. H.
Winston, The Psychology of Computational Vision, McGraw Hill,
Págs. 156-189, 1975.
[Norton 99] Norton, M. J.: Knowledge Discovery in Databases. Library Trends,
Vol. 48, No. 1, Págs. 9-21, 1999.
[Pyle 99] Pyle, D.: Data Preparation for Data Mining. Morgan Kaufmann
Publishers, San Francisco, California, 1999.
[Quilan 93] Quinlan, J.R.: Programs for Machine Learning. Morgan Kaufmann
Publishers, San Francisco, California, 1993.
[Rebouças 00] Rebouças, R. B., Vasco, J. J. F.: SmartBase: Uma Ferramenta de
Data Mining. I Encontro de Pós-Graduação e Pesquisa, da
Universidade de Fortaleza - UNIFOR, Fortaleza, 2000.
[Russell 95] Russell, S., Norvig, P.: Artificial Intelligence: A Modern Approach.
Prentice Hall, Upper Saddle River, New Jersey, 1995.
[Schreiber 00] Schreiber, G., et al: Knowledge Engineering and Management –
The CommonKADS Methodology. The MIT Press, Cambridge,
Massachusetts, 2000.
[Sefaz 97] Secretaria da Fazenda do Estado do Ceará: Modelo de Gestão da
Secretaria da Fazenda do Estado do Ceará. SEFAZ-CE, Fortaleza,
1997.
[Simoudis 96] Simoudis, E., Livezey, B., Kerber, R.: Integrating Inductive and
Deductive Reasoning for Data Mining. In [Fayyad 96].
[Smith 81] Smith, E. E, Medin, D. L.: Categories and Concepts. Library of
Congress Cataloging in Publication Data. Cognitive Science
Series 4, 1981.
[Vasco 93] Vasco, J. J. F.: Uma Taxonomia Para Aquisição de Conhecimento.
Tese de Mestrado, Universidade Federal da Paraíba, Campina
Grande, 1993.
[Vasco 96a] Vasco, J. J. F., Faucher, C., Chouraqui, E.: A Knowledge
Acquisition Tool for Multi-perspective Concept Formation. In N.
78
Shadboldt, K. O’Hara, G. Schreiber (Eds), Advances in Knowledge
Acquisition, 9th European Knowledge Acquisition Workshop,
EKAW’96. Springer Verlag, LNAI 1076, 1996.
[Vasco 96b] Vasco, J. J. F, Faucher, C., Chouraqui, E.: Knowledge Acquisition
via Multi-perspective Concept Formation. Journal of Brazilian
Computer Society, Vol. 3, 1996.
[Vasco 97] Vasco, J. J. F.: Formation de Concepts Dans lê Contexte des
Langages de Schémas. Tese de Doutorado, Université d’Aix-
Marseille III, França, 1997.
[Vasco 98] Vasco, J. J. F.: Determining Property Relevance in Concept
Formation by Computing Correlation Between Properties.
European Conference on Machine Learning ECML0-98, Págs. 310-
315, Springer Verlag, Berlin, 1998.
79
7.2 Artigos Aceitos
[Vasco 00] Vasco, J. J. F., Gomes Júnior., J. A. S.: Auxiliando a Análise do
Perfil do Contribuinte do ICMS do Estado do Ceará Através do
Uso de Algoritmos Indutivos de Aprendizagem. I Encontro de Pós-
Graduação e Pesquisa da Universidade de Fortaleza - UNIFOR,
Pág. 124, Fortaleza, 2000.
[Vasco 01] Vasco, J. J. F., Gomes Júnior., J. A. S., Rebouças, R. B.:
Descoberta de Conhecimento em Múltiplas Perspectivas em Base
de Dados do ICMS. III Encontro Nacional de Inteligência Artificial
(III ENIA), Anais do XXI Congresso da Sociedade Brasileira de
Computação – SBC2001 Pág. 209, Fortaleza, 2001.
[Vasco 02] Vasco, J. J. F., Gomes Júnior., J. A. S., Rebouças, R. B.: Multiple
Perspective Knowledge Discovery from Tax Data. 20th IASTED –
International Multi-Conference on Applied Informatics (AI 2002),
Innsbruck, Austria, 2002.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo